智算中心集群组网架构专家(偏硬)(J10702)
  • 招聘类别:
  • 社会招聘
  • 工作性质:
  • 全职
  • 薪资范围:
  • 面议
  • 招聘人数:
  • 若干
  • 发布时间:
  • 2025-04-22
  • 截止时间:
  •  

  • 工作地点:

    广东省-深圳市,江苏省-南京市


    工作职责:

    岗位职责
    1. 负责基于自研AI算力加速卡与互连交换芯片,设计大规模AI训练/推理集群网络拓扑(如Clos、Fat-Tree、Dragonfly等)​
    2. 评估并选型InfiniBand、RoCE v2交换机、SmartNIC、PCIe/NVLink/CXL物理层组件,兼顾高带宽、低时延和成本效益​
    3. 与硬件团队协同,定义自研AI算力芯片上链路接口规范及PCB互联布局,确保高速信号完整性与时序要求​
    4. 负责大模型推理集群部署中网络性能分析与调优,提升集群通信效率与稳定性
    5. 基于自研AI算力加速卡特点设计大模型集群部署容灾方案


    任职资格:

    任职要求
    1. 硕士及以上学历,电子工程、通信工程、计算机网络或相关专业,8年以上大型数据中心或超算/智算中心网络架构经验​
    2. 精通InfiniBand、RoCE v2及RDMA原理,熟悉ECMP多路径路由、ECN拥塞通知、PFC优先流控等网络流控策略​
    3. 深入理解PCIe、NVLink、CXL协议栈与高速信号完整性分析,具备PCB布局及SI/PI仿真经验​
    4. 熟悉OSPF、BGP‑DCI等多域路由协议及数据中心网络方案设计​
    5. 具备Python、Shell等脚本语言能力,能够自动化网络测试与运维​
    6. 优秀的跨团队沟通与项目管理能力,能推动方案在硬件、运维及研发团队间高效落地​

    优先条件
    1. 有SmartNIC/DPU(如Mellanox BlueField、Xilinx Alveo)开发或应用经验​
    2. 参与过自研交换芯片或网络ASIC设计,了解硬件级转发与负载均衡实现原理​
    3. 参与行业标准组织(如Open Compute Project、MLPerf)或开源社区贡献者优先​