工作地点:
广东省-深圳市,江苏省-南京市
工作职责:
岗位职责
1. 负责基于自研AI算力加速卡与互连交换芯片,设计大规模AI训练/推理集群网络拓扑(如Clos、Fat-Tree、Dragonfly等)
2. 评估并选型InfiniBand、RoCE v2交换机、SmartNIC、PCIe/NVLink/CXL物理层组件,兼顾高带宽、低时延和成本效益
3. 与硬件团队协同,定义自研AI算力芯片上链路接口规范及PCB互联布局,确保高速信号完整性与时序要求
4. 负责大模型推理集群部署中网络性能分析与调优,提升集群通信效率与稳定性
5. 基于自研AI算力加速卡特点设计大模型集群部署容灾方案
任职资格:
任职要求
1. 硕士及以上学历,电子工程、通信工程、计算机网络或相关专业,8年以上大型数据中心或超算/智算中心网络架构经验
2. 精通InfiniBand、RoCE v2及RDMA原理,熟悉ECMP多路径路由、ECN拥塞通知、PFC优先流控等网络流控策略
3. 深入理解PCIe、NVLink、CXL协议栈与高速信号完整性分析,具备PCB布局及SI/PI仿真经验
4. 熟悉OSPF、BGP‑DCI等多域路由协议及数据中心网络方案设计
5. 具备Python、Shell等脚本语言能力,能够自动化网络测试与运维
6. 优秀的跨团队沟通与项目管理能力,能推动方案在硬件、运维及研发团队间高效落地
优先条件
1. 有SmartNIC/DPU(如Mellanox BlueField、Xilinx Alveo)开发或应用经验
2. 参与过自研交换芯片或网络ASIC设计,了解硬件级转发与负载均衡实现原理
3. 参与行业标准组织(如Open Compute Project、MLPerf)或开源社区贡献者优先