大算力AI芯片集群部署集合通讯专家(软)(J10704)
  • 招聘类别:
  • 社会招聘
  • 工作性质:
  • 全职
  • 薪资范围:
  • 面议
  • 招聘人数:
  • 若干
  • 发布时间:
  • 2025-04-22
  • 截止时间:
  •  

  • 工作地点:

    广东省-深圳市,江苏省-南京市,四川省-成都市


    工作职责:

    岗位职责:
    1.针对AI芯片系统,设计高效、低延迟的集合通信架构和协议,确保多节点、分布式计算环境下数据交换的高性能实现;
    2.与硬件、软件及算法团队协同,开展软硬件协同优化,解决系统中可能出现的通信瓶颈问题;
    3.研究和实现适用于AI芯片平台的集合通信算法(如MPI、NCCL等),优化数据传输策略以提升整体运算效率;
    4.结合深度学习和大规模分布式训练需求,设计定制化的通信加速方案,并不断进行性能调优;
    5.制定集合通信模块的测试方案,开展功能、性能和稳定性测试,确保系统在不同应用场景下的可靠运行;
    6.分析测试数据,定位通信模块瓶颈和潜在问题,并提出改进方案。


    任职资格:

    任职资格:
    1.计算机科学、电子工程、通信工程、信息科学或相关专业本科及以上学历;硕士、博士优先;
    2.熟悉分布式系统架构及高性能计算通信协议(如MPI、NCCL、Collective Communication等);
    3.熟练掌握C/C++编程,具备多线程或并行计算开发经验;
    4.对GPU、TPU等AI加速器架构有一定了解,并能够结合实际应用进行通信方案优化;
    5.有AI芯片、硬件加速器或大规模分布式系统通信相关研发经验者优先;
    6.熟悉硬件架构与软件协同优化,有系统级通信优化、性能调优实践经验;
    7.英语读写能力良好,能够阅读相关技术文献及标准。
    加分项:
    1.有实际项目中成功应用集合通信算法优化大规模分布式训练系统的经验;
    2. 具备跨平台(如Linux、RTOS)开发经验及对网络协议(如InfiniBand、Ethernet)有深入理解者。