工作地点:
广东省-深圳市,江苏省-南京市
工作职责:
岗位职责
1. 负责自研大算力AI芯片的软件栈设计,包括驱动层、编译器工具链、与Runtime库的模块划分与性能优化;
2. 负责自研AI加速库大规模集群软件部署软件栈设计,借鉴NVIDIA DGX Solution Stack和华为Cloud Stack的实践;
3. 负责集群部署平台搭建方案,实现大模型服务的快速上线与版本管理;
4. 负责自研AI加速卡的软件生态建设
任职资格:
任职要求
1. 硕士及以上学历,计算机科学、电子工程、通信工程或相关专业
2. 8年以上大规模分布式系统或HPC集群软件架构设计经验,具有端到端项目交付记录
3. 精通Linux操作系统内核定制与驱动开发,熟悉内存管理与设备模型
4. 熟练掌握容器技术(Docker)、Kubernetes及Helm/Argo CD等编排工具
5. 精通GPU编程框架(CUDA、ROCm)及AI推理引擎(TensorRT、ONNX Runtime)
6. 深入理解高性能网络技术(RDMA、InfiniBand),具备网络调优与排障经验
7. 优秀的跨团队沟通与协调能力,有大型项目或团队管理经验
优先条件
1. 参与过NVIDIA DGX系列、华为Atlas/CloudMatrix等商用大规模AI集群项目
2. 有PyTorch Distributed、Horovod或vLLM等大模型分布式训练/推理框架的系统设计或部署经验
3. 参与过超算中心或大规模数据中心集群项目者优先