深圳云天励飞有限公司招聘系统--招聘详细

职位搜索

工作地点：	全部全国上海市南京市南昌市青岛市长沙市广州市深圳市东莞市四川省成都市西安市
职位类型：	全部研发类产品方案类销售类运营类大数据
发布时间：	全部三天内一周内一个月内三个月内半年内
	搜索

招聘动态

更多>>

大算力芯片面向大模型集群部署的软件栈架构专家(软）(J10705)

招聘类别：
社会招聘
工作性质：
全职
薪资范围：
面议
招聘人数：
若干

发布时间：
2025-04-22
截止时间：

工作地点：

广东省-深圳市,江苏省-南京市

工作职责：

岗位职责
1. 负责自研大算力AI芯片的软件栈设计，包括驱动层、编译器工具链、与Runtime库的模块划分与性能优化；
2. 负责自研AI加速库大规模集群软件部署软件栈设计，借鉴NVIDIA DGX Solution Stack和华为Cloud Stack的实践；
3. 负责集群部署平台搭建方案，实现大模型服务的快速上线与版本管理；
4. 负责自研AI加速卡的软件生态建设

任职资格：

任职要求
1. 硕士及以上学历，计算机科学、电子工程、通信工程或相关专业
2. 8年以上大规模分布式系统或HPC集群软件架构设计经验，具有端到端项目交付记录
3. 精通Linux操作系统内核定制与驱动开发，熟悉内存管理与设备模型
4. 熟练掌握容器技术（Docker）、Kubernetes及Helm/Argo CD等编排工具
5. 精通GPU编程框架（CUDA、ROCm）及AI推理引擎（TensorRT、ONNX Runtime）
6. 深入理解高性能网络技术（RDMA、InfiniBand），具备网络调优与排障经验
7. 优秀的跨团队沟通与协调能力，有大型项目或团队管理经验

优先条件
1. 参与过NVIDIA DGX系列、华为Atlas/CloudMatrix等商用大规模AI集群项目
2. 有PyTorch Distributed、Horovod或vLLM等大模型分布式训练/推理框架的系统设计或部署经验
3. 参与过超算中心或大规模数据中心集群项目者优先

现在申请

返回职位列表