加入我们
加入我们
云推理系统方案专家(J14172)
招聘类别:社会招聘 工作性质:全职 薪资范围:面议 招聘人数:若干 发布时间:2026-05-26 工作地点:四川省-成都市,北京市,北京市-大兴区

工作职责

1. 负责云端LLM推理集群架构设计、用户资源隔离,动态调度,高可靠性设计;
2. 负责LLM推理pipline优化,Prifill和Decoder两个阶段负载均衡;
4. 优化K8S调度增强,例如节点亲和,拓扑感知调度以及冷启动等;
5. 提升硬件资源最大利用率来控制成本。

任职资格

1. 人工智能以及相关专业硕士以上学历;
2. 使用的C/C++/Python开发、适配、优化LLM推理端到端程序性能;
3. 深入理解分布式一致性协议、微服务架构,精通 Kubernetes (K8s) 及其底层插件开发(CSI/CNI/Device Plugin);
4. 熟悉 RDMA / RoCE v2 通信协议,理解 InfiniBand 或高性能以太网在模型并行中的拓扑设计;
5. 精通 PyTorch,深入理解 Transformer 架构;有 vLLM,SGLang, TensorRT-LLM, TGI (Text Generation Inference) 或 NVIDIA Triton 的深度定制经验;
6. 能够解决大模型长文本(Long Context)推理中的内存管理、首字延迟(TTFT)优化及吞吐量瓶颈等复杂难题;
7. 具有实际处理过千亿参数模型生产环境部署的经验优先;
8. 熟悉硬件底层原理,如 GPU/NPU SRAM层次结构、SMMU 地址映射优化或 GPU/NPU 虚拟化技术;
9. 在计算通信重叠(Communication Overlap)、算子融合(Operator Fusion)等底层优化领域有深厚造诣;
10. 有大规模分布式存储(处理模型权重加载)或高性能计算(HPC)背景。
立即申请
联系我们 返回顶部