ESWIN（奕斯伟）招聘

云推理系统方案专家(J14172)

招聘类别：社会招聘工作性质：全职薪资范围：面议招聘人数：若干发布时间：2026-05-26 工作地点：四川省-成都市,北京市,北京市-大兴区

工作职责

1. 负责云端LLM推理集群架构设计、用户资源隔离，动态调度，高可靠性设计；
2. 负责LLM推理pipline优化，Prifill和Decoder两个阶段负载均衡；
4. 优化K8S调度增强，例如节点亲和，拓扑感知调度以及冷启动等；
5. 提升硬件资源最大利用率来控制成本。

任职资格

1. 人工智能以及相关专业硕士以上学历；
2. 使用的C/C++/Python开发、适配、优化LLM推理端到端程序性能；
3. 深入理解分布式一致性协议、微服务架构，精通 Kubernetes (K8s) 及其底层插件开发（CSI/CNI/Device Plugin）；
4. 熟悉 RDMA / RoCE v2 通信协议，理解 InfiniBand 或高性能以太网在模型并行中的拓扑设计；
5. 精通 PyTorch，深入理解 Transformer 架构；有 vLLM,SGLang, TensorRT-LLM, TGI (Text Generation Inference) 或 NVIDIA Triton 的深度定制经验；
6. 能够解决大模型长文本（Long Context）推理中的内存管理、首字延迟（TTFT）优化及吞吐量瓶颈等复杂难题；
7. 具有实际处理过千亿参数模型生产环境部署的经验优先；
8. 熟悉硬件底层原理，如 GPU/NPU SRAM层次结构、SMMU 地址映射优化或 GPU/NPU 虚拟化技术；
9. 在计算通信重叠（Communication Overlap）、算子融合（Operator Fusion）等底层优化领域有深厚造诣;
10. 有大规模分布式存储（处理模型权重加载）或高性能计算（HPC）背景。

立即申请

热招职位

BES工程师(J14131) 云推理系统方案专家(J14172) 芯片测试工程师/TE(J14166)

招聘动态

暂无招聘公告