机器学习工程师 | Python | Pytorch | 分布式训练 | 优化 | GPU | 混合, 圣何塞,加利福尼亚州
职位:机器学习工程师
地点:圣何塞,加利福尼亚州
职责:
- 将研究中的模型产品化和优化为具有明确SLO(延迟、可用性、成本)的可靠、高性能和成本效益的服务。
- 通过分析和优化,扩展跨节点/GPU的训练(DDP/FSDP/ZeRO,流水线/张量并行)并负责吞吐量/训练时间。
- 实施模型效率技术(量化、蒸馏、剪枝、KV缓存、Flash Attention)以在不显著降低质量的情况下进行训练和推理。
- 构建和维护模型服务系统(vLLM/Triton/TGI/ONNX/TensorRT/AITemplate),包括批处理、流处理、缓存和内存管理。
- 根据生产需要,与向量/特征存储和数据管道(FAISS/Milvus/Pinecone/pgvector;Parquet/Delta)集成。
- 定义和跟踪性能和成本KPI;运行持续改进循环和容量规划。
- 与ML Ops合作进行CI/CD、遥测/可观测性、模型注册;与科学家合作进行可重复的交接和评估。
教育资格:
- 需要计算机科学、电气/计算机工程或相关领域的学士学位;优先考虑硕士学位(或同等行业经验)。
- 强大的系统/ML工程能力,接触过分布式训练和推理优化。
行业经验:
- 3-5年在ML/AI工程角色中负责大规模生产中的训练和/或服务。
- 在提供高吞吐量、低延迟的ML服务方面取得成功,并提高了可靠性和成本效益。
- 有与研究、平台/基础设施、数据和产品功能合作的经验。
技术技能:
- 熟悉深度学习框架:主要是PyTorch,次要是TensorFlow。
- 接触过大型模型训练技术(DDP、FSDP、ZeRO、流水线/张量并行);有分布式训练经验者优先。
- 优化:有分析和优化代码执行和模型推理的经验:(PTQ/QAT/AWQ/GPTQ)、剪枝、蒸馏、KV缓存优化、Flash Attention。
- 可扩展服务:自动扩展、负载均衡、流处理、批处理、缓存;与平台工程师合作。
- 数据与存储:SQL/NoSQL、向量存储(FAISS/Milvus/Pinecone/pgvector)、Parquet/Delta、对象存储。
- 编写高性能、可维护的代码。
- 理解完整的ML生命周期:数据收集、模型训练、部署、推理、优化和评估。
机器学习工程师 | Python | Pytorch | 分布式训练 | 优化 | GPU | 混合, 圣何塞,加利福尼亚州