机器学习工程师 | Python | Pytorch | 分布式训练 | 优化 | GPU | 混合, 圣何塞，加利福尼亚州职位：机器学习工程师地点：圣何塞，加利福尼亚州职责： - 将研究中的模型产品化和优化为具有明确SLO（延迟、可用性、成本）的可靠、高性能和成本效益的服务。 - 通过分析和优化，扩展跨节点/GPU的训练（DDP/FSDP/ZeRO，流水线/张量并行）并负责吞吐量/训练时间。 - 实施模型效率技术（量化、蒸馏、剪枝、KV缓存、Flash Attention）以在不显著降低质量的情况下进行训练和推理。 - 构建和维护模型服务系统（vLLM/Triton/TGI/ONNX/TensorRT/AITemplate），包括批处理、流处理、缓存和内存管理。 - 根据生产需要，与向量/特征存储和数据管道（FAISS/Milvus/Pinecone/pgvector；Parquet/Delta）集成。 - 定义和跟踪性能和成本KPI；运行持续改进循环和容量规划。 - 与ML Ops合作进行CI/CD、遥测/可观测性、模型注册；与科学家合作进行可重复的交接和评估。教育资格： - 需要计算机科学、电气/计算机工程或相关领域的学士学位；优先考虑硕士学位（或同等行业经验）。 - 强大的系统/ML工程能力，接触过分布式训练和推理优化。行业经验： - 3-5年在ML/AI工程角色中负责大规模生产中的训练和/或服务。 - 在提供高吞吐量、低延迟的ML服务方面取得成功，并提高了可靠性和成本效益。 - 有与研究、平台/基础设施、数据和产品功能合作的经验。技术技能： - 熟悉深度学习框架：主要是PyTorch，次要是TensorFlow。 - 接触过大型模型训练技术（DDP、FSDP、ZeRO、流水线/张量并行）；有分布式训练经验者优先。 - 优化：有分析和优化代码执行和模型推理的经验：（PTQ/QAT/AWQ/GPTQ）、剪枝、蒸馏、KV缓存优化、Flash Attention。 - 可扩展服务：自动扩展、负载均衡、流处理、批处理、缓存；与平台工程师合作。 - 数据与存储：SQL/NoSQL、向量存储（FAISS/Milvus/Pinecone/pgvector）、Parquet/Delta、对象存储。 - 编写高性能、可维护的代码。 - 理解完整的ML生命周期：数据收集、模型训练、部署、推理、优化和评估。机器学习工程师 | Python | Pytorch | 分布式训练 | 优化 | GPU | 混合, 圣何塞，加利福尼亚州

机器学习工程师 | Python | Pytorch | 分布式训练 | 优化 | GPU | 混合, 圣何塞，加利福尼亚州

Enigma