总结
作为该地区领先的配送平台,我们肩负着独特的责任和机遇,可以对数百万客户、餐厅合作伙伴和骑手产生积极影响。为了实现我们的使命,我们必须扩展并不断发展我们的机器学习能力,包括最前沿的生成式人工智能(genAI)计划。这需要强大、高效且可扩展的机器学习平台,使我们的团队能够快速开发、部署和运营智能系统。
作为一名机器学习平台工程师,您的任务是设计、构建和增强基础设施和工具,加速传统机器学习和生成式人工智能模型的大规模开发、部署和监控。您将与数据科学家、机器学习工程师、生成式人工智能专家和产品团队密切合作,提供无缝的机器学习工作流程——从实验到生产服务——确保我们的机器学习和生成式人工智能系统的卓越运营。
职责
• 设计、构建和维护可扩展、可重用和可靠的机器学习平台和工具,支持整个机器学习生命周期,包括数据摄取、模型训练、评估、部署和监控,适用于传统和生成式人工智能模型。
• 使用MLflow和其他平台开发标准化的机器学习工作流程和模板,实现快速实验和部署周期。
• 实施强大的CI/CD管道、Docker容器化、模型注册和实验跟踪,以支持机器学习和生成式人工智能的可重复性、可扩展性和治理。
• 与生成式人工智能专家密切合作,集成和优化生成式人工智能技术,包括transformers、嵌入、向量数据库(如Pinecone、Redis、Weaviate)和实时检索增强生成(RAG)系统。
• 自动化和简化机器学习和生成式人工智能模型的训练、推理、部署和版本控制工作流程,确保一致性、可靠性和遵循行业最佳实践。
• 通过实施全面的监控、警报和持续性能评估,确保生产机器学习和生成式人工智能工作负载的可靠性、可观察性和可扩展性。
• 集成基础设施组件,如实时模型服务框架(如TensorFlow Serving、NVIDIA Triton、Seldon)、Kubernetes编排和云解决方案(AWS/GCP),以实现稳健的生产环境。
• 推动生成式人工智能用例的基础设施优化,包括高效的推理技术(批处理、缓存、量化)、微调、提示管理和大规模模型更新。
• 与数据工程、产品、基础设施和生成式人工智能团队合作,使机器学习平台计划与更广泛的公司目标、基础设施战略和创新路线图保持一致。
• 积极参与内部文档、入职和培训计划,促进平台采用和持续改进。
技术经验
• 拥有强大的软件工程背景,具有构建分布式系统或平台的经验,专为机器学习和人工智能工作负载设计。
• 精通Python,熟悉机器学习框架(TensorFlow、PyTorch)、基础设施工具(MLflow、Kubeflow、Ray)和流行的API(Hugging Face、OpenAI、LangChain)。
• 具备实施现代MLOps实践的经验,包括模型生命周期管理、CI/CD、Docker、Kubernetes、模型注册和基础设施即代码工具(Terraform、Helm)。
• 拥有云基础设施的工作经验,理想情况下是AWS或GCP,包括Kubernetes集群(GKE/EKS)、无服务器架构和托管机器学习服务(如Vertex AI、SageMaker)。
• 拥有生成式人工智能技术的经验:transformers、嵌入、提示工程策略、微调与提示调优、向量数据库和检索增强生成(RAG)系统。
• 具备设计和维护实时推理管道的经验,包括与特征存储、流数据平台(Kafka、Kinesis)和可观察性平台的集成。
• 熟悉SQL和数据仓库建模;能够管理复杂的数据查询、连接、聚合和转换。
• 对机器学习监控有扎实的理解,包括识别模型漂移、衰减、延迟优化、成本管理和高效扩展基于API的生成式人工智能应用。
资格
• 计算机科学、工程或相关领域的学士学位;高级学位是加分项。
• 在机器学习平台工程、机器学习基础设施、生成式人工智能或密切相关角色中拥有3年经验。
• 在大规模构建和运营机器学习基础设施方面有成功的经验,理想情况下支持生成式人工智能用例和复杂的推理场景。
• 具有战略思维,具备强大的问题解决能力和有效的技术决策能力。
• 出色的沟通和协作能力,能够在跨职能的多元化团队和利益相关者中自如工作。
• 拥有强烈的责任感、问责心、务实精神和积极主动的行动倾向。
远程工作
否
就业类型
全职
#J-18808-Ljbffr