工程师 II - MLOps,生成式人工智能

迪拜 无个税16天前全职 网络
面议
概述 作为该地区领先的交付平台,我们肩负着独特的责任和机遇,能够积极影响数百万客户、餐厅合作伙伴和骑手。为了实现我们的使命,我们必须扩展并不断发展我们的机器学习能力,包括前沿的生成式人工智能(genAI)计划。这需要强大、高效且可扩展的机器学习平台,使我们的团队能够快速开发、部署和操作智能系统。 作为机器学习平台工程师,您的使命是设计、构建和增强基础设施及工具,以加速传统机器学习和生成式人工智能模型的大规模开发、部署和监控。您将与数据科学家、机器学习工程师、生成式人工智能专家和产品团队密切合作,提供无缝的机器学习工作流,从实验到生产服务,确保我们的机器学习和生成式人工智能系统的运营卓越。 职责: • 设计、构建和维护可扩展、可重用和可靠的机器学习平台和工具,支持整个机器学习生命周期,包括数据摄取、模型训练、评估、部署和监控,适用于传统和生成式人工智能模型。 • 使用MLflow和其他平台开发标准化的机器学习工作流和模板,支持快速实验和部署周期。 • 实施强大的CI/CD管道、Docker容器化、模型注册和实验跟踪,以支持机器学习和生成式人工智能中的可重复性、可扩展性和治理。 • 与生成式人工智能专家密切合作,集成和优化生成式人工智能技术,包括变换器、嵌入、向量数据库(例如Pinecone、Redis、Weaviate)和实时检索增强生成(RAG)系统。 • 自动化和简化机器学习和生成式人工智能模型的训练、推理、部署和版本控制工作流,确保一致性、可靠性和遵循行业最佳实践。 • 通过实施全面的监控、警报和持续性能评估,确保生产机器学习和生成式人工智能工作负载的可靠性、可观察性和可扩展性。 • 集成基础设施组件,例如实时模型服务框架(例如TensorFlow Serving、NVIDIA Triton、Seldon)、Kubernetes编排和云解决方案(AWS/GCP),以实现强大的生产环境。 • 针对生成式人工智能用例推动基础设施优化,包括高效的推理技术(批处理、缓存、量化)、微调、提示管理和大规模模型更新。 • 与数据工程、产品、基础设施和生成式人工智能团队合作,使机器学习平台倡议与更广泛的公司目标、基础设施战略和创新路线图保持一致。 • 积极参与内部文档、入职和培训项目,促进平台的采用和持续改进。 要求 技术经验: • 扎实的软件工程背景,具有构建分布式系统或专为机器学习和人工智能工作负载设计的平台的经验。 • 精通Python,并熟悉机器学习框架(TensorFlow、PyTorch)、基础设施工具(MLflow、Kubeflow、Ray)和流行的API(Hugging Face、OpenAI、LangChain)。 • 具有实施现代MLOps实践的经验,包括模型生命周期管理、CI/CD、Docker、Kubernetes、模型注册和基础设施即代码工具(Terraform、Helm)。 • 具有使用云基础设施的经验,理想情况下是AWS或GCP,包括Kubernetes集群(GKE/EKS)、无服务器架构和托管机器学习服务(例如Vertex AI、SageMaker)。 • 具有生成式人工智能技术的经验:变换器、嵌入、提示工程策略、微调与提示调优、向量数据库和检索增强生成(RAG)系统。 • 具有设计和维护实时推理管道的经验,包括与特征存储、流数据平台(Kafka、Kinesis)和可观察性平台的集成。 • 熟悉SQL和数据仓库建模;能够管理复杂的数据查询、连接、聚合和转换。 • 对机器学习监控有扎实的理解,包括识别模型漂移、衰减、延迟优化、成本管理和高效扩展基于API的生成式人工智能应用。 资格: • 计算机科学、工程或相关领域的学士学位;高级学位更佳。 • 在机器学习平台工程、机器学习基础设施、生成式人工智能或相关角色中有3年的经验。 • 具有成功构建和运营大规模机器学习基础设施的良好记录,理想情况下支持生成式人工智能用例和复杂推理场景。 • 具备战略思维,拥有较强的问题解决能力和有效的技术决策能力。 • 优秀的沟通和协作能力,能够与不同团队和利益相关者跨职能合作。 • 强烈的责任感、务实精神和积极的行动倾向。 远程工作: 否 雇佣类型: 全职