MLOps 工程师
在 阿布扎比 现场工作,提供全额搬迁支持
主要职责
• 模型部署:监督大型语言模型(LLMs)及其他深度学习系统的部署和扩展,使用现代推理引擎如 vLLM、Triton 或 TGI,重点关注系统的可靠性和性能。
• 流水线工程:构建和管理用于模型微调、评估、版本控制和持续交付的自动化流水线,使用 MLflow、Kubeflow 或类似工具。
• 基础设施管理:设计和维护适用于机器学习工作负载的云原生基础设施,利用主要云服务提供商(如 EC2、Kubernetes、无服务器函数、托管机器学习服务)的服务。
• 性能优化:实施稳健的监控和日志记录策略,确保低延迟、高可用性的系统满足生产级性能指标。
• 跨职能合作:与数据科学家、机器学习研究人员和软件工程师合作,支持实验工作流并确保研究到生产的连续性。
• DevOps & 自动化:创建基础设施即代码(IaC)解决方案和 CI/CD 流水线,以实现可重复、安全的机器学习系统部署。
• 模型优化:应用量化、剪枝和分布式推理等技术,以最大化性能并最小化计算成本。
资格要求
• 经验:在 MLOps、机器学习基础设施或相关工程角色方面有 5 年以上的实际经验,具有管理完整机器学习生命周期的良好记录。
• 部署专长:有部署大规模机器学习模型的经验,并具备先进的推理和优化实践。
• 云基础设施:深入理解云平台(优先考虑 AWS 或同类平台),包括可扩展架构设计和成本效益计算管理。
• 编程:精通 Python,具有 C/C++ 性能关键应用的经验。
• 工具:熟悉 MLOps 工具,如 MLflow、Kubeflow 或 SageMaker Pipelines;对 Docker、Kubernetes 和分布式系统有深入的工作知识。
• 优化:熟悉用于分布式训练和推理的工具和框架,如 DeepSpeed、FSDP 或 Accelerate。
• 教育:计算机科学、机器学习、数据工程或相关学科的学士或硕士学位。