高级机器学习平台工程师

新加坡 2天前全职 网络
6.6万 - 11.0万 / 月
关于团队: 作为我们全新AI团队的一部分,我们正在构建尖端的AI及其平台,以改变我们为内部团队和外部消费者提供支持和自动化解决方案的方式。我们的目标是解锁Airwallex内部存在的任何知识,以推动我们组织内的各种用例。该团队在推动创新和为这一激动人心的新领域的未来发展设定标准方面至关重要。 角色与项目范围: 我们正在寻找一位技术娴熟且充满激情的ML平台工程师加入我们的团队,构建下一代机器学习基础设施。您将负责设计、实施和维护核心MLOps平台,使我们的数据科学和ML工程团队能够快速开发、部署和监控大规模的高性能模型。 重要的是,您将为我们统一AI平台的演进做出贡献,涵盖传统ML和我们不断增长的LLM(大型语言模型)平台。 您的工作内容: - 平台开发:使用Kubernetes和云服务设计、构建和维护端到端的MLOps平台。 - 基础设施即代码(IaC):使用Terraform或类似工具安全高效地管理、配置和扩展所有与ML相关的基础设施。 - 流水线自动化:使用Argo和Kubeflow Pipelines等工具实施和优化CI/CD/CT(持续集成、交付、训练)流水线,以自动化模型训练、测试、打包和部署。 - 服务基础设施:构建高可用性、低延迟和高吞吐量的模型服务基础设施。 - 可观测性:实施强大的监控、警报和日志解决方案,以跟踪基础设施健康状况、模型性能和数据/模型漂移。 - 工具与支持:评估、集成和支持ML工具,如特征存储和分布式模型训练流水线。 - 安全与合规:确保平台安全,实施RBAC(基于角色的访问控制),并管理敏感数据和生产环境的机密。 - 协作:与数据科学家和ML工程师密切合作,了解他们的需求,并在扩展模型的最佳实践方面提供技术指导。 您需要具备的条件: - 5年以上后端软件开发经验,其中至少2年以上专注于AI/ML平台或MLOps基础设施。 - 深入掌握MLOps实践,包括自动化部署流水线、模型优化和生产生命周期管理。 - 设计和实施低延迟模型服务解决方案的丰富经验。 - 精通Python。 - 编写高质量、可维护代码的技能。 - 设计和开发大规模分布式、高并发、低延迟推理、高可用性系统的经验。 - 出色的沟通和指导能力。 - 计算机科学、数学或相关领域的相关学位。 优先资格: - 熟悉分布式计算/训练框架(例如Ray、Spark)。 - 在云基础设施上配置和管理ML工作流的经验(例如Kubernetes、Kubeflow)。 - 具备LLM服务优化(例如vLLM、TGI、Triton)和GPU资源管理的工作知识。