机器学习基础设施工程师(机器学习平台)

伦敦 5天前全职 网络
面议
关于 CuspAI CuspAI 是一家前沿的人工智能公司,致力于解决推动人类进步所需的突破性材料。自然花费了数十亿年的时间来完善分子,而我们正在利用人工智能在几个月内解锁万亿美元的材料突破,而不是数千年。我们的创始团队是全球引用率最高的团队,由人工智能、化学和工程领域的世界级研究人员组成。 我们正在解决一些最困难和最重要的挑战,包括能源、清洁水、计算的未来和碳捕集,而这只是我们下一代材料“搜索引擎”所能开启的开始。 我们邀请您加入一个多元化、创新的团队,在人工智能和材料科学的交汇点上,致力于创造推动创新、可扩展性和行业合作的有影响力的伙伴关系。这项工作至关重要。您的工作也至关重要。 我们正处于按需材料时代的边缘。加入我们。 角色 我们正在寻找一位具有强大 Python 编程、DevOps 和云平台专业知识的机器学习基础设施工程师/机器学习平台工程师,以构建和维护支持我们机器学习研究团队的基础设施。您将成为使我们的研究人员能够大规模训练和部署模型的系统架构师。 您的影响 在这个角色中,您将构建和维护机器学习基础设施平台,使我们的人工智能研究人员和材料科学家能够进行前沿实验。 您将负责整个机器学习操作栈——从云架构到部署管道——确保我们的研究团队可以专注于科学,而您则负责系统。 由于这是一个新创建的团队和职位,您将有机会帮助塑造我们整个机器学习基础设施战略,并对我们平台的架构产生重大影响。 您将做的事情 • 构建机器学习基础设施平台:设计和实施一个基于云的(GCP)Kubernetes 平台,使研究人员能够轻松训练、评估和部署模型,而无需担心基础设施的复杂性。 • 拥有 MLOps 栈:实施和维护 CI/CD 管道、模型注册、实验跟踪系统和部署自动化——机器学习操作的整个生命周期。 • 扩展分布式机器学习模型训练:构建基础设施以支持跨多个 GPU 的分布式训练,实现数据管道、检查点和资源优化的解决方案。 • 平台可靠性:通过监控、警报和自动恢复系统确保我们的机器学习平台 99.9% 的正常运行时间。成为基础设施稳定性的守护者。 • 配置管理:使用 Kapitan 管理复杂的多环境 Kubernetes 配置,确保开发、预发布和生产环境的一致部署。 • 成本优化:实施资源管理策略,以优化云支出并检测低效使用,同时最大化我们研究团队的计算吞吐量。 • 开发者体验:创建工具和抽象,使研究人员能够在没有深入基础设施知识的情况下轻松从实验转向生产。 • 跨学科合作:与机器学习研究人员、化学家、材料科学家和软件工程师紧密合作,了解他们的需求,并为开创性项目构建基础设施。 必须具备的技能和资格: • 您是一个对使科学家能够在这一领域解决改变世界的挑战的机会感到兴奋的人,个人对 Cusp 正在构建的技术潜在应用感兴趣。 • 您是一个工具和基础设施的构建者,喜欢尽可能让团队的工作变得简单。作为您对这一领域的兴趣的一部分,您保持对最新相关技术、工具和开源项目的了解。 • 您是一位经验丰富的工程师,在构建和维护机器学习基础设施方面具有深厚的专业知识(而不是模型开发),理想情况下是在初创环境中。我们需要您能够快速上手并独立工作,作为主题专家,在适当的情况下提供最佳实践的建议和指导。 • 您在 Kubernetes 和多云平台(AWS、GCP、neoclouds)上有深厚的机器学习工作负载经验。 • 您拥有强大的 Python 和/或 Go 编程技能,用于基础设施自动化——不仅仅是脚本编写。 • 在使用基础设施即代码(IaC)方面具有专家级熟练度,使用 Terraform、Helm、Kapitan 和 GitOps 工作流。 • 具有操作 JAX 和/或 PyTorch 的分布式机器学习平台的经验(Tensorflow 的相关性较小)。 • 您还需要具备 GPU 基础设施经验,特别是管理 GPU 集群和性能优化。 加分项(但不是关键): • 在转向 DevOps/MLOps/机器学习基础设施之前有软件工程师的经验,或至少定期编写代码(在工作和/或业余时间),因为这将为您提供我们所需的编码技能。 • 使用我们的技术栈(Flyte、Kapitan、Pants)或类似工具的经验。 • 具有 HPC 环境和作业调度程序(Slurm、PBS)的经验。 • 了解机器学习服务基础设施(Triton、TorchServe、KServe)。 • 熟悉科学计算工作流和数据管理。 • 具有多租户机器学习平台的经验。 • 有支持研究团队的背景(理解他们的独特需求与生产机器学习的区别)。 其他考虑 此角色可以在我们的剑桥、伦敦、阿姆斯特丹或柏林办公室工作,预计每周需在办公室工作三天。此外,可能需要定期出差到我们的其他办公室进行协作和项目监督。 我们提供的福利 • 有竞争力的薪资加上股权计划,让您在公司的成功中拥有一份股份。 • 28 天假期。 • 用于科学会议和技术培训的专业发展预算。 • 有机会与世界级研究人员一起在人工智能驱动的科学发现的前沿工作。 • 通过尖端技术对推动材料科学的发展产生直接影响。 • 促进人工智能研究、计算化学和实验科学之间的协作环境。 加入我们,共同塑造材料的未来。我们可以共同创造出可持续世界的突破性解决方案。 CuspAI 是一个平等机会雇主,致力于建立一个多元化和包容性的工作场所。我们不因性别、种族、宗教或信仰、民族或国籍、残疾、年龄、公民身份、婚姻、家庭或民事伴侣身份、性取向、性别认同、怀孕或相关状况(包括哺乳)、退伍军人身份或任何其他受适用法律保护的基础而歧视。 我们积极鼓励来自各个背景的申请,并重视多样性为我们的团队带来的独特视角和贡献。 如果您在面试过程中或之后需要任何特定的调整,请告知我们。我们会尽一切可能在合理范围内进行配合。