机器学习系统的负责人,规模与性能

13天前全职
Instadeep

Instadeep

location 伦敦
unsaved
InstaDeep 成立于 2014 年,是一家处于创新前沿的先锋 AI 公司。我们在全球主要城市设有战略办事处,包括伦敦、巴黎、柏林、突尼斯、基加利、开普敦、波士顿和旧金山。InstaDeep 与 Google DeepMind 等巨头以及麻省理工学院、斯坦福大学、牛津大学、伦敦大学学院和帝国理工学院等著名教育机构合作。我们是 Google Cloud 合作伙伴,也是 NVIDIA 精英服务交付合作伙伴。根据 Statista 和《金融时报》的数据,我们在 2022 年被列为 AI 领域的知名企业、快速增长的公司以及欧洲 1000 家增长最快的公司之一。我们最近被 BioNTech 收购,进一步巩固了我们在行业内的领导地位。 加入我们,成为 AI 革命的一部分! 团队 高效地在大规模上训练机器学习算法需要解决新颖的系统问题。我们的团队负责设计和实施高性能解决方案,以无缝扩展我们的 AI 系统,包括我们最新的生物学基础模型及其他领域。我们在一些最大的分布式机器学习系统中优化吞吐量、可扩展性和稳健性,使雄心勃勃的研究想法成为现实。 角色 我们正在寻找一位机器学习工程师负责人,负责解决性能瓶颈并领导开发可扩展的机器学习解决方案。在这个角色中,您将与软件和性能工程师团队合作,构建支持我们下一代研究的系统。优秀的候选人将展示出管理和执行复杂机器学习系统解决方案的专业知识,并具备优化最新工作负载性能和可扩展性的驱动力。 职责 • 技术领导:定义长期技术路线图,推动可扩展的高性能机器学习系统的发展。 • 算法优化:优化最新深度学习研究中的先进算法和架构,以提高计算效率和性能。 • 系统扩展:设计跨多种硬件平台(GPU/TPU)扩展机器学习模型的策略,并在高负载下优化系统性能。 • 低级优化:编写高效的 Python、C/C++、XLA、Pallas、Triton 或 CUDA 代码,以实现性能突破。 • 机器学习系统设计:架构稳健的分布式系统以进行训练、部署和监控,确保计算效率和可扩展性。 • 数据管道自动化:开发数据处理、模型训练、验证和部署的自动化管道,实现高效处理大数据集。 • 团队合作:与研究、应用和产品团队合作,构建支持关键项目的统一软件堆栈。 • 导师:指导和指导机器学习工程团队,促进编码、测试和文档方面的最佳实践。 所需技能 • 精通 Python 和/或 C/C++ • 理解 Linux 系统、性能分析工具和硬件优化技术。 • 使用机器学习框架(JAX、Tensorflow 和/或 PyTorch)进行开发 • 热衷于分析性能、识别瓶颈并提供高效解决方案。 • 现代深度学习基础知识 期望技能 • 有成功扩展机器学习模型的记录。 • 有编写自定义 CUDA 内核或 XLA 操作的经验。 • 理解 GPU/TPU 架构及其对高效机器学习系统的影响。 代表性项目 • 配置算法,识别自定义 XLA/CUDA 内核的机会。 • 实施 SOTA 架构(MAMBA、Griffin、Hyena)用于研究和应用项目。 • 适应大规模分布式架构的算法,跨 HPC 集群进行。 我们提供 • 领导和培养一支有才华的工程师团队,解决 AI 最具挑战性的系统问题的机会。 • 实际经验优化支撑行业领先研究的大规模分布式机器学习系统; • 近距离观察 AI 的演变,有机会通过技术创新和领导力塑造其方向。 TLDR:领导一支工程师团队,设计和实施创新的工程解决方案,以扩展机器学习系统,推动 InstaDeep 最雄心勃勃的 AI 研究。 我们对员工的承诺 我们在 InstaDeep 赋予个人庆祝其独特性。我们的团队来自各行各业,我们为继续鼓励和支持来自全球被代表性群体的申请者而感到自豪。我们致力于创造真实的环境,这源于我们从多样性中学习和成长的能力,加入我们的团队是体验这一点的最佳方式。我们采用混合工作模式,指导每周在办公室工作 3 天,以促进密切合作和创新。我们将继续审查情况,以确保 InstaDeep 员工的福祉为重中之重。 工作权利:请注意,您需要在申请的地点拥有合法的工作权利。