要求
• 4年以上作为软件工程师或机器学习工程师的工作经验,
• 对规模、可靠性和生产卓越性有深入了解,
• 熟练掌握至少一种编程语言(我们的代码库包括:Python、C/C++、Golang、Rust),
• 有使用ML训练、推理工作负载及其框架的经验(例如:CUDA、TensorRT、PyTorch、TensorFlow等),
• 有与云服务提供商(AWS/GCP/Azure)合作的经验 - Kubernetes、Docker、ML,
• 有领导复杂项目和指导同事的经验,
• (可取)有网络概念的经验,操作Linux/Unix系统的深入实践知识、故障排除、生产可靠性、系统间的可观察性和确保开发者效率,
• (可取)在推广工程和基础设施最佳实践以及交付高质量项目和代码方面有良好的记录,
• (可取)热衷于在重视与其他技术工程师和研究人员合作的环境中与大规模分布式系统一起工作,
• (可取)了解计算基础知识-使代码快速、安全和可靠的原理,
• (可取)计算机科学、工程或相关技术学科的学士或硕士学位,或具有等同经验
工作内容
• 我们正在寻找对扩展我们的训练基础设施充满热情的软件工程师,其中包括一个从数百辆在道路上行驶的车辆收集exabytes数据的大规模数据基础设施,一个大规模的ML训练环境,帮助塑造我们的自动驾驶模型,并在我们在伦敦运营汽车时调试在生产环境中出现的困难问题。