关于该职位
我们正在寻找一位首席员工工程师,领导我们下一代人工智能基础设施的架构和开发。该职位位于大规模分布式系统与前沿机器学习的交汇处,支持研究人员和工程师在全球范围内构建、训练和部署人工智能模型的平台。
作为一名高级技术领导者,您将定义架构战略,影响跨组织的倡议,并指导高度可靠、高效和可扩展系统的设计。您将平衡深厚的技术执行与战略愿景——指导高级工程师,与人工智能研究人员合作,确保我们的基础设施加速创新,同时保持世界级的可靠性。
您的工作内容
• 设计与扩展人工智能基础设施:架构和构建支持大规模人工智能工作负载的分布式训练、推理和数据管道,涵盖 GPU 和异构环境。
• 领导云原生创新:推动 Kubernetes、Docker 和现代编排框架的采用,以优化模型部署、资源分配和集群利用率。
• 在规模上优化性能:开发高吞吐量、低延迟的服务和内存高效的系统,以支持 PB 级数据和大规模模型。
• 提升可观测性与可靠性:实施监控、跟踪和容错策略,以确保生产中的 AI 系统具有韧性。
• 与研究与产品合作:与机器学习科学家、产品工程师和平台团队合作,设计加速实验和模型迭代的基础设施。
• 指导与激励:支持高级工程师的技术成长,培养卓越、创新和责任感的文化。
• 形成技术战略:定义人工智能基础设施的长期路线图,平衡短期交付与可扩展性、效率和可靠性的基础投资。
我们寻找的候选人
• 丰富的经验:在分布式系统、大规模基础设施或平台工程领域拥有 10 年以上的经验,具有支持 AI/ML 工作负载的经验者优先。
• 编程精通:在 Java、Python 或 C++ 方面具有深厚的专业知识,具备构建高性能和可靠系统的证明能力。
• 人工智能/机器学习基础设施知识:熟悉 ML 框架(TensorFlow、PyTorch、JAX)、分布式训练策略、GPU 调度和数据管道优化。
• 现代基础设施技能:具备 Kubernetes、Docker、CI/CD 管道、云平台(AWS/GCP/Azure)和可观测性工具(Prometheus、Grafana、Datadog)的实践经验。
• 系统设计专长:在高规模、容错环境中的算法、并发和系统架构方面有坚实的基础。
• 领导与影响力:在推动跨职能倡议、指导高级工程师和制定工程标准方面取得成功。
• 产品思维:能够平衡技术严谨性与可用性和速度,确保基础设施支持快速迭代和产生有影响的结果。
关于 Andiamo
人工智能革命的人才合作伙伴。作为一家全球知名的招聘和咨询公司,我们专注于将顶尖 2% 的技术和市场专业人士与世界上最大的、最知名的公司进行匹配。
20 多年来,我们一直保持着为 Palantir、亚马逊、Fluidstack、彭博社、Relativity Space、Firefly、万事达卡、Visa、Two Sigma、Citadel 以及其他主要金融服务公司、精英对冲基金、谷歌支持的科技初创公司和大型软件公司等公司的一级供应商的地位。
我们的招聘解决方案包括永久性招聘、合同员工、执行搜索和专门招聘服务(RPO)。了解更多信息,请访问 www.andiamogo.com