IT 系统工程师 / 基础设施 / 平台可靠性

旧金山 1个月前全职 网络
146.9万 - 221万 / 年
Lambda,超智能云,构建千兆瓦级 AI 工厂用于训练和推理。Lambda 的使命是让计算像电一样普遍,并让每个人都能接触到人工智能。一个人,一块 GPU。 如果你想建立世界上最好的深度学习云,请加入我们。 • 注意:此职位要求每周在我们的旧金山或圣荷西办公室工作 4 天;Lambda 当前指定的远程工作日为周二。 Lambda 的信息系统负责构建和扩展支持我们业务的内部系统。我们与公司各部门合作——财务、市场、工程和人力资源——实施工具、自动化工作流程,并确保数据安全、准确地流动。我们的工作范围包括企业应用、集成、数据平台和分析、合规自动化以及所有 IT 相关事务。 你将做什么 • 设计、编写和交付软件和服务,以提高 Lambda 内部 IT 系统和平台的可用性、可扩展性、可靠性和效率。 • 解决与关键服务相关的问题,并构建自动化以防止问题再次发生,目标是自动响应所有非例外事件。 • 与 Lambda 工程和内部团队合作,影响并创建大规模分布式系统的新设计、架构、标准和方法。 • 参与服务容量规划和需求预测、软件性能分析以及系统调优。 • 成为优秀的沟通者,为你负责的系统制作文档和相关材料。 你 • 对系统设计、性能架构和多种云基础设施平台(AWS、GCP、Azure 等)有浓厚的兴趣。 • 仔细考虑系统:边缘情况、故障模式、行为和具体实现。 • 知道并偏好配置管理系统和工具链(Chef、Ansible、Terraform、GitHub Actions 等)。 • 具备扎实的编程技能:Python、Go 等。 • 有与人协作和异步沟通的强烈愿望,同时希望记录和文档问题及解决方案。 • 拥有热情的积极态度。当你看到某个东西坏了,你忍不住想去修复它。 • 有快速有效交付的冲动,并能快速迭代。 加分项 • 对 ML/AI 工作负载和计算有经验和兴趣。 • 实际经验实施和管理分页、警报和待命调度流程。 • 积极的态度,愿意学习和合作。 薪资范围信息 该职位的年薪范围基于市场数据和其他因素设定。然而,对于资格与职位描述中列出的要求有显著差异的候选人,薪资高于或低于该范围可能是合适的。 关于 Lambda • 成立于 2012 年,约 400 名员工(2025 年)并快速增长。 • 我们提供丰厚的现金和股权补偿。 • 我们的投资者包括 Andra Capital、SGW、Andrej Karpathy、ARK Invest、Fincadia Advisors、G Squared、In-Q-Tel (IQT)、KHK & Partners、NVIDIA、Pegatron、Supermicro、Wistron、Wiwynn、US Innovative Technology、Gradient Ventures、Mercato Partners、SVB、1517、Crescent Cove。 • 我们的系统需求极高,季度和年度盈利持续增长。 • 我们的研究论文已被顶级机器学习和图形会议接受,包括 NeurIPS、ICCV、SIGGRAPH 和 TOG。 • 为你和你的家属提供健康、牙科和视力保险。 • 为特定角色提供健康和通勤津贴。 • 401k 计划,提供 2% 的公司匹配(美国员工)。 • 灵活的带薪休假计划,我们都能实际使用。 最后提示: 你不需要满足所有列出的期望才能申请此职位。我们致力于建立一个拥有多样背景、经验和技能的团队。 平等机会雇主 Lambda 是一个平等机会雇主。申请人不受种族、肤色、宗教、信仰、国籍、年龄、性别、性别、婚姻状况、性取向和身份、遗传信息、退伍军人身份、公民身份或任何其他地方、州或联邦法律禁止的因素的影响。