Lambda 是 #1 的 GPU 云平台，专为机器学习/人工智能团队进行训练、微调和推理 AI 模型而设计，工程师可以轻松、安全且经济地构建、测试和大规模部署 AI 产品。Lambda 的产品组合包括本地 GPU 系统、公共和私有云中的托管 GPU 以及管理推理服务，服务于全球的政府、研究人员、初创公司和企业。\n\n如果您想构建世界上最好的深度学习云，请加入我们。\n• 注意：此职位要求每周在旧金山办公室工作 4 天；Lambda 当前指定的居家办公日为星期二。\n\nLambda 的工程团队负责构建和扩展我们的云产品。我们的工作范围包括 Lambda 网站、云 API 和系统，以及用于系统部署、管理和维护的内部工具。\n\n您将做什么\n• 部署和操作用于日志记录、指标和分布式追踪的可观察性平台。\n• 自动化这些可观察性系统的部署和操作。\n• 为现代 AI/HPC 集群设置监控。\n• 开发平台软件，使可观察性更易于采用，并提高 Lambda 工程的系统可靠性。\n• 领导其他工程团队的成员设计和开发他们的监控挑战的解决方案。\n\n您\n• 具有 8 年以上的软件工程经验，其中 3 年以上使用 Go。\n• 具有 5 年以上的站点可靠性工程实践经验。\n• 具备对可观察性工具和实践的深入理解。\n• 具有使用 Kubernetes 进行应用程序部署和监控的经验。\n• 具有构建 CI/CD 管道的经验。\n• 对您构建的解决方案期望质量和可靠性。\n• 喜欢跨团队协作，帮助我们的工程团队满足他们的可观察性需求。\n\n附加加分项\n• 监控 AI 系统或 HPC 集群的经验。\n• 具有使用 Prometheus 和编写 PromQL 查询的经验。\n• 具有使用 NATS 等消息系统的经验。\n• 理解 OpenTelemetry 生态系统，并具备 OTel 仪器化和 OTel 收集器的经验。\n• 具有网络监控、以太网和 Infiniband 的经验。\n• 理解仪表板设计原则。\n• 对 Linux 基础知识和系统管理有深入理解。\n• 具有使用 Ansible 和 Terraform 等基础设施自动化工具的经验。\n\n薪资范围信息\n根据市场数据和其他因素，此职位的年薪范围为 $267K-$401K。然而，对于资格与职位描述中列出的要求有显著差异的候选人，可能会适当提供高于或低于此范围的薪资。\n\n关于 Lambda\n• 成立于 2012 年，员工约 350 人（2024 年），并且快速增长。\n• 我们提供慷慨的现金和股权补偿。\n• 我们的投资者包括 Andra Capital、SGW、Andrej Karpathy、ARK Invest、Fincadia Advisors、G Squared、In-Q-Tel (IQT)、KHK & Partners、NVIDIA、Pegatron、Supermicro、Wistron、Wiwynn、US Innovative Technology、Gradient Ventures、Mercato Partners、SVB、1517、Crescent Cove。\n• 我们的系统需求极高，季度和年度盈利能力持续增长。\n• 我们的研究论文已被顶级机器学习和图形会议接受，包括 NeurIPS、ICCV、SIGGRAPH 和 TOG。\n• 为您和您的家属提供健康、牙科和视力保险。\n• 为特定角色提供健康和通勤津贴。\n• 401k 计划，提供 2% 的公司匹配（美国员工）。\n• 灵活的带薪休假计划，我们都实际使用。\n\n最后说明：\n您不需要满足所有列出的期望即可申请此职位。我们致力于建立一个拥有多样背景、经验和技能的团队。\n\n平等机会雇主\nLambda 是一个平等机会雇主。申请者不会因种族、肤色、宗教、信仰、国籍、年龄、性别、性别、婚姻状况、性取向和身份、遗传信息、退伍军人身份、公民身份或任何其他地方、州或联邦法律禁止的因素而受到歧视。

SRE - 可观察性（高级）旧金山办公室

Lambda