SRE - 可观测性 (高级)

3个月前全职
191.4万 - 287.5万 / 年 Lambda

Lambda

location 旧金山
unsaved
Lambda 是 机器学习/人工智能 团队训练、微调和推理 AI 模型的第一 GPU 云,工程师可以轻松、安全且经济地大规模构建、测试和部署 AI 产品。Lambda 的产品组合包括本地 GPU 系统、公共和私人云中的托管 GPU 以及托管推理服务,服务于全球的政府、研究人员、初创公司和企业。 如果您想要构建世界上最好的深度学习云,请加入我们。 • 注意:此职位要求每周在我们位于旧金山的办公室工作 4 天;Lambda 当前指定的居家办公日为周二。 Lambda 的工程团队负责构建和扩展我们的云服务。我们的工作范围包括 Lambda 网站、云 API 和系统,以及系统部署、管理和维护的内部工具。 您将要做的事情 • 部署和操作用于日志记录、指标和分布式追踪的可观测性平台。 • 自动化这些可观测性系统的部署和操作。 • 为现代 AI/HPC 集群设置监控。 • 开发平台软件以使可观测性可被采用,并提高 Lambda 工程的系统可靠性。 • 带领其他工程团队的成员设计和开发解决他们监控挑战的方案。 您 • 拥有 8 年以上的软件工程经验,3 年以上的 Go 语言经验 • 拥有 5 年以上的网站可靠性工程实践经验 • 具备对可观测性工具和实践的深刻理解 • 具有使用 Kubernetes 进行应用程序部署和监控的经验 • 具备构建 CI/CD 管道的经验 • 对您构建的解决方案期望质量和可靠性 • 喜欢跨团队合作,帮助我们的工程团队满足他们的可观测性需求。 加分项 • 具有监控 AI 系统或 HPC 集群的经验 • 具有使用 Prometheus 和编写 PromQL 查询的经验 • 具有使用 NATS 等消息系统的经验 • 理解 OpenTelemetry 生态系统,并具有 OTel 仪器和 OTel 收集器的经验 • 具有网络监控、以太网和 Infiniband 的经验 • 理解仪表盘设计原则 • 对 Linux 基础知识和系统管理有强烈理解。 • 具有 Ansible 和 Terraform 等基础设施自动化工具的经验 薪资范围信息 根据市场数据和其他因素,此职位的年薪范围为 267K 美元至 401K 美元。然而,对于资格与职位描述中列出的要求有显著不同的候选人,可能会适合更高或更低的薪资。 关于 Lambda • 成立于 2012 年,约 350 名员工(2024 年)并快速增长 • 我们提供丰厚的现金和股权补偿 • 我们的投资者包括 Andra Capital、SGW、Andrej Karpathy、ARK Invest、Fincadia Advisors、G Squared、In-Q-Tel (IQT)、KHK & Partners、NVIDIA、Pegatron、Supermicro、Wistron、Wiwynn、美国创新科技、Gradient Ventures、Mercato Partners、SVB、1517、Crescent Cove。 • 我们的系统需求极高,季度和年度盈利不断增长 • 我们的研究论文已被顶级机器学习和图形会议接受,包括 NeurIPS、ICCV、SIGGRAPH 和 TOG • 为您和您的家属提供健康、牙科和视力保险 • 为特定角色提供健康和通勤津贴 • 401k 计划,提供 2% 的公司匹配(美国员工) • 灵活的带薪休假计划,我们都实际使用 最后一点: 您不需要满足所有列出的期望即可申请此职位。我们致力于建立一个背景、经验和技能多样化的团队。 平等机会雇主 Lambda 是一个平等机会雇主。申请者不受种族、肤色、宗教、信仰、国籍、年龄、性别、性别、婚姻状况、性取向和身份、遗传信息、退伍军人身份、公民身份或任何其他地方、州或联邦法律禁止的因素的影响。 薪资范围:267K - 401K