SRE - 可观察性(高级)旧金山办公室

3个月前全职
191.5万 - 287.6万 / 年 Lambda

Lambda

location 旧金山
unsaved
Lambda 是 #1 的 GPU 云平台,专为机器学习/人工智能团队进行训练、微调和推理 AI 模型而设计,工程师可以轻松、安全且经济地构建、测试和大规模部署 AI 产品。Lambda 的产品组合包括本地 GPU 系统、公共和私有云中的托管 GPU 以及管理推理服务,服务于全球的政府、研究人员、初创公司和企业。\n\n如果您想构建世界上最好的深度学习云,请加入我们。\n• 注意:此职位要求每周在旧金山办公室工作 4 天;Lambda 当前指定的居家办公日为星期二。\n\nLambda 的工程团队负责构建和扩展我们的云产品。我们的工作范围包括 Lambda 网站、云 API 和系统,以及用于系统部署、管理和维护的内部工具。\n\n您将做什么\n• 部署和操作用于日志记录、指标和分布式追踪的可观察性平台。\n• 自动化这些可观察性系统的部署和操作。\n• 为现代 AI/HPC 集群设置监控。\n• 开发平台软件,使可观察性更易于采用,并提高 Lambda 工程的系统可靠性。\n• 领导其他工程团队的成员设计和开发他们的监控挑战的解决方案。\n\n您\n• 具有 8 年以上的软件工程经验,其中 3 年以上使用 Go。\n• 具有 5 年以上的站点可靠性工程实践经验。\n• 具备对可观察性工具和实践的深入理解。\n• 具有使用 Kubernetes 进行应用程序部署和监控的经验。\n• 具有构建 CI/CD 管道的经验。\n• 对您构建的解决方案期望质量和可靠性。\n• 喜欢跨团队协作,帮助我们的工程团队满足他们的可观察性需求。\n\n附加加分项\n• 监控 AI 系统或 HPC 集群的经验。\n• 具有使用 Prometheus 和编写 PromQL 查询的经验。\n• 具有使用 NATS 等消息系统的经验。\n• 理解 OpenTelemetry 生态系统,并具备 OTel 仪器化和 OTel 收集器的经验。\n• 具有网络监控、以太网和 Infiniband 的经验。\n• 理解仪表板设计原则。\n• 对 Linux 基础知识和系统管理有深入理解。\n• 具有使用 Ansible 和 Terraform 等基础设施自动化工具的经验。\n\n薪资范围信息\n根据市场数据和其他因素,此职位的年薪范围为 $267K-$401K。然而,对于资格与职位描述中列出的要求有显著差异的候选人,可能会适当提供高于或低于此范围的薪资。\n\n关于 Lambda\n• 成立于 2012 年,员工约 350 人(2024 年),并且快速增长。\n• 我们提供慷慨的现金和股权补偿。\n• 我们的投资者包括 Andra Capital、SGW、Andrej Karpathy、ARK Invest、Fincadia Advisors、G Squared、In-Q-Tel (IQT)、KHK & Partners、NVIDIA、Pegatron、Supermicro、Wistron、Wiwynn、US Innovative Technology、Gradient Ventures、Mercato Partners、SVB、1517、Crescent Cove。\n• 我们的系统需求极高,季度和年度盈利能力持续增长。\n• 我们的研究论文已被顶级机器学习和图形会议接受,包括 NeurIPS、ICCV、SIGGRAPH 和 TOG。\n• 为您和您的家属提供健康、牙科和视力保险。\n• 为特定角色提供健康和通勤津贴。\n• 401k 计划,提供 2% 的公司匹配(美国员工)。\n• 灵活的带薪休假计划,我们都实际使用。\n\n最后说明:\n您不需要满足所有列出的期望即可申请此职位。我们致力于建立一个拥有多样背景、经验和技能的团队。\n\n平等机会雇主\nLambda 是一个平等机会雇主。申请者不会因种族、肤色、宗教、信仰、国籍、年龄、性别、性别、婚姻状况、性取向和身份、遗传信息、退伍军人身份、公民身份或任何其他地方、州或联邦法律禁止的因素而受到歧视。