Lambda 是 面向 ML/AI 团队 训练、微调 和 推理 AI 模型 的第一大 GPU 云,工程师可以轻松、安全、经济地大规模构建、测试 和 部署 AI 产品。Lambda 的产品组合包括 本地 GPU 系统、公共和私有云中的托管 GPU 以及管理推理服务,服务于全球的政府、研究人员、初创企业和大型企业。
如果您希望构建世界上最好的深度学习云,请加入我们。
• 注意:该职位要求每周在旧金山办公室工作 4 天;Lambda 目前指定的远程工作日是星期二。
Lambda 的工程团队负责构建和扩展我们的云服务。我们的工作范围包括 Lambda 网站、云 API 和系统,以及用于系统部署、管理和维护的内部工具。
大多数人都知道 AI 革命是由数据驱动的,但大多数人不知道这些数据是托管在以 PB 为单位的大型高性能存储阵列上。在 Lambda,基础设施存储团队的工作是确保为 AI 提供动力的数据快速、高效并且可用。
存储团队是一个多学科的团队,包含存储工程师、软件工程师和 SRE。这个紧密团结的团队都热衷于为我们的客户提供一流的存储解决方案。作为一个产品和运营团队,我们紧密合作,加速开发、部署,最重要的是,构建弹性的存储产品。
我们正在寻找 Ceph 领域的专家来支持我们最新的存储计划。从对象存储开始,Ceph 将成为我们下一代差异化存储解决方案的支柱。理想的候选人将培训现有的存储工程师,提供有关关键 Ceph 决策的建议,并推动战略 Ceph 计划。
您将做的工作:
• 设计、部署和维护高可用的 40PB+ Ceph 集群
• 执行集群升级、扩展和性能优化
• 配置和优化 RBD、CephFS 和 RadosGW 服务
• 监控集群健康、性能指标和容量利用率
• 开发容量规划模型和增长预测
• 培训其他人使用 Ceph
您具备的条件:
• 计算机科学、工程或相关经验的学士学位
• 5 年以上存储工程或分布式系统的经验
• 5 年以上 Ceph 管理和故障排除的实践经验
• 对存储协议(NFS、iSCSI、S3、Swift)的深入理解
• 精通 Linux 系统管理和存储子系统
• 具备存储硬件(SSD、HDD、NVMe)和网络技术的经验
• 了解监控工具(Prometheus、Grafana、Nagios)和日志分析
• 理解数据保护概念、备份策略和灾难恢复
加分项:
• Ceph 认证专业人员或同等认证
• 具备其他分布式存储系统(GlusterFS、HDFS、MinIO)的经验
• 具备公共云存储服务(AWS S3、Azure Blob、GCP)的经验
• 熟悉存储基准测试工具(fio、rados bench、COSBench)
• 有 Go 编程经验者优先
• 具备配置管理工具(Ansible、Puppet、Chef)的经验
• 理解网络协议和存储网络(RDMA、iSER)
薪资范围信息:
根据市场数据和其他因素,该职位的年薪范围为 380,000 美元至 460,000 美元。不过,对于资格与职位描述中列出的要求有显著差异的候选人,薪资可能会高于或低于该范围。
关于 Lambda:
• 成立于 2012 年,员工约 350 人(2024 年)并快速增长
• 我们提供丰厚的现金和股权补偿
• 我们的投资者包括 Andra Capital、SGW、Andrej Karpathy、ARK Invest、Fincadia Advisors、G Squared、In-Q-Tel(IQT)、KHK & Partners、NVIDIA、Pegatron、Supermicro、Wistron、Wiwynn、US Innovative Technology、Gradient Ventures、Mercato Partners、SVB、1517、Crescent Cove。
• 我们的系统需求极高,季度和年度盈利能力持续增长
• 我们的研究论文已被顶级机器学习和图形会议接受,包括 NeurIPS、ICCV、SIGGRAPH 和 TOG
• 为您和您的家属提供健康、牙科和视力保险
• 为特定职位提供健康和通勤津贴
• 提供 401k 计划,企业匹配 2%(美国员工)
• 灵活的带薪休假计划,我们都真正使用
最后的说明:
您不必完全符合所有列出的期望才能申请该职位。我们致力于建立一个具有多样背景、经验和技能的团队。
平等机会雇主:
Lambda 是一个平等机会的雇主。申请人不分种族、肤色、宗教、信仰、国籍、年龄、性别、性别、婚姻状况、性取向和身份、遗传信息、退伍军人身份、公民身份或任何其他地方、州或联邦法律禁止的因素。
薪资范围:$380K - $460K