Crusoe 的使命是加速能源和智能的丰富性。我们正在打造一个引擎，推动一个人们可以在不牺牲规模、速度或可持续性的情况下，雄心勃勃地与 AI 创造的世界。成为 Crusoe 可持续技术 AI 革命的一部分。在这里，您将推动有意义的创新，产生实质性的影响，并加入一个为负责任、变革性云基础设施设定步伐的团队。关于这个角色：在 Crusoe Energy Systems，我们的 SRE 团队在维护 AI 优化云基础设施的性能和可靠性方面扮演着至关重要的角色。专注于存储的站点可靠性工程师角色负责确保 Crusoe 云存储产品和服务的可用性、性能和可扩展性，这些产品和服务为 AI 和 HPC 用例提供计算密集型、延迟敏感的工作负载。此角色通过构建和优化大规模的分布式容错存储系统，直接支持我们垂直整合的可持续云平台。您将从事的工作：在这个角色中，您将构建自动化和自愈工具，以监控和维护 Crusoe 的分布式云存储基础设施，包括块存储、文件存储和对象存储系统。您将推动专注于数据复制、加密、备份和恢复策略以及强大故障转移机制的可靠性倡议。您将与存储工程师密切合作，帮助实施和维护支持大规模 AI 计算集群的高性能 NVMe 和 SSD 支持的卷。您的职责还包括支持面向用户的存储服务，重点关注可用性、性能调优和遵守错误预算。您将使用深度遥测、日志和性能分析调查和解决与存储相关的事件，同时与硬件和内核团队合作，诊断低级 I/O 问题并优化 I/O 路径、缓存策略和文件系统。此外，您将为针对 AI 优先云环境量身定制的容错、可扩展存储后端的架构做出贡献。您将为团队带来的： • 8 年以上存储 SRE、系统工程、存储工程或类似角色的专业经验 • 具备分布式存储系统（如 Ceph、GlusterFS、OpenEBS）的实践经验，并深入理解对象、块和文件存储范式。 • 精通 Go、Python、Java 或 C 等编程语言。 • 具备基础设施即代码和部署工具（如 Terraform、Ansible 或 Puppet）的经验。 • 深入了解 Linux 内部，重点关注 I/O 子系统、内存管理和存储调度。 • 熟悉 NFS、SMB、iSCSI 或 NVMe-oF 等存储协议。 • 在处理容器化工作负载和编排平台（如 Kubernetes、Docker）方面有丰富经验。 • 出色的事件响应、故障排除和文档实践。 • 具备大规模构建和操作托管服务（如对象、文件和块存储（AWS、GCP、Azure））的经验 • 出色的沟通技巧 • 必须能够通过背景调查 • 体现公司的价值观福利： • 行业内具有竞争力的薪酬 • 快速增长、资金充足的科技公司的限制性股票单位 • 包含 HDHP 和 PPO 的健康保险套餐选项，以及您和您的家属的视力和牙科保险 • 雇主对 HSA 账户的贡献 • 带薪父母假 • 带薪人寿保险、短期和长期残疾保险 • Teladoc • 401(k) 计划，薪资的 4% 100% 匹配 • 慷慨的带薪休假和假期安排 • 手机报销 • 学费报销 • Calm 应用的订阅 • MetLife 法律服务 • 公司支付的通勤福利；每月 $300 薪酬范围：薪酬将在每年 $204,000 - $247,000 的范围内支付 + 奖金。所有报价中均包含限制性股票单位。薪酬将根据申请人的教育、经验、知识、技能和能力以及内部公平性和市场数据的一致性来确定。 Crusoe 是一个平等机会雇主。就业决策不考虑种族、肤色、宗教、残疾、遗传信息、怀孕、公民身份、婚姻状况、性别/性别、性取向/方向、性别认同、年龄、退伍军人身份、国籍或法律或法规保护的任何其他身份。

员工站点可靠性工程师，存储

Crusoe