Crusoe 的使命是加速能源和智能的丰富性。我们正在打造一个引擎,推动一个人们可以在不牺牲规模、速度或可持续性的情况下,雄心勃勃地与 AI 创造的世界。
成为 Crusoe 可持续技术 AI 革命的一部分。在这里,您将推动有意义的创新,产生实质性的影响,并加入一个为负责任、变革性云基础设施设定步伐的团队。
关于这个角色:
在 Crusoe Energy Systems,我们的 SRE 团队在维护 AI 优化云基础设施的性能和可靠性方面扮演着至关重要的角色。专注于存储的站点可靠性工程师角色负责确保 Crusoe 云存储产品和服务的可用性、性能和可扩展性,这些产品和服务为 AI 和 HPC 用例提供计算密集型、延迟敏感的工作负载。此角色通过构建和优化大规模的分布式容错存储系统,直接支持我们垂直整合的可持续云平台。
您将从事的工作:
在这个角色中,您将构建自动化和自愈工具,以监控和维护 Crusoe 的分布式云存储基础设施,包括块存储、文件存储和对象存储系统。您将推动专注于数据复制、加密、备份和恢复策略以及强大故障转移机制的可靠性倡议。您将与存储工程师密切合作,帮助实施和维护支持大规模 AI 计算集群的高性能 NVMe 和 SSD 支持的卷。您的职责还包括支持面向用户的存储服务,重点关注可用性、性能调优和遵守错误预算。您将使用深度遥测、日志和性能分析调查和解决与存储相关的事件,同时与硬件和内核团队合作,诊断低级 I/O 问题并优化 I/O 路径、缓存策略和文件系统。此外,您将为针对 AI 优先云环境量身定制的容错、可扩展存储后端的架构做出贡献。
您将为团队带来的:
• 8 年以上存储 SRE、系统工程、存储工程或类似角色的专业经验
• 具备分布式存储系统(如 Ceph、GlusterFS、OpenEBS)的实践经验,并深入理解对象、块和文件存储范式。
• 精通 Go、Python、Java 或 C 等编程语言。
• 具备基础设施即代码和部署工具(如 Terraform、Ansible 或 Puppet)的经验。
• 深入了解 Linux 内部,重点关注 I/O 子系统、内存管理和存储调度。
• 熟悉 NFS、SMB、iSCSI 或 NVMe-oF 等存储协议。
• 在处理容器化工作负载和编排平台(如 Kubernetes、Docker)方面有丰富经验。
• 出色的事件响应、故障排除和文档实践。
• 具备大规模构建和操作托管服务(如对象、文件和块存储(AWS、GCP、Azure))的经验
• 出色的沟通技巧
• 必须能够通过背景调查
• 体现公司的价值观
福利:
• 行业内具有竞争力的薪酬
• 快速增长、资金充足的科技公司的限制性股票单位
• 包含 HDHP 和 PPO 的健康保险套餐选项,以及您和您的家属的视力和牙科保险
• 雇主对 HSA 账户的贡献
• 带薪父母假
• 带薪人寿保险、短期和长期残疾保险
• Teladoc
• 401(k) 计划,薪资的 4% 100% 匹配
• 慷慨的带薪休假和假期安排
• 手机报销
• 学费报销
• Calm 应用的订阅
• MetLife 法律服务
• 公司支付的通勤福利;每月 $300
薪酬范围:
薪酬将在每年 $204,000 - $247,000 的范围内支付 + 奖金。所有报价中均包含限制性股票单位。薪酬将根据申请人的教育、经验、知识、技能和能力以及内部公平性和市场数据的一致性来确定。
Crusoe 是一个平等机会雇主。就业决策不考虑种族、肤色、宗教、残疾、遗传信息、怀孕、公民身份、婚姻状况、性别/性别、性取向/方向、性别认同、年龄、退伍军人身份、国籍或法律或法规保护的任何其他身份。