员工站点可靠性工程师,存储

圣弗朗西斯科 18天前全职 网络
面议
克鲁索的使命是加速能源和智能的丰富。我们正在打造一个引擎,推动一个人们可以雄心勃勃地使用人工智能创造的世界——无需牺牲规模、速度或可持续性。 在克鲁索,加入可持续技术的人工智能革命。在这里,您将推动有意义的创新,产生切实的影响,并加入一个为负责任、变革性的云基础设施设定步伐的团队。 关于这个角色: 在 Crusoe Energy Systems,我们的 SRE 团队在维护我们 AI 优化云基础设施的性能和可靠性方面发挥着至关重要的作用。专注于存储的站点可靠性工程师角色负责确保克鲁索云存储产品和服务的可用性、性能和可扩展性,这些产品和服务为 AI 和 HPC 用例的计算密集型、延迟敏感型工作负载提供支持。通过构建和优化大规模分布式、容错存储系统,该角色直接支持我们垂直整合的可持续云平台。 您将从事的工作: 在这个角色中,您将构建自动化和自愈工具来监控和维护克鲁索的分布式云存储基础设施,其中包括块、文件和对象存储系统。您将推动以数据复制、加密、备份和恢复策略以及强大的故障转移机制为重点的可靠性计划。与存储工程师密切合作,您将帮助实施和维护支持大规模 AI 计算集群的高性能 NVMe 和 SSD 支持的卷。您的职责还包括支持面向用户的存储服务,重点是可用性、性能调优和遵守错误预算。您将使用深度遥测、日志和性能分析调查和解决与存储相关的事件,同时还将与硬件和内核团队合作,诊断低级 I/O 问题并优化 I/O 路径、缓存策略和文件系统。此外,您还将为专为 AI 优先云环境量身定制的容错、可扩展存储后端的架构做出贡献。 您将为团队带来什么: 8 年以上存储 SRE、系统工程、存储工程或类似角色的专业经验 具有分布式存储系统(例如,Ceph、GlusterFS、OpenEBS)的实践经验,并深入了解对象、块和文件存储范式。 熟练掌握 Go、Python、Java 或 C 等编程语言。 具有基础设施即代码和部署工具(如 Terraform、Ansible 或 Puppet)的经验。 深入了解 Linux 内部,重点关注 I/O 子系统、内存管理和存储调度。 熟悉 NFS、SMB、iSCSI 或 NVMe-oF 等存储协议。 具有使用容器化工作负载和编排平台(例如 Kubernetes、Docker)的丰富经验。 优秀的事件响应、故障排除和文档编写实践。 具有大规模构建和运营托管服务(如对象、文件和块存储(AWS、GCP、Azure))的经验 优秀的沟通能力 必须能够通过背景调查 体现公司价值观 福利: 行业竞争力薪酬 快速成长、资金充足的科技公司的限制性股票单位 包括 HDHP 和 PPO、视力和牙科保险的健康保险套餐选项,适用于您和您的家属 雇主对 HSA 账户的供款 带薪育儿假 带薪人寿保险、短期和长期残疾保险 Teladoc 401(k) 计划,100% 匹配高达工资的 4% 慷慨的带薪休假和假期安排 手机报销 学费报销 Calm 应用程序订阅 MetLife 法律服务 公司支付的通勤福利;每月 300 美元 薪酬范围: 薪酬将在每年 204,000 美元至 247,000 美元的范围内支付 + 奖金。所有报价中均包含限制性股票单位。薪酬将根据申请人的教育、经验、知识、技能和能力,以及内部公平性和与市场数据的对齐情况确定。 克鲁索是一个机会均等的雇主。就业决定不考虑种族、肤色、宗教、残疾、遗传信息、怀孕、公民身份、婚姻状况、性别、性取向/性向、性别认同、年龄、退伍军人身份、国籍或法律或法规保护的任何其他身份。