员工工程师,分布式存储与高性能计算及人工智能基础设施

旧金山 22天前全职 网络
113.6万 - 184.6万 / 年
关于该角色 在此角色中,您将设计并交付专为全球最大人工智能训练和推理工作负载而构建的多PB存储系统。您将架构高性能并行文件系统和对象存储,评估并整合前沿技术,如WekaFS、Ceph和Lustre,并推动激进的成本优化,定期通过智能分层、生命周期政策、容量预测和合理配置实现30-50%的节省。 您还将构建Kubernetes原生存储操作符和自助服务平台,提供自动化配置、严格的多租户隔离、性能隔离以及集群规模的配额执行。在日常工作中,您将优化每个节点10-50 GB/s的端到端数据路径,设计多层缓存架构,实现智能预取和模型权重分配,并为人工智能工作负载调优并行文件系统。 职责 • 设计多PB的AI/ML存储系统;整合WekaFS、Ceph等;领导容量规划和成本优化(通过分层、生命周期政策、合理配置实现30-50%的节省)。 • 设计/优化RDMA、InfiniBand、400GbE网络;调优以实现最大吞吐量/最小延迟;实施NVMe-oF/iSCSI;排除瓶颈;优化存储的TCP/IP。 • 构建Kubernetes存储操作符/控制器;启用自动化配置、自助服务抽象、多租户隔离、配额;创建可重用的Helm/Terraform模式。 • 为每个GPU节点交付10-50 GB/s;优化缓存(权重/数据集/检查点)、并行文件系统和数据路径;使用分析工具进行故障排除;扩展到数千个节点。 • 构建多层缓存(本地NVMe、分布式、对象);优化数据局部性和模型权重分配;实施智能预取/驱逐。 • 实施监控、警报、SLO;设计灾难恢复/备份与运行手册;进行混沌工程;通过主动/自动化补救确保99.9%+的正常运行时间。 • 与ML/SRE团队合作;指导存储最佳实践;贡献开源;撰写文档、事后分析和公共学习。 要求 • 8年以上存储工程经验,3年以上管理多PB规模分布式存储的经验 • 在GPU/HPC集群中部署和操作高性能存储的成功记录 • 在生产环境中具有深厚的Kubernetes和云原生存储经验 • 精通Go和Python的编码技能,能够构建生产级工具 • 计算机科学、工程学或同等实践经验的学士/硕士学位 • 在技术领导方面有历史:设计显著提高性能(>3倍)、可靠性(99.9%+正常运行时间)或成本效率的系统 • 分布式存储系统:在多PB规模的WekaFS、Lustre、GPFS、BeeGFS或类似并行文件系统方面有深厚的专业知识 • 对象存储:在S3、MinIO、Ceph或R2方面具有生产经验,包括性能优化和成本管理 • Kubernetes存储:CSI驱动程序、StatefulSets、PersistentVolumes、存储操作符和自定义控制器 • 针对GPU工作负载的存储优化、RDMA/InfiniBand网络、并行文件系统优化(100+ GB/s集群总吞吐量) • 编程:使用Go和Python进行自动化、操作符和工具开发 • 基础设施即代码:Terraform、Ansible、Helm、GitOps(ArgoCD) • Linux存储栈:对文件系统(ext4、xfs)、LVM、NVMe优化、RAID配置有高级知识 • 可观察性:Prometheus、Grafana、Thanos架构和操作 优先考虑的技能 • GPU直接存储(GDS)、NVMe-oF、存储网络(100GbE/400GbE) • ML/AI存储模式(模型权重、检查点、数据集缓存) • Kubernetes操作符开发(controller-runtime、kubebuilder) • 存储快照、克隆和精简配置 • 备份和灾难恢复(Velero、Restic、跨区域复制) • 存储加密(静态和传输中)、安全性和合规性 • 存储基准测试和分析工具(fio、iperf3、iostat、blktrace) 关于Together AI Together AI是一家以研究为驱动的人工智能公司。我们相信开放和透明的人工智能系统将推动创新并为社会创造最佳结果,我们的使命是通过共同设计软件、硬件、算法和模型,显著降低现代人工智能系统的成本。我们为推动人工智能前沿做出了贡献,包括领先的开源研究、模型和数据集,我们的团队在FlashAttention、Hyena、FlexGen和RedPajama等技术进步中发挥了重要作用。我们邀请您加入我们热情的研究团队,共同建设下一代人工智能基础设施。 薪酬 我们提供具有竞争力的薪酬、初创公司股权、健康保险和其他福利,以及远程工作的灵活性。该全职职位在美国的基本工资范围为:160,000美元 - 260,000美元 + 股权 + 福利。我们的薪资范围由地点、级别和角色决定。个人薪酬将根据经验、技能和与工作相关的知识确定。 平等机会 Together AI是一个平等机会的雇主,骄傲地为每个人提供平等的就业机会,无论种族、肤色、血统、宗教、性别、国籍、性取向、年龄、公民身份、婚姻状况、残疾、性别认同、退伍军人身份等。 请查看我们的隐私政策: https://www.together.ai/privacy