关于这个角色我们正在寻找一位高技能的资深站点可靠性工程师（SRE）/ 高性能计算（HPC）工程师，负责设计、构建和运营一家价值25亿美元的IPO前科技公司的大规模基础设施。我们的系统运行在庞大的分布式集群上，处理云计算、人工智能和数据驱动计算中一些最具挑战性的工作负载。在这个角色中，您将负责确保关键平台的可靠性、可扩展性和性能。您将优化HPC工作负载，简化大规模集群的CI/CD，帮助研究和产品团队快速自信地交付创新。这是一个动手实践的职位，您将有机会影响架构，领导可靠性倡议，并解决分布式系统和性能工程中最棘手的问题。您将做什么 • 设计可靠的基础设施：架构和维护大规模的分布式HPC和云原生系统，重点关注正常运行时间、可扩展性和弹性。 • 优化HPC工作负载：为计算和内存密集型工作负载（AI/ML、模拟、大规模分析）调整调度、作业编排和性能。 • 构建可观察性：实施监控、日志记录和警报系统，以提供对集群和服务健康的全面可见性。 • 自动化一切：开发工具和自动化，以实现关键系统的配置、扩展和恢复。 • 确保安全与合规：在HPC和云环境中实施访问控制、加密和治理的最佳实践。 • 跨职能协作：与工程、研究和产品团队合作，为下一代应用程序提供可靠的基础设施。 • 事件响应：领导高严重性事件的故障排除、根本原因分析和事后分析。我们在寻找什么 • 专业经验：在SRE、基础设施工程或HPC角色中拥有7年以上的经验，并有支持大规模分布式系统的成功记录。 • 技术技能：精通Linux系统、Python或Go，以及基础设施即代码（Terraform、Ansible或类似工具）。 • HPC专业知识：对作业调度器（Slurm、Kubernetes或Mesos）、工作负载管理器和并行/分布式计算有深入了解。 • 云与混合：在AWS、GCP或Azure与本地HPC集群结合使用方面有实际经验。 • 可观察性：熟练使用监控和日志记录框架（Prometheus、Grafana、ELK、OpenTelemetry）。 • 弹性工程：具有混沌工程、故障测试和灾难恢复规划的经验。 • 协作：良好的沟通能力，能够与研究科学家、工程师和运营团队合作。 • 教育：计算机科学、工程或相关领域的学士或硕士学位。为什么加入这是一个加入一家价值25亿美元的IPO前科技领军者的机会，正值快速增长和创新的时期。作为资深SRE / HPC工程师，您将塑造推动下一代人工智能、分析和大规模计算的基础设施。您将解决一些最复杂的可靠性和性能挑战，与世界级团队合作，并在为公司准备IPO及其后续发展中发挥关键作用。规模庞大，挑战独特，您的影响将是立竿见影的。关于Andiamo AI革命的人才合作伙伴。作为一家全球公认的招聘和咨询公司，我们专注于将前2%的科技和市场专业人士与世界上最大和最知名的公司匹配。 20多年来，我们一直保持着作为Palantir、Amazon、Fluidstack、Bloomberg、Relativity Space、Firefly、MasterCard、Visa、Two Sigma、Citadel以及其他主要金融服务公司、精英对冲基金、谷歌支持的科技初创公司和大型软件公司的一级供应商的地位。我们的招聘解决方案包括永久职位安置、合同人员配备、高管搜索和专门招聘服务（RPO）。了解更多信息，请访问www.andiamogo.com

资深站点可靠性工程师 / 高性能计算 - IPO前科技领军者

Andiamo