Moonlite为从事密集计算研究、大规模模型训练和苛刻数据处理工作负载的组织提供高性能AI基础设施。我们提供部署在我们设施中的基础设施，或与您的设施共同定位，提供灵活的按需或预留计算，感觉就像是您现有数据中心的扩展。我们的AI基础设施专家团队将裸金属性能与云原生操作简单性相结合，使研究团队和企业能够以企业级可靠性和合规性部署苛刻的AI工作负载。您的角色：您将在构建和运营生产级AI基础设施中发挥重要作用，其核心是深厚的Kubernetes专业知识。与我们的系统工程师、网络工程师和平台工程团队密切合作，您将设计和运营支持我们的控制平面并在大规模上协调计算、存储和网络的Kubernetes基础设施。该角色需要对Kubernetes内部机制、定制资源定义（CRDs）、存储和网络集成以及从头构建生产级集群（不仅仅是在托管环境中部署）有深刻理解。您将确保企业级可靠性，同时建立自动化、可观察性和操作实践。工作职责 • Kubernetes基础设施工程：设计、构建和运营基于裸金属基础设施的生产Kubernetes集群——包括集群引导、控制平面架构、etcd管理和高性能计算工作负载的扩展策略。 • Kubernetes网络和CNI：实施和操作使用SR-IOV的定制Kubernetes网络解决方案，以实现高性能GPU互连、多租户隔离和高级网络策略。为研究工作负载配置CNI插件和网络分段。 • 定制操作员和控制器：开发和维护用于裸金属供应、基础设施生命周期管理以及跨计算、存储和网络领域资源编排的定制Kubernetes操作员和控制器。 • GPU基础设施集成：部署和优化NVIDIA GPU操作员、设备插件和其他定制调度逻辑，以优化GPU工作负载的放置和利用。 • 平台集成和存储：在Kubernetes和底层基础设施之间构建深度集成，包括用于存储的CSI驱动程序、用于策略执行的定制准入控制器以及用于专用硬件放置的调度扩展。 • 基础设施自动化：使用Terraform、Ansible、Helm和定制操作员设计和实施自动化，以协调基础设施工作流程并实现跨多个区域的部署。 • 生产运营和可靠性：管理跨多个区域的生产裸金属基础设施。构建确保高可用性、容错性和优雅降级的系统——建立SLIs、SLOs和监控以满足企业可靠性承诺。 • 可观察性和事件响应：使用Prometheus、Grafana和ELK堆栈构建全面的监控、日志记录和警报。领导事件响应，进行事后分析，并实施预防措施以提高可靠性和减少MTTR。 • 性能和容量规划：识别和解决基础设施领域的性能瓶颈。监控利用趋势，预测容量需求，并优化各种工作负载的资源分配。要求 • 经验：在SRE、DevOps或基础设施工程角色中有5年以上经验，并具有大规模运营生产基础设施的验证经验。 • Kubernetes基础设施专业知识：具有在裸金属基础设施上构建和运营生产Kubernetes集群的深厚实践经验——不仅仅是在托管集群中部署工作负载。必须了解集群引导、控制平面架构、etcd操作和扩展策略。 • Kubernetes内部和集成：对Kubernetes内部机制有深入了解，包括定制资源定义（CRDs）、操作员、控制器、准入webhooks和调度。具有将存储（CSI驱动程序）、网络（CNI、SR-IOV）和专用硬件（GPU设备插件）与Kubernetes集成的经验。 • Linux系统经验：在Linux系统管理、性能调优、故障排除和生产环境自动化方面具有扎实的基础。 • 基础设施自动化：熟练使用基础设施即代码工具（Terraform、Ansible、Helm）并构建自动化以减少操作开销。 • 网络基础知识：对网络概念有扎实的理解，包括IPAM、DNS、DHCP、VLAN/VXLAN、路由、负载均衡，并具有在生产中解决网络问题的经验。 • 可观察性和监控：具有使用Prometheus、Grafana和集中日志系统构建和维护全面监控解决方案的经验。 • 可靠性实践：理解SRE原则，包括SLIs/SLOs/SLAs、错误预算、事件管理和无责事后分析。 • 脚本编写和自动化：具有使用Go、Python或Bash进行自动化、工具开发和操作效率的强大脚本编写技能。 • 压力下的问题解决：表现出在压力下解决复杂问题、有效管理事件并在中断期间清晰沟通的能力。 • 协作和沟通：具有优秀的沟通技能，并能够与系统工程师、网络工程师和软件开发人员跨团队合作。优先资格 • 具有为基础设施编排构建定制Kubernetes操作员或控制器的经验 • 深入了解Kubernetes网络（Calico、Cilium、Multus）、服务网格技术和网络策略管理 • 具有GPU工作负载编排的经验，包括NVIDIA GPU操作员、MIG、时间切片和设备插件 • 具有高级Kubernetes功能的背景，包括定制调度器、准入控制器和API服务器扩展 • 具有Kubernetes集群联邦或多集群管理的经验 • 了解高性能网络技术（InfiniBand、RDMA、RoCE）及其与Kubernetes的集成 • 具有企业存储系统（VAST、Lightbits、Ceph或类似系统）的经验 • 熟悉大规模配置管理和GitOps实践 • 理解Kubernetes和裸金属基础设施的安全最佳实践 • 具有在受监管行业或共同定位的数据中心环境中运营基础设施的经验 • 具有支持研究机构、技术计算环境或企业AI基础设施的背景关键技术 • Kubernetes、Linux、Terraform、Ansible、Prometheus、Grafana、ELK Stack、Go、Python、Bash、NVIDIA GPU技术、高性能网络、企业存储系统为什么选择Moonlite • 构建关键研究基础设施：您的工作将直接使定量研究团队和AI从业者能够突破金融建模和AI研究的可能性边界。 • 企业影响：构建和运营支持领先金融机构和研究组织的关键研究和AI工作负载的基础设施。 • 技术卓越：加入一个专注于提供企业级可靠性并推动高性能计算能力边界的基础设施团队。 • 实践所有权：作为我们不断壮大的基础设施团队的一部分，您将对关键系统拥有重要的所有权，并有自主权影响我们的操作实践和技术选择。 • 行业领导力：与经验丰富的基础设施专业人士一起工作，他们曾为最苛刻的计算环境构建和运营系统。我们提供具有竞争力的总薪酬套餐，结合具有竞争力的基本工资、初创公司股权和行业领先的福利。该角色的总薪酬范围为165,000美元至225,000美元，包括基本工资和股权。实际薪酬将根据经验、技能和市场对齐情况确定。我们提供慷慨的福利，包括6%的401(k)匹配、全额覆盖的健康保险保费以及其他全面的福利，以支持您的福祉和成功，随着我们的共同成长。 #li-remote

高级站点可靠性工程师 (SRE)

Moonlite AI