角色概述
我们正在我们的AI优化数据中心中构建一个高性能、多租户的裸金属OpenShift集群。我们的目标是为希望在可扩展、安全和隔离的环境中托管其计算密集型工作负载的私人AI客户提供OpenShift即服务。
我们正在寻找一位动手能力强的Red Hat OpenShift工程师,他能够从头开始设计、架构和实施该平台,并采用行业最佳实践。集群建成后,该角色还将领导现有本地和Azure工作负载向新OpenShift环境的迁移。
主要职责
• 设计、架构和构建一个裸金属多租户OpenShift集群
• 配置和维护OpenShift平台的所有方面,以实现高可用性、可扩展性和安全性
• 定义和实施网络、存储、入口、监控和日志记录
• 开发详细的架构文档、蓝图和标准操作程序
• 领导并执行现有工作负载从本地和Azure环境迁移到OpenShift
• 确保多个以AI为重点的客户租户在隔离环境中的顺利入驻
• 支持DevOps团队进行高级Linux/OpenShift故障排除
• 实施和执行RBAC、租户隔离、资源配额和合规控制
• 优化在支持GPU的基础设施上运行的AI密集型工作负载的性能
• 负责运营稳定性、平台升级和监控
所需技能和经验
• 5年以上Red Hat OpenShift和Kubernetes的深入实践经验
• 具有设计、构建和管理裸金属OpenShift集群的证明经验
• 对Linux内部、容器运行时、网络和故障排除有扎实的理解
• 具有将应用程序从本地和Azure环境迁移到OpenShift的经验
• 拥有多租户架构的丰富经验,包括工作负载隔离和安全性
• 熟悉存储(CSI)、网络(CNI)和服务网格实现
• 熟练使用监控和可观测性工具(例如,Prometheus、Grafana、ELK)
• 具有基础设施即代码(Ansible、Terraform)和CI/CD自动化的经验
• 强大的文档编写和沟通能力
认证(必需)
• Red Hat OpenShift管理认证专家
• Red Hat认证工程师(RHCE)或同等Linux认证
加分项
• 熟悉AI/ML计算环境(例如,GPU工作负载、NVIDIA操作员)
• 具有混合云或边缘计算模型的经验
• 接触过企业级安全性、合规性和政策执行
#J-18808-Ljbffr