角色概述我们正在我们的AI优化数据中心中构建一个高性能、多租户的裸金属OpenShift集群。我们的目标是为希望在可扩展、安全和隔离的环境中托管其计算密集型工作负载的私人AI客户提供OpenShift即服务。我们正在寻找一位动手能力强的Red Hat OpenShift工程师，他能够从头开始设计、架构和实施该平台，并采用行业最佳实践。集群建成后，该角色还将领导现有本地和Azure工作负载向新OpenShift环境的迁移。主要职责 • 设计、架构和构建一个裸金属多租户OpenShift集群 • 配置和维护OpenShift平台的所有方面，以实现高可用性、可扩展性和安全性 • 定义和实施网络、存储、入口、监控和日志记录 • 开发详细的架构文档、蓝图和标准操作程序 • 领导并执行现有工作负载从本地和Azure环境迁移到OpenShift • 确保多个以AI为重点的客户租户在隔离环境中的顺利入驻 • 支持DevOps团队进行高级Linux/OpenShift故障排除 • 实施和执行RBAC、租户隔离、资源配额和合规控制 • 优化在支持GPU的基础设施上运行的AI密集型工作负载的性能 • 负责运营稳定性、平台升级和监控所需技能和经验 • 5年以上Red Hat OpenShift和Kubernetes的深入实践经验 • 具有设计、构建和管理裸金属OpenShift集群的证明经验 • 对Linux内部、容器运行时、网络和故障排除有扎实的理解 • 具有将应用程序从本地和Azure环境迁移到OpenShift的经验 • 拥有多租户架构的丰富经验，包括工作负载隔离和安全性 • 熟悉存储（CSI）、网络（CNI）和服务网格实现 • 熟练使用监控和可观测性工具（例如，Prometheus、Grafana、ELK） • 具有基础设施即代码（Ansible、Terraform）和CI/CD自动化的经验 • 强大的文档编写和沟通能力认证（必需） • Red Hat OpenShift管理认证专家 • Red Hat认证工程师（RHCE）或同等Linux认证加分项 • 熟悉AI/ML计算环境（例如，GPU工作负载、NVIDIA操作员） • 具有混合云或边缘计算模型的经验 • 接触过企业级安全性、合规性和政策执行 #J-18808-Ljbffr

红帽 OpenShift 工程师

Uvation