系统工程师 - Kubernetes

阿布扎比 无个税28天前全职 网络
面议
公司简介 开放创新AI是一家全球科技公司,专注于开发用于管理AI工作负载的先进解决方案。其旗舰产品开放创新集群管理器(OICM)能够高效地在多样化的基础设施上协调复杂的AI任务。该平台对硬件无依赖,针对各种GPU和加速器硬件进行了优化,并为企业AI应用提供无缝的集成和可扩展性。开放创新AI致力于优化和简化AI工作负载管理,使AI技术对各类规模的组织都可访问。通过其创新解决方案,公司可以降低运营成本,加速价值实现,并最大化投资回报,确保其AI战略直接促进业务成果的提升。 职位概述: 系统工程师 - Kubernetes角色确保开放创新的Kubernetes平台以一致和可靠的方式交付和支持。该角色专注于保持开发集群的稳定性,为产品团队准备Kubernetes及其扩展所需的操作系统镜像和驱动程序,并构建详细的部署包,以便客户环境顺利推出。作为设计与交付之间的纽带,工程师将架构标准转化为可执行的、文档完善的解决方案,供部署团队执行并由运营团队维护。 要求: - 在开发环境中操作和支持Kubernetes集群,确保产品团队的稳定性和可用性。 - 准备Kubernetes节点和扩展(如CSI、GPU)所需的操作系统镜像、内核模块和驱动程序。 - 构建和维护部署模板、清单和自动化剧本,以实现一致的集群部署和升级。 - 通过提供监控基线、日志集成和工作负载性能验证,确保可观察性和性能。 - 进行性能工程活动,包括集群调优、基准测试和AI/HPC场景的资源优化。 - 与基础设施、网络和平台团队合作,使Kubernetes与底层系统和服务保持一致。 - 为交付和运营团队制作部署指南、运行手册和操作文档。 - 为Kubernetes和容器平台问题提供SME级别支持,与供应商协调升级和兼容性更新。 资格、经验、能力和认证 - 计算机科学、工程或相关领域的学士学位。 - 4-7年系统或平台工程经验,具有直接支持Kubernetes环境的经验。 - 扎实的Linux基础知识和构建、维护Kubernetes节点操作系统镜像、驱动程序和内核模块的经验。 - 熟悉Kubernetes存储和网络集成(CNI、CSI、入口/出口),能够提供SME级别支持。 - 拥有自动化和部署工具(如Ansible、Terraform、Helm、Kustomize、Python脚本)的实际操作经验。 - 了解可观察性和监控堆栈(Prometheus、Grafana、日志管道)并能够定义监控基线。 - 具备性能工程经验,包括集群调优、基准测试以及计算、存储和GPU工作负载的优化。 - 在Kubernetes环境中加速器/GPU支持(驱动程序打包、操作员、调度)的经验是一个强大的优势。 - 具有为工程和交付团队制作LLD、部署指南和运行手册的实际经验。 - 有与供应商合作处理支持案例、驱动程序/兼容性问题和软件更新的经验。 - 拥有CKA、CKAD或CKS等认证者优先。 - 具备强大的故障排除、文档编写和跨团队协作能力。