阿贡国家实验室的阿贡领导力计算设施正在寻找一名平台管理员(Kubernetes)加入其运营组内的容器化、云和机密计算(C4)团队。该职位将参与管理一组本地Kubernetes集群的日常运营,并与内部和外部用户合作,在这些集群上部署应用程序。
ALCF作为其推动大规模科学发现使命的一部分,拥有并维护着一批世界上最快的超级计算机。作为这一使命的一部分,C4团队负责开发和维护专用于托管持久性服务和类似云的编排能力的基础设施,补充现有的HPC基础设施,并构成更广泛的科学工作流程的一部分。
作为Kubernetes平台管理员,您可以期望:
- 参与本地Kubernetes集群家族的日常管理,以及在这些集群上配置的服务,以支持生产环境中的科学工作流程。
- 设计和实施管理工作流程,以处理集群升级和维护、用户应用程序部署和事件响应。
- 与ALCF的运营和应用团队合作,将此基础设施集成到设施生态系统中。
该职位符合“远程工作”资格,适用于整个工作日程定期安排远程工作的员工。
所需技能、知识和经验:
- 为履行此职位的基本职能,成功申请者必须提供美国公民身份的证明,这是遵守联邦法规和合同所需的
- PT3:学士学位和4年以上经验,或硕士学位和2年以上经验,或同等学历
- 能够体现阿贡的核心价值观:影响力、安全、尊重、诚信和团队合作
- 具有Linux容器化技术和基础知识的经验
- Linux命名空间/cGroups
- OCI图像格式和构建
- 当代容器运行时(Docker、Podman、Apptainer等)
- 在部署和管理本地Kubernetes集群方面的经验(例如,使用原生Kubernetes、K3s、Talos Linux、Rancher)
- 特别是具有Kubernetes网络经验——CNI配置、网络策略、入口和出口路由以及与外部负载均衡器的集成
- 具有GitOps方法和声明性基础设施即代码技术的经验,包括ArgoCD、kustomize、helm、秘密管理、CI/CD
- 熟悉集群安全技术,包括网络流量策略、RBAC、准入策略
- 理解软件工程/发布管理协议,包括计划的基础设施维护管理、升级管理
- 有与其他技术团队合作以实现共同目标的经验,例如,与网络团队合作以集成到组织网络环境中,与安全团队合作以确保合规等
优先技能:
- 具有Linux系统管理经验
- 具有当代Web应用程序、部署和扩展问题的经验
- 有与应用团队(尤其是科学和研究团队)合作将软件服务部署到Kubernetes的经验
- 在针对Kubernetes API的软件开发方面的经验,例如开发领域操作员和CRD
- 相关认证:CKA、CKAD、CKS