高级平台工程师 - Kubernetes + MLOps

16个月前全职
Harrison.ai

Harrison.ai

location 悉尼
unsaved
关于你的角色 作为哈里森平台团队的高级DevOps/Linux工程师,你将与解决方案架构师和DevOps工程师小组合作,支持和交付哈里森平台的组件。 哈里森平台是“构建机器的机器”。它是一个用于构建AI作为医疗设备解决方案的常用工具集;一个MLOps平台。我们的创业公司使用它来加速、增强和简化他们的模型开发。平台的一个关键组件是我们的物理机器学习训练集群,它基于NVidia A100 DGX。你的角色将专注于物理机器学习训练集群和它托管的基于Kubernetes的软件堆栈。 你将做什么: • 管理支持请求 • 执行软件升级等维护任务 • 根据需要与供应商联络解决支持问题 • 协助开发和部署集群的新功能和改进。这涵盖了物理数据中心和AWS中的服务 • 编写最终用户技术文档 • 使用Terraform和Ansible部署与平台(MLOps)相关的服务基础架构堆栈。 • 开发、更新和改进各种Terraform模块,供创业公司和内部使用 • 如有需要,偶尔需要访问悉尼的数据中心。(请注意,不要求在悉尼工作) 我们寻找的人: • Linux管理技能 • Kubernetes知识和经验。 • 熟悉物理数据中心环境,最好有实际的数据中心/物理基础设施经验 • 熟悉TCP/IP网络知识。 • 了解CI/CD流水线 • 了解AWS • 熟悉或具有Terraform或Ansible等基础架构即代码工具的经验 • 熟悉Bash和Python脚本编写