关于你的角色
作为哈里森平台团队的高级DevOps/Linux工程师,你将与解决方案架构师和DevOps工程师小组合作,支持和交付哈里森平台的组件。
哈里森平台是“构建机器的机器”。它是一个用于构建AI作为医疗设备解决方案的常用工具集;一个MLOps平台。我们的创业公司使用它来加速、增强和简化他们的模型开发。平台的一个关键组件是我们的物理机器学习训练集群,它基于NVidia A100 DGX。你的角色将专注于物理机器学习训练集群和它托管的基于Kubernetes的软件堆栈。
你将做什么:
• 管理支持请求
• 执行软件升级等维护任务
• 根据需要与供应商联络解决支持问题
• 协助开发和部署集群的新功能和改进。这涵盖了物理数据中心和AWS中的服务
• 编写最终用户技术文档
• 使用Terraform和Ansible部署与平台(MLOps)相关的服务基础架构堆栈。
• 开发、更新和改进各种Terraform模块,供创业公司和内部使用
• 如有需要,偶尔需要访问悉尼的数据中心。(请注意,不要求在悉尼工作)
我们寻找的人:
• Linux管理技能
• Kubernetes知识和经验。
• 熟悉物理数据中心环境,最好有实际的数据中心/物理基础设施经验
• 熟悉TCP/IP网络知识。
• 了解CI/CD流水线
• 了解AWS
• 熟悉或具有Terraform或Ansible等基础架构即代码工具的经验
• 熟悉Bash和Python脚本编写