AML机器学习系统SRE工程师-北京

15个月前全职
Byte Dance

Byte Dance

location 香港
unsaved
职责 AML(应用机器学习)机器学习系统团队专注于机器学习系统领域的前沿技术研究和实施,提供高性能、高可靠性、可扩展的机器学习系统架构,丰富的异构计算资源和终极的端到端机器学习服务体验,为公司的产品和业务提供核心技术支持和服务。 1. 负责维护机器学习系统的稳定运行,并支持模型开发、训练和部署的多个方面 2. 负责资源管理和规划、成本和预算,包括:GPU/CPU机器资源、存储和其他资源 3. 负责多区域、多机房系统的灾难恢复、服务部署管理和集群机器管理 4. 负责集群和业务服务的稳定性管理,提高资源利用率和运维效率。 资格 1. 一年以上运维开发项目经验 2. 熟练掌握Linux环境下的Go/Python/Shell等1到2种以上语言 3. 具备大规模分布式系统资源管理和任务调度系统运维经验,熟悉Kubernetes生态和架构,并具有一年以上相关运维经验 4. 熟悉Docker/Kata等容器化技术,具有一年以上运维经验 5. 具有较强的工作责任感、良好的学习能力、沟通能力和自我驱动力,以及良好的团队合作精神 6. 具备优秀的逻辑分析能力,能够进行业务逻辑的合理抽象和拆分 7. 具备良好的工作文档习惯,并能及时编写和更新工作流程和技术文档。加分项:1. 大规模分布式系统运维经验 2. GPU服务器运维经验