站点可靠性/GitOps工程师
Canonical是全球企业和技术市场中开源软件和操作系统的领先提供商。我们的平台Ubuntu广泛应用于突破性的企业项目,如公共云、数据科学、人工智能、工程创新和物联网。公司是全球分布式协作的先驱,拥有1200多名员工,分布在75多个国家,几乎没有基于办公室的角色,每年在全球有趣的地点会面两到四次,以协调战略和执行。
地点:
远程(任何时区)
职位概要
作为一名SRE和GitOps工程师,您将推动运营自动化达到新的水平,无论是在Canonical的私有云还是公共云中,使用基础设施即代码的开源软件、CI/CD管道以及Canonical领先的软件操作自动化产品。您将定义基础设施即代码,提高产品的弹性和可扩展性,维护核心服务、网络和基础设施的运营责任,并与开发团队合作设计服务架构和操作程序。
您还将为开发人员提供有关大规模产品性能的关键反馈,提交错误报告或拉取请求,并支持全球SRE团队。
职责
应用IaC经验在IS中开发基础设施即代码实践,不断增加自动化并改进IaC流程。
自动化软件操作,以在私有和公共云中实现可重用性和一致性,考虑分布式系统的复杂性。
开发新功能,提高Canonical云和容器产品组合的弹性和可扩展性。
维护Canonical所有核心服务、网络和基础设施的运营责任。
发展故障排除、容量规划和性能调查的技能;设置、维护和使用Prometheus、Grafana和Elasticsearch等可观察性工具;设计、实施和维护各种系统和服务的监控和警报。
与开发团队合作设计服务架构、文档、操作手册、政策和操作程序。
提供帮助并与全球分布的工程、运营和支持同事合作。
获得不间断的开发时间,专注于更大的项目和手动任务的自动化。
在设计会议、指导和协作工作中与团队成员分享经验、知识和最佳实践。
对时间紧迫的升级事件承担最终责任。
资格
具备通过代码定义操作的深厚经验,使用版本控制、同行评审和CI/CD将更改应用于应用程序和基础设施。
具备现代工程背景(同行评审、单元测试、SCM、CI/CD、敏捷)。
具有大型项目的Python软件开发经验。
具备Linux网络、路由和防火墙的实践知识。
熟悉各种形式的Linux存储,从Ceph到数据库。
具备管理企业Linux服务器的实际经验。
对云计算概念和技术有广泛的了解。
拥有学士学位或更高学历,最好是计算机科学或相关工程领域。
能够通过电子邮件、聊天、视频或语音通话以及面对面清晰有效地用英语沟通。
有动力并能够从内核到网络进行故障排除,并在适当时愿意向他人请教。
愿意灵活并快速学习新事物。
受到快速变化环境需求的启发。
乐于在分布式团队中工作。
对开源充满热情并熟悉,尤其是Ubuntu或Debian。
Canonical是一个机会均等的雇主。我们自豪地营造一个无歧视的工作环境。经验、视角和背景的多样性创造了更好的工作环境和更好的产品。无论您的身份如何,我们都会公平考虑您的申请。