岗位描述
解决与基础设施云服务相关的复杂问题,并构建自动化工具以防止问题再次发生。设计、编写和部署软件,以提高Oracle产品和服务的可用性、可扩展性和效率。设计和开发大规模分布式系统的设计、架构、标准和方法。促进服务能力规划和需求预测、软件性能分析和系统调优。
与SRE团队合作,共同全面负责一系列服务和/或技术领域的堆栈拥有权。了解生产服务的端到端配置、技术依赖和整体行为特征。负责设计和交付关键任务堆栈,重点关注安全性、弹性、规模和性能。对端到端性能和可操作性负有责任。与开发团队合作,定义和实施服务架构的改进。阐述服务和技术领域的技术特点,并指导开发团队为Oracle云服务组合添加高级能力。了解并传达服务和技术堆栈的规模、容量、安全性能属性和要求。展示对自动化和编排原则的清晰理解。作为复杂或关键问题的最终升级点,这些问题尚未被记录为标准操作规程(SOP)。利用对服务拓扑及其依赖关系的深入理解,以解决问题并定义减轻措施。对服务和技术架构决策对分布式系统的影响有清晰的理解。具有专业好奇心和对服务和技术的深入理解的愿望。
计算机科学学士或硕士学位,或同等学历。提供对服务器硬件和软件配置、网络、标准互联网服务、脚本语言、云计算模式、技术安全性和合规性的全面战略性复杂业务解决方案的知识。具有运行大规模面向客户的Web服务的经验。提供对负载均衡技术的全面战略性复杂业务解决方案的理解,并具有在编程语言、数据库和大数据存储以及容器技术方面的开发经验。工作包括定义和记录复杂和高度可扩展产品的技术架构。至少有12年以上大规模面向客户的Web服务运行经验。
职责
关于工作
加入一个快速增长的世界一流团队,为构建组成Oracle云解决方案的先进技术和基础设施提供工程支持。作为SRE团队的一部分,您将不断面临挑战,并有机会与开发伙伴密切合作,每天为Oracle云的成功做出贡献。
作为一名站点可靠性工程师,您将通过定义、设计、部署和故障排除关键的Oracle云服务、平台和基础设施来解决有趣的技术挑战,始终考虑可靠性、可扩展性、弹性、安全性和性能。
这个引人入胜且饱受关注的技术领导角色的理想候选人应具备开发人员的经验、系统和基础设施专家的智慧以及积极进取的勇气。所有这些品质都集中在一个和善的沟通者身上,以使我们的Oracle云客户取得成功。
您将做什么
- 服务拥有权 - 您将成为SRE团队的一员,其使命是与我们的开发伙伴共同全面负责一系列服务和/或技术领域的堆栈拥有权。
- 拥有范围 - 作为SRE,您将了解您拥有的生产服务的端到端配置、技术依赖和整体行为特征。与开发伙伴合作,您将负责确保服务的设计和交付具有关键任务的重要性,关注安全性、弹性、规模和性能。SRE是最终的权威,对他们所拥有的服务的端到端性能和可操作性负有责任。
- 服务设计 - 随着Oracle云的发展,您将与开发团队合作,定义和实施服务架构的改进,包括当前和未来。作为SRE,您将成为技术特性的专家,了解您的服务和服务之间的依赖关系,并指导开发团队为Oracle云服务组合添加高级能力。
- 运维工程 - 您将了解并能够传达您所拥有的服务的规模、容量、安全性能属性和要求。您是一个专家,能够理解和传达服务堆栈的每个特性,例如:
- 服务及其依赖关系在负载下的退化和行为
- 随着负载模式的波动,端到端调整需求,优化资源利用率
- 清晰描述服务行为的工具和指标
- 扩展需求和模式
- 确保实施、测试和维护备份/恢复和灾难恢复能力的弹性和可恢复性
- 自动化 - 您将对自动化和编排原则有清晰的理解,并且渴望在可能的情况下自动化,同时消除技术债务。自动化必须成为您的DNA的一部分。
- 预防 - 一旦您成功解决了一个问题,您将立即努力寻找如何更快地解决下次出现的问题,最终目标是防止问题再次发生
- 技术专家 - 作为服务拥有者,您是复杂或关键问题的最终升级点,这些问题尚未被记录为一级员工的标准操作规程(SOP)。在问题的源头不明确时,通常会请您作为专家参与重大事件。您将深入了解服务拓扑及其依赖关系,以解决问题并定义减轻措施。
- 广泛兴趣 - SRE是系统管理员和开发工程师的罕见组合,因此他们有能力理解和解释产品架构决策对分布式系统运行能力的影响。他们受专业好奇心驱使,渴望深入了解他们的服务和所依赖的技术。
- 代表SRE - 主动、自我激励、以客户为中心、组织有序、善于沟通。可以期望SRE在敏感论坛上代表云产品和工程。
您需要具备什么
计算机科学学士或硕士学位,或同等学历
对以下方面的知识:_
- 使用C#、C++、Java、JavaScript等语言开发
- 服务器硬件配置
- Linux内部
- 网络和TCP/IP
- 标准互联网服务,如DNS、HTTP等
- 脚本语言,如Python、Ruby、Bash等
- 监控和仪表化
- DevOps工具链
- 云计算模式
- IT安全和合规性
- 运行大规模面向客户的Web服务的8年以上经验
- 最重要的是,具备良好的团队合作精神和学习并根据需要实施新的云技术的意愿
- 方法论的解决复杂问题的方法
完美候选人将具备以下特点
了解:
- REST API
- 负载均衡技术,包括L7路由、DNS和CDN
具备以下经验:
- 数据库和大数据存储
- 容器和容器管理技术,如Docker和Kubernetes
- 定义和记录复杂和高度可扩展产品的技术架构