职位描述
站点可靠性工程师,ACE 平台工程
我们正在寻找一位熟练的站点可靠性工程师,以支持我们关键的 API 平台、DevOps 及数字服务组的其他活动。
主要职责:
• 提供咨询服务,以改善系统的稳定性、可用性、性能和可靠性。
• 协助确定操作问题的影响,并通过数据提取和量化提供解决方案的输入。
• 处理日常支持问题,确保在生产环境中有效及时地解决问题,并排查影响客户的问题。
• 预测和规划快速增长的环境。
• 支持多个应用程序,特别是在企业环境中运行 Solo Gloo/Kubernetes/PCF/Google Cloud Platform/基于 Java 的系统。
要求:
• 在 Kubernetes、基础设施和支持方面具有强大的实践经验。
• 在使用 Kubernetes 作为协调器的微服务 DevOps 实践方面有丰富经验。
• 在云配置和服务方面有丰富经验。
• 在 API 微服务方面有丰富经验。
• 熟悉以下工具:NGINX、Docker、Postman、SOAP UI、ELK、Splunk、App Dynamics、CI/CD 工具和 GitLab。
• 在性能度量和调优、容量规划和管理、应急和灾难恢复方面有良好经验。
• 具备强大的脚本知识和经验。
• 对网络和路由有良好的理解。
必备技能:Kubernetes、Java API、云服务、DevOps 工具
可选技能:AWS、敏捷 Scrum、API 网关