SRE 平台架构师 - Synechron招聘

所需技能： • 在设计弹性方面有经验（云和本地）-容错性、冗余性、高可用性 • 对设置SLO、SLI和错误预算有深入了解 • 对Open Telemetry、Prometheus和Grafana等监控工具有深入了解 • 有使用Python或Go等脚本语言进行自动化的经验 • 熟悉AWS服务和云最佳实践 • 有使用Terraform或CloudFormation等基础设施即代码（IaC）工具的经验 • 出色的问题解决和分析能力 • 较强的沟通和协作能力 • 能够独立工作和团队合作职责： • 监控与警报： o 使用Prometheus和Grafana实施和维护全面的监控系统。 o 设置和配置Grafana仪表板 o 为AWS服务、微服务、API、基础设施和应用程序设计和配置自定义探针、Prometheus导出器、Open Telemetry代理/SDK和仪表板。 o 创建有效的警报规则，及时识别和解决潜在问题。 o 分析跟踪、事件、指标和日志以排除故障和诊断根本原因。 o 与开发人员合作，改进应用程序的可观察性和监控策略 • 自动化和基础设施管理： o 开发和实施自动化脚本，自动化例行任务和事件响应程序。 o 利用基础设施即代码（IaC）工具，如Terraform或CloudFormation，管理AWS基础设施。 o 了解最新的AWS服务和安全可靠部署的最佳实践。 o 与其他团队合作，设计和实施持续集成和持续交付（CI/CD）流水线。 • 事件响应和问题解决： o 参与值班轮换，并有效应对生产事故。 o 与其他工程师合作，快速高效地诊断和解决问题。 o 分析事件数据，识别趋势，并实施积极的解决方案以防止未来发生。 o 不断改进事件响应流程和文档。

SRE Platform Architect

Synechron