SRE 平台架构师

15个月前全职
120K - 170K USD Synechron

Synechron

location 悉尼
unsaved
所需技能: • 在设计弹性方面有经验(云和本地)-容错性、冗余性、高可用性 • 对设置SLO、SLI和错误预算有深入了解 • 对Open Telemetry、Prometheus和Grafana等监控工具有深入了解 • 有使用Python或Go等脚本语言进行自动化的经验 • 熟悉AWS服务和云最佳实践 • 有使用Terraform或CloudFormation等基础设施即代码(IaC)工具的经验 • 出色的问题解决和分析能力 • 较强的沟通和协作能力 • 能够独立工作和团队合作 职责: • 监控与警报: o 使用Prometheus和Grafana实施和维护全面的监控系统。 o 设置和配置Grafana仪表板 o 为AWS服务、微服务、API、基础设施和应用程序设计和配置自定义探针、Prometheus导出器、Open Telemetry代理/SDK和仪表板。 o 创建有效的警报规则,及时识别和解决潜在问题。 o 分析跟踪、事件、指标和日志以排除故障和诊断根本原因。 o 与开发人员合作,改进应用程序的可观察性和监控策略 • 自动化和基础设施管理: o 开发和实施自动化脚本,自动化例行任务和事件响应程序。 o 利用基础设施即代码(IaC)工具,如Terraform或CloudFormation,管理AWS基础设施。 o 了解最新的AWS服务和安全可靠部署的最佳实践。 o 与其他团队合作,设计和实施持续集成和持续交付(CI/CD)流水线。 • 事件响应和问题解决: o 参与值班轮换,并有效应对生产事故。 o 与其他工程师合作,快速高效地诊断和解决问题。 o 分析事件数据,识别趋势,并实施积极的解决方案以防止未来发生。 o 不断改进事件响应流程和文档。