所需技能:
• 在设计弹性方面有经验(云和本地)-容错性、冗余性、高可用性
• 对设置SLO、SLI和错误预算有深入了解
• 对Open Telemetry、Prometheus和Grafana等监控工具有深入了解
• 有使用Python或Go等脚本语言进行自动化的经验
• 熟悉AWS服务和云最佳实践
• 有使用Terraform或CloudFormation等基础设施即代码(IaC)工具的经验
• 出色的问题解决和分析能力
• 较强的沟通和协作能力
• 能够独立工作和团队合作
职责:
• 监控与警报:
o 使用Prometheus和Grafana实施和维护全面的监控系统。
o 设置和配置Grafana仪表板
o 为AWS服务、微服务、API、基础设施和应用程序设计和配置自定义探针、Prometheus导出器、Open Telemetry代理/SDK和仪表板。
o 创建有效的警报规则,及时识别和解决潜在问题。
o 分析跟踪、事件、指标和日志以排除故障和诊断根本原因。
o 与开发人员合作,改进应用程序的可观察性和监控策略
• 自动化和基础设施管理:
o 开发和实施自动化脚本,自动化例行任务和事件响应程序。
o 利用基础设施即代码(IaC)工具,如Terraform或CloudFormation,管理AWS基础设施。
o 了解最新的AWS服务和安全可靠部署的最佳实践。
o 与其他团队合作,设计和实施持续集成和持续交付(CI/CD)流水线。
• 事件响应和问题解决:
o 参与值班轮换,并有效应对生产事故。
o 与其他工程师合作,快速高效地诊断和解决问题。
o 分析事件数据,识别趋势,并实施积极的解决方案以防止未来发生。
o 不断改进事件响应流程和文档。