为什么选择这个角色想要在DevOps、后端工程和实时问题解决的交叉点工作吗？这是一个在大规模云环境中产生真正影响的机会，确保生产系统对成千上万的用户保持快速、可靠和有弹性。您将加入一个协作的、技术精通的团队，致力于让一切变得更好。从提高微服务的可观察性到响应高优先级事件，这是您塑造可扩展应用程序交付和支持方式的平台。您将要做的事情 - 修复和改进：追踪现场微服务中的错误，每天让生产更加稳定。 - 与工程师合作：与开发团队合作，提高代码质量，增强弹性，并从一开始就嵌入可观察性。 - 掌控云端：配置和管理云基础设施（AWS），确保一切在规模上顺利运行。 - 监控信号：构建更好的监控和警报系统，以在问题升级之前捕捉到它们。 - 深入故障排除：解决复杂的技术难题，并帮助指导他人解决这些问题。 - 自动化一切：编写和维护SOP和自动化脚本，以减少手动工作。 - 在风暴中保持冷静：参与值班轮值，并在出现现场问题时承担责任。我们在寻找什么 - 丰富的调试现场应用程序经验，能够快速解决生产问题。 - 构建和支持基于微服务的应用程序的背景。 - 自信地使用MongoDB、AWS服务和容器化工具（如Docker或ECS）。 - 熟悉基础设施即代码和CI/CD管道（CloudFormation、CodeBuild等）。 - 熟练使用监控和可观察性工具，如Prometheus、New Relic、Grafana或DataDog。 - 良好的脚本编写能力（Python或JavaScript），用于自动化和工具开发。 - 在事件发生时思路清晰，并有从中学习的动力。加分项 - 了解REST、GraphQL和异步消息系统。 - 有Git工作流和CI/CD管道的经验。 - 理解SRE原则（SLIs、SLOs、错误预算等）。 - 了解安全和合规（GDPR、隐私、风险管理）。 - 具备团队优先态度的清晰沟通者。您会喜欢这里的原因 - 您将与关心质量、自动化和干净代码的优秀工程师一起工作。 - 您将有自由在我们扩展和发展的过程中塑造基础设施。 - 您将深入接触现代DevOps工具、事件响应策略和生产工程。 - 您的声音将很重要——从技术选择到流程改进。

SRE工程师

Global Corporation