银行的现场可靠性工程(SRE)结合了软件和系统工程,构建、运行和维护高性能、分布式、容错和弹性的金融系统。现场可靠性工程师专注于确保客户的愉快体验。作为一名现场可靠性工程师,您将承担一个关键的角色,确保我们的系统健康、监控、自动化、容错和可扩展。
您将与工程团队紧密合作,不断改进我们的生产服务,促进新产品的快速交付,减少停机时间。主要职责包括:
• 推动现场可靠性工程议程,提高服务的可用性、可靠性和性能
• 推动应用程序的可观察性。
• 推动优化和操作计划,例如减少操作负担
• 与应用团队合作,为其应用程序设置SLI、SLO和错误预算
• 与企业团队合作,部署SRE启用器/倡议。
• 推动事故管理流程,并支持无责任的事后分析文化。
• 支持生产发布,并监控可能影响应用程序和客户的变更。
• 在必要时为客户查询提供功能支持。
要求
• 至少2-3年的技术经验(最好在银行领域)
• 计算机科学学士学位、涉及编程的相关技术领域或同等实际经验。
• 至少具备以下一种或多种经验:ASP.Net、JavaScript、Java、Shell脚本、SQL Server、Oracle PL/SQL、PostgreSQL和/或MariaDB。
• 具备APM系统(如ELK、Grafana、Prometheus、Dynatrace和AppDynamics等)的经验
• 理解关键的SRE概念,如Toil、SLI、SLO、错误预算、MTTD、MTTR等
• 具备Scrum、看板等敏捷方法论的经验
• 自我激励,能够独立工作,同时是一位忠诚可靠的团队合作者。
• 具备良好的人际交往和沟通能力,能够通过日常支持和项目工作与其他技术团队建立良好的关系。