L2应用支持(SRE)- 参考:YC

15个月前全职
A-IT Software Services Pte Ltd

A-IT Software Services Pte Ltd

location 新加坡
unsaved
银行的现场可靠性工程(SRE)结合了软件和系统工程,构建、运行和维护高性能、分布式、容错和弹性的金融系统。现场可靠性工程师专注于确保客户的愉快体验。作为一名现场可靠性工程师,您将承担一个关键的角色,确保我们的系统健康、监控、自动化、容错和可扩展。 您将与工程团队紧密合作,不断改进我们的生产服务,促进新产品的快速交付,减少停机时间。主要职责包括: • 推动现场可靠性工程议程,提高服务的可用性、可靠性和性能 • 推动应用程序的可观察性。 • 推动优化和操作计划,例如减少操作负担 • 与应用团队合作,为其应用程序设置SLI、SLO和错误预算 • 与企业团队合作,部署SRE启用器/倡议。 • 推动事故管理流程,并支持无责任的事后分析文化。 • 支持生产发布,并监控可能影响应用程序和客户的变更。 • 在必要时为客户查询提供功能支持。 要求 • 至少2-3年的技术经验(最好在银行领域) • 计算机科学学士学位、涉及编程的相关技术领域或同等实际经验。 • 至少具备以下一种或多种经验:ASP.Net、JavaScript、Java、Shell脚本、SQL Server、Oracle PL/SQL、PostgreSQL和/或MariaDB。 • 具备APM系统(如ELK、Grafana、Prometheus、Dynatrace和AppDynamics等)的经验 • 理解关键的SRE概念,如Toil、SLI、SLO、错误预算、MTTD、MTTR等 • 具备Scrum、看板等敏捷方法论的经验 • 自我激励,能够独立工作,同时是一位忠诚可靠的团队合作者。 • 具备良好的人际交往和沟通能力,能够通过日常支持和项目工作与其他技术团队建立良好的关系。