概述
职位 - 资深站点可靠性工程师 (SRE)
工作地点 - 伦敦(现场全职,每周5天)
薪资 - 固定工资最高可达80K
最低要求:12年以上相关经验
核心能力 / 职责
• 熟悉 Datadog、Splunk、Dynatrace、Grafana、Prometheus、Thousand Eyes、Gremlin 等工具。
• 有效创建基础设施 / 应用性能管理 / 端到端工作流的仪表板。
• 监控、日志记录、警报和错误预算(服务水平协议指标:99.9、99.99、99.999%)针对软件、运营和业务。
• 与业务/运营/工程团队定义服务水平目标、服务水平指标和服务水平协议。
• 自动化 / 自愈 - Python、Shell 脚本、Java 脚本。开发自定义服务 - 监控。
• 在云或分布式平台上有日志记录、监控和事件检测的经验。
• ITIL - 事件/变更管理,精通问题管理 - 无责后期分析、发现、应用永久性修复、文档记录经验教训。
• 技术运营:应用支持、稳定性、可靠性和弹性经验。
• DevOps、Ansible、Terraform、Docker、AWS(Atlas)、Jenkins CI/CD 管道。
• Unix/Linux、Windows Server、Oracle、MSSQL、MongoDB。