这是与全球最大科技领导者之一的长期合同职位。
技术技能
- 精通核心AWS服务:EC2、ECS/EKS、Lambda、S3、RDS/Aurora、DynamoDB、VPC、ELB/ALB/NLB、Route53、IAM。
- 设计多可用区和多区域的高可用架构。
- 深刻理解AWS中的网络(子网、路由表、NAT、安全组、NACLs、VPC对等连接、PrivateLink)。
- 具备良好架构框架支柱的经验(尤其是可靠性、安全性、成本优化)。
- 设计容错和水平可扩展的系统。
- 精通Terraform、CloudFormation或CDK。
- 拥有CloudWatch、Prometheus、Grafana、Datadog、Dynatrace或OpenTelemetry的实际操作经验。
- 模块化IaC设计模式和状态管理最佳实践。
- 通过明确定义的SLA、SLO和SLI,拥有端到端系统的可靠性、可用性和性能,并通过持续监控和主动改善服务健康。
- 与工程领导合作建立和管理错误预算政策,以平衡发布速度与可靠性,使用错误预算来指导优先级和发布准备决策。
- 领导重大和复杂的事件响应工作,在客户影响事件期间进行协作,并推动无责后续分析,以确保系统性纠正措施的紧急实施。
- 通过使用如Dynatrace、CloudWatch和OpenTelemetry等工具的强大监控、日志记录和跟踪框架,标准化和增强跨环境的可观测性。
角色概述
站点可靠性工程师(SRE)通过工程和运营卓越的平衡,确保系统和平台服务的可靠性、可用性和性能。SRE将软件工程原则应用于运营,利用自动化、监控和数据驱动分析来提高可靠性,同时实现开发速度。
在当前结构中,SRE既是可靠性负责人又是领域实践者,支持平台和产品工程团队的SRE和DevOps职责。他们由高级首席SRE指导,提供组织对齐,建立通用标准,并确保团队间的一致性。
我们的大型财富客户被评为全球最佳工作公司之一。客户提倡进步文化、创造力和灵活的工作环境。他们使用尖端技术保持领先地位。各方面的多样性受到尊重。诚信、经验、诚实、人员、人性和对卓越的热情是定义这一全球科技领导者的其他形容词。