这是与全球最大科技领导者之一的长期合同职位。技术技能 - 精通核心AWS服务：EC2、ECS/EKS、Lambda、S3、RDS/Aurora、DynamoDB、VPC、ELB/ALB/NLB、Route53、IAM。 - 设计多可用区和多区域的高可用架构。 - 深刻理解AWS中的网络（子网、路由表、NAT、安全组、NACLs、VPC对等连接、PrivateLink）。 - 具备良好架构框架支柱的经验（尤其是可靠性、安全性、成本优化）。 - 设计容错和水平可扩展的系统。 - 精通Terraform、CloudFormation或CDK。 - 拥有CloudWatch、Prometheus、Grafana、Datadog、Dynatrace或OpenTelemetry的实际操作经验。 - 模块化IaC设计模式和状态管理最佳实践。 - 通过明确定义的SLA、SLO和SLI，拥有端到端系统的可靠性、可用性和性能，并通过持续监控和主动改善服务健康。 - 与工程领导合作建立和管理错误预算政策，以平衡发布速度与可靠性，使用错误预算来指导优先级和发布准备决策。 - 领导重大和复杂的事件响应工作，在客户影响事件期间进行协作，并推动无责后续分析，以确保系统性纠正措施的紧急实施。 - 通过使用如Dynatrace、CloudWatch和OpenTelemetry等工具的强大监控、日志记录和跟踪框架，标准化和增强跨环境的可观测性。角色概述站点可靠性工程师（SRE）通过工程和运营卓越的平衡，确保系统和平台服务的可靠性、可用性和性能。SRE将软件工程原则应用于运营，利用自动化、监控和数据驱动分析来提高可靠性，同时实现开发速度。在当前结构中，SRE既是可靠性负责人又是领域实践者，支持平台和产品工程团队的SRE和DevOps职责。他们由高级首席SRE指导，提供组织对齐，建立通用标准，并确保团队间的一致性。我们的大型财富客户被评为全球最佳工作公司之一。客户提倡进步文化、创造力和灵活的工作环境。他们使用尖端技术保持领先地位。各方面的多样性受到尊重。诚信、经验、诚实、人员、人性和对卓越的热情是定义这一全球科技领导者的其他形容词。

平台工程师（云计算与开发运维）

Applicantz