平台工程师(云计算与开发运维)

新加坡 3天前合同 网络
面议
这是与全球最大科技领导者之一的长期合同职位。 技术技能 - 精通核心AWS服务:EC2、ECS/EKS、Lambda、S3、RDS/Aurora、DynamoDB、VPC、ELB/ALB/NLB、Route53、IAM。 - 设计多可用区和多区域的高可用架构。 - 深刻理解AWS中的网络(子网、路由表、NAT、安全组、NACLs、VPC对等连接、PrivateLink)。 - 具备良好架构框架支柱的经验(尤其是可靠性、安全性、成本优化)。 - 设计容错和水平可扩展的系统。 - 精通Terraform、CloudFormation或CDK。 - 拥有CloudWatch、Prometheus、Grafana、Datadog、Dynatrace或OpenTelemetry的实际操作经验。 - 模块化IaC设计模式和状态管理最佳实践。 - 通过明确定义的SLA、SLO和SLI,拥有端到端系统的可靠性、可用性和性能,并通过持续监控和主动改善服务健康。 - 与工程领导合作建立和管理错误预算政策,以平衡发布速度与可靠性,使用错误预算来指导优先级和发布准备决策。 - 领导重大和复杂的事件响应工作,在客户影响事件期间进行协作,并推动无责后续分析,以确保系统性纠正措施的紧急实施。 - 通过使用如Dynatrace、CloudWatch和OpenTelemetry等工具的强大监控、日志记录和跟踪框架,标准化和增强跨环境的可观测性。 角色概述 站点可靠性工程师(SRE)通过工程和运营卓越的平衡,确保系统和平台服务的可靠性、可用性和性能。SRE将软件工程原则应用于运营,利用自动化、监控和数据驱动分析来提高可靠性,同时实现开发速度。 在当前结构中,SRE既是可靠性负责人又是领域实践者,支持平台和产品工程团队的SRE和DevOps职责。他们由高级首席SRE指导,提供组织对齐,建立通用标准,并确保团队间的一致性。 我们的大型财富客户被评为全球最佳工作公司之一。客户提倡进步文化、创造力和灵活的工作环境。他们使用尖端技术保持领先地位。各方面的多样性受到尊重。诚信、经验、诚实、人员、人性和对卓越的热情是定义这一全球科技领导者的其他形容词。