位于新加坡中央商务区的核心地带,乐天亚洲私人有限公司是乐天的亚洲区域总部。作为乐天全球扩张战略的一部分,乐天亚洲于2012年8月成立,包含多个业务部门,为乐天的全球生态系统提供重要的增值服务。通过广告产品开发、产品战略和数据管理等,乐天亚洲正在加强乐天集团的核心竞争力,以在日益数字化的世界中占据领先地位。
乐天集团株式会社是互联网服务的全球领导者,致力于赋能个人、社区、企业和社会。乐天于1997年在东京成立,最初是一个在线市场,现已扩展到为全球约17亿会员提供电子商务、金融科技、数字内容和通信服务。乐天集团拥有近32,000名员工,在30个国家和地区开展业务。更多信息请访问https://global.rakuten.com/corp/。
营销云平台部门(MCPD)推动乐天的营销产品战略,执行产品开发,并确保成功实施。我们通过创建引人入胜、尊重客户且具有成本效益的营销平台来赋能乐天的内部营销团队。利用乐天生态系统,我们提供全面的营销解决方案,包括活动管理、多渠道沟通和个性化。作为一个由150多名专家组成的团队,分布在日本、印度和新加坡,我们以技术驱动型组织为荣,并在乐天技术社区内分享知识。
作为MCPD的SRE经理,您将领导一个负责确保我们营销云平台的可靠性、可扩展性和性能的站点可靠性工程师团队。通过实施可观察性、事件管理和自动化的最佳实践,您将推动运营卓越。此角色在工程和运营之间架起桥梁,需要强大的技术专长和人员管理技能,以构建和维护为全球数百万乐天客户服务的高可用系统。
职责:
- 领导、指导并发展分布在多个地点(新加坡、日本、印度)的站点可靠性工程师团队,培养协作、持续学习和运营卓越的文化
- 定义并推动SRE战略,包括与业务目标和客户期望一致的SLO/SLI框架、错误预算和可靠性目标
- 建立和改进事件管理流程,包括值班轮换、升级程序和无责后事件分析实践,以最小化MTTR并防止重复问题
- 与开发团队合作,将可靠性实践嵌入软件开发生命周期,倡导设计评审、混沌工程和生产准备评审
- 设计并实施全面的可观察性解决方案(监控、日志记录、追踪、警报),以提供系统健康和性能的可操作见解
- 推动自动化举措以减少重复劳动,提高部署可靠性,并为工程团队提供自助服务能力
- 与架构和平台团队合作,确保基础设施决策支持可扩展性、容错性和成本优化目标
- 管理关键营销平台的容量规划和性能优化,处理高容量活动执行和实时个性化
- 向领导层报告可靠性指标、事件趋势和运营健康状况,将技术见解转化为业务影响评估
所需资格:
- 在软件工程、DevOps或站点可靠性工程方面有8年以上经验,其中至少3年担任人员管理角色
- 在分布式、多时区环境中建立和领导高绩效SRE或平台工程团队的成功经验
- 在云平台(优先GCP,AWS/Azure可接受)方面有深入专业知识,包括计算、网络、存储和托管服务
- 对容器化和编排技术(Kubernetes、Docker)以及基础设施即代码(Terraform、Ansible)有深入了解
- 具备可观察性工具和实践的实际操作经验(Prometheus、Grafana、Datadog、ELK Stack或类似工具)并定义有意义的SLOs/SLIs
- 具备CI/CD管道、部署策略(蓝绿、金丝雀)和发布工程最佳实践的经验
- 具备强大的编程/脚本技能,如Python、Go或Java,用于自动化和工具开发
- 具备优秀的沟通能力,能够在工程、产品和业务利益相关者之间有效协作
- 具备强大的事件管理经验,能够在高压情况下冷静有效地领导
加分项:
- 具备大数据技术(Hadoop、Spark、Kafka)和数据管道可靠性的经验
- 熟悉营销技术平台、电子邮件发送系统或客户数据平台
- 具备数据库管理和优化(PostgreSQL、MySQL、Redis、Couchbase)的知识
- 具备混沌工程实践和工具(Chaos Monkey、Litmus、Gremlin)的经验
- 拥有Google Cloud Professional Cloud Architect、AWS Solutions Architect或Kubernetes Administrator(CKA)等认证
- 具备日语能力以便与日本团队合作
乐天是一个平等机会的雇主,欢迎任何性别、婚姻状况、种族、性取向、宗教信仰或年龄的申请者。