基础设施 SRE 负责人

香港 1天前全职 网络
面议
关于OSL集团 OSL集团(863.HK)是一个领先的全球金融基础设施平台,通过区块链技术连接传统金融和数字资产经济。该集团致力于为全球个人和企业提供高效、无缝且符合监管的金融服务。 OSL通过其持牌平台提供全面的合规服务,包括24/7场外交易经纪服务,具有深度流动性法币通道和具有竞争力的定价;综合经纪解决方案使传统金融机构能够整合数字资产;通过SOC 2 Type 2认证的托管服务,提供高达10亿美元的保险保护;合规的零售交易渠道;财富管理解决方案,包括计划推出的代币化国债和RWA;以及为OSL Pay跨境支付基础设施做准备。 “开放、安全、持牌”是OSL的核心原则。OSL正在日本、澳大利亚、欧洲以及潜在的东南亚地区扩展其合规基础设施,以推动下一代全球金融基础设施的发展。 关于该职位 基础设施SRE负责人是一位高级技术和人员领导者,负责设计、可靠性、可用性、安全性和可扩展性,支持我们24/7合规交易、托管和支付平台的所有基础设施。此职位要求具备AWS的专家级知识,以保护系统,因为停机或故障会直接影响财务和安全。 该职位领导一个跨站点的基础设施SRE团队(香港+深圳),推动基础设施即代码、Kubernetes平台、可观测性和灾难恢复。这是一个动手的领导角色:50%技术所有权+50%团队领导和治理。 主要职责 1. 基础设施所有权和可靠性 • 拥有AWS核心基础设施的可靠性、可扩展性和性能。 • 设计、优化和管理Kubernetes平台(EKS、多集群、多区域)。 • 设计和管理使用VPC、子网、安全组和PrivateLink的安全、可扩展和成本优化的网络拓扑。 • 确保计算、存储和网络的容量规划、自动扩展和性能调优。 2. 领导基础设施SRE团队(香港+深圳) • 管理和指导跨两个地点的基础设施SRE团队。 • 定义团队OKR,重点关注可靠性、自动化和SLO。 • 推动强大的工程文化,包括文档、运行手册和主动改进。 3. 基础设施即代码和标准化 • 领导复杂、可重用的Terraform模块的设计和实施,以管理所有云资源。 • 在多账户AWS设置中执行基础设施变更治理、成本控制和合规性。 4. 可观测性、监控和事件响应 • 拥有可观测性堆栈(Prometheus / Grafana),确保全面的指标、日志和警报覆盖。 • 作为生产事件的技术升级点,领导故障排除和稳健的事件后审查。 5. 安全、灾难恢复和高可用性 • 在各个区域实施灾难恢复和故障切换策略。 • 确保Kubernetes、数据库和VPC网络的高可用性设计。 • 与安全团队合作进行IAM治理、强化和审计合规。 我们寻找的人 • 8年以上专注于站点可靠性工程(SRE)、基础设施或生产工程的经验,其中至少3年以上担任正式团队领导或管理职位。 • 5年以上在AWS上构建和管理关键任务基础设施的实践经验。 • 在基础设施即代码方面具有专家级熟练度,特别是使用Terraform管理大规模复杂环境。 • 需要对核心AWS服务有深厚的架构知识:VPC、EKS、IAM、KMS和RDS。 • 在高可用性(24/7)环境中有证明的经验,最好是在金融服务、交易或类似受监管的行业中。 • 强大的脚本编写技能(优选Python、Bash、Go)。 • 出色的领导能力、沟通能力和跨团队协作能力。 OSL的生活 • 先锋:与上市行业领导者一起构建Web3未来的基础技术。 • 影响:您的工作直接影响我们全球数字资产平台的安全性和可扩展性。 • 人才:与行业最佳工程师和领导者一起工作和学习。 • 成长:我们在您的职业和发展上投入与您一样多。