我们是谁
在OKX,我们相信未来将由加密货币重塑,并最终为每个人的自由做出贡献。OKX是一家领先的加密货币交易所,也是OKX钱包的开发者,为数百万用户提供加密货币交易和去中心化加密应用程序(dApps)的访问。OKX也是数百家大型机构信赖的品牌,这些机构寻求进入加密市场。我们安全可靠,由我们的储备证明支持。在全球多个办公室中,我们团结在我们的核心原则之下:集体优先、做正确的事、完成任务。这些共同的价值观推动我们的文化,塑造我们的流程,并为每位OK-er创造一个友好、有回报和多元化的环境。OKX是OKG的一部分,OKG通过我们的领先产品OKX、OKX钱包、OKLink等,将区块链的价值带给全球用户。
关于团队
服务稳定性工程团队将服务稳定性视为公司产品的核心竞争力之一。通过建立端到端、链级风险管理能力,团队旨在实现稳定性风险的可持续自动识别和分析,从“被动治理”转变为“主动治理”。这种方法将更多与稳定性相关的事项前移,并及早解决,防止问题出现并提升用户体验。
工作职责
• 设计并领导大规模分布式系统的稳定性架构,包括大数据平台、数据仓库和核心中间件基础设施。
• 开发和优化涵盖容量规划、性能优化、故障预防和灾难恢复的综合稳定性策略。
• 引领混沌工程实践,设计复杂的故障注入场景,以验证系统的弹性和自愈能力。
• 构建和完善全面的监控和警报系统,实现快速故障检测、定位和恢复。
• 领导重大事件的根本原因分析,并制定长期改进计划,以持续提高系统的可用性和可靠性。
• 推动基础设施智能化和自动化,设计和实施AIOps解决方案。
• 与产品、开发和运营团队紧密合作,在产品生命周期中整合稳定性要求。
• 领导稳定性相关技术标准和最佳实践的开发,促进其在整个组织中的采用。
资格要求
• 计算机科学或相关领域的学士学位或以上,具有10年以上大规模互联网或云计算平台的架构设计经验。
• 精通分布式系统架构,对大数据、云原生和微服务技术有深入理解和丰富的实践经验。
• 深入了解各种基础设施组件(如Kubernetes、Kafka、数据库)并具备高级调优能力。
• 强大的系统思维能力,能够从整体角度分析和解决复杂的稳定性问题。
• 处理大规模系统故障的丰富经验,能够快速定位和解决具有挑战性的问题。
• 精通Linux系统和网络技术,熟悉主流云平台(如阿里云、AWS)的架构和服务。
• 出色的技术领导能力,能够指导团队并推动跨部门合作。
• 良好的沟通和文档撰写能力,能够用中英文进行技术讨论。
• 对持续学习充满热情,能够快速掌握新技术并应用于实际工作场景。
福利待遇
• 具有竞争力的总薪酬
• 为员工及其家属提供全面的保险保障
• 更多我们将在过程中告诉您的福利!
注意
所有OKX的官方职位空缺均发布在本网站上。虽然职位可能会不时出现在某些第三方平台上,但其他网站上的信息可能不准确或过时。如有疑问,请直接通过我们的官方招聘网站申请。
作为您选择提交的任何职位申请招聘过程的一部分,收集和处理的信息受OKX候选人隐私声明的约束。