员工 SRE 工程师

多伦多 12天前全职 网络
面议
关于我们 Nu是全球最大的数字金融平台之一,拥有超过1.27亿客户,遍布巴西、墨西哥和哥伦比亚。秉持着对抗复杂性和赋能于人的使命,我们正在重新定义拉丁美洲的金融服务,而这仅仅是我们建设紫色未来的开始。 在纽约证券交易所上市(NYSE: NU),我们结合了自主技术、数据智能和高效的运营模式,提供简单、可及且人性化的金融产品。 我们的影响力已被全球排名认可,如《时代》100家公司、《Fast Company》最具创新力公司和《福布斯》全球最佳银行。访问我们的网站 https://international.nubank.com.br/careers/ 关于职位 作为我们数据基础设施SRE团队的资深站点可靠性工程师,您将是一位战略领导者,负责定义我们数据平台未来的可靠性。此职位在塑造向数据网格架构的过渡和执行群岛演进计划中至关重要。您的主要目标是通过超越传统的SRE实践并大力投资智能自动化,确保我们数据基础设施的可扩展性。通过领导AI驱动的可靠性解决方案开发,您将直接影响我们在全球数百个业务平台和数百万客户中保持高可用性和性能的能力。 您的职责包括 - 定义战略演进:您将领导精炼SRE团队战略方向的举措,确保数据平台基础设施支持公司的长期去中心化目标和群岛演进计划。 - 设计架构领导力:您将为高可靠性、可扩展性和高性能数据系统的设计、实施和维护提供专业指导。 - 开创AI驱动的自动化:您将倡导采用高级自动化框架,如LangGraph和AI代理,自动解决数据平台崩溃并协调事件响应。 - 实施主动系统健康:您将开发复杂的异常检测和预测分析机制,以识别和预防可能影响业务的问题。 - 建立事件协议:您将领导事件响应协议的改进和事件后分析,以推动平台稳定性的持续改进。 - 指导和技术文化:您将指导其他工程师,培养可靠性工程卓越文化,并负责消除繁琐工作和优化资源利用的技术举措。 我们寻找的人选具备 - 丰富的SRE或系统工程经验:在领导复杂技术项目和定义基础设施战略方面有良好的记录。 - 函数式编程和大数据的熟练度:在后端系统使用Clojure和Datomic,以及在大数据处理使用Scala和Spark方面有扎实经验。 - 云基础设施的专业知识:在AWS上使用Kubernetes、Step Functions、Lambdas和EC2管理关键任务工作负载的深厚实践知识。 - 从头开始构建自动化的经验:在绿色环境中创新和构建自动化框架的能力,重点是实施AI代理以提高运营效率。 - 可靠性实践的高级知识:在定义和执行服务级别目标、管理系统可观测性以及领导灾难恢复和容量规划方面的经验。 - 战略问题解决能力:能够将复杂的架构挑战转化为可扩展的软件解决方案,同时管理成本、性能和安全最佳实践。 我们的SRE团队正式负责 - 服务级别目标(SLO)管理:定义、监控和执行关键数据平台服务的SLO。 - 系统可观测性:在数据平台上实施和维护全面的监控、日志记录和追踪解决方案。 - 减少繁琐工作:识别和自动化重复的手动任务,以提高团队效率并专注于战略举措。 - 灾难恢复和业务连续性:制定和测试灾难恢复计划,以确保数据平台的弹性。 - 容量规划:预测资源需求并规划基础设施扩展以满足预期需求。 - 性能工程:优化系统性能并解决瓶颈以确保高效运行。 - 安全最佳实践:在数据平台中实施和倡导安全最佳实践。 - 平台API:通过简单的交互实现对几乎任何服务的警报管理。 我们的福利 - 在Nu获得股权的机会 - 医疗保险 - 牙科和视力保险 - 人寿保险和意外伤害保险 - 延长的产假和陪产假 - Nucleo - 我们的课程学习平台 - NuLanguage - 我们的语言学习计划 - NuCare - 我们的心理健康和健康援助计划 - 延长的产假和陪产假 - 401K - 储蓄计划 - 健康储蓄账户和灵活支出账户 - 居家办公津贴 - 搬迁援助包(如适用) 此职位的工作模式 Nubank采用混合模式运营,团队远程协作并定期聚集进行约一周的面对面会议。对于加拿大团队成员,这些会议通常在我们的一个中心(巴西、墨西哥、哥伦比亚或美国)举行,并提前通知以便妥善规划,并提供旅行支持以确保公平参与这些全球协作机会。 AI使用透明度 我们的招聘过程可能涉及使用人工智能支持的工具,如自动面试转录和分析,以支持评估过程。人工智能不会用于做出最终招聘决定;所有决定均由人类审核者做出。