高级软件工程师/SRE - 核心通信

18天前全职
114.9万 - 172.4万 / 年 Bloomberg

Bloomberg

location 纽约
unsaved
位置 纽约 业务领域 工程与首席技术官 参考编号 10045384 职位描述与要求 关于核心通信(CC): 我们构建了支撑彭博社内部和客户沟通的核心消息产品:IB(即时彭博),MSG(消息)及其他协作平台。这些系统被金融行业用于每天交换数十亿条消息,从交易想法和定价报价到关键任务的沟通。我们正在构建金融对话的基础设施,操作规模庞大且风险高。 关于我们的团队: 核心通信SRE团队是所有CC产品可靠性和稳定性的守护者。我们的重点是使团队能够构建和运营具有弹性、可观察性和可扩展的系统。我们定义标准,提供工具,并在开发生命周期的各个阶段领导以可靠性为重点的倡议。我们的工作范围涵盖基础设施、应用健康和事件响应,与100多名开发人员及多个产品和平台团队紧密合作。 我们从整体上看待我们的系统,从应用代码和集群配置到监控管道和可靠性治理。随着我们的平台发展和扩展,我们主动识别架构和操作风险,并与团队合作来减轻这些风险。这包括与产品团队定义有意义的SLO,增强我们的可观察性堆栈,以及开发跨领域工具来改善诊断和响应。 我们相信您能够: • 定义并推广以可靠性为重点的标准和最佳实践,涵盖可观察性、警报、事件响应和配置 • 构建和维护故障排除工具,利用分布式跟踪和健康信号加速根本原因分析 • 与产品团队合作,定义和衡量与用户体验相关的有意义的SLO • 领导倡议,识别和减轻CC系统中的可靠性风险——涵盖性能、容量和弹性 • 与开发人员合作,将可靠性嵌入软件开发生命周期,从设计到部署 • 通过倡导故障意识设计,促进可靠性文化,并在团队间分享最佳实践 • 开发自动化工具,以减少手动操作工作,并支持我们基础设施的可扩展、安全增长 您将获得的好处: 您将对彭博社最基本和关键产品——IB和MSG的稳定性、弹性和可扩展性产生直接和可见的影响,这些产品每天被全球金融行业用于重要的决策和沟通。您所做的工作将直接塑造我们客户和内部用户的可靠性体验。 这个角色给您提供了推动可靠性倡议的自主权,从基础设施设计和工具到在工程团队中推广和采纳。您将在核心通信中发挥关键作用,促进可靠性文化,影响系统的构建、监控和维护方式。 在您的日常工作中,您将帮助创建工具和框架,以定义和跟踪指导我们平台长期稳定性工作的可靠性指标。您将与团队合作实施分布式跟踪和端到端健康监控,使调试更快,系统行为更深入可见。您将为库、仪表板和自动化的开发做出贡献,确保在更广泛的CC组织中,警报、配置和事件响应的一致性。您还将帮助引导混沌测试和故障注入实践的采纳,以验证我们的系统在现实压力下的表现。 您将与多个团队和地区的工程师、产品经理和SRE紧密合作——建立深厚的技术专长和强大的跨职能网络。我们还支持通过参加会议、行业参与和知识共享来进行持续学习,以便您能够继续成长,并将新视角带回团队。 您需要具备: • 4年以上软件工程经验,并有SRE团队的工作经验 • 精通Python,并具备C++的实际经验 • 对分布式系统和系统可靠性有深入理解 • 熟悉SLO、SLI和SLA,并了解如何将系统性能与客户影响关联起来 • 较强的协作和沟通能力 • 计算机科学、工程或同等实践经验的学位 我们希望看到: • 监控和警报工具(例如:Grafana、Splunk、分布式跟踪)的实际经验 • Kafka和Java的经验 • 混沌工程、故障注入或弹性测试框架的经验 • 对容量规划和扩展分析的接触 • 将安全视为可靠性一部分的兴趣 • 对开源的贡献或参与SRE社区 • 对行业合规框架(例如:DORA、SOC 2)的了解,以及它们与系统可靠性之间的关系 • 具备Apache Spark、Amazon S3等大数据技术的经验 薪资范围 = 每年160000 - 240000美元 + 福利 + 奖金 参考的薪资范围基于公司在发布时的善意信念。实际薪酬可能会根据地理位置、工作经验、市场条件、教育/培训和技能水平等因素而有所不同。 我们提供最全面和慷慨的福利计划之一,并提供一系列总奖励,包括绩效增加、激励补偿(仅限豁免角色)、带薪假期、带薪休假、医疗、牙科、视力、短期和长期残疾福利、401(k)+匹配、寿险和各种健康计划等。公司不直接向临时工/承包商和实习生提供福利。