SRE 工程师

1天前 远程 全职
128万 - 184.9万 / 年 Speak

Speak

location 旧金山
unsaved
关于我们 我们的使命是重新定义人们学习的方式,从语言开始。 学习一门语言可以改变生活,打开通往新文化、职业和社区的大门。全球有二十亿人正在积极学习一门语言,但最有效的学习方式(面对面的辅导)在大规模上难以获得,并且几十年来没有得到实质性的改善。Speak 正在构建一个人类级别的、由人工智能驱动的口袋导师:一种以对话为中心的体验,让学习者能够真正开口说话,获得即时反馈,并通过精心设计的课程不断进步。结果是从初学者到自信说话者的完整路径,涵盖多种语言。 Speak 于 2019 年首次在韩国推出,现在已成为该国第一语言学习应用程序,并为多个市场和 15 种以上的语言的学习者提供服务。Speak 是全球领先的人工智能公司之一,已从 OpenAI、Accel、Founders Fund、Khosla Ventures 等投资者那里筹集了超过 1.5 亿美元的风险投资,团队分布在旧金山、首尔、东京、台北和卢布尔雅那。 关于这个职位 作为 Speak 的 SRE 工程师,您将是推动我们全球语言学习体验系统的可靠性和弹性的核心力量。您将领导基础设施的扩展工作,增强我们的平台,并确保我们的服务对全球数百万用户快速、可用和可靠。 您将跨越我们的技术栈工作——从 GCP 上的 Kubernetes 到我们的 Node.js API、Postgres 和 Redis——构建稳健的基础设施和运营工具。您将负责事件响应、可观察性和服务级别目标(SLO),并在整个工程组织中嵌入可靠性的文化。 Speak 正在快速增长,我们每天都在加大对系统的压力。这是一个独特的机会,可以在我们扩展到下一个 10 倍用户的过程中塑造我们平台的未来。 您将要做的事情 • 负责 Speak 在 GCP、Kubernetes 和我们的 Node.js/Postgres 技术栈中的基础设施可靠性 • 领导 P0/P1 事件的响应,推动事后分析,并确保我们从每次故障中学习 • 改善可观察性、警报和值班流程,以便我们在用户发现问题之前就能捕捉到问题 • 定义并推动核心系统和服务的 SLO/ SLA 的采用 • 构建工具和框架,使产品工程师更容易实现可靠性——例如更安全的部署和基础设施自动化 • 与产品、工程和机器学习团队跨职能合作,确保可靠性融入我们构建的每一个方面 • 制定短期和长期路线图,以确保我们不断增长的用户基础的稳定性。 • 在 SRE 原则方面成为思想领袖和教练——无责文化、运营成熟度和持续改进 我们寻找的候选人 • 7 年以上 SRE、DevOps 或基础设施相关工程角色的经验,最好有领导或指导他人的经验 • 在 GCP、Kubernetes、Terraform、Node.js、Python、PostgreSQL、Redis 以及 Prometheus 和 Sentry 等可观察性工具方面有丰富经验 • 在高流量系统中改善可靠性、扩展系统并减少事件频率和严重性的成功记录 • 强大的事件管理和根本原因分析技能——您知道如何在压力下领导 • 有构建和维护 CI/CD 管道及部署安全工具的经验 • 强大的系统思维能力,能够识别故障点并主动增强服务 • 深厚的责任感,希望将基础设施打造成组织其他部分的推动力 加分项 • 熟悉云原生环境中的成本优化策略 • 有安全、混沌工程或灾难恢复计划的背景 • 对内部工具、自动化或开发者生产力项目的贡献 为什么选择在 Speak 工作 • 加入一个出色的紧密团队,在合适的时机:我们正在快速增长,最近从硅谷的一些顶级投资者那里完成了 C 轮融资,并在初始市场中实现了产品市场契合。您将加入一个神奇的时刻,一个人可以显著改变公司的发展方向。 • 与您热爱的团队一起做您一生的工作:我们非常关心我们的工艺,想让 Speak 的每个人每天都感到成长。我们相信与您既喜欢又尊重的人一起工作会使一切变得更好。我们深思熟虑地招聘,只与我们深深钦佩的人合作。 • 全球化本质:我们在 40 多个国家上线,并将在多个新市场推出。我们在旧金山、卢布尔雅那、首尔和东京设有专门的办公室,您将有机会定期与这些地区的用户交流以及旅行。 • 以重大方式影响人们的生活:学习一门语言是一个人可以学习的最具改变生活的技能之一,而现在 99% 的人从未实现他们的目标,因为这个过程存在问题。我们正在帮助数百万人实现他们的目标,改善他们的生活。 Speak 不会基于种族、宗教、肤色、国籍、性别(包括怀孕、分娩或相关医疗状况)、性取向、性别认同、性别表达、年龄、受保护的退伍军人身份、残疾身份或其他适用的法律保护特征进行歧视。