职位:站点可靠性工程师(SRE) - 平台基础设施团队(100% 远程 - 美国)
关于这份工作
Hopper正在寻找一位高级站点可靠性工程师加入我们的平台基础设施团队——这个团队构建和运营云基础,为全球数百万旅行者使用的产品提供支持。
我们的使命是让Hopper的工程师能够快速发布、保持弹性并轻松扩展。如果您关心自动化、可扩展性和开发者体验,并希望对一家不断发展的旅游科技公司产生实质性影响,那么这可能是您的理想职位。
您将帮助发展在Google Cloud中运行的大规模、多区域基础设施,支持数百名工程师和数十个产品团队。您将参与构建自动化、自助服务的平台工具,确保基础设施安全、可靠、成本效益高且易于使用。
- 热衷于自动化重复工作,并将最佳实践转化为平台级解决方案。
- 通过提供直观的基础设施和部署工具和接口,助力产品团队。
- 倾向于实际、可靠的解决方案,而非复杂和过度工程。
- 深切关注运营卓越:可扩展系统、高可用性、性能和成本优化。
- 将开发者体验视为产品,并不断寻找改进的方法。
您日常的工作将包括:
- 改进和发展平台工具,以支持Hopper日益增长的服务和团队。
- 设计简单、一致且可扩展的基础设施工作流程,使工程师能够自信地构建和部署。
- 推动关键基础设施组件的自动化,减少手动工作并提高可靠性。
- 调整和扩展基础设施产品,以满足产品团队的需求,同时保持一个连贯且可维护的平台。
- 作为全球分布的可持续值班轮换的一部分,参与平台级问题的事件响应(团队覆盖美洲和欧洲)。
- 通过排查平台问题、回答基础设施相关问题以及审查影响核心系统的拉取请求来支持工程团队。
- 与一个小型、高影响力的SRE团队合作,专注于运营卓越、性能和开发者体验。
理想的候选人具备:
- 在SRE、开发运维、软件工程或系统工程方面的专业经验,对构建可靠、可扩展的基础设施充满热情。
- 在分布式系统和云原生环境中的强大故障排除和事件响应技能。
- 扎实的系统设计和分析思维,注重简单性、性能和可维护性。
- 清晰有效的沟通能力,能够跨工程团队协作。
云和基础设施专业知识:
- 拥有主要云平台的实践经验——理想情况下是Google Cloud Platform(GCP)。
- 深入了解基础设施即代码,最好使用Terraform。
- 具备使用容器和Kubernetes以及Helm或Kustomize等工具的经验。
- 具备服务网格技术的工作知识,最好是Istio。
网络与安全:
- 对网络基础知识有扎实的理解——DNS、TLS、证书、入口控制器等。
- 了解云和基础设施安全最佳实践,包括IAM、RBAC和网络分段。
- 熟悉身份验证和授权协议及技术。
可观察性和工具:
- 具备可观察性堆栈的经验——日志、指标、跟踪和APM(最好使用Datadog)。
- 具备CI/CD管道和部署自动化的实际知识。
- 接触过数据库技术,包括SQL和NoSQL。
脚本和自动化:
- 熟练使用Bash、Python或类似脚本语言编写脚本以自动化常规任务和构建工具。
福利和待遇:
- 资金充足且经过验证的初创公司,具有大志向,提供有竞争力的薪资和上市前股票期权的好处。
- 无限带薪休假。
- Carrot Cash旅行津贴。
- 通过Flex Desk按需使用联合办公空间和居家办公津贴。
- 请咨询我们关于非常慷慨的育儿假,远高于行业标准!
- 创业文化……