标题:SRE/Ops 工程师
地点:新泽西州恩格尔伍德
- 支持和增强生产系统的可观测性(监控、日志记录、警报)
- 帮助维护关键服务的SLIs/SLOs
- 参与评估服务的生产就绪性
- 与开发团队合作,识别可靠性风险并改进系统架构
- 参与运维自动化,包括CI/CD流水线、事件响应和基础设施配置
- 参与关键服务的事件响应和随叫随到的轮班
- 参与事件后的分析并推动可靠性改进
- 与安全、基础设施和产品团队合作,支持性能、合规性和运营卓越
必备条件
- 愿意在现场工作并根据需要参与24/7的随叫随到轮班
- 5年以上管理和支持高流量数字平台的经验
- 具有CI/CD流水线和部署自动化的丰富经验
- 具有使用AWS和/或GCP等云平台的经验
- 扎实的脚本编写技能(例如,Python、Bash、Groovy)
- 拥有使用Datadog、New Relic、AppDynamics或类似工具进行可观测性和监控的实践经验
- 理解Web、移动和OTT架构
- 具有支持大规模网站、移动和OTT应用程序、微服务、API和分布式系统的经验
- 具有使用Ansible、Terraform或Chef等基础设施即代码工具的经验
- 熟悉JMeter或k6等性能测试工具
- 拥有使用Charles Proxy或Fiddler等调试工具的实践经验
优先资格
- 具有与CDN(例如,Akamai)和反向代理(例如,NGINX、Varnish)合作的经验
- 接触过视频流平台并熟悉应用程序/基础设施的安全控制和最佳实践
- 拥有SRE、DevOps或性能工程方面的认证者优先