标题:网站可靠性工程师 (SRE)
地点:仅限CST或EST - 请在简历中注明您的城市和州
薪资:基本工资:$110,000 – $150,000
不提供赞助 / 必须是美国公民或永久居民(绿卡)
福利:健康、医疗、牙科、视力、401(k)匹配、股票期权、带薪休假及其他福利
概述
我们正在招聘一名网站可靠性工程师,负责设计、保护和运营支持美国客户的AI驱动平台的高可用基础设施,包括受监管行业的组织。此职位负责美国平台运营,并在快节奏、高增长的环境中与全球工程组织合作。必须具备GCP和Snowflake经验。
您的职责
- 设计、实施和运营主要在GCP上的可扩展、容错基础设施,并计划未来的多云扩展
- 使用Terraform领导基础设施即代码的项目,具备强大的安全性和治理实践
- 构建和维护支持大规模工程和AI工作负载的CI/CD和DevSecOps管道
- 使用Prometheus、Grafana、ELK和类似工具实施可观测性和监控
- 定义SLOs/SLIs,管理错误预算,并通过无责后分析领导事件响应
- 支持美国受监管行业的合规要求
- 使用Python、Go或Bash自动化操作工作流
- 在负责美国平台运营和事件的同时,与全球团队合作
我们寻找的条件
- 计算机科学、工程学士学位或同等经验
- 2年以上SRE、DevOps或系统工程经验
- 丰富的Terraform和基础设施即代码经验
- 精通Python和脚本语言
- 具备CI/CD工具经验(GitHub Actions、GitLab CI、Jenkins、ArgoCD等)
- 云经验(优先GCP;AWS/Azure为加分项)
- 具备Kubernetes和Docker经验
- 在受监管环境中有经验(航空航天与国防、金融、医疗保健优先)
- 强大的沟通能力和安全第一的思维方式
加分项
- 高速增长的初创公司经验
- AI安全、MLOps或AI/ML基础设施安全经验