职位名称:站点可靠性工程师(SRE)
地点:新泽西州伯克利高地 - 现场
面试方式:现场面试
职位类型:合同
经验要求:15-20年经验
职位概述
我们正在寻找一名技术娴熟的站点可靠性工程师(SRE)加入我们位于新泽西州伯克利高地的团队。理想的候选人将负责维护基于云环境的高系统可靠性、性能和可扩展性。此角色需要在监控、自动化、CI/CD 和 AWS 基础设施管理方面具有丰富的专业知识。
主要职责
确保生产系统的高可用性、性能和可靠性设计并实施使用 Splunk 和 Dynatrace 的监控和警报解决方案管理和优化 AWS 云基础设施使用 Ansible 自动化部署和配置管理使用 Jenkins 构建和维护 CI/CD 管道排查生产问题并进行根本原因分析实施基础设施即代码(IaC)最佳实践与开发、QA 和运营团队合作推动系统可靠性和运营效率的持续改进
所需技能和经验
15年以上站点可靠性工程/DevOps 经验丰富的实践经验:AWS(EC2、S3、RDS、IAM、CloudWatch 等)Splunk(日志监控与分析)Dynatrace(应用性能监控)Ansible(自动化与配置管理)Jenkins(CI/CD 管道)具备 Linux/Unix 环境经验较强的脚本编写能力(Shell、Python 或类似语言)具备事件管理和生产支持经验了解容器化技术(Docker/Kubernetes)者优先
优先资格
具备基础设施即代码经验(Terraform 优先)熟悉敏捷/Scrum 方法具备较强的沟通能力和在快节奏环境中工作的能力