工作总结
我们正在寻找一位熟练的站点可靠性工程师(SRE),以提高我们系统和应用程序的可靠性、可扩展性和性能。理想的候选人应具备自动化、云平台、可观测性、事件管理和DevOps实践方面的丰富经验。此角色需要与跨职能团队密切合作,以确保高可用性、持续改进和高效的服务交付。
主要职责
• 设计、构建和维护基础设施供应和配置管理的自动化。
• 实施和管理监控、可观测性和警报系统,以确保服务可靠性。
• 与开发和运营团队合作,增强CI/CD管道和部署自动化。
• 领导事件响应、根本原因分析和持续改进计划。
• 管理云基础设施、容器编排平台和大规模分布式系统。
• 确保系统和流程的安全性、合规性和治理。
• 优化应用程序性能,进行容量规划和负载测试。
• 维护文档、运行手册、SLOs/SLAs和操作流程。
所需技能和经验
1. 自动化和配置管理
• Ansible:编写剧本、角色和模块。
• Python:用于自动化、监控、API集成的脚本编写。
• PowerShell:用于Windows、AD和云资源的自动化。
2. 监控和可观测性
• Dynatrace:合成和真实用户监控、警报、性能分析。
• Moogsoft:事件关联、警报管理、事件编排。
• Elasticsearch Stack:日志聚合和查询;熟悉Kibana/Logstash。
3. 事件和服务管理
• ServiceNow:工单生命周期、CMDB、工作流自动化。
4. 基础设施和平台
• 云:AWS、Azure或GCP(计算、存储、无服务器、网络)。
• 容器:Kubernetes/OpenShift、Docker、Helm。
5. 数据库和存储
• SQL Server:查询优化、复制、HA/DR设置。
• 分布式数据库:Cassandra、Redis、NoSQL系统。
• 备份和灾难恢复计划。
6. 安全和合规
• IAM、加密、密钥管理(例如,HashiCorp Vault)。
• 漏洞扫描和合规框架(例如,SOC 2)。
7. CI/CD和DevOps
• CI/CD工具:Jenkins、GitHub Actions、UrbanCode Deploy(UCD)。
• Git工作流程和分支策略。
• 工件管理:Artifactory、Nexus。
8. 性能工程
• 使用JMeter进行负载测试。
• 容量规划和性能优化。
• 定义和测量SLIs、SLOs、SLAs。