工作总结我们正在寻找一位熟练的站点可靠性工程师（SRE），以提高我们系统和应用程序的可靠性、可扩展性和性能。理想的候选人应具备自动化、云平台、可观测性、事件管理和DevOps实践方面的丰富经验。此角色需要与跨职能团队密切合作，以确保高可用性、持续改进和高效的服务交付。主要职责 • 设计、构建和维护基础设施供应和配置管理的自动化。 • 实施和管理监控、可观测性和警报系统，以确保服务可靠性。 • 与开发和运营团队合作，增强CI/CD管道和部署自动化。 • 领导事件响应、根本原因分析和持续改进计划。 • 管理云基础设施、容器编排平台和大规模分布式系统。 • 确保系统和流程的安全性、合规性和治理。 • 优化应用程序性能，进行容量规划和负载测试。 • 维护文档、运行手册、SLOs/SLAs和操作流程。所需技能和经验 1. 自动化和配置管理 • Ansible：编写剧本、角色和模块。 • Python：用于自动化、监控、API集成的脚本编写。 • PowerShell：用于Windows、AD和云资源的自动化。 2. 监控和可观测性 • Dynatrace：合成和真实用户监控、警报、性能分析。 • Moogsoft：事件关联、警报管理、事件编排。 • Elasticsearch Stack：日志聚合和查询；熟悉Kibana/Logstash。 3. 事件和服务管理 • ServiceNow：工单生命周期、CMDB、工作流自动化。 4. 基础设施和平台 • 云：AWS、Azure或GCP（计算、存储、无服务器、网络）。 • 容器：Kubernetes/OpenShift、Docker、Helm。 5. 数据库和存储 • SQL Server：查询优化、复制、HA/DR设置。 • 分布式数据库：Cassandra、Redis、NoSQL系统。 • 备份和灾难恢复计划。 6. 安全和合规 • IAM、加密、密钥管理（例如，HashiCorp Vault）。 • 漏洞扫描和合规框架（例如，SOC 2）。 7. CI/CD和DevOps • CI/CD工具：Jenkins、GitHub Actions、UrbanCode Deploy（UCD）。 • Git工作流程和分支策略。 • 工件管理：Artifactory、Nexus。 8. 性能工程 • 使用JMeter进行负载测试。 • 容量规划和性能优化。 • 定义和测量SLIs、SLOs、SLAs。

DevOps SRE

TechDoQuest