DevOps SRE

蒙特利尔 4天前全职 网络
面议
工作总结 我们正在寻找一位熟练的站点可靠性工程师(SRE),以提高我们系统和应用程序的可靠性、可扩展性和性能。理想的候选人应具备自动化、云平台、可观测性、事件管理和DevOps实践方面的丰富经验。此角色需要与跨职能团队密切合作,以确保高可用性、持续改进和高效的服务交付。 主要职责 • 设计、构建和维护基础设施供应和配置管理的自动化。 • 实施和管理监控、可观测性和警报系统,以确保服务可靠性。 • 与开发和运营团队合作,增强CI/CD管道和部署自动化。 • 领导事件响应、根本原因分析和持续改进计划。 • 管理云基础设施、容器编排平台和大规模分布式系统。 • 确保系统和流程的安全性、合规性和治理。 • 优化应用程序性能,进行容量规划和负载测试。 • 维护文档、运行手册、SLOs/SLAs和操作流程。 所需技能和经验 1. 自动化和配置管理 • Ansible:编写剧本、角色和模块。 • Python:用于自动化、监控、API集成的脚本编写。 • PowerShell:用于Windows、AD和云资源的自动化。 2. 监控和可观测性 • Dynatrace:合成和真实用户监控、警报、性能分析。 • Moogsoft:事件关联、警报管理、事件编排。 • Elasticsearch Stack:日志聚合和查询;熟悉Kibana/Logstash。 3. 事件和服务管理 • ServiceNow:工单生命周期、CMDB、工作流自动化。 4. 基础设施和平台 • 云:AWS、Azure或GCP(计算、存储、无服务器、网络)。 • 容器:Kubernetes/OpenShift、Docker、Helm。 5. 数据库和存储 • SQL Server:查询优化、复制、HA/DR设置。 • 分布式数据库:Cassandra、Redis、NoSQL系统。 • 备份和灾难恢复计划。 6. 安全和合规 • IAM、加密、密钥管理(例如,HashiCorp Vault)。 • 漏洞扫描和合规框架(例如,SOC 2)。 7. CI/CD和DevOps • CI/CD工具:Jenkins、GitHub Actions、UrbanCode Deploy(UCD)。 • Git工作流程和分支策略。 • 工件管理:Artifactory、Nexus。 8. 性能工程 • 使用JMeter进行负载测试。 • 容量规划和性能优化。 • 定义和测量SLIs、SLOs、SLAs。