站点可靠性工程 SRE 顾问 –

利雅得 无个税8天前全职 网络
面议
工作目的 SRE顾问 - 可观察性和APM负责设计、实施和优化大规模可观察性和应用性能监控平台,以确保关键企业系统的可靠性、性能、可扩展性和可用性。 该角色在日志记录、监控、APM和可观察性领域应用站点可靠性工程(SRE)原则,作为Splunk、Instana和AppDynamics等平台的主题专家,同时推动自动化、性能工程和在混合和云原生环境中的运营卓越。 主要职责 架构、部署和操作企业级可观察性和APM平台,包括Splunk、Instana和/或AppDynamics,覆盖本地、云和混合环境。 通过定义和管理SLI、SLO和错误预算来应用SRE原则,以确保平台可靠性和服务性能。 领导复杂应用和平台级问题的性能分析、故障排除和根本原因分析(RCA)。 设计和维护仪表板、警报、健康规则和分析用例,以提供端到端系统可见性。 执行容量规划、性能调优和可扩展性评估,以提高可观察性和APM平台的性能。 通过使用脚本和基础设施即代码(IaC)推动自动化举措,以提高可靠性、一致性和运营效率。 将可观察性平台与ITSM、CI/CD管道、SIEM和事件管理工具集成。 为SRE、DevOps和运营团队提供技术领导、指导和指导。 为工程和领导团队提供可观察性最佳实践和平台战略建议。 维护平台文档、标准和运营手册。 最低资格 计算机科学、信息技术或相关领域的学士学位。 最低经验 6年以上SRE、IT运营、DevOps或应用性能/可观察性角色的经验。 职位特定技能 在站点可靠性工程(SRE)、可观察性和现代应用架构方面有坚实的基础。 在大型企业环境中,至少有一个以下平台的实际操作经验:Splunk、Instana或AppDynamics。 在可观察性、日志记录和APM平台(Splunk、Instana、AppDynamics)方面有深入的实际操作专业知识。 对APM、指标、日志、跟踪和性能工程概念有深入理解。 熟练掌握SRE实践,包括可靠性测量、自动化和事件管理。 具有云平台(AWS、Azure、GCP)和容器编排技术(Kubernetes / OpenShift)经验。 具备强大的自动化和脚本编写技能(例如Python、Bash、PowerShell)。 具有基础设施即代码工具(例如Terraform、Ansible、Puppet)经验者优先。 对Linux/Unix和Windows操作系统、网络和系统性能有扎实的知识。 能够清晰地向技术和非技术利益相关者传达复杂的技术概念。 具备强大的分析、故障排除和问题解决能力。 相关平台或云认证(例如Splunk架构师、Instana、AppDynamics、云/SRE认证)是加分项。 资历水平 中级资历水平 雇佣类型 全职 职能 信息技术 领域 信息技术服务和咨询