工作目的
SRE顾问 - 可观察性和APM负责设计、实施和优化大规模可观察性和应用性能监控平台,以确保关键企业系统的可靠性、性能、可扩展性和可用性。
该角色在日志记录、监控、APM和可观察性领域应用站点可靠性工程(SRE)原则,作为Splunk、Instana和AppDynamics等平台的主题专家,同时推动自动化、性能工程和在混合和云原生环境中的运营卓越。
主要职责
架构、部署和操作企业级可观察性和APM平台,包括Splunk、Instana和/或AppDynamics,覆盖本地、云和混合环境。
通过定义和管理SLI、SLO和错误预算来应用SRE原则,以确保平台可靠性和服务性能。
领导复杂应用和平台级问题的性能分析、故障排除和根本原因分析(RCA)。
设计和维护仪表板、警报、健康规则和分析用例,以提供端到端系统可见性。
执行容量规划、性能调优和可扩展性评估,以提高可观察性和APM平台的性能。
通过使用脚本和基础设施即代码(IaC)推动自动化举措,以提高可靠性、一致性和运营效率。
将可观察性平台与ITSM、CI/CD管道、SIEM和事件管理工具集成。
为SRE、DevOps和运营团队提供技术领导、指导和指导。
为工程和领导团队提供可观察性最佳实践和平台战略建议。
维护平台文档、标准和运营手册。
最低资格
计算机科学、信息技术或相关领域的学士学位。
最低经验
6年以上SRE、IT运营、DevOps或应用性能/可观察性角色的经验。
职位特定技能
在站点可靠性工程(SRE)、可观察性和现代应用架构方面有坚实的基础。
在大型企业环境中,至少有一个以下平台的实际操作经验:Splunk、Instana或AppDynamics。
在可观察性、日志记录和APM平台(Splunk、Instana、AppDynamics)方面有深入的实际操作专业知识。
对APM、指标、日志、跟踪和性能工程概念有深入理解。
熟练掌握SRE实践,包括可靠性测量、自动化和事件管理。
具有云平台(AWS、Azure、GCP)和容器编排技术(Kubernetes / OpenShift)经验。
具备强大的自动化和脚本编写技能(例如Python、Bash、PowerShell)。
具有基础设施即代码工具(例如Terraform、Ansible、Puppet)经验者优先。
对Linux/Unix和Windows操作系统、网络和系统性能有扎实的知识。
能够清晰地向技术和非技术利益相关者传达复杂的技术概念。
具备强大的分析、故障排除和问题解决能力。
相关平台或云认证(例如Splunk架构师、Instana、AppDynamics、云/SRE认证)是加分项。
资历水平
中级资历水平
雇佣类型
全职
职能
信息技术
领域
信息技术服务和咨询