工作目的 SRE顾问 - 可观察性和APM负责设计、实施和优化大规模可观察性和应用性能监控平台，以确保关键企业系统的可靠性、性能、可扩展性和可用性。该角色在日志记录、监控、APM和可观察性领域应用站点可靠性工程（SRE）原则，作为Splunk、Instana和AppDynamics等平台的主题专家，同时推动自动化、性能工程和在混合和云原生环境中的运营卓越。主要职责架构、部署和操作企业级可观察性和APM平台，包括Splunk、Instana和/或AppDynamics，覆盖本地、云和混合环境。通过定义和管理SLI、SLO和错误预算来应用SRE原则，以确保平台可靠性和服务性能。领导复杂应用和平台级问题的性能分析、故障排除和根本原因分析（RCA）。设计和维护仪表板、警报、健康规则和分析用例，以提供端到端系统可见性。执行容量规划、性能调优和可扩展性评估，以提高可观察性和APM平台的性能。通过使用脚本和基础设施即代码（IaC）推动自动化举措，以提高可靠性、一致性和运营效率。将可观察性平台与ITSM、CI/CD管道、SIEM和事件管理工具集成。为SRE、DevOps和运营团队提供技术领导、指导和指导。为工程和领导团队提供可观察性最佳实践和平台战略建议。维护平台文档、标准和运营手册。最低资格计算机科学、信息技术或相关领域的学士学位。最低经验 6年以上SRE、IT运营、DevOps或应用性能/可观察性角色的经验。职位特定技能在站点可靠性工程（SRE）、可观察性和现代应用架构方面有坚实的基础。在大型企业环境中，至少有一个以下平台的实际操作经验：Splunk、Instana或AppDynamics。在可观察性、日志记录和APM平台（Splunk、Instana、AppDynamics）方面有深入的实际操作专业知识。对APM、指标、日志、跟踪和性能工程概念有深入理解。熟练掌握SRE实践，包括可靠性测量、自动化和事件管理。具有云平台（AWS、Azure、GCP）和容器编排技术（Kubernetes / OpenShift）经验。具备强大的自动化和脚本编写技能（例如Python、Bash、PowerShell）。具有基础设施即代码工具（例如Terraform、Ansible、Puppet）经验者优先。对Linux/Unix和Windows操作系统、网络和系统性能有扎实的知识。能够清晰地向技术和非技术利益相关者传达复杂的技术概念。具备强大的分析、故障排除和问题解决能力。相关平台或云认证（例如Splunk架构师、Instana、AppDynamics、云/SRE认证）是加分项。资历水平中级资历水平雇佣类型全职职能信息技术领域信息技术服务和咨询

站点可靠性工程 SRE 顾问 –

EJADA