站点可靠性工程师 (SRE)

迪拜 无个税2天前合同 网络
面议
工作总结 我们正在寻找一名站点可靠性工程师(SRE),以确保我们生产系统的可靠性、可扩展性和性能。SRE将与工程、DevOps和产品团队密切合作,构建高可用系统、自动化操作并提高系统可观测性,同时保持服务水平目标(SLO)。 主要职责 可靠性与运营 • 确保生产系统的高可用性、可靠性和性能。 • 定义、监控和管理SLI、SLO和SLA。 • 领导事件响应、根本原因分析(RCA)和事后审查。 • 实施主动监控和警报以防止故障。 自动化与工程 • 使用脚本和基础设施即代码自动化重复的操作任务。 • 通过工程解决方案而非人工干预来提高系统可靠性。 • 通过构建工具、自动化和自愈系统来减少繁琐工作。 云与基础设施 • 在云平台(AWS / Azure / GCP)上设计和管理可扩展的基础设施。 • 使用Docker和Kubernetes管理容器化工作负载。 • 实施和维护CI/CD管道以实现安全和频繁的部署。 监控与可观测性 • 使用以下工具构建和维护可观测性解决方案: • Prometheus, Grafana • ELK / OpenSearch • Datadog, New Relic • 跟踪系统性能、容量规划和错误预算。 安全与合规 • 确保符合安全标准的可靠性最佳实践。 • 参与值班轮换并确保系统安全运行。 • 与安全团队合作实施安全的基础设施实践。 所需技能与资格 • 计算机科学、工程或相关领域的学士学位。 • 在Linux/Unix系统管理方面有丰富经验。 • 精通至少一种脚本或编程语言: • Python, Go, Bash, 或 Java • 有云平台(AWS / Azure / GCP)经验。 • 拥有Kubernetes和容器编排的实际经验。 • 了解网络基础知识(TCP/IP, DNS, 负载均衡)。 • 具有监控、警报和事件管理经验。 优先/加分技能 • 有实施Google SRE原则的SRE最佳实践经验。 • 了解Terraform, Ansible或CloudFormation。 • 有服务网格(Istio, Linkerd)经验。 • 了解混沌工程工具(Gremlin, Chaos Mesh)。 • 在金融科技、银行或高可用系统方面有经验。