职位:系统工程师助理 / 站点可靠性工程师
获取有关此职位的 AI 驱动建议及更多独家功能。
直接向 Nityo Infotech 的招聘者发送消息
站点可靠性工程师 (SRE) 职位介绍
我们正在寻找一位经验丰富的站点可靠性工程师 (SRE),拥有 5-10 年的经验,加入我们的平台工程团队。此角色非常适合在快节奏环境中茁壮成长、对可靠性充满热情并享受解决复杂挑战的人。您将在构建和维护可扩展、弹性系统方面发挥关键作用,同时推动我们云原生平台的运营卓越。
主要职责
• 可靠性工程:
定义和实施 SLI、SLO 和错误预算,以衡量和提高服务可靠性。
• 云基础设施:
设计、部署和管理 Google Cloud Platform (GCP) 或其他主要云服务提供商的基础设施。
• Kubernetes 操作:
管理和优化 GKE(Google Kubernetes Engine)集群,确保高可用性和性能。
• 参与值班轮换并处理生产系统的 L2/L3 支持。
• 领导事件响应、根本原因分析和事后分析。
• 与团队合作,减少 MTTR 并改善事件工作流程。
• 自动化与工具:
使用 Python、Go 或 Bash 开发工具和脚本,以自动化操作任务并提高系统效率。
• 监控与可观察性:
使用 Prometheus、Grafana、ELK 或 Stackdriver 等工具实施和维护监控、日志记录和警报系统。
• API 管理:
构建和维护支持平台操作和自动化的内部 API 和集成。
• 基础设施即代码:
使用 Terraform、Helm 和 Git Ops 等工具以可扩展和可重复的方式管理基础设施。
• 协作与文化:
与开发、QA 和产品团队密切合作,将可靠性嵌入软件开发生命周期。
所需资格
• 5-10 年 SRE、Dev Ops 或基础设施工程角色的经验。
• 在云平台(尤其是 GCP)方面有强大的实践经验。
• 精通脚本/编程(Python、Go、Bash)。
• 深入理解 Kubernetes,具有 GKE 的实践经验。
• 扎实的 SQL 和关系数据库系统知识。
• 有实施和管理 SLI/SLO 及可靠性指标的经验。
• 熟悉 RESTful API 和微服务架构。
• 在分布式系统中具有较强的故障排除和调试技能。
• 优秀的沟通和协作能力。
优先资格
• 云认证(例如,GCP 专业云工程师)。
• 有事件管理平台的经验(例如,Pager Duty、Opsgenie)。
• 接触 Dev Ops 实践、CI/CD 流水线和敏捷方法论。
在云环境中的安全和合规经验
联系方式
通过 WhatsApp 私信
Ana(Anamica)
桌面号码-
WhatsApp
#J-18808-Ljbffr