职位：系统工程师助理 / 站点可靠性工程师获取有关此职位的 AI 驱动建议及更多独家功能。直接向 Nityo Infotech 的招聘者发送消息站点可靠性工程师 (SRE) 职位介绍我们正在寻找一位经验丰富的站点可靠性工程师 (SRE)，拥有 5-10 年的经验，加入我们的平台工程团队。此角色非常适合在快节奏环境中茁壮成长、对可靠性充满热情并享受解决复杂挑战的人。您将在构建和维护可扩展、弹性系统方面发挥关键作用，同时推动我们云原生平台的运营卓越。主要职责 • 可靠性工程：定义和实施 SLI、SLO 和错误预算，以衡量和提高服务可靠性。 • 云基础设施：设计、部署和管理 Google Cloud Platform (GCP) 或其他主要云服务提供商的基础设施。 • Kubernetes 操作：管理和优化 GKE（Google Kubernetes Engine）集群，确保高可用性和性能。 • 参与值班轮换并处理生产系统的 L2/L3 支持。 • 领导事件响应、根本原因分析和事后分析。 • 与团队合作，减少 MTTR 并改善事件工作流程。 • 自动化与工具：使用 Python、Go 或 Bash 开发工具和脚本，以自动化操作任务并提高系统效率。 • 监控与可观察性：使用 Prometheus、Grafana、ELK 或 Stackdriver 等工具实施和维护监控、日志记录和警报系统。 • API 管理：构建和维护支持平台操作和自动化的内部 API 和集成。 • 基础设施即代码：使用 Terraform、Helm 和 Git Ops 等工具以可扩展和可重复的方式管理基础设施。 • 协作与文化：与开发、QA 和产品团队密切合作，将可靠性嵌入软件开发生命周期。所需资格 • 5-10 年 SRE、Dev Ops 或基础设施工程角色的经验。 • 在云平台（尤其是 GCP）方面有强大的实践经验。 • 精通脚本/编程（Python、Go、Bash）。 • 深入理解 Kubernetes，具有 GKE 的实践经验。 • 扎实的 SQL 和关系数据库系统知识。 • 有实施和管理 SLI/SLO 及可靠性指标的经验。 • 熟悉 RESTful API 和微服务架构。 • 在分布式系统中具有较强的故障排除和调试技能。 • 优秀的沟通和协作能力。优先资格 • 云认证（例如，GCP 专业云工程师）。 • 有事件管理平台的经验（例如，Pager Duty、Opsgenie）。 • 接触 Dev Ops 实践、CI/CD 流水线和敏捷方法论。在云环境中的安全和合规经验联系方式通过 WhatsApp 私信 Ana（Anamica）桌面号码- WhatsApp #J-18808-Ljbffr

系统工程师助理/站点可靠性工程师

Nityo Infotech