职位描述:
在 Astra North Infoteck Inc.,我们正在寻找一位高技能的网站可靠性工程师加入我们的团队。此角色涉及确保我们在 Microsoft Azure 上基础设施的可靠性和可扩展性,利用 Terraform 或 OpenTofu 进行设计、构建和维护。
主要职责:
• 使用 Terraform 或 OpenTofu 设计、构建和维护在 Microsoft Azure 上的可扩展和安全的基础设施。
• 深入理解 AKS、Helm charts 和 ArgoCD 的 GitOps 基于交付,部署和管理 Kubernetes 工作负载。
• 开发和维护强大的 GitLab CI/CD 管道,以支持跨环境快速、可靠的软件交付。
• 使用 Grafana LGTM(Loki、Grafana、Tempo、Mimir)栈实施 SRE 实践,以确保可观察性、事件响应和系统可靠性。
• 与开发人员和平台团队合作,采用最佳实践对微服务进行容器化和部署。
• 使用 PowerShell 和 Azure CLI 编写和维护自动化脚本,以自动化常规基础设施任务并提供运营支持。
• 对生产事件进行根本原因分析,并通过自动化和流程改进推动长期解决方案。