DevOps/SRE

香港 2天前全职 网络
面议
我们正在寻找一位技术娴熟且积极主动的DevOps/网站可靠性工程师(SRE),要求具有2年以上经验,以帮助我们构建、扩展和维护稳健、安全和高可用性的基础设施。作为DevOps/SRE团队成员,您将与开发、质量保证和运营团队紧密合作,自动化流程、监控系统健康状况,并确保我们服务的可靠性。 这是一个需要强大技术技能、对现代DevOps工具和实践的深入理解以及解决问题思维的实际操作角色。 主要职责: - 设计、实施和维护CI/CD流水线以实现可靠的代码部署 - 使用Prometheus、Grafana或Datadog等工具监控应用性能和系统可靠性 - 根据最佳实践维护和改进云基础设施(如AWS、GCP、Azure) - 使用Terraform、Ansible或CloudFormation等工具管理基础设施即代码 - 排查基础设施和应用问题,确保最小停机时间和快速解决 - 自动化重复的操作任务并改进开发工作流程 - 实施和执行安全、备份和灾难恢复策略 - 参与值班轮换,并通过根本原因分析和事后评审响应事件 - 与开发团队紧密合作,确保应用设计满足性能、可用性和可扩展性要求 - 优化跨云环境的资源使用和成本 资格要求: 必需条件: - 计算机科学、工程或相关领域的学士学位 - 2年以上DevOps、SRE或系统工程角色的经验 - 拥有Linux/Unix系统管理的实际操作经验 - 具备Jenkins、GitHub Actions、CircleCI或GitLab CI等CI/CD工具的经验 - 具备云平台(AWS、GCP、Azure)的工作知识 - 熟悉容器化和编排工具(如Docker、Kubernetes) - 具有使用Terraform、Ansible或类似工具进行基础设施即代码的经验 - 精通至少一种脚本或编程语言(如Bash、Python、Go) - 对监控、日志记录和警报系统有深入理解 - 熟悉Git版本控制 优先条件: - 具有生产环境中Kubernetes管理的经验 - 熟悉安全最佳实践和合规标准 - 理解网络、负载均衡和DNS配置 - 接触过事件管理和SLA/SLO/SLI概念 - 有在敏捷环境中工作的经验