我们正在寻找一位技术娴熟且积极主动的DevOps/网站可靠性工程师（SRE），要求具有2年以上经验，以帮助我们构建、扩展和维护稳健、安全和高可用性的基础设施。作为DevOps/SRE团队成员，您将与开发、质量保证和运营团队紧密合作，自动化流程、监控系统健康状况，并确保我们服务的可靠性。这是一个需要强大技术技能、对现代DevOps工具和实践的深入理解以及解决问题思维的实际操作角色。主要职责： - 设计、实施和维护CI/CD流水线以实现可靠的代码部署 - 使用Prometheus、Grafana或Datadog等工具监控应用性能和系统可靠性 - 根据最佳实践维护和改进云基础设施（如AWS、GCP、Azure） - 使用Terraform、Ansible或CloudFormation等工具管理基础设施即代码 - 排查基础设施和应用问题，确保最小停机时间和快速解决 - 自动化重复的操作任务并改进开发工作流程 - 实施和执行安全、备份和灾难恢复策略 - 参与值班轮换，并通过根本原因分析和事后评审响应事件 - 与开发团队紧密合作，确保应用设计满足性能、可用性和可扩展性要求 - 优化跨云环境的资源使用和成本资格要求：必需条件： - 计算机科学、工程或相关领域的学士学位 - 2年以上DevOps、SRE或系统工程角色的经验 - 拥有Linux/Unix系统管理的实际操作经验 - 具备Jenkins、GitHub Actions、CircleCI或GitLab CI等CI/CD工具的经验 - 具备云平台（AWS、GCP、Azure）的工作知识 - 熟悉容器化和编排工具（如Docker、Kubernetes） - 具有使用Terraform、Ansible或类似工具进行基础设施即代码的经验 - 精通至少一种脚本或编程语言（如Bash、Python、Go） - 对监控、日志记录和警报系统有深入理解 - 熟悉Git版本控制优先条件： - 具有生产环境中Kubernetes管理的经验 - 熟悉安全最佳实践和合规标准 - 理解网络、负载均衡和DNS配置 - 接触过事件管理和SLA/SLO/SLI概念 - 有在敏捷环境中工作的经验

DevOps/SRE

ioTech Solutions