运维工程师 | DevOps Engineer - Leadingnation Hiring

岗位职责 • 维护 GitLab+Jenkins，支持灰度/蓝绿/滚动发布与紧急回滚，规范 Docker 镜像与多环境部署。 • 负责Java微服务部署与故障处理，维护 Nacos 注册与配置中心、权限与变更流程。 • 部署与运维 C++ 分布式服务，进行性能调优与异常排查，编写/维护启动与监控脚本。 • 维护阿里云 SLS 日志采集与告警，完善 Prometheus 指标与 Grafana 看板，配置 Alertmanager 路由与 Telegram 推送。 • 管理阿里云资源（ECS/SLB/RDS/OSS 等），进行容量与成本优化，优化 DNS/CDN/负载均衡与跨地域网络体验。 • 参与轮值班，7×24 应急响应，应急处理生产问题，输出故障报告与复盘。 • 用 Bash/Python/Go 实现发布、巡检、变更、扩容等自动化，推进流程标准化与平台化。任职要求 • 3年以上运维经验；扎实 Linux 与网络基础，熟练常用排障工具，良好的协作能力，能适应值班。 • 熟悉阿里云/亚马逊云核心服务与成本优化，具备容量规划与权限隔离实践（Terraform/ROS 优先）。 • 熟练 GitLab/Jenkins 流水线，精通 Docker 构建与运行，了解容器网络/存储，有灰度/蓝绿/滚动发布经验（K8s 加分）。 • 了解 Spring Boot 运行特性与常见问题定位，熟练使用 Nacos（注册、发现、配置、命名空间、权限）。 • 有 C++ 服务部署与监控经验，能用 perf/valgrind/core dump 等进行问题定位，理解高并发与高可用运维实践。 • 熟悉 Prometheus（抓取、Relabel、Recording Rules）、Grafana（模板化与告警）；熟练阿里云 SLS；掌握 Alertmanager 与 Telegram/Webhook 集成。 • 精通至少一种脚本语言，了解 IaC/配置管理（Ansible/Terraform/Helm 任一），具备安全与合规意识（凭证、审计、补丁、镜像安全）。 • 具备事件闭环能力（定位、处置、RCA、复盘与改进），能建设 SOP/值班手册/知识库，推动指标化运维（MTTA/MTTR 等）。 #J-18808-Ljbffr