岗位职责
• 维护 GitLab+Jenkins,支持灰度/蓝绿/滚动发布与紧急回滚,规范 Docker 镜像与多环境部署。
• 负责Java微服务部署与故障处理,维护 Nacos 注册与配置中心、权限与变更流程。
• 部署与运维 C++ 分布式服务,进行性能调优与异常排查,编写/维护启动与监控脚本。
• 维护阿里云 SLS 日志采集与告警,完善 Prometheus 指标与 Grafana 看板,配置 Alertmanager 路由与 Telegram 推送。
• 管理阿里云资源(ECS/SLB/RDS/OSS 等),进行容量与成本优化,优化 DNS/CDN/负载均衡与跨地域网络体验。
• 参与轮值班,7×24 应急响应, 应急处理生产问题,输出故障报告与复盘。
• 用 Bash/Python/Go 实现发布、巡检、变更、扩容等自动化,推进流程标准化与平台化。
任职要求
• 3年以上运维经验;扎实 Linux 与网络基础,熟练常用排障工具,良好的协作能力,能适应值班。
• 熟悉阿里云/亚马逊云核心服务与成本优化,具备容量规划与权限隔离实践(Terraform/ROS 优先)。
• 熟练 GitLab/Jenkins 流水线,精通 Docker 构建与运行,了解容器网络/存储,有灰度/蓝绿/滚动发布经验(K8s 加分)。
• 了解 Spring Boot 运行特性与常见问题定位,熟练使用 Nacos(注册、发现、配置、命名空间、权限)。
• 有 C++ 服务部署与监控经验,能用 perf/valgrind/core dump 等进行问题定位,理解高并发与高可用运维实践。
• 熟悉 Prometheus(抓取、Relabel、Recording Rules)、Grafana(模板化与告警);熟练阿里云 SLS;掌握 Alertmanager 与 Telegram/Webhook 集成。
• 精通至少一种脚本语言,了解 IaC/配置管理(Ansible/Terraform/Helm 任一),具备安全与合规意识(凭证、审计、补丁、镜像安全)。
• 具备事件闭环能力(定位、处置、RCA、复盘与改进),能建设 SOP/值班手册/知识库,推动指标化运维(MTTA/MTTR 等)。
#J-18808-Ljbffr