运维工程师 | DevOps Engineer

Hong Kong 8 days agoFull-time External
Negotiable
岗位职责 • 维护 GitLab+Jenkins,支持灰度/蓝绿/滚动发布与紧急回滚,规范 Docker 镜像与多环境部署。 • 负责Java微服务部署与故障处理,维护 Nacos 注册与配置中心、权限与变更流程。 • 部署与运维 C++ 分布式服务,进行性能调优与异常排查,编写/维护启动与监控脚本。 • 维护阿里云 SLS 日志采集与告警,完善 Prometheus 指标与 Grafana 看板,配置 Alertmanager 路由与 Telegram 推送。 • 管理阿里云资源(ECS/SLB/RDS/OSS 等),进行容量与成本优化,优化 DNS/CDN/负载均衡与跨地域网络体验。 • 参与轮值班,7×24 应急响应, 应急处理生产问题,输出故障报告与复盘。 • 用 Bash/Python/Go 实现发布、巡检、变更、扩容等自动化,推进流程标准化与平台化。 任职要求 • 3年以上运维经验;扎实 Linux 与网络基础,熟练常用排障工具,良好的协作能力,能适应值班。 • 熟悉阿里云/亚马逊云核心服务与成本优化,具备容量规划与权限隔离实践(Terraform/ROS 优先)。 • 熟练 GitLab/Jenkins 流水线,精通 Docker 构建与运行,了解容器网络/存储,有灰度/蓝绿/滚动发布经验(K8s 加分)。 • 了解 Spring Boot 运行特性与常见问题定位,熟练使用 Nacos(注册、发现、配置、命名空间、权限)。 • 有 C++ 服务部署与监控经验,能用 perf/valgrind/core dump 等进行问题定位,理解高并发与高可用运维实践。 • 熟悉 Prometheus(抓取、Relabel、Recording Rules)、Grafana(模板化与告警);熟练阿里云 SLS;掌握 Alertmanager 与 Telegram/Webhook 集成。 • 精通至少一种脚本语言,了解 IaC/配置管理(Ansible/Terraform/Helm 任一),具备安全与合规意识(凭证、审计、补丁、镜像安全)。 • 具备事件闭环能力(定位、处置、RCA、复盘与改进),能建设 SOP/值班手册/知识库,推动指标化运维(MTTA/MTTR 等)。 #J-18808-Ljbffr