站点可靠性工程师;SRE

新加坡 20天前全职 网络
54.6万 - 68.2万 / 年
职位:站点可靠性工程师(SRE)_合同 必须具备的技能 • 熟悉 bash 脚本、Java、Python、React 或 Angular 的开发知识。 • 有 Elastic Search、Prometheus 的工作经验。 职位描述 • 维护基于开源的应用监控基础设施。如有必要,增强、优化并迁移到新解决方案。 • 支持应用团队迁移到最新的 Open Shift 版本,执行有状态/无状态应用的部署,并排查 Kubernetes/Open Shift 平台中的问题。 • 与应用开发人员合作,实施应用程序仪表库和框架。 • 使用 Prometheus 维护指标数据存储。进行管理和调优,如基数优化、资源优化。 • 维护分布式追踪基础设施,如 Otel、Jaeger、Zipkin 等。执行管理功能和调优,如采样策略。在微服务中排查分布式追踪问题。 • 执行企业日志平台的生产支持活动,如 ELK 堆栈、Grafana LGTM 堆栈。 • 实施警报基础设施,与 Pager Duty、MS Teams 及任何需要基于警报的缓解/行动的软件集成。协助应用支持团队定义企业业务应用的警报规则。 • 部署并管理可视化工具,如 Grafana/Elastic。创建可重用的仪表板模板,为整个用户群实施 RBAC。 • 在开发社区中推广和实施可观察性文化。协助他们识别黄金信号,为企业应用定义 SLI、SLO,计算错误预算、MTTD 和 MTTR。 • 在 Linux 虚拟机和 Kubernetes POD 中排查可观察性基础设施的问题,设置和保护反向代理,使用 TLS 保护所有应用端点,根据需求启用 MFA、LDAPS 和 OAuth。 • 为所有监控基础设施和服务配置 CI/CD 管道。修改和扩展现有管道,以适应多个环境/区域。