职位描述
你将解决的挑战:
- 参与基础设施供应的所有阶段,从POC到生产支持。
- 协助在系统基础设施的所有层面实施安全最佳实践和倡议。
- 遵循DevOps和SRE(Site Reliability Engineer)原则/支柱。
- 与SDLC(软件开发生命周期)和业务价值保持一致。
- 确保我们的关键平台最大的可用性和可靠性,符合我们的SLA和SLO。
- 应用最新的操作系统和安全补丁,确保底层运行应用程序的兼容性。
- 参与灾难恢复/业务连续性(DRBC)例行演习。
- 处理帮助台和JIRA工单,并解决任何生产问题。
- 及时准确地记录知识库文档。
要求:
- 对在AWS中进行安全Web应用部署有深入的了解(3年以上)。
- 作为Linux管理员的丰富经验,特别是CentOS 7.x AWS Linux 2。
- 具备持续改进运营卓越性的DevOps思维。
- 能够在很少监督下工作;必须自我驱动和有动力。
- 具备持续集成/持续交付(CI/CD)Jenkins和Git的经验。
- 具备使用Docker、Kubernetes(Kops、AWS EKS)和OpenShift 4.x交付的容器化微服务的经验。
- 管理和优化统一日志系统和APM(应用程序性能管理)监控工具,不断减少MTTR(恢复时间的平均时间)。
- 具备使用Shell和Python或Go的强大脚本编写能力(加分项)。
- 与DevOps工程师、DevOps架构师和SRE合作。
- 有与组织中各种应用开发团队合作解决问题的经验。
- 出色的书面和口头沟通能力,能够制作和处理技术文档。
- 出色的问题解决和分析能力,能够将业务需求转化为信息系统解决方案。
- 有IT安全经验。
- 团队合作精神。
- 专业的IT认证,如红帽认证工程师和AWS认证(加分项)。
- 相关工作经验(9年以上),要么是软件开发或系统工程,IT基础设施。
- 硕士学位,专业相关的,工程或计算机科学(加分项)。
- 愿意参加轮班值班。
- 在非工作时间提供关键生产支持,以防发生故障。
#J-18808-Ljbffr