在JDA TSG,我们为许多世界知名品牌提供顶级的专业人才、业务流程专业知识和创新,推动他们的组织朝着令人兴奋的新方向发展。我们以为每个客户提供卓越的专注、灵活性和信心而建立了声誉。
我们目前有一个机会,需要一位积极主动、精力充沛的站点可靠性工程/DevOps总监,具备强烈的责任心和技术能力。我们的客户拥有100%的“云”基础架构,正在寻找一位在基础架构即代码、自动化、持续集成/持续交付、容器、AWS和DevOps最佳实践方面具有丰富经验的技术领导者来领导他们的DevOps/站点可靠性工程团队。
优秀的沟通技巧是必备的,因为技术运营团队与开发所有者和产品所有者建立了紧密的工作关系,以明确目标和快速、稳健、未来可靠的结果。
理想的候选人具有非常强烈的责任感和学习热情。这个职位将直接向技术副总裁-运营和网络安全报告,副总裁将依赖DevOps/SRE总监建立、领导、管理并持续跟踪和报告关键利益相关者的DevOps/SRE进展。
主要职责:
• 这位DevOps/SRE工程领导者将负责管理云基础架构、底层服务生态系统以及所有相关组件,包括拥有和推动重大事件管理流程
• 指导团队中工程师的专业和技术发展,并建立一种负责任的文化,同时设定战略方向
• 与敏捷开发过程内外的开发团队合作,设计、开发、测试、实施和支持全栈开发工具和技术的技术解决方案
• 领导解决方案的可用性、弹性和可扩展性
• 保持对技术趋势的关注,尝试/学习新技术,参与内部和外部技术社区,并根据需要指导成员
• 推动部署、配置管理和监控流程的自动化,提高效率,减少手动干预
• 审查和简化DevOps流程、工具和平台
• 评估并选择与组织需求相符的第三方工具和服务
• 制定和维护灾难恢复计划,确保业务连续性
• 与安全团队合作,确保在所有环境中实施和维护HIPAA、NIST和CIS控制措施
• 执行分配的其他任务。
在这个职位中蓬勃发展所需的经验:
• 站点可靠性工程原则,包括设定和管理服务水平目标(SLO)、服务水平指标(SLI)和错误预算
• 精通Terraform和Github Actions或Jenkins等CI/CD工具。
• 在AWS托管服务方面有丰富的经验。
• 必须了解ECS Fargate、EC2、S3、RDS、Lambda、Cloudfront和Cloudwatch X-Ray/Eventbus
• NewRelic或其他类似的APM工具。
• 软件监控和日志聚合工具。
• 强烈的责任心和故障排除能力。
• 对Linux、Windows操作系统有高级知识
• 3年以上围绕DNS和网络概念工作的经验,实现高效的通信、可扩展性、安全性和自动化。
• 对Docker或Kubernetes有深入的了解
• 设计事件驱动架构和应用程序
• 您不害怕质疑任何现有的流程和解决方案,但同时展示出对商业价值主张的敏锐感知,并专注于正确的优先事项
• 在软件开发环境中拥有8年以上的DevOps/SRE和CI/CD工程职责和经验
• 有4年以上的直接报告和地理分散团队管理经验
• 有5年以上的AWS工作经验
• 有3年以上的Google站点可靠性工程(SRE)方法论经验,能够建立、跟踪和报告每日指标,形成“按指标管理”的框架
• 在软件工程、SRE或DevOps领域有5年以上的工作经验
• 有3年以上的Terraform编写经验,最好是模块
• “容器化”传统应用程序。
• 较强的沟通技巧和与技术领导者、业务/产品所有者合作的经验
• 成为团队的一员-能够全面审查团队的工作,提供解决方案/建议,并能够及时、具有成本效益地解决问题
• 较强的故障排除能力,能够及时提供“创新”的解决方案
• 在敏捷环境中处理模糊性、优先级需求和交付可衡量结果的明显记录
教育要求
• 计算机科学或相关领域的学士学位,或具有5年以上相关经验的同等学历