概述
确保服务的最大可用性和性能
为我们的工程和其他运营及技术团队提供全面支持
这些目标为团队带来了广泛而动态的责任范围。
工程师将具备集中管理OCI网络的能力,并实施自动化解决方案,以高效解决常见的运营挑战。
技术资格
网络
- 精通以下协议:BGP/OSPF/IS-IS、TCP、IPv4、IPv6、DNS、DHCP、MPLS
- 至少在以下三种网络技术中有广泛经验:Juniper、Cisco、Arista、InfiniBand、防火墙、交换机和电路管理
- 拥有卓越的分析技能,能够整理和解释来自各种来源的数据
- 能够诊断网络警报以评估和优先处理故障,并相应地响应或升级
- 有在大型ISP或云服务提供商环境中工作的经验
- 接触过商品以太网硬件(Broadcom/Mellanox)
- 需要具备Cisco和Juniper认证
- GPU/RDMA
- 在GPU/RDMA网络环境中有经验者优先
- 有高性能计算经验
- 有InfiniBand经验
设计
- 通过网络构建和/或升级项目参与网络生命周期管理
软技能及其他期望经验
- 积极主动,自我驱动
- 首选拥有学士学位,至少有3-10年的网络相关经验
- 出色的时间管理和组织能力
- 能够在快节奏的环境中处理各种问题
- 优秀的组织能力,口头和书面沟通能力
- 有事件响应计划和策略的经验
- 曾在大型企业网络基础设施和云计算环境中工作,支持24/7,并愿意在网络运营角色中轮班工作
自动化/脚本
- 该角色包括与网络自动化服务协作以集成支持工具,并经常开发脚本以自动化常规任务
- 优先考虑有脚本编写、网络自动化和数据库经验的人士 - Python、Puppet、SQL和/或Ansible
- 您将使用自动化来完成工作并开发脚本以处理常规任务
项目管理
- 领导技术项目,如开发和改进运行手册和程序方法,推动高可见度技术项目,并为新团队成员提供入职培训
- 协助实施短期、中期和长期计划以实现项目目标,并定期与高级管理层或网络领导层互动以确保团队目标的实现
领导力
- 与班次负责人和管理层合作,确保日常职责的高效和及时完成
- 主动领导、贡献和参与项目和工具的识别、开发和评估,以提高受限区域团队的整体效能
- 推动运行手册审计和更新以确保合规,并与合作服务团队协作以确保两队的运营流程一致
- 进行面试并参与初级工程师的招聘过程
- 在供应商会议、评审或治理委员会中领导和/或代表受限区域
职责
- 网络运营
- 使用现有程序和工具,开发并安全地完成网络更改
- 指导、入职和培训初级工程师
- 参与运营轮班提供故障修复支持
- 使用监控系统识别可操作事件,运用强大的分析问题解决技能来缓解网络事件/事故,并跟进常规根本原因分析(RCA),与支持团队和供应商协调
- 根据需要提供随叫随到的支持服务,工作职责多样且复杂,需要独立判断
- 参加重大事件/事故电话会议,运用技术和分析技能解决影响Oracle客户/服务的网络问题
- 故障处理和升级 - 识别和响应OCI系统和网络的故障,与第三方供应商密切合作,处理升级直至解决