高级网络运营工程师(旧金山)

旧金山 3个月前全职 网络
113.8万 - 163.7万 / 年
作为 Together AI 的高级网络运营工程师,您是我们处理故障/修复事件的前线响应者,负责警报分类,与 SRE 和 MLOps 团队协作,并推动快速解决方案,以保持我们的全球网络和平台平稳运行。您将强大的运营纪律与动手故障排除和自动化偏好相结合。除了传统网络外,您还将亲自使用 Kubernetes 和 Slurm 诊断跨基础设施、容器网络和 HPC 作业结构的问题。 您精通路由/交换和网络安全基础,熟悉 Linux,并在快速变化的环境中茁壮成长,在那里清晰的沟通和准确的执行至关重要。您将改善监控、运行手册和恢复手册,以减少 MTTA/MTTR 并防止重复事件。 出色的问题解决能力和对基本网络理论的扎实理解也是您成功的关键。 职责 • 作为网络警报和事件的首个响应者:评估影响、优先级、缓解并根据需要升级至 SRE/MLOps/网络工程。 • 拥有端到端事件生命周期:检测、分类、遏制、修复、沟通和事件后审查,明确时间表和行动项目。 • 监控路由/交换、防火墙和数据中心结构的网络健康和容量;调整警报阈值和仪表板以减少噪音。 • 使用数据包捕获和流量/遥测工具排除 L2L4 问题(ARP、VLAN/VXLAN/EVPN、路由协议、ACL/NAT、DNS、TLS 终止、QoS)。 • 执行标准变更(MOP)和紧急变更,严格控制变更和验证;记录结果并更新运行手册。 • 操作多集群附加组件(例如,MetalLB/Traefik/NGINX),通过 Prometheus/Grafana/Loki 观察健康状况,并调整警报以减少噪音。 • 调试 CNI/数据平面(例如,VXLAN/EVPN、iptables/nftables、网络策略)、kube-proxy/iptables 模式、CoreDNS、服务(ClusterIP/NodePort/LoadBalancer)和 Ingress/EGRESS。 • 维护准确的网络文档:图表、清单、IPAM、设备配置和拓扑状态。 • 改善运营卓越:自动化重复任务、增强自助工具,并为 SLO、错误预算和可靠性路线图做出贡献。 • 参与共享的值班轮换,为关键服务提供 24/7 覆盖。 要求 • 在大型数据中心或服务提供商环境(混合/本地 + 云)中,拥有 3 年以上 NOC/网络运营或网络支持角色的经验。 • 对 TCP/IP 和核心协议有扎实的理解:BGP、OSPF/IS-IS、VLAN、VXLAN、EVPN、ACL/NAT、DHCP、DNS 和 QoS。 • 精通故障排除工具:Wireshark/tcpdump、mtr/traceroute、nmap、curl、iperf;在 Linux 上进行诊断和日志分析时感到舒适。 • 有操作多供应商网络(例如,Arista、Cisco、Juniper、NVIDIA/Mellanox)和负载均衡器/防火墙的经验。 • 熟悉 AWS/GCP/Azure 网络概念(VPC/VNet、IGW/NATGW、对等、PrivateLink、路由、安全组)。 • 扎实的脚本/自动化基础(例如,Bash/Python),并熟悉基于 Git 的工作流程,用于配置版本控制和变更审查。 • 清晰、简洁的沟通者,能够在时间压力下撰写事件时间表、根本原因分析(RCA)和面向用户的更新。 优先考虑 • 了解 RoCE 和 Infiniband 协议者优先。 • 具有 Kubernetes 故障排除的实践经验:CNI 基础(策略、封装)、服务/Ingress、DNS(CoreDNS)、kube-proxy 和容器运行时基础知识者优先。 • 理解 AI 训练工作负载及其对网络的需求者优先。 关于 Together AI Together AI 是一家以研究为驱动的人工智能公司。我们相信开放和透明的 AI 系统将推动创新并为社会创造最佳结果,我们共同的使命是通过共同设计软件、硬件、算法和模型显著降低现代 AI 系统的成本。我们为推动 AI 前沿而贡献了领先的开源研究、模型和数据集,我们的团队在 FlashAttention、Hyena、FlexGen 和 RedPajama 等技术进步背后。我们邀请您加入一群充满激情的研究人员和工程师,共同建设下一代 AI 基础设施。 薪酬 我们提供具有竞争力的薪酬、初创公司股权、健康保险和其他竞争性福利。该全职职位在美国的基本薪资范围为:160,000 美元 - 230,000 美元 + 股权 + 福利。我们的薪资范围根据地点、级别和角色确定。个人薪酬将根据经验、技能和与工作相关的知识确定。 Together AI 是一个平等机会雇主,骄傲地为所有人提供平等的就业机会,无论其种族、肤色、祖籍、宗教、性别、国籍、性取向、年龄、公民身份、婚姻状况、残疾、性别认同、退伍军人身份等。