角色:
员工 LLMOps 负责人
地点:
混合办公 – 多伦多市中心(每周3天在办公室,靠近联合车站)
类型:
全职 | 永久
一家具有硅谷背景的下一代 AI 初创公司正在多伦多招聘一名员工 LLMOps 负责人,负责设计、部署和优化大规模 LLM 基础设施,以支持 AI 原生半导体设计工具。公司已获得超过 3300 万美元的资金,并迅速发展,正在从零开始扩展生产级模型服务系统。
作为员工 LLMOps 负责人,您将架构分布式推理管道,推动基础设施自动化,并提供高吞吐量、低延迟的服务环境。
这个角色非常适合那些在系统工程、MLOps 和分布式 AI 交汇处茁壮成长的人——直接影响前沿模型如何为公司的核心产品提供动力。
您的职责
在 AWS 和 Kubernetes/EKS 上设计和实施生产就绪的 LLM 部署管道。
构建和扩展 GPU 加速的推理基础设施,以实现高可用性、低延迟和成本效率。
使用 vLLM、SGLang 或类似框架优化推理性能。
实施先进的服务技术:
连续批处理、推测解码、分页注意力和分布式调度。
使用 Terraform 和 CI/CD 管道推动基础设施自动化。
为 LLM 服务建立可观测性,包括延迟、吞吐量、GPU 利用率和恢复的指标。
我们正在寻找
5 年以上 DevOps 或 AI 基础设施经验,其中 2 年以上专注于 LLMOps。
具有在生产环境中部署和扩展 LLM 的经验。
具有 GPU 加速推理、分布式服务和云基础设施的实践经验。
对 Kubernetes、CI/CD、基础设施即代码和性能优化有深刻理解。
为什么申请?
绿地机会,塑造生产规模的 LLM 基础设施。
构建支持下一代 AI 产品的系统,具有现实世界的影响。
与世界级的 AI、DevOps 和研究团队合作。
使用前沿的服务技术和高性能 GPU 系统。