人工智能性能软件工程师

旧金山 4个月前全职 网络
157.9万 - 215.3万 / 年
人工智能性能工程师 – CUDA 和 PyTorch 专注 地点:加利福尼亚州旧金山 薪资:$200,000-$300,000 一家隐秘模式的人工智能系统公司正在重新构想大规模推理的方式。随着生成式人工智能工作负载的快速扩展,推理效率已成为一个关键瓶颈。我们正在构建一个集成的硬件-软件平台,为生产规模的 LLM 应用带来突破性的性能和可用性。 这是一个在高度技术团队中工作的机会,该团队源于顶尖学术研究,专注于人工智能、分布式系统和性能优化的前沿。 您将要做的事情: • 推动现代人工智能模型性能优化的核心研究和实施 • 实施先进技术,如 FlashAttention、KV 缓存、量化和模型压缩 • 设计并构建跨 GPU 系统的可扩展分布式计算策略 • 对推理堆栈中的 CUDA 内核和人工智能运行时性能进行分析、基准测试和优化 • 在 PyTorch、ONNX 和 vLLM 等框架中工作,以提高端到端效率 我们正在寻找: • 具有 CUDA 和低级 GPU 性能调优的强大背景 • 在使用 PyTorch 构建和部署高性能机器学习模型方面有证明的经验 • 精通 Python 和 C++ • 在云环境(AWS、GCP 或 Azure)中具有大规模分布式系统的经验 • 接触过 AI 编译器或 MLIR 等框架者优先 • 对系统设计、可扩展性和加速实际生产环境中的 LLM 工作负载感兴趣 如果您花时间让大型模型更快、更精简、更高效,并希望解决生成式人工智能基础设施核心中的难题——这个角色就是为您准备的。 请联系我们了解更多信息。