职位描述:
作为一名高级人工智能研究工程师,您将在推动桌面和设备内推理以及下一代 SLM/LLMs 的微调性能方面发挥关键作用。您将扩展推理框架,以支持语言模型的推理和微调,重点关注移动设备和集成 GPU 加速(Vulkan)。
职责:
• 为多个硬件后台实现和优化小型和大型语言模型的自定义推理和微调内核。
• 为多个硬件后台实现和优化小型和大型语言模型的完整和 LoRA 微调。
• 设计和扩展数据类型和精度支持(int、float、混合精度、三元 QTypes 等)。
• 设计、定制和优化用于量化算子的 Vulkan 计算着色器和微调工作流。
• 调查并解决 Vulkan 和集成/移动 GPU 上的 GPU 加速问题。
• 架构并准备支持先进的量化技术,以提高效率和内存使用。
• 调试和优化 GPU 操作符(例如,int8、fp16、fp4、三元)。
• 集成和验证用于训练和推理的量化工作流。
• 进行评估和基准测试(例如,困惑度测试、微调适配器性能)。
• 在桌面和移动设备上进行 GPU 测试。
• 与研究和工程团队合作,原型设计、基准测试和扩展新的模型优化方法。
• 为移动和边缘用例提供生产级、高效的语言模型部署。
• 与跨职能团队紧密合作,将优化的服务和推理框架集成到为边缘和设备内应用设计的生产管道中。
• 定义清晰的成功指标,例如改善实际性能、低错误率、强大的可扩展性、最佳内存使用,并确保持续监控和迭代改进以实现持续改进。