关于该职位
Together AI 正在构建世界上最快、最强大的开源对齐 LLM 和推理堆栈。作为 Turbo 组织的一部分,您将成为前沿模型研究与现实世界行为可靠性之间的重要桥梁。此职位专注于深入理解模型行为——探测推理、工具使用、函数调用、多步互动和微妙的失败模式——并构建评估系统,以确保模型在生产中表现智能且一致。
您将开发稳健的评估管道,设计高质量的行为测试套件,并与训练、后训练、推理和产品团队密切合作,以识别回归、塑造数据集并影响模型改进。您的工作将直接定义 Together 如何衡量模型在各版本中的质量和可靠性。
职责
• 构建并迭代评估框架,以衡量模型在指令遵循、函数调用、长上下文推理、多轮对话、安全性和自主行为等方面的表现。
• 为以下内容开发专门的评估套件:
• 函数调用——参数正确性、模式遵循、工具选择、多函数规划和错误恢复。
• 自主工作流——任务分解、多步规划、自我纠正和自主工具使用序列。
• 工具增强互动——搜索、检索、代码执行、API 驱动的操作。
• 创建 CI/CD 自动化管道,用于 A/B 比较、回归检测、行为漂移监控和对抗性探测。
• 设计和策划高质量的评估数据集,特别是跨领域的细致或具有挑战性的案例。
• 与研究人员和工程师合作,诊断失败、处理回归,并指导数据选择、塑造策略、目标设计和系统改进。
• 与工程团队合作,构建仪表板、报告和内部工具,以帮助可视化各版本之间的行为变化。
• 在快速变化、高影响力的环境中工作,拥有深厚的技术责任感,并与世界级模型研究人员和基础设施工程师密切合作。
要求
• 具备扎实的 Python 编程能力、评估工具和分布式工作流经验。
• 有与 LLM 或基于变换器的模型合作的经验,尤其是在模型评估、测试或红队方面。
• 能够清晰推理关于定性行为、边缘案例和模型失败模式。
• 有设计实验、构建数据集和解读噪声行为信号的经验。
• 理解函数调用和结构化输出格式。
• 熟悉 GPU 或分布式计算环境。
• 具备评估函数调用模型、自主系统或工具增强 LLM 管道的实际经验。
• 有多轮或多步推理任务的经验。
• 熟悉推理系统、分布式基础设施或后训练工作流。
• 热衷于发现微妙的行为、意外的模型差距或边缘案例失败。
关于 Together AI
Together AI 是一家以研究驱动的人工智能公司。我们相信开放和透明的人工智能系统将推动创新并为社会创造最佳成果。我们的使命是通过共同设计软件、硬件、算法和模型来显著降低现代人工智能系统的成本。我们为领先的开源研究、模型和数据集做出了贡献,包括 FlashAttention、Hyena、FlexGen、ATLAS 和 RedPajama。我们诚邀您加入一群充满激情的研究人员和工程师,共同构建下一代人工智能基础设施。
薪酬
我们提供具有竞争力的薪酬、创业股权、健康保险和其他福利。此全职职位在美国的基本薪资范围为:$220,000 – $270,000 + 股权 + 福利。薪酬因地点、级别和经验而异。
平等机会
Together AI 是一个平等机会雇主,自豪地为所有人提供平等机会,无论种族、肤色、祖籍、宗教、性别、性取向、国籍、年龄、国籍、婚姻状况、残疾、性别认同、退伍军人身份或其他受保护特征。
请查看我们的隐私政策,网址为 https://www.together.ai/privacy