机器学习研究科学家/工程师,音频
Scale 与全球领先的 AI 实验室合作,加速前沿生成 AI 的进展。我们正在组建一个专注于推动语音生成、语音识别和语音到语音转换边界的专门研究团队。我们正在招聘在文本到语音(TTS)、语音到语音(STS)和自动语音识别(ASR)方面具有深厚专业知识的研究科学家和研究工程师,帮助定义人机沟通的下一个时代。在这个角色中,您将发明并部署新算法,以扩展大规模音频模型的能力、保真度和泛化能力。您将在建模、数据和语音系统评估的交叉点上塑造研究方向。您将与世界级研究人员合作,并直接为音频中下一代开放和专有基础模型的发展贡献技术和战略见解。我们鼓励与行业和学术界的合作,并支持研究成果的发表。成功的候选人将与顶级基础模型实验室合作,为下一代生成 AI 模型的发展提供技术和战略输入。您将:
开发新的音频模型训练和后训练技术,推动说话者适应、韵律控制、噪声鲁棒性等核心领域的进步。
设计新的奖励模型和偏好优化技术,专门针对 TTS、STS 和 ASR 中的语音质量、情感和可懂度。
研究现实部署环境中的模型失败模式,提出可扩展的解决方案,以减轻偏差、增强对口音的鲁棒性,以及应对长尾说话者变异。
为全球领先的语音模型创建行业标准评估。
在顶级会议上发表突破性研究,并在语音研究社区中塑造最佳实践。
要求:
计算机科学、机器学习、电气工程或相关领域的博士或硕士学位,重点关注语音或音频处理。
对音频神经生成模型有深入理解,包括基于变压器的架构、扩散模型和语音的大规模预训练等最新进展。
在音频质量优化或语音偏好建模方面具有微调、强化学习或奖励建模的经验。
拥有强大的研究作品集,在 Interspeech、NeurIPS、ICLR、ICML、ACL 等顶级会议上发表过论文。
卓越的书面和口头沟通能力,能够清晰地向内部和外部合作伙伴传达复杂的技术理念。
有直接参与模型训练、数据策划或大规模评估的经验者优先。
Scale 为符合条件的职位提供的薪酬套餐包括基本工资、股权和福利。每个职位发布中显示的范围反映了新员工薪水的最低和最高目标,具体取决于工作地点和其他因素,包括与工作相关的技能、经验、面试表现以及相关教育或培训。符合条件的 Scale 员工还获得基于股权的薪酬,需经董事会批准。您的招聘人员可以在招聘过程中分享您首选地点的具体薪资范围,并确认所聘角色是否有资格获得股权授予。您还将获得包括但不限于:全面的健康、牙科和视力保险,退休福利,学习和发展津贴,以及慷慨的带薪休假。此外,该职位可能有资格获得额外福利,如通勤津贴。请参考职位发布的副标题以了解该职位的具体地点。为了薪酬透明,位于旧金山、纽约、西雅图的全职职位的基本薪资范围为:$200,000 - $325,000 USD。
请注意:我们的政策要求在重新考虑同一职位的候选人之前有 90 天的等待期。这使我们能够确保对所有申请者进行公平和全面的评估。
关于我们:
在 Scale,我们相信从传统软件到 AI 的转变是我们时代最重要的变化之一。我们的使命是加速这一转变,覆盖每个行业,我们的团队正在改变组织构建和部署 AI 的方式。我们的产品为全球最先进的 LLM、生成模型和计算机视觉模型提供动力。我们受到 OpenAI、Meta 和 Microsoft 等生成 AI 公司的信任,受到美国陆军和美国空军等政府机构的信任,以及 GM 和埃森哲等企业的信任。我们正在扩大团队,以加速 AI 应用的发展。
我们相信每个人都应该能够在工作中展现真实的自我,因此我们自豪地成为一个包容和平等机会的工作场所。我们致力于提供平等的就业机会,不论种族、肤色、祖籍、宗教、性别、国籍、性取向、年龄、公民身份、婚姻状况、残疾状态、性别认同或退伍军人身份。
我们致力于与身体和精神残疾的申请者合作并提供合理的便利。如果您需要在申请或招聘过程中因残疾而获得帮助和/或合理的便利,请通过 accommodations@scale.com 联系我们。有关更多信息,请参阅美国劳工部的《了解您的权利》海报。
请注意:我们会为我们的专业业务目的收集、保留和使用个人数据,包括通知您可能感兴趣的工作机会并与我们的附属机构共享。我们限制收集的个人数据仅限于我们认为适当和必要的内容,以管理申请者的需求、提供我们的服务,并遵守适用法律。我们在处理您的申请时收集的任何信息都将按照我们的内部政策和旨在保护个人数据的程序进行处理。有关更多信息,请参阅我们的隐私政策。