语音人工智能数据与设计

2天前全职
85.5万 - 128.2万 / 年 OpenAI

OpenAI

location 旧金山
unsaved
关于这个职位 OpenAI正在扩展实时的多模态交互,包括ChatGPT和开发者API的语音体验。我们正在寻找一位实践型、以产品为导向的工程师,能够将突破性的语音、音频和生成模型转化为精致、可扩展的用户体验。如果您热衷于构建人们喜爱的表达性、可靠且安全的人工智能语音,那么这个职位适合您。 您将要做的事情 • 开发和优化用于生产的语音和音频机器学习模型(文本转语音、语音转换、富有表现力的韵律、低延迟流媒体)。 • 设计可扩展的数据管道,用于语音收集、标注、质量指标和人类偏好测试。 • 创建并实施连接语言学、声学和风格特征的语音角色框架,以便进行模型训练。 • 原型化生成音频能力(音乐、特效、环境音),以增强对话和无障碍体验。 • 将语音模型集成到ChatGPT语音、开发者API和无障碍功能中,与产品、设计、安全和平台团队合作。 • 进行遥测和性能监控,以推动跨语言和方言的持续质量、稳健性以及偏见/公平性改进。 • 与法律、政策和安全团队合作,建立负责任的数据实践(同意、许可、语音相似性保护)。 我们在寻找什么 • 具有构建和交付生产语音或语音机器学习系统(文本转语音、语音克隆或生成音频)的证明经验。 • 深刻理解语音合成管道:文本规范化、语言/语音特征、声学、编码和韵律建模。 • 在Python和主要深度学习框架(强烈推荐PyTorch)方面具有扎实的机器学习工程专业知识。 • 熟悉音频工具、语音数据增强和指标(MOS、可懂度、延迟、自然度、角色保真度)。 • 具有协作、跨职能的方法,具备清晰、以用户为导向的沟通能力。 加分项: • 具有语音选角工作流程或大规模数据程序的脚本/提示设计经验。 • 具备创意音频生成(音乐、声音设计)和多模态机器学习的背景。 • 有0-1产品孵化或团队领导的成功经验。 • 在语音、音频或生成建模领域拥有专利、出版物或开源贡献。 • 多语言语音开发。 关于OpenAI OpenAI是一家人工智能研究和部署公司,致力于确保通用人工智能惠及全人类。我们推动人工智能系统能力的边界,并寻求通过我们的产品安全地将其部署到世界。人工智能是一种极其强大的工具,必须以安全和人类需求为核心来创建,为了实现我们的使命,我们必须包容并重视形成全人类全景的许多不同观点、声音和经验。 我们是一个平等机会的雇主,不会基于种族、宗教、肤色、国籍、性别、性取向、年龄、退伍军人身份、残疾、遗传信息或其他适用的法律保护特征进行歧视。 有关更多信息,请参见OpenAI的平权行动和公平就业机会政策声明。 符合条件的申请者如果有逮捕或定罪记录,将根据适用法律考虑就业,包括旧金山公平机会条例、洛杉矶县雇主公平机会条例和加利福尼亚公平机会法。对于洛杉矶县未合并地区的工人:我们合理地认为,犯罪历史可能与以下工作职责有直接、不利和负面的关系,可能导致撤回有条件的就业提议:保护您所托管的计算机硬件免受盗窃、丢失或损坏;在终止雇佣或任务结束时归还您所拥有的所有计算机硬件(包括其中包含的数据);并维护专有、机密和非公开信息的机密性。此外,工作职责需要访问安全和受保护的信息技术系统及相关数据安全义务。 我们致力于为残疾申请者提供合理的便利,申请可以通过此链接提出。 OpenAI全球申请者隐私政策 在OpenAI,我们相信人工智能有潜力帮助人们解决巨大的全球挑战,我们希望人工智能的好处能够广泛共享。加入我们,共同塑造技术的未来。