研究科学家

15个月前远程全职
150K - 230K USD Deepgram

Deepgram

location 洛杉矶
unsaved
公司概况 Deepgram是一家基础人工智能公司,致力于构建最先进、可投入生产的人工智能模型,以简化人机交互并提高生产力。通过实现人与机器之间的无缝沟通,我们相信我们可以发掘人工智能的潜力,并为更加高效的未来铺平道路。我们对音频数据改变生活、业务和全球交互的潜力充满热情,这也是为什么Deepgram受到NASA、Twilio、Auth0和Spotify等备受尊敬的公司的信任,推动声音技术的可能性。 机会 在Deepgram,我们每天都在应对声音领域的重大现实挑战。我们的客户雇佣我们来解决他们最困难的问题,将真实而复杂的音频转化为新颖的见解。为了提高标准,我们构建的一切都需要具备规模性。我们不满足于简单的横向扩展:我们打算用一架服务器替代专门用于语音分析的整个数据中心。这些挑战每天都需要创造力和创新性的解决方案。 作为Deepgram的研究科学家,您将拥有自由探索和发现突破的机会。您还将有责任构建——应用最新的深度学习进展,开发准确且高性能的语音人工智能模型。您将与产品和工程团队合作,帮助将这些模型部署在全球最具可扩展性的语音API上。我们期待您将自己的全部投入到工作中,分享您最新实验的经验,并与我们合作推进人工智能和声音技术的发展。 角色 Deepgram目前正在寻找一位经验丰富的研究科学家,他在解决语音人工智能领域的困难问题方面有着丰富的经验,包括自动语音识别(ASR)、语音合成(TTS)、语音分离和说话人识别、语言检测或代码切换。语音人工智能是一个具有挑战性的问题领域,涉及到处理人声生成的原始音频波形。音频数据的复杂性带来了独特的基础设施、工程和建模挑战,这些挑战比处理文本要困难数个数量级。您应该具有在音频深度学习的艰难技术方面的丰富经验,例如语音数据的策划和表征、为语音开发富有表现力和高效的神经网络架构、大规模分布式训练以及优化大规模推理的语音模型。 您的职责 • 与最新的深度学习进展保持同步,特别关注其在我们产品中的影响和应用。 • 设计和执行实验计划,构建解决客户关键问题的新型语音人工智能模型。 • 在分布式计算基础设施上成功进行大规模训练工作。 • 优化模型架构,使其尽可能快速和内存高效;将新模型部署到生产环境中,以实现大规模使用。 • 为内部和外部受众清晰地记录和呈现结果和复杂的技术概念。 如果您具备以下特点,您将喜欢这个角色 • 对人工智能充满热情,并对最先进的语音研究感到兴奋 • 喜欢从零开始构建,并热衷于创造全新的系统 • 痴迷于构建和交付解决实际问题的实用解决方案 • 数据驱动,倾向于通过迭代实验来解决问题 • 具备良好的沟通能力,并能够根据目标受众将复杂概念转化为简单术语 我们认为以下条件对您很重要 • 在构建深度学习模型解决音频问题方面具有相关行业经验,对不同神经网络类型、架构和损失机制的应用和影响有扎实的理解。 • 具备从零开始构建模型的经验,并全权负责整个深度学习栈,包括数据策划、表征和清洗、架构设计和模型构建、分布式大规模训练以及推理模型的优化。 • 具备扎实的软件工程技能,特别强调使用Python开发清晰、模块化的代码,并熟悉PyTorch。 • 具备设计和执行实验计划的经验,能够快速迭代和根据需要改变方向。 如果您具备以下条件,那就太棒了 • 深入理解并具有使用最先进的网络架构(包括transformers)的工作经验。 • 具备构建生成性音频模型,用于语音或音乐合成的经验。 • 理解不同的并行性范式,以实现高效的分布式训练。 • 对多个语音人工智能问题领域(ASR、TTS、语音分离等)的最新技术和发展有最新的了解。 Deepgram得到了包括Y Combinator、Madrona、Tiger Global、Wing VC和NVIDIA在内的知名投资者的支持,去年完成了B轮融资,总融资额超过8500万美元。如果您希望在尖端技术上工作,并在人工智能行业产生重大影响,我们很乐意听到您的声音。 Deepgram是一个平等机会的雇主。我们希望我们的员工中有各种声音和观点。我们是一个充满好奇心的团队,专注于合作和做正确的事情。我们把客户放在第一位,共同成长并迅速前进。我们不会因为种族、宗教、肤色、国籍、性别、性取向、性别认同或表达方式、年龄、婚姻状况、退伍军人身份、残疾身份、怀孕、父母身份、遗传信息、政治倾向或我们经营地区的法律或法规所保护的任何其他状况而进行歧视。 我们很乐意为需要帮助的申请人提供适应措施。 薪酬范围:15万美元至23万美元