数据科学家 - 自然语言处理

15个月前全职
111.4K - 161.3K USD / 年 DDI

DDI

location 纽约
unsaved
我们正在寻找一位经验丰富的数据科学家加入我们的产品开发团队,共同创建前沿的人工智能驱动评估工具。DDI是一家全球领导力咨询公司,帮助组织招聘、晋升和培养优秀的领导者。我们正在寻找一位技术娴熟、积极主动的数据科学家,具备自然语言处理方面的专业知识和数据基础设施(例如Azure和Databricks)的经验。 在这个角色中,您将支持我们的首席科学家领导的产品开发团队,开发新产品的自然语言处理算法和模型。您还将支持我们的开发人员推出这些产品。您将构建和维护数据、代码和模型管道,以进行负责任和可重复使用的机器学习操作。最后,您还将被要求支持并为科学出版物做出贡献。 这项工作需要技术技能,同时也需要对行为数据的创造力和好奇心,以及对心理测量学的学习。必须具备数据基础设施和机器学习模型(特别是自然语言处理和LLMs)的应用经验。加入我们的成功故事,帮助我们创造真正创新的评估体验吧! 主要职责: • 数据管道开发:设计、开发和维护用于收集、处理和存储大量结构化和非结构化数据的数据管道。 • Python编码:利用Python编写高效可扩展的代码,用于数据转换、数据集成和ETL过程。 • 机器学习:掌握和应用机器学习的基本原理,包括监督学习、神经网络和深度学习架构。 • 自然语言处理:应用自然语言处理(NLP)技术,包括分词、词嵌入、序列到序列模型和注意力机制。 • 大型语言模型(LLMs):使用不同的尖端LLMs(例如GPT、LLaMA、Claude、MPT),以及在LLMs上进行提示工程、量化和微调的知识和技能。 • 数据建模和架构:设计和实施与业务需求相一致的数据模型,促进数据一致性和质量。熟悉用于NLP的最先进的深度学习架构。 • GPU/TPU编程:掌握和应用GPU/TPU编程(例如CUDA)以加速模型训练。 • 超参数调优:优化超参数和模型架构以实现最佳性能。 • 模型评估:熟悉NLP任务的评估指标,并能设计适当的评估程序。 • 软件工程:熟练掌握软件工程技能,开发可扩展和易维护的代码,以及版本控制(例如Git)。 • DevOps和部署:了解在生产环境中部署模型、容器化(例如Docker)和持续集成/持续部署(CI/CD)流程。 • Azure专业知识:利用Azure服务,如Azure数据工厂、Azure Databricks、Azure SQL数据仓库和Azure存储,构建和部署数据解决方案。 • Databricks经验:使用Databricks处理和分析数据,优化性能并解决问题。 • 数据集成:与跨职能团队合作,确保将各种来源的数据无缝集成到数据平台中。 • 数据质量保证:制定和实施数据质量检查和验证流程,以保持数据准确性和完整性。 • 可扩展性和性能:优化数据管道和基础设施,以实现可扩展性、可靠性和性能。 • 文档编写:为数据管道、基础设施配置和最佳实践创建和维护文档。 • 监控和故障排除:监控生产环境中模型的性能,处理模型漂移,并通过定期更新和改进来维护模型。 • 安全和合规性:确保数据安全、隐私和符合相关法规和公司政策。 • 持续学习:承诺不断学习,并了解LLMs及其支持技术的最新研究成果。 • 思想领袖:跟上生成式AI创新和模型的最新进展。对发表同行评审研究感兴趣。组织提升其他科学家能力的培训课程。 要求: • 计算机科学、数据科学、数据工程或相关领域的硕士学位。 • 作为数据科学家的经验,并且具有较强的Python编码能力。 • 有Azure服务的经验,尤其是Azure数据工厂、Azure Databricks和Azure SQL数据仓库。 • 对数据科学和工程的最佳实践、数据集成、ETL过程和数据仓库概念有深入的理解。 • 熟练掌握数据建模和数据库设计。 • 出色的问题解决和故障排除能力。 • 较强的沟通和协作能力。 • 有Azure和Databricks认证者优先考虑。 薪资:此职位的预期薪资范围如下。 变动薪酬:薪资的10% 具体的薪酬将根据技能、经验和地理位置而异。 福利:点击这里了解DDI提供的福利概述。