数据科学家 - 自然语言处理

15个月前全职
DDI

DDI

location 芝加哥
unsaved
我们正在寻找一位经验丰富的数据科学家加入我们的产品开发团队,共同创建前沿的人工智能驱动评估工具。DDI是一家全球领导力咨询公司,帮助组织招聘、提升和培养优秀的领导者。我们正在寻找一位技术娴熟、积极主动的数据科学家,具有自然语言处理方面的专业知识和数据基础设施方面的经验(如Azure和Databricks)。 在这个角色中,您将支持我们首席科学家领导的产品开发团队,开发新产品的NLP算法和模型。您还将支持我们的开发人员推出这些产品。您将构建和维护数据、代码和模型管道,以负责和可重复使用的机器学习操作。最后,您还应该支持和贡献科学出版物。 这项工作需要技术技能,同时也需要对行为数据的创造力和好奇心,以及对心理测量学的学习。必须具备数据基础设施和机器学习模型(特别是NLP和LLMs)应用的经验。加入我们的成功故事,帮助我们创造真正创新的评估体验吧! 主要职责: - 数据管道开发:设计、开发和维护用于收集、处理和存储大量结构化和非结构化数据的数据管道。 - Python编程:利用Python编写高效可扩展的代码,用于数据转换、数据集成和ETL流程。 - 机器学习:掌握和应用机器学习的基本原理,包括监督学习、神经网络和深度学习架构。 - 自然语言处理:应用自然语言处理(NLP)技术,包括分词、词嵌入、序列到序列模型和注意力机制。 - 大型语言模型(LLMs):使用不同的尖端LLMs(如GPT、LLaMA、Claude、MPT),以及在LLMs的提示工程、量化和微调方面的知识和技能。 - 数据建模和架构:设计和实现与业务需求相一致的数据模型,促进数据的一致性和质量。熟悉用于NLP的最先进的深度学习架构。 - GPU/TPU编程:了解和应用GPU/TPU编程(如CUDA)来加速模型训练。 - 超参数调整:优化超参数和模型架构,以达到最佳性能。 - 模型评估:熟悉NLP任务的评估指标,能够设计适当的评估程序。 - 软件工程:精通软件工程技能,开发可扩展和可维护的代码,具备版本控制(如Git)能力。 - DevOps和部署:了解在生产环境中部署模型、容器化(如Docker)和持续集成/持续部署(CI/CD)流程。 - Azure专业知识:利用Azure服务,如Azure Data Factory、Azure Databricks、Azure SQL Data Warehouse和Azure Storage,构建和部署数据解决方案。 - Databricks经验:使用Databricks处理和分析数据,优化性能并解决问题。 - 数据集成:与跨职能团队合作,确保将各种来源的数据无缝集成到数据平台中。 - 数据质量保证:开发和实施数据质量检查和验证流程,以保持数据的准确性和完整性。 - 可扩展性和性能:优化数据管道和基础设施,以实现可扩展性、可靠性和性能。 - 文档编制:创建和维护数据管道、基础设施配置和最佳实践的文档。 - 监控和故障排除:监控生产环境中的模型性能,处理模型漂移,并通过定期更新和改进来维护模型。 - 安全和合规性:确保数据安全、隐私和符合相关法规和公司政策。 - 持续学习:承诺不断学习,并了解LLMs及其支持技术的最新研究。 - 思想领导力:跟上生成式AI创新和模型的发展。对发表同行评审的研究感兴趣。组织培训课程,发展其他科学家的能力。 要求: - 计算机科学、数据科学、数据工程或相关领域的硕士学位。 - 作为数据科学家的经验,并具有较强的Python编程能力。 - 有Azure服务的使用经验,尤其是Azure Data Factory、Azure Databricks和Azure SQL Data Warehouse。 - 对数据科学和工程的最佳实践、数据集成、ETL流程和数据仓库概念有深入的理解。 - 熟练掌握数据建模和数据库设计。 - 出色的问题解决和故障排除能力。 - 良好的沟通和协作能力。 - 有Azure和Databricks认证者优先考虑。 薪资:此职位的预期薪资范围如下。 可变薪酬:薪资的10% 具体薪资将根据技能、经验和地理位置而有所不同。 福利:请点击此处了解DDI提供的福利概述。