我们正在寻找一位经验丰富的数据科学家加入我们的产品开发团队,共同创建前沿的人工智能驱动评估工具。DDI是一家全球领导力咨询公司,帮助组织招聘、晋升和培养优秀的领导者。我们正在寻找一位技术娴熟、积极主动的数据科学家,具备自然语言处理方面的专业知识和数据基础设施(例如Azure和Databricks)的经验。
在这个角色中,您将支持我们的首席科学家领导的产品开发团队,开发新产品的自然语言处理算法和模型。您还将支持我们的开发人员推出这些产品。您将构建和维护数据、代码和模型管道,以进行负责任和可重复使用的机器学习操作。最后,您还将被要求支持并为科学出版物做出贡献。
这项工作需要技术技能,同时也需要对行为数据的创造力和好奇心,以及对心理测量学的学习。必须具备数据基础设施和机器学习模型(特别是自然语言处理和LLMs)的应用经验。加入我们的成功故事,帮助我们创造真正创新的评估体验吧!
主要职责:
• 数据管道开发:设计、开发和维护用于收集、处理和存储大量结构化和非结构化数据的数据管道。
• Python编码:利用Python编写高效可扩展的代码,用于数据转换、数据集成和ETL过程。
• 机器学习:掌握和应用机器学习的基本原理,包括监督学习、神经网络和深度学习架构。
• 自然语言处理:应用自然语言处理(NLP)技术,包括分词、词嵌入、序列到序列模型和注意力机制。
• 大型语言模型(LLMs):使用不同的尖端LLMs(例如GPT、LLaMA、Claude、MPT),以及在LLMs上进行提示工程、量化和微调的知识和技能。
• 数据建模和架构:设计和实施与业务需求相一致的数据模型,促进数据一致性和质量。熟悉用于NLP的最先进的深度学习架构。
• GPU/TPU编程:掌握和应用GPU/TPU编程(例如CUDA)以加速模型训练。
• 超参数调优:优化超参数和模型架构以实现最佳性能。
• 模型评估:熟悉NLP任务的评估指标,并能设计适当的评估程序。
• 软件工程:熟练掌握软件工程技能,开发可扩展和易维护的代码,以及版本控制(例如Git)。
• DevOps和部署:了解在生产环境中部署模型、容器化(例如Docker)和持续集成/持续部署(CI/CD)流程。
• Azure专业知识:利用Azure服务,如Azure数据工厂、Azure Databricks、Azure SQL数据仓库和Azure存储,构建和部署数据解决方案。
• Databricks经验:使用Databricks处理和分析数据,优化性能并解决问题。
• 数据集成:与跨职能团队合作,确保将各种来源的数据无缝集成到数据平台中。
• 数据质量保证:制定和实施数据质量检查和验证流程,以保持数据准确性和完整性。
• 可扩展性和性能:优化数据管道和基础设施,以实现可扩展性、可靠性和性能。
• 文档编写:为数据管道、基础设施配置和最佳实践创建和维护文档。
• 监控和故障排除:监控生产环境中模型的性能,处理模型漂移,并通过定期更新和改进来维护模型。
• 安全和合规性:确保数据安全、隐私和符合相关法规和公司政策。
• 持续学习:承诺不断学习,并了解LLMs及其支持技术的最新研究成果。
• 思想领袖:跟上生成式AI创新和模型的最新进展。对发表同行评审研究感兴趣。组织提升其他科学家能力的培训课程。
要求:
• 计算机科学、数据科学、数据工程或相关领域的硕士学位。
• 作为数据科学家的经验,并且具有较强的Python编码能力。
• 有Azure服务的经验,尤其是Azure数据工厂、Azure Databricks和Azure SQL数据仓库。
• 对数据科学和工程的最佳实践、数据集成、ETL过程和数据仓库概念有深入的理解。
• 熟练掌握数据建模和数据库设计。
• 出色的问题解决和故障排除能力。
• 较强的沟通和协作能力。
• 有Azure和Databricks认证者优先考虑。
薪资:此职位的预期薪资范围如下。
变动薪酬:薪资的10%
具体的薪酬将根据技能、经验和地理位置而异。
福利:点击这里了解DDI提供的福利概述。