角色概述
开发和部署使用变换器、文本挖掘技术和现代语言模型的自然语言处理解决方案。构建可用于文本分析和理解的生产就绪系统。
职责
• 设计并实现用于文本分类、实体识别和信息提取的自然语言处理管道
• 为各种自然语言处理任务和应用构建基于变换器的模型
• 开发文本挖掘解决方案,从大规模非结构化数据中提取见解
• 针对特定领域的自然语言处理需求实施和定制 spaCy 管道
• 集成和微调大语言模型以进行文本处理和理解任务
• 优化自然语言处理模型以提高性能、准确性和生产部署
• 与数据科学家和工程师合作,提供端到端的自然语言处理解决方案
要求
• 计算机科学、计算语言学、人工智能/机器学习或相关领域的学士学位
• 对变换器架构(BERT、RoBERTa、T5、GPT)有深入的专业知识
• 具备文本挖掘和信息提取技术的实际经验
• 精通使用 spaCy 开发自然语言处理管道
• 具备与大语言模型及其应用的实践经验
• 较强的 Python 编程技能
• 具有 Hugging Face Transformers 库的经验
• 理解自然语言处理的基础知识(分词、嵌入、语义分析)
优先考虑
• 具备命名实体识别(NER)、情感分析和文本分类的经验
• 了解传统的自然语言处理技术(TF-IDF、词嵌入、词性标注)
• 熟悉 NLTK、Gensim 或其他自然语言处理库
• 具备模型微调和迁移学习的经验
• 理解多语言自然语言处理和跨语言模型
• 了解 MLOps 和模型部署管道
• 具备文档处理和 OCR 集成的经验