数据科学与机器学习模型开发
我们正在寻找一位有才华和经验丰富的数据科学家,具有5年以上的核心建议引擎构建经验,加入我们充满活力的团队。在这个职位上,您将负责开发、维护和增强机器学习模型,解析基于文本和基于图像的文档。利用各种文本和文档处理库,您将为我们的文档处理能力的持续改进做出贡献。主要职责:
• 开发、维护和增强用于解析基于文本和基于图像的文档的机器学习模型。
• 利用PyMuPDF、Tika、PDFMiner、PyTesseract等相关库,确保高效的文档处理。
命名实体识别(NER)模型训练
• 使用基于Transformer的架构训练和优化NER模型,提高准确性和效率。
检索增强生成(RAG)应用
• 使用大型语言模型(LLMs)和相关库(如LangChain等)构建和优化检索增强生成(RAG)应用。
推荐引擎专长
• 运用核心数据科学和机器学习经验构建和增强推荐引擎。
数据管理和处理
• 管理和处理大型数据集,确保开发高效的数据提取、转换和加载(ETL)流程。
云基础设施和部署
• 与团队合作,共同开发和扩展机器学习模型的云基础设施,实现有效部署和扩展。
技术领导力
• 在数据科学和机器学习方面提供技术领导力,指导团队采用最佳实践。
• 保持与行业趋势和技术的同步,以快速引入创新。