职位:数据科学家 - 自然语言处理(NLP)
地点:加利福尼亚洛杉矶
职位描述:
我们正在寻找一位技术娴熟、积极主动的数据科学家,具备自然语言处理(NLP)领域的专业知识,加入我们在加利福尼亚洛杉矶的充满活力的团队。作为一名专注于NLP的数据科学家,您将在开发和优化大型语言模型(LLMs)用于检索增强生成(RAG)应用方面发挥关键作用。您的职责涵盖了各种挑战,从设计有效的模型到解决延迟问题和确保负责任的人工智能实践。
职责:
架构设计:
开发和优化基于RAG的LLMs,解决上下文窗口大小、准确的块检索和排序相关性等挑战。
检索策略:
实施上下文感知的块检索、混合大小的块、知识图谱和关键词匹配技术,以提高检索效率。
延迟优化:
优化流水线延迟,包括缓存向量化的标记和语义感知的向量缓存。
推理和问题解决:
利用ReACT、函数调用和思维推理的图/树等框架解决推理挑战。
自定义嵌入和信息提取:
在LangChain或LlamaIndex中集成自定义嵌入,利用LLMs进行信息提取,扩展查询以改善检索效果。
平台评估:
评估Azure OpenAI中的Microsoft Copilot、LangChain等开源框架、AWS Bedrock和其他LLM实验平台。
训练和微调:
实施LORA等技术,用于训练和微调针对特定指令的LLMs。
量化和基准测试:
探索用于成本效益GPU使用的量化方法,并参与Hugging Face Open LLM Leaderboard和Chatbot Arena等基准测试工作。
合作与沟通:
与跨职能团队有效合作,沟通复杂的技术概念,并为协作工作环境做出贡献。
资格要求:
计算机科学、数据科学或相关领域的硕士或博士学位。
在NLP应用中开发和优化大型语言模型的经验。
精通Python等编程语言,熟悉相关库和框架。
扎实的NLP技术知识,包括检索增强生成、信息提取和自定义嵌入。
具备负责任的人工智能实践和偏见缓解策略的经验。
出色的问题解决能力和在快节奏、协作环境中工作的能力。
首选技能:
熟悉开源的LLMs和框架。
以往在语言模型的基准测试和验证方面的经验。
对基础模型、转换器架构和其他相关概念有深入理解。
具备技术和非技术受众的有效沟通能力。
生成型AI NLP数据科学家 加利福尼亚