作为数据科学家 – NLP & AI,您将成为一个敏捷团队的一员,专注于通过开发先进的NLP模块、整合LLM和代理工作流,并利用AWS大数据技术来增强临床数据处理和可用性,从而构建智能医疗解决方案。
职责:
- 使用AI驱动的NLP技术和先进的机器学习模型分析和处理临床文本数据。
- 通过整合尖端的机器学习和深度学习算法,包括利用大型语言模型(LLM)和像LangGraph这样的工具来改进当前工作流,以适应复杂的医疗保健AI代理工作流。
- 使用Python等编程或脚本语言在NLP开发团队内开发NLP模块。
- 对文本数据输入进行预处理和质量分析,并验证NLP输出的性能。
- 为NLP模块创建系统化的测试程序、错误检查机制和用户手册。
- 构建基础设施以实现从包括MCP服务器在内的多种来源的数据的最佳提取、转换和加载,使用SQL和AWS大数据框架如EMR和Spark/pySpark。
- 与工程团队合作,确保使用SQL和AWS大数据技术实现可扩展和高效的数据工作流。
- 应用AWS服务的工作知识,特别是AWS Bedrock,开发生成式AI应用。
- 利用关系数据库如PostgreSQL或MySQL进行NLP和AI工作流中的数据存储和检索。
经验:
- 10年以上
地点:
- 休斯顿,德克萨斯州 - 每周至少2-3天在办公室
教育资格:
- 工程学位 – BE/ME/BTech/MTech/BSc/MSc。
- 拥有多种技术的技术认证是可取的。
必备技能:
- 精通Python和脚本语言,用于NLP和机器学习开发。
- 对临床NLP技术有深入了解,并具有机器学习和深度学习模型的经验。
- 拥有大型语言模型和代理工作流工具如LangGraph的实际操作经验。
- 精通SQL和大数据技术,包括AWS EMR和Spark/pySpark。
- 具备AWS服务的实际知识,尤其是用于生成式AI应用的AWS Bedrock。
- 具有使用关系数据库如PostgreSQL或MySQL的经验。
良好的附加技能:
- 熟悉医疗保健中的生成式AI应用及相关用例。
- 理解医疗数据标准和术语,如HL7、FHIR和CCDA。
- 具有创建详细文档、用户手册和技术规范的经验。
- 具备NLP输出的自动化测试和验证框架的背景。
- 能够有效地与包括工程和产品在内的跨职能团队合作。
- 接触过LangChain或类似框架,用于构建智能代理工作流。