数据科学家,自然语言处理专家

16个月前远程全职
DeLorean Artificial Intelligence

DeLorean Artificial Intelligence

location 芝加哥
unsaved
DeLorean AI正在招聘!我们正在寻找下一个我们的数据科学家团队成员,他应具备好奇心、创新精神,并准备颠覆医疗行业。 高级自然语言处理(NLP)数据科学家将负责应用先进的数据科学和机器学习技术,为我们所有的产品提供见解和可操作的建议,特别强调从非结构化数据(文本)中处理和提取信息。高级NLP数据科学家将与其他数据科学家密切合作,支持跨职能团队交付各种项目。 职责 • 设计、构建和维护可扩展的生产就绪的机器学习系统,用于文档处理和其他预测任务,可以在本地或云环境(AWS/GCP/Azure)中运行。 • 构建和使用自定义的网络爬虫从网络和其他文档来源提取数据。构建和利用现有的NLP流程处理非结构化提取的数据。 • 理解大量数据背后的业务现实,并开发有意义的分析解决方案。因此,利用机器学习、统计建模、概率和其他定量技术的技术知识构建预测模型。利用监督和无监督算法构建预测模型和支持各种业务用例的规定性解决方案。 • 应用统计方法对大量数据进行严格分析,用于客户分析、分割分析等。 • 能够使用Power BI和/或Tableau构建仪表板,以传达预测结果。 • 与其他机器学习工程师密切合作,构建用于数据处理、训练、推理和评估的机器学习流程。 • 积极参与机器学习模型的生命周期,从问题构建、实验到部署和生产监控。 • 以口头和书面形式与业务客户和领导团队进行沟通,向他们传达我们系统的知识,分享见解和建议,技术知识水平有所不同。 资格 • 至少拥有以下专业的硕士或博士学位的3年经验: • 数据科学、机器学习、定量或计算职能 • 使用大规模、复杂数据集创建/优化机器学习、预测、预测和/或优化模型的工作经验。 • 在探索性数据分析、特征工程、变量选择、检测模式、分析分布、可视化结果和提取见解等方面具有高级技能,以帮助业务做出明智的数据驱动决策。 • 初级统计学、假设检验、A/B比较、最可能估计和统计建模。 • 对预测建模、机器学习、聚类和分类技术和算法有概念性理解和实际经验。 • 对主成分分析、分类(随机森林、支持向量机、随机梯度提升)、聚类(KNN、DB Scan)、回归(线性、逻辑、树)、降维、集成建模、时间序列建模和数据的二维可视化常用算法有了解。 • 对神经网络、深度学习、嵌入、收敛、损失函数、反向传播、软最大分类、知识转移等相关主题有了解。 • 对文本挖掘和NLP概念(分词、嵌入、向量化等)、传统的序列到序列翻译(文本分类、实体识别、实体提取、RNN、LSTM、基于Transformer的技术(BERT、GPT等)和应用特定的重新训练、问答)有知识。 • 有大型语言模型(预训练、微调、向量数据库、RAG等)和特定的NLP框架和库(如LangChain、Huggingface等)的经验。 • 在动态环境中工作并处理模糊性、优先需求和交付结果的经验。 • 能够向非专家传达严谨的技术概念和考虑因素。 • 有效沟通技术解决方案并向研究科学家、工程团队和业务观众进行倡导的经验。 技能与能力 • 熟练使用Python、Pandas、NumPy、NLTK、SciKit、Pytorch或相当的工具。 • 具备足够的数学背景,能够理解各种算法背后的概念。 • 熟悉大数据框架和可视化工具(Cassandra、Hadoop、Spark、Tableau)。 • 有云端机器学习平台、分布式计算、数据流水线、云数据存储和服务引擎的经验。 • 提取见解以帮助业务做出明智的数据驱动决策。 具有以下高级技能水平: • 探索性数据分析 • 特征工程和选择 • 检测模式 • 分析分布 • 可视化结果 最好具备UI/UX仪表板技能(PowerBI、Tableau等)。 教育背景 • 理科硕士/博士学位,计算机科学、信息系统、物理、化学、数学、统计学、数据科学、机器学习或类似专业。 要求 • 至少拥有3年硕士学位或2年博士学位的经验 • 有权在美国工作 • 远程工作 • 出差少于25%