Python工程师
泽西城-混合工作,每周3天现场办公
每小时60-75美元
18个月的W2合同
职责
• 开发和维护文本数据注释的稳健代码流水线,包括基于词汇和短语的注释。
• 与自然语言处理研究人员和软件工程师等跨职能团队密切合作,将数据注释流程整合到整体数据处理框架中。
• 使用弱监督技术设计和实施基于词汇组的数据标注规则,确保高质量和一致的注释输出。
• 审查和策划已注释数据,以保持准确性和相关性,解决潜在的歧义和不一致性。
• 计算、分析和呈现性能统计数据,包括精确度、召回率、F1得分和其他相关指标,以评估注释流程的有效性。
• 与业务利益相关者合作,了解他们的需求和目标,并将技术发现转化为推动明智决策的可行见解。
• 与机器学习工程师密切合作,将标记数据纳入模型训练和微调过程中。
• 保持对自然语言处理、数据注释技术和性能评估方法的最新进展的了解,并应用这些知识来增强注释过程。
• 清晰地向技术和非技术受众记录和传达注释流程、方法和发现。
• 进行分析以评估数据的质量和含义。
• 构建ETL流水线并自动化数据摄取、转换和存储。
资格要求:
• 计算机科学、数据科学、计算语言学或相关领域的硕士学位。
• 在自然语言处理、数据注释和性能评估方面有实际经验(5年以上),最好是在工业环境中。
• 精通编程语言,如Python,并具备相关库的经验(NLTK、spaCy、scikit-learn等)。
• 熟悉开发和维护数据流水线、版本控制系统和持续集成工具。
• 对各种自然语言处理任务(包括情感分析、实体识别、文本分类等)有扎实的理解。
• 具备统计分析和可视化工具(如pandas、matplotlib、seaborn)的经验,以呈现性能指标。
• 出色的问题解决能力、注重细节,并能同时处理多个项目。
• 有效的沟通能力,能够向技术和非技术利益相关者传达复杂的技术概念。
• 强大的协作能力,能够与跨职能团队合作。
• 具备机器学习概念和技术知识的优势。
• 使用Power BI和Tableau等仪表板工具的经验。
• 注重细节,确保数据准确性,并识别数据中的异常或错误。
具备先前与PostgreSQL、Apache Spark等数据库和数据流水线工具的经验。