职位:高级机器工程师(NLP)
地点:纽约
公司概况
Consumer Edge是一家数据创新和人工智能公司,正在改变专业人士解读消费者和商业行为的方式。我们的平台结合了大规模交易数据和先进的AI系统,为企业客户提供实时洞察。我们的技术团队分布在欧洲和北美,以精确性、可扩展性和创新为共同目标。
角色概述
我们正在寻找一位经验丰富的高级机器学习工程师,专注于自然语言处理(NLP),以解决我们最关键和复杂的数据挑战之一:实体解析。在此角色中,您将设计、构建和部署生产规模的系统,以智能地链接来自不同、庞大数据集的记录。
您的工作将是基础性的,创建一个单一的、统一的核心实体视图(如产品、组织、地点和客户),为我们的分析、产品功能和业务战略提供动力。理想的候选人是一个动手解决问题的人,能够在项目范围协作、定义数据需求、开发新颖的建模策略以及将强大、可扩展的系统部署到我们的云基础设施(GCP和AWS)上,从头到尾承担责任。
您的主要职责
• 设计与构建:
领导大规模实体解析、记录链接和数据匹配的机器学习管道的端到端开发。
• NLP建模:
应用并定制高级NLP技术(如实体提取、语义相似性、文本向量化、模糊匹配)以比较和匹配结构化和非结构化文本中的实体。
• 系统架构:
设计可扩展且高效的数据处理和模型推理系统,使用云原生工具处理TB级数据集。
• 部署:
在GCP(如Vertex AI、Big Query、Dataflow)上部署、监控和维护生产中的ML模型和数据管道。
• 项目领导:
与产品经理、数据工程师和业务利益相关者密切合作,确定新项目的范围,定义数据需求,并建立成功指标。
• 沟通与文档:
创建清晰、全面的设计文档,并有效地向技术和非技术受众传达复杂的技术概念、权衡和结果。
所需经验
• 3年以上在生产环境中构建和部署机器学习模型的实际经验。
• 在自然语言处理(NLP)方面有明确的、可证明的经验,特别是在实体解析、记录链接或数据匹配项目上。
• 精通Python和常见的ML/数据科学库(如scikit-learn、pandas、spaCy、Hugging Face Transformers)。
• 在公共云提供商(GCP、AWS或Azure)上具有ML部署和数据处理服务的实际经验。
• 扎实的软件工程基础,包括版本控制(Git)、测试和CI/CD实践。
• 优秀的书面和口头沟通能力,能够清晰地记录设计决策并呈现复杂信息。
期望经验
• 使用分布式计算框架(如Apache Beam、Apache Spark、Dask、Ray)构建数据密集型应用程序和处理超大数据集的经验。
• 构建具有LLM组件的NLP应用程序的经验。
• 熟悉MLOps原则和工具(如MLflow、Kubeflow、TFX)。
• 将AI/ML系统部署到生产环境并与数据管道集成的经验(如ETL工具、Airflow、Dagster)。
• 在相关会议(如ACL、EMNLP、KDD)上发表论文或对开源项目的贡献。
技术栈与团队背景
您将在Basketview小组中工作,与AI产品和位置团队合作。技术栈包括Python、FastAPI、Big Query、Dataflow和Vertex AI,重点是可扩展的NLP解决方案。团队跨越美国和欧盟时区,专注于构建实用的、高影响力的数据智能系统。
福利与待遇
我们是一家以远程为主的公司,拥有分布式环境和灵活的工作安排。我们相信分布式工作者应是第一等公民。如果您喜欢办公室,我们在纽约也有办公室。
薪资
该职位的年基本工资根据经验在$140,000 - $180,000之间,并有绩效奖金、公司股权、401(k)匹配、带薪育儿假、灵活且慷慨的休假、在家办公的灵活性和补贴健康福利的机会。