Ancestry正在寻找一位出色、热情和积极上进的数据科学CV-NLP实习生,加入我们的数据科学计算机视觉和自然语言处理团队。数据科学CV-NLP团队开发CV和NLP模型,从数十亿条历史和家谱记录中提取和组织文本和图像信息。CV模型与NLP模型相结合,从数据中提取和组织信息,帮助客户发现和连接他们的家族历史。作为数据科学CV-NLP团队的实习生,您将构建和训练模型,促进产品开发、客户成功和家族历史业务的内容创作。您还将与工程团队密切合作,培训、优化和部署模型。
在各种家谱和历史收藏(如报纸、城市目录、家族历史书籍、出生、结婚和死亡记录等)中实施最先进的计算机视觉方法,包括文档布局分析、分类、分割、目标检测、涂抹等。
分析模型性能,细化标注规范,并与标注资源一起迭代,策划和完善训练集,提高性能。
与ML Ops和数据科学工程师合作,将数据集、真实集、模型、训练和推理代码部署到基于云的模型注册表。
有效沟通和呈现可交付成果和解决方案给团队、利益相关者和高管。
你是谁:
计算机科学、统计学、数学、语言学、工程或相关数据定量领域的高级学位(硕士/博士)候选人。
专攻自然语言处理、计算机视觉、深度学习、机器学习或相关软件开发。
理解并实施已发表的模型和方法,用于实际应用和实际问题。
熟练掌握Python和相关的CV和NLP工具和库,并熟悉Pytorch、TensorFlow、Keras、SciPy stack和Scikit-learn等深度学习框架。
Nice to Have:
具有NLP技术经验,如命名实体识别、关系抽取、文档分类、文档摘要、主题建模、机器翻译、情感分析、对话系统等。
有文档图像处理经验,如计算机视觉方法、图像分类、目标检测、分割、布局分析、涂抹、手写识别等。
熟悉NLP技术,如NLTK、spaCy、pandas、numpy,以及对预训练语言模型和架构(如BERT、GPT、T5、XLNet、PL Marker、TP Linker、OneRel、Huggingface和OpenAI模型等)的理解。
实习项目详情:
学生必须在美国认可的教育机构注册,并在2023年8月之后毕业。
2023年夏季项目日期为5月15日至9月8日(请注意,我们将有三个实习生入职日期可供选择:5月15日、6月5日和6月20日。学生可以在每个星期五下班,从8月11日开始。所有实习必须在9月8日前结束)。
全额支付临时住房和实习往返交通费用。
所有夏季实习都将在犹他州雷希进行。您将按照混合办公和办公室安排工作,可以选择哪些天来办公室上班,哪些天在临时住房/家中工作(犹他州学生)。
实习生有机会与其他实习生和业界领先的专业人士建立联系和合作。
您将参加引人入胜的活动,包括高管演讲、职业发展和我们的年度实习生日,展示您的项目和工作。
需要全职工作时间(每周40小时);周一至周五。
公司提供笔记本电脑和设备,供实习期间使用。
我们的实习生在获得丰厚的薪酬、临时住房和愉快的体验的同时,享受着导师的指导和具有挑战性的工作,还有全职就业的可能性一旦您毕业。