我们是一家小型深科技初创公司,专注于行为变革解决方案,提供行为心理学、数据分析和数字通信的专业能力。牛顿有效地专注于创建以科学为基础的解决方案,致力于拥抱社会目标,通过创建使用尖端机器学习和数据科学方法来建模、分割和创建产品,从而提高人们生活质量的多种产品。
职位摘要
作为一名网络爬虫,您的职责是开发脚本从多个网站提取数据并维护数据管道。深入了解我们在网络上的各种数据来源,并准确了解如何、何时以及哪些数据进行抓取、解析和存储。
您将利用现有的框架和流程来抓取和摄取网络内容。您还将开发框架,自动化并维护来自多个来源的数据的持续流动。
您将负责维护网络爬虫和框架。
要求
• 2+年构建爬虫/网络抓取应用程序的经验。
• 熟悉网络抓取库和框架,例如(Scrapy,Selenium,Beautiful Soup)
• 有经验分析HTML和CSS代码,以从网站中识别和提取数据
• 具有Python、IDE、API和多线程编码经验。
• 算法技能。例如,我们开发算法来检测和删除网页的主要文本内容周围的多余“杂物”(样板文件,模板)。
• 有数据库工作经验。
• 精通Python语言,具有与数据库集成的实际经验。
• 具备数据解析、数据挖掘、数据分析等经验。
• 有数据可视化经验者优先。
薪资:50,000美元至65,000美元,另有奖金和股权。