网络爬虫开发者 - Confidential Jobs招聘

我们是一家小型深科技初创公司，专注于行为变革解决方案，提供行为心理学、数据分析和数字通信的专业能力。牛顿有效地专注于创建以科学为基础的解决方案，致力于拥抱社会目标，通过创建使用尖端机器学习和数据科学方法来建模、分割和创建产品，从而提高人们生活质量的多种产品。职位摘要作为一名网络爬虫，您的职责是开发脚本从多个网站提取数据并维护数据管道。深入了解我们在网络上的各种数据来源，并准确了解如何、何时以及哪些数据进行抓取、解析和存储。您将利用现有的框架和流程来抓取和摄取网络内容。您还将开发框架，自动化并维护来自多个来源的数据的持续流动。您将负责维护网络爬虫和框架。要求 • 2+年构建爬虫/网络抓取应用程序的经验。 • 熟悉网络抓取库和框架，例如（Scrapy，Selenium，Beautiful Soup） • 有经验分析HTML和CSS代码，以从网站中识别和提取数据 • 具有Python、IDE、API和多线程编码经验。 • 算法技能。例如，我们开发算法来检测和删除网页的主要文本内容周围的多余“杂物”（样板文件，模板）。 • 有数据库工作经验。 • 精通Python语言，具有与数据库集成的实际经验。 • 具备数据解析、数据挖掘、数据分析等经验。 • 有数据可视化经验者优先。薪资：50,000美元至65,000美元，另有奖金和股权。