职位标题:网络爬虫工程师
关于CRISIL GR&A:
CRISIL全球研究与分析(GR&A)是世界领先的商业和投资银行、保险公司、企业、咨询公司、私募股权公司和资产管理公司提供高端研究和分析服务的最大和最高排名的提供商。CRISIL GR&A在阿根廷、中国、印度和波兰设有中心,在全球组织中提供多时区和多语言的支持。它在股票和固定收益研究(涵盖全球经济、150个全球行业和3000多个全球公司)、信用分析、奇异衍生品估值、结构化金融、风险建模和管理、精算分析和商业智能领域拥有深厚的专业知识。
我们的客户正在寻找具有2-4年经验的顾问,以促进风险运营和报告流程在风险运营团队中。该角色包括流程工程、管理、10Q/K披露、数据挖掘和全球信用/市场风险倡议。
角色和职责
作为一个专注于网络爬虫的数据工程师,您将负责使用网络爬行工具从网站中提取和摄取数据。在这个角色中,您将负责创建这些工具、服务和工作流程,以改进爬行/抓取分析、报告和数据管理。
• 有运行大规模网络爬取的经验。
• 使用Python、SQL和C#开发自定义脚本和工作流程,自动化数据处理任务。
• 熟悉爬取、提取和处理数据的技术和工具(例如Scrapy、pandas、MapReduce、SQL、BeautifulSoup等)。
• 对数据建模概念有很好的理解,以设计和开发高效的数据存储和检索系统。
• 至少有4年以上的数据工程经验,拥有硕士学位;或者有5年以上的本科学位以及相关工作经验。
• 2-3年以上金融行业经验。
• 在生产环境中作为数据工程师工作的经验。
• 在Snowflake中使用现代可扩展的数据湖或数据仓库的经验。
• 5年以上使用Python、PySpark、SQL、Scala、Shell脚本等编程语言的熟练经验。
• 了解Spark架构者优先考虑。
• 至少有一种或多种数据库经验(MySQL、Microsoft SQL Server、MongoDB、PostgreSQL)
• 使用容器和编排工具(如Docker、Kubernetes、Apache Airflow、CI/CD等)的经验。
• 使用CI/CD(如Jenkins)推广数据摄取管道的经验。
• 出色的书面和口头沟通、演示技巧。
• 在一个或多个云平台(Azure、AWS或GCP)上工作的经验
• 优选:Azure
• 在分布式笔记本环境(如Databricks、Azure Synapse等)中工作的经验。
• 与Git、Azure DevOps一起工作的经验。
• 理解机器学习算法,如异常检测
• 能够在敏捷方法论中工作。
• 将原始复杂数据转化和处理为结构化和可消费格式数据
• 机器学习和定量建模
• 利用Prophet或类似的包构建异常检测模型
• 根据领域要求构建地理空间和其他实践的异常检测模型。
所需技能
• 有经验的机器学习工程师,自我激励和注重交付
• 有与替代数据合作的经验
• 有云计算、分布式计算和数据科学的经验
• 出色的沟通和演示技巧。证明能够与内部和外部利益相关者建立联系,并在快节奏的环境中取得成功
• 通过替代数据为新业务创造收入
• 创新
• 6年人工智能、大数据和云计算专业知识
• 3-4年替代数据经验
• 通过AI驱动的数据质量降低声誉风险,以确保向客户提供最高质量的数据和服务
教育背景:计算机科学/软件工程学士学位或等同经验