Python和SnowFlake的数据工程师

纽约 2天前全职 网络
面议
Dice是技术专家在其职业生涯各个阶段的首选职业目的地。我们的客户SANS正在寻找以下职位。今天通过Dice申请! 任何签证都可以:公民、H1B,但不接受OPT、CPT或STEM学生签证。 职位:使用Python将数据导入Snowflake的数据工程师 该职位位于曼哈顿对冲基金的研究部门 在多种替代数据集方面的经验——这是工作的关键。 必须具备对冲基金、投资银行、资产管理、金融市场数据服务的资本市场经验 什么是替代数据集—— 非市场数据来自供应商,如消费者支出行为或网络流量行为,您可以通过网络抓取获得的各种数据 替代数据对冲基金使用非传统数据,如卫星图像、社交媒体情绪、地理位置和网络抓取,以发现传统研究未发现的投资信号,提供市场趋势、消费者行为和公司绩效的早期洞察,以获得竞争优势。这些多样化的数据通常是庞大且复杂的(大数据),来自公司外部,帮助基金在标准报告中出现之前发现机会和风险,现在大多数对冲基金都在整合某种形式的替代数据。 替代数据的常见来源 •:人流量、设备移动以评估零售/人流量。 •:来自Twitter、Reddit、评论网站的情绪分析,通过网络抓取趋势。 •:跟踪停车场、石油储存、建筑以预测零售/商品活动。 •:聚合购买数据以查看消费者支出模式。 •:产品采用和公司健康状况的实时指标。 对冲基金如何使用替代数据 •:在收益报告之前发现需求或情绪的变化。 •:获得消费者感知和竞争对手表现的洞察。 •:将大型数据集输入复杂算法以获得预测能力。 主要供应商和工具 • 数据供应商:像YipitData、Quandl(现为纳斯达克的一部分)等公司收集和处理这些数据。 • 平台:服务如帮助管理和分析这些信息。 挑战 • 数据质量:确保数据准确、相关且不具误导性。 • 体量和复杂性:处理庞大、非结构化的数据集需要先进技术。 与API集成并导入Snowflake <--- 必须具备API经验和Snowflake经验 编写ETL流程,从API、S3桶、STFP服务器、Snowflake供应商共享中导入。<--- 必须具备ETL、API、S3桶、STFP服务器、Snowflake供应商共享经验。 需要编写代码将数据导入Snowflake作为起点,数据工程工作是将数据导入Snowflake 角色的下一部分是—— 将他们导入的原始数据集成到他们的分析系统中,这些系统是他们内部构建的Python工具和SQL流程。他们有内部构建的Python库。PREFECT是一个编排工具。(Prefect.io) DBT是一个数据转换工具,这是工具包。 候选人必须是现有工具和流程的用户,并且有足够的经验来提出改进建议,他们的系统并不完美,他们希望有人能够贡献想法并进行必要的工作来改进他们的数据流程。他们希望有人能够构建数据质量和警报工具,并利用DBT ***进行工作流,并为他们已经构建的现有事物添加功能。尽可能多地提供帮助。 他们必须具备的Python技能—— Numpy、SiPy或sip y、Pandas SiPy——他们在Python中有一个相当典型的数据操作栈。但我们也对他们不使用的其他库持开放态度 如Polars、desk pyspark。 在金融领域有快速工作的经验(可能是另一家对冲基金) 理想情况下来自金融行业,他们在时间压力环境中处理过各种数据集。(他们不会有2个月的时间来解决这个问题。你会得到的是——在接下来的2周内处理这10个数据集,让我们实现这一目标,并在新数据到来时简化流程并提高效率。 持续进行的数据集导入项目 此外 与上述内容混合的是改进项目,这个数据加载项目的新功能,以便为利益相关者提供更多的项目可见性 在Windows上使用Python。我们在基于虚拟机的环境中工作。他们在一个稍微不那么现代的环境中工作。虚拟机影响了他们对问题解决的思考方式。 正常工作时间是9-6小时(有人构建了一个数据流程并且它崩溃了,你需要承担一定的责任。)他们可能需要在早上6点开始工作,以修复他们自己构建的系统中的问题。(对你构建的东西负责)每周工作5天,4天在现场,但也必须在早上6点起床修复问题。 优秀的沟通能力,与其他工程师沟通,与数据科学家沟通,与业务沟通。了解使用数据的下游意图<--- 这个数据的业务目的是什么? 8-10日费率(由于支持元素) • 是一个分析工程框架,帮助数据团队使用SQL在他们的仓库中转换数据,将软件开发的最佳实践(如版本控制、测试和文档)引入数据管道,使分析师和工程师能够为分析和BI构建可扩展、可靠和协作的数据模型。它专注于中的“T”(转换),允许团队直接在云数据仓库中构建模块化、可测试和有文档的数据转换。