Big Data / Hadoop/ Data Warehouse Developer/Architect

17 months ago Remote Contractor
Digitek Software, Inc.

Digitek Software, Inc.

location Chicago
unsaved
我们的一位客户正在寻找技术专家职位,根据以下技能要求:分析能力。 该资源需要在周二和周四现场工作,并在其他日子远程工作。 地点:俄亥俄州哥伦布 技术专家将负责数据仓库(EDW)的设计、开发、实施、迁移、维护和运营活动。与数据治理和分析团队密切合作。候选人将与数据治理和团队密切合作。将成为各种企业数据仓库项目和构建关键数据集市、数据摄取到大数据平台进行数据分析和与州和客户合作伙伴进行数据交换的关键技术资源之一。该职位是客户ITS的成员,并与业务智能和数据分析团队密切合作。 职责: • 参与团队活动、设计讨论、站立会议和计划审查。 • 使用大数据/Hadoop/Hive/Impala查询、PySpark程序和UNIX shell脚本,在各个层面进行数据分析、数据剖析、数据质量和数据摄取。 • 遵循组织的编码标准文档,根据映射规范文档创建映射、会话和工作流。 • 对新需求和增强的ETL和IOP作业进行差距和影响分析。 • 使用SQOOP、PYSPARK和Stream Sets在Hadoop中创建作业,以满足业务用户的需求。 • 创建模拟数据,进行单元测试,并针对在较低环境中开发的作业捕获结果集。 • 根据生产发布更新生产支持运行手册、Control M计划文档。 • 创建和更新设计文档,在每次生产发布后提供工作流的详细描述。 • 持续监控生产数据加载,修复问题,将问题更新到跟踪文档中,识别性能问题。 • 通过创建分区、启用全量加载和其他标准方法对长时间运行的ETL/ELT作业进行性能调优。 • 执行质量保证检查,数据加载后进行对账,并与供应商沟通以接收修复后的数据。 • 参与ETL/ELT代码审查和可重用框架设计。 • 创建Remedy/Service Now票证以修复生产问题,创建支持请求以将数据库、Hadoop、Hive、Impala、UNIX、ETL/ELT和SAS代码部署到UAT环境。 • 根据需要创建Remedy/Service Now票证和/或事件,触发ADHOC、每日、每周、每月和每季度基础上的Control M作业的FTP和ETL/ELT作业。 • 根据需要建模和创建STAGE/ODS/数据仓库Hive和Impala表。 • 为代码部署到生产环境创建变更请求、工作计划、测试结果、BCAB检查清单文档,并在部署后执行代码验证。 • 与Hadoop管理员、ETL和SAS管理员团队合作进行代码部署和健康检查。 • 为文件归档、文件验证和Hadoop工作流循环创建可重用的UNIX shell脚本。 • 为审计平衡控制创建可重用框架,以捕获对账、映射参数和变量,作为工作流的单一参考点。 • 创建PySpark程序以摄取历史和增量数据。 • 创建SQOOP脚本,从EDW模块供应商的数据库中摄取历史数据到Hadoop IOP,创建HIVE表和Impala视图创建脚本用于维度表。 • 参加会议,不断提升功能和技术专业知识。 所需技能: • 在大数据、Hadoop上具有8年以上的数据仓库或数据集成项目经验。 • 在Cloudera Bigdata技术(至少8-9年的Hadoop、MapReduce、Sqoop、PySpark、Spark、HDFS、Hive、Impala、StreamSets、Kudu、Oozie、Hue、Kafka、Yarn、Python、Flume、Zookeeper、Sentry、Cloudera Navigator等)以及Oracle SQL/PL-SQL、Unix命令和shell脚本方面具有强大的开发经验(至少8-9年); • 在创建Sqoop脚本、PySpark程序、HDFS命令、HDFS文件格式(Parquet、Avro、ORC等)、StreamSets管道创建、作业调度、hive/impala查询、Unix命令、脚本和shell脚本等方面具有强大的开发经验(至少8-9年)。 • 编写Hadoop/Hive/Impala脚本(至少8-9年的经验),用于在数据加载后对表进行统计。 • 在SQL方面具有丰富的经验(Oracle和Hadoop(Hive/Impala等))。 • 编写复杂的SQL查询,并根据Hadoop/Hive/Impala explain计划结果进行调优。 • 具备编写高质量代码的能力。 • 构建数据集并熟悉PHI和PII数据。 • 熟练实施复杂的ETL/ELT逻辑。 • 开发和执行强大的对账流程。 • 对ETL/ELT设计文档负责。 • 对大数据、Hadoop、Hive、Impala数据库、数据安全和维度模型设计具有良好的了解。 • 基本的UNIX/LINUX shell脚本知识。 • 利用ETL/ELT标准和实践,建立和遵循集中式元数据存储库。 • 在Visio、Excel、PowerPoint、Word等方面具有良好的经验。 • 有效的沟通、演示和组织能力。 • 熟悉瀑布和敏捷等项目管理方法。 • 能够确定优先事项,并在项目中跟进,对细节非常关注,几乎不需要监督。 • 所需教育:学士/学士学位或教育和经验的结合 期望的技能: • 展示有效的领导、分析和解决问题的能力 • 具备与技术和业务团队进行卓越的书面和口头沟通的能力。 • 能够独立工作,也能够成为团队的一员 • 了解所分配的IT领域的当前技术 • 确定事实并得出有效结论 • 发现整个组织中的模式和改进机会 • 能够区分重要问题和次要问题,并创新新的解决方案 成功的候选人可能需要接受药物测试和背景调查。 真诚地, Tamana Nair Digitek Software, Inc. 650 Radio Drive, Lewis Center, OH 43035 电话分机3105/传真 电子邮件