具体职责
审查、设计、开发ETL作业以将数据导入数据湖,将数据加载到数据集市;提取数据以与各种业务应用程序集成。解析非结构化数据、半结构化数据,如XML等。设计和开发高效的映射和工作流,将数据加载到数据集市。在Python中映射XML DTD模式(自定义表定义)。在Hive或Impala中编写高效的查询和报告,以便在需要时进行数据分析。识别ETL作业中的性能瓶颈,并通过增强或重新设计来调整其性能。负责ETL映射和查询的性能调优。导入表和所有必要的查找表,以便进行ETL过程所需的处理每日XML文件,以及处理非常大的(多TB)历史XML数据文件。