- 在大数据生态系统(Impala、Hue、Spark、Talend 和 Cloudera)中设计、构建和部署 ETL/ELT 数据管道。开发技术设计和 ETL 规范文档。管理、监控和优化 Hadoop 集群架构(HDFS)作业的性能、安全性和资源管理。创建详细的设计和 POC,以在平台上启用新的工作负载和技术能力。与平台和基础设施工程师合作,在生产中实现这些功能。至少 5 年以大数据应用程序为中心的开发经验,以及非结构化原始数据的转换。至少 5 年关系型 DBA 经验,最好具有 SQL 服务器和/或 MySQL 经验。具有 Talend 和 Cloudera Manager、Navigator 和 Data Science Workbench 经验。设计、构建和维护大数据工作流/管道,以处理连续的数据流,具有近实时和批处理数据管道的端到端设计和构建过程经验。在大数据和分布式编程模型和技术方面的工作经验。使用 Spark 或其他高度并行技术开发 ETL 过程,并实施 ETL/数据管道。具有数据技术和大数据工具(如 Spark、Kafka、Hive、Hadoop)的经验。了解数据库结构、理论、原则和实践(包括 SQL 和 NoSQL)。理解 Map Reduce 和其他数据查询、处理和聚合模型。理解在分布式集群环境中转换数据的挑战。具有消费、持有和淘汰连续数据流的技术经验。地点:远程办公和客户现场。