Pyspark 数据工程师

无个税2天前全职 网络
面议 Confidential

Confidential

迪拜
• 数据管道开发:设计、开发和维护高可扩展性和优化的 ETL 管道,使用 PySpark 在 Cloudera 数据平台上,确保数据的完整性和准确性。 • 数据摄取:实施和管理从多种来源(例如,关系数据库、API、文件系统)到 CDP 的数据湖或数据仓库的数据摄取过程。 • 数据转换和处理:使用 PySpark 处理、清理并将大数据集转换为支持分析需求和业务要求的有意义格式。 • 性能优化:进行 PySpark 代码和 Cloudera 组件的性能调优,优化资源利用率并减少 ETL 过程的运行时间。 • 数据质量和验证:实施数据质量检查、监控和验证程序,以确保整个管道的数据准确性和可靠性。 • 自动化和编排:使用 Apache Oozie、Airflow 或 Cloudera 生态系统中的类似编排工具自动化数据工作流。 • 监控和维护:监控管道性能,排除问题,并对 Cloudera 数据平台及相关数据过程进行例行维护。 • 合作:与其他数据工程师、分析师、产品经理和其他利益相关者紧密合作,以理解数据需求并支持各种数据驱动的倡议。文档:维护数据工程过程、代码和管道配置的详细文档。 技术技能 • PySpark:精通 PySpark,包括使用 RDD、DataFrame 和优化技术。 • Cloudera 数据平台:具有 Cloudera 数据平台(CDP)组件的丰富经验,包括 Cloudera 管理器、Hive、Impala、HDFS 和 HBase。 • 数据仓库:了解数据仓库概念、ETL 最佳实践,并具有 SQL 工具(例如 Hive、Impala)的经验。 • 大数据技术:熟悉 Hadoop、Kafka 和其他分布式计算工具。 • 编排和调度:具备 Apache Oozie、Airflow 或类似编排框架的经验。 • 脚本编写和自动化:具备强大的 Linux 脚本编写能力。