我们正在寻找一位实干型数据工程师,负责在Hadoop生态系统上利用PySpark设计、构建和优化可扩展的数据管道。您将与数据科学家、分析团队和产品工程合作,提供可靠的数据集和流/批处理管道,以支持业务洞察和机器学习用例。
主要职责
- 使用PySpark/Spark(批处理和流处理)设计和构建数据管道,整合来自不同来源的数据(RDBMS、API、文件、Kafka)。
- 在Hadoop生态系统(HDFS、Hive、Spark)上开发和优化ETL/ELT工作流,确保数据质量、血缘和可靠性。
- 为分析/BI/ML建模数据(星型/雪花模式、分区、分桶),并实现高效的存储格式(Parquet/ORC)。
- 使用Airflow(或类似调度器)编排工作流,具备稳健的依赖管理、重试、警报和SLA监控。
- 使用Kafka(或类似工具)实现流处理管道,包括窗口聚合、精确一次语义(如适用)和模式演变管理。
- 实现数据治理和安全(RBAC、掩码、静态/传输中加密、审计日志、模式注册)。
- 在Spark配置、洗牌策略、广播连接、缓存和资源大小调整方面进行性能调优和成本优化。
- 自动化数据管道的CI/CD(单元/集成测试、数据质量检查、部署自动化、基础设施即代码)。
- 与数据科学家、分析和平台团队跨职能合作,定义SLA、数据合同和消费模式。
- 文档和支持:维护运行手册、元数据、血缘,并为生产事故提供L2/L3支持。
必备资格
- 2-6年数据工程经验(根据需要调整),在PySpark和Hadoop生态系统(HDFS、Hive、Spark)方面有丰富的专业知识。
- 高级Python和SQL技能(分析函数、性能调优)。
- 具有工作流编排(Airflow/Luigi/Prefect)和版本控制(Git)经验。
- 熟悉数据仓库和建模概念;有优化大规模分布式计算的经验。
- 接触过流处理(Kafka、Spark结构化流)和模式管理。
- 至少有一个云平台的经验(AWS EMR/Glue、Azure HDInsight/Synapse/Databricks或GCP Dataproc/BigQuery)。
- 对数据质量(DQ规则、Great Expectations或同等工具)、元数据和血缘有深入理解。
- 熟悉Linux、Shell脚本和容器化(Docker);对CI/CD有基本了解。
- 优秀的沟通、利益相关者管理和问题解决能力。