我们正在寻找一位实干型数据工程师，负责在Hadoop生态系统上利用PySpark设计、构建和优化可扩展的数据管道。您将与数据科学家、分析团队和产品工程合作，提供可靠的数据集和流/批处理管道，以支持业务洞察和机器学习用例。主要职责 - 使用PySpark/Spark（批处理和流处理）设计和构建数据管道，整合来自不同来源的数据（RDBMS、API、文件、Kafka）。 - 在Hadoop生态系统（HDFS、Hive、Spark）上开发和优化ETL/ELT工作流，确保数据质量、血缘和可靠性。 - 为分析/BI/ML建模数据（星型/雪花模式、分区、分桶），并实现高效的存储格式（Parquet/ORC）。 - 使用Airflow（或类似调度器）编排工作流，具备稳健的依赖管理、重试、警报和SLA监控。 - 使用Kafka（或类似工具）实现流处理管道，包括窗口聚合、精确一次语义（如适用）和模式演变管理。 - 实现数据治理和安全（RBAC、掩码、静态/传输中加密、审计日志、模式注册）。 - 在Spark配置、洗牌策略、广播连接、缓存和资源大小调整方面进行性能调优和成本优化。 - 自动化数据管道的CI/CD（单元/集成测试、数据质量检查、部署自动化、基础设施即代码）。 - 与数据科学家、分析和平台团队跨职能合作，定义SLA、数据合同和消费模式。 - 文档和支持：维护运行手册、元数据、血缘，并为生产事故提供L2/L3支持。必备资格 - 2-6年数据工程经验（根据需要调整），在PySpark和Hadoop生态系统（HDFS、Hive、Spark）方面有丰富的专业知识。 - 高级Python和SQL技能（分析函数、性能调优）。 - 具有工作流编排（Airflow/Luigi/Prefect）和版本控制（Git）经验。 - 熟悉数据仓库和建模概念；有优化大规模分布式计算的经验。 - 接触过流处理（Kafka、Spark结构化流）和模式管理。 - 至少有一个云平台的经验（AWS EMR/Glue、Azure HDInsight/Synapse/Databricks或GCP Dataproc/BigQuery）。 - 对数据质量（DQ规则、Great Expectations或同等工具）、元数据和血缘有深入理解。 - 熟悉Linux、Shell脚本和容器化（Docker）；对CI/CD有基本了解。 - 优秀的沟通、利益相关者管理和问题解决能力。

数据工程师（Hadoop 和 Pyspark）_合同职位

NTT SINGAPORE PTE. LTD.