数据工程师(Hadoop 和 Pyspark)_合同职位

新加坡 6天前合同 网络
2.7万 - 4.1万 / 月
我们正在寻找一位实干型数据工程师,负责在Hadoop生态系统上利用PySpark设计、构建和优化可扩展的数据管道。您将与数据科学家、分析团队和产品工程合作,提供可靠的数据集和流/批处理管道,以支持业务洞察和机器学习用例。 主要职责 - 使用PySpark/Spark(批处理和流处理)设计和构建数据管道,整合来自不同来源的数据(RDBMS、API、文件、Kafka)。 - 在Hadoop生态系统(HDFS、Hive、Spark)上开发和优化ETL/ELT工作流,确保数据质量、血缘和可靠性。 - 为分析/BI/ML建模数据(星型/雪花模式、分区、分桶),并实现高效的存储格式(Parquet/ORC)。 - 使用Airflow(或类似调度器)编排工作流,具备稳健的依赖管理、重试、警报和SLA监控。 - 使用Kafka(或类似工具)实现流处理管道,包括窗口聚合、精确一次语义(如适用)和模式演变管理。 - 实现数据治理和安全(RBAC、掩码、静态/传输中加密、审计日志、模式注册)。 - 在Spark配置、洗牌策略、广播连接、缓存和资源大小调整方面进行性能调优和成本优化。 - 自动化数据管道的CI/CD(单元/集成测试、数据质量检查、部署自动化、基础设施即代码)。 - 与数据科学家、分析和平台团队跨职能合作,定义SLA、数据合同和消费模式。 - 文档和支持:维护运行手册、元数据、血缘,并为生产事故提供L2/L3支持。 必备资格 - 2-6年数据工程经验(根据需要调整),在PySpark和Hadoop生态系统(HDFS、Hive、Spark)方面有丰富的专业知识。 - 高级Python和SQL技能(分析函数、性能调优)。 - 具有工作流编排(Airflow/Luigi/Prefect)和版本控制(Git)经验。 - 熟悉数据仓库和建模概念;有优化大规模分布式计算的经验。 - 接触过流处理(Kafka、Spark结构化流)和模式管理。 - 至少有一个云平台的经验(AWS EMR/Glue、Azure HDInsight/Synapse/Databricks或GCP Dataproc/BigQuery)。 - 对数据质量(DQ规则、Great Expectations或同等工具)、元数据和血缘有深入理解。 - 熟悉Linux、Shell脚本和容器化(Docker);对CI/CD有基本了解。 - 优秀的沟通、利益相关者管理和问题解决能力。