数据工程师 – ETL & 流处理 (Kafka, Airflow, Spark)
地点:阿联酋
经验:4-7年
部门:数据工程
关于该职位
我们正在寻找一位数据工程师,使用Apache Kafka、Airflow和Spark开发稳健且可扩展的数据管道,以进行批处理和实时处理。该职位专注于实现业务逻辑、转换以及将数据传递到数据湖和数据仓库中。
主要职责
• 构建ETL和ELT管道,集成多个源系统(RDBMS、API、事件)。
• 在Spark(PySpark或Scala)中开发数据摄取和转换作业。
• 设计和部署Airflow DAG以编排端到端的数据工作流。
• 使用Kafka(流、连接器、主题)实现实时数据摄取和处理。
• 确保数据集之间的数据质量、一致性和沿袭。
• 与数据建模师和BI团队合作,提供策划的数据集。
• 排除管道故障,优化作业以提高性能和成本效率。
• 与平台团队密切合作,将管道集成到企业数据平台中。
• 遵循DevOps和CI/CD最佳实践进行部署和监控。
技能与资格
• 精通Python(优先)或Scala/Java编程技能。
• 拥有Kafka(生产者、消费者、流处理、模式管理)实践经验。
• 熟练掌握Airflow DAG开发、调度和任务依赖关系处理。
• 拥有Spark(批处理、流处理、数据帧和优化)丰富经验。
• 具备SQL工作知识和数据建模(星型/雪花模型)经验。
• 具有数据湖和数据仓库环境经验(Azure Synapse、Databricks、Snowflake、Redshift等)。
• 理解数据版本控制、分区和增量加载策略。
• 熟悉基于Git的开发、CI/CD和可观测性实践。
职位类型:合同
合同期限:12个月
薪资:每月AED15,000.00 - AED30,000.00