职位名称:数据工程师 – Databricks
工作地点:现场 – 加拿大多伦多
雇佣类型:合同
关于该职位
我们正在寻找一位具有丰富经验的数据工程师,具备 Databricks、Apache Spark 和现代云数据平台的强大背景。理想的候选人拥有超过 5 年的经验,设计、开发和维护企业环境中的可扩展数据管道和湖仓架构。您将与解决方案架构师、分析师和跨职能团队密切合作,构建支持分析和机器学习工作负载的强大高性能数据解决方案。
主要职责
• 使用 Databricks 和 Apache Spark 设计和实施 ETL/ELT 管道,以处理批量和流数据。
• 开发和维护 Delta Lake 架构,以统一结构化和非结构化数据。
• 为结构化、半结构化和流式工作负载实施 Medallion 架构(铜/银/金)。
• 与数据架构师、分析师和数据科学家合作,定义和交付可扩展的数据解决方案。
• 使用 Unity Catalog、IAM 和加密标准实施数据治理、访问控制和数据血缘。
• 将 Databricks 与 AWS、Azure 或 GCP 上的云服务集成(例如 S3、ADLS、BigQuery、Glue、Data Factory 或 Dataflow)。
• 使用 Airflow、dbt 或本地云调度程序等编排工具自动化工作流。
• 调优 Databricks 作业和集群,以提高性能、可扩展性和成本优化。
• 在数据工程工作流中应用 DevOps 原则进行 CI/CD 自动化。
所需资格
• 5 年以上数据工程或数据平台开发的专业经验。
• 具备 Databricks、Apache Spark 和 Delta Lake 的实践经验。
• 至少熟悉一个主要云平台 — AWS、Azure 或 GCP。
• 精通 Python 或 Scala 用于数据处理和自动化。
• 具备高级 SQL 知识、查询性能调优和数据建模能力。
• 具备数据管道编排工具(Airflow、dbt、Step Functions 或同等工具)的经验。
• 理解数据治理、安全性和合规性最佳实践。
• 出色的沟通能力,能够在多伦多现场工作。
优先技能
• 具备 Databricks、AWS/Azure/GCP 数据工程或 Apache Spark 的认证。
• 具备 Unity Catalog、MLflow 或数据质量框架(例如 Great Expectations)的经验。
• 熟悉 Terraform、Docker 或基于 Git 的 CI/CD 管道。
• 在金融、法律科技或企业数据分析环境中有过工作经验。
• 具备强大的分析和解决问题的思维方式,注重细节。