Databricks 数据工程师

多伦多 21小时前合同 网络
面议
职位名称:数据工程师 – Databricks 工作地点:现场 – 加拿大多伦多 雇佣类型:合同 关于该职位 我们正在寻找一位具有丰富经验的数据工程师,具备 Databricks、Apache Spark 和现代云数据平台的强大背景。理想的候选人拥有超过 5 年的经验,设计、开发和维护企业环境中的可扩展数据管道和湖仓架构。您将与解决方案架构师、分析师和跨职能团队密切合作,构建支持分析和机器学习工作负载的强大高性能数据解决方案。 主要职责 • 使用 Databricks 和 Apache Spark 设计和实施 ETL/ELT 管道,以处理批量和流数据。 • 开发和维护 Delta Lake 架构,以统一结构化和非结构化数据。 • 为结构化、半结构化和流式工作负载实施 Medallion 架构(铜/银/金)。 • 与数据架构师、分析师和数据科学家合作,定义和交付可扩展的数据解决方案。 • 使用 Unity Catalog、IAM 和加密标准实施数据治理、访问控制和数据血缘。 • 将 Databricks 与 AWS、Azure 或 GCP 上的云服务集成(例如 S3、ADLS、BigQuery、Glue、Data Factory 或 Dataflow)。 • 使用 Airflow、dbt 或本地云调度程序等编排工具自动化工作流。 • 调优 Databricks 作业和集群,以提高性能、可扩展性和成本优化。 • 在数据工程工作流中应用 DevOps 原则进行 CI/CD 自动化。 所需资格 • 5 年以上数据工程或数据平台开发的专业经验。 • 具备 Databricks、Apache Spark 和 Delta Lake 的实践经验。 • 至少熟悉一个主要云平台 — AWS、Azure 或 GCP。 • 精通 Python 或 Scala 用于数据处理和自动化。 • 具备高级 SQL 知识、查询性能调优和数据建模能力。 • 具备数据管道编排工具(Airflow、dbt、Step Functions 或同等工具)的经验。 • 理解数据治理、安全性和合规性最佳实践。 • 出色的沟通能力,能够在多伦多现场工作。 优先技能 • 具备 Databricks、AWS/Azure/GCP 数据工程或 Apache Spark 的认证。 • 具备 Unity Catalog、MLflow 或数据质量框架(例如 Great Expectations)的经验。 • 熟悉 Terraform、Docker 或基于 Git 的 CI/CD 管道。 • 在金融、法律科技或企业数据分析环境中有过工作经验。 • 具备强大的分析和解决问题的思维方式,注重细节。