Python Pyspark 数据工程师(AI,Control M)

3个月前全职
面议 Astra North Infoteck Inc.

Astra North Infoteck Inc.

location 多伦多
unsaved
职位描述 关键词:Python 和 Spark (PySpark),Databricks (作业、工作流、Delta Lake、Unity Catalog、SQL) 角色概述: 我们正在寻找一位高技能的数据工程师,负责设计、构建和优化可扩展的数据管道,使用 Python 和 Spark (PySpark)。理想的候选人应具备 Databricks 的实际操作经验,包括作业、工作流、Delta Lake 和 Unity Catalog。 主要职责: • 设计和开发可扩展的数据管道,集成结构化和非结构化数据源,包括替代数据。 • 在 Databricks 上部署、管理和性能调优大规模的 Spark 工作负载,以确保可靠性、可扩展性和成本效率。 • 与数据科学家、量化团队和业务利益相关者合作,促进数据驱动的决策。 • 通过 CI/CD 管道、基础设施即代码和可重用数据框架贡献于自动化工作。 能力要求:Python Web 框架、Databricks、PySpark、Control-M 工作负载调度和自动化管理 关键要求: • 8-10 年设计和开发大规模数据系统的经验。 • 在 Python 和 Spark (PySpark) 方面有丰富的经验。 • 拥有 Databricks (作业、工作流、Delta Lake、Unity Catalog) 的实际操作经验。 • 精通 SQL,用于复杂的数据转换和优化。 期望技能: • 了解机器学习工作流和工具,如 MLflow。 • 有使用替代数据源(例如,网络数据、地理空间、卫星、社交情绪)的经验。 • 熟悉 Snowflake、Airflow 或类似的编排和仓储平台。 • 理解 CI/CD 原则、版本控制和生产部署最佳实践。 关于 Astra-North-Infoteck-Inc: Astra-North-Infoteck-Inc 是数据工程服务的领先提供商。我们的专家团队与客户紧密合作,设计和实施可扩展的数据管道,推动业务增长和创新。