职位描述
关键词:Python 和 Spark (PySpark),Databricks (作业、工作流、Delta Lake、Unity Catalog、SQL)
角色概述:
我们正在寻找一位高技能的数据工程师,负责设计、构建和优化可扩展的数据管道,使用 Python 和 Spark (PySpark)。理想的候选人应具备 Databricks 的实际操作经验,包括作业、工作流、Delta Lake 和 Unity Catalog。
主要职责:
• 设计和开发可扩展的数据管道,集成结构化和非结构化数据源,包括替代数据。
• 在 Databricks 上部署、管理和性能调优大规模的 Spark 工作负载,以确保可靠性、可扩展性和成本效率。
• 与数据科学家、量化团队和业务利益相关者合作,促进数据驱动的决策。
• 通过 CI/CD 管道、基础设施即代码和可重用数据框架贡献于自动化工作。
能力要求:Python Web 框架、Databricks、PySpark、Control-M 工作负载调度和自动化管理
关键要求:
• 8-10 年设计和开发大规模数据系统的经验。
• 在 Python 和 Spark (PySpark) 方面有丰富的经验。
• 拥有 Databricks (作业、工作流、Delta Lake、Unity Catalog) 的实际操作经验。
• 精通 SQL,用于复杂的数据转换和优化。
期望技能:
• 了解机器学习工作流和工具,如 MLflow。
• 有使用替代数据源(例如,网络数据、地理空间、卫星、社交情绪)的经验。
• 熟悉 Snowflake、Airflow 或类似的编排和仓储平台。
• 理解 CI/CD 原则、版本控制和生产部署最佳实践。
关于 Astra-North-Infoteck-Inc:
Astra-North-Infoteck-Inc 是数据工程服务的领先提供商。我们的专家团队与客户紧密合作,设计和实施可扩展的数据管道,推动业务增长和创新。