**工作总结**： • *职位类型** • *资历水平** 中级 • *经验年限** 信息未提供 • *技术栈** ETL AWS Google Cloud pySpark BigQuery RedShift Apache Azure Spark SQL Python • *主要职责**： - 使用 Python、PySpark、Spark 和 SQL 设计、构建和维护高效、可扩展且可靠的数据管道 - 与数据科学家、分析师和其他利益相关者合作，了解数据需求并提供适当的数据解决方案 - 开发和优化 ETL（提取、转换、加载）流程，以确保数据质量和完整性 - 实施批处理和实时数据集成的数据处理工作流 - 监控和排除数据管道故障，确保数据的准确性和可用性 - 执行数据探索和分析以支持业务决策，记录数据流程、架构和工作流 • *要求**：拥有4年以上数据工程师或类似职位的经验。在数据操作和转换方面具有**Python 和 PySpark**的强大能力。具有使用 Apache Spark 进行大规模数据处理的实践经验。具备高级 SQL 技能，用于数据查询、转换和性能调优。熟悉云平台（AWS、Azure、Google Cloud）及其数据服务。具有数据仓库概念和技术（如 Redshift、BigQuery、Snowflake）的经验。了解数据架构和数据治理的最佳实践。

数据工程师（Python，Pyspark，Spark）

NodeFlair