**工作总结**:
• *职位类型**
• *资历水平**
中级
• *经验年限**
信息未提供
• *技术栈**
ETL AWS Google Cloud pySpark BigQuery RedShift Apache Azure Spark SQL Python
• *主要职责**:
- 使用 Python、PySpark、Spark 和 SQL 设计、构建和维护高效、可扩展且可靠的数据管道
- 与数据科学家、分析师和其他利益相关者合作,了解数据需求并提供适当的数据解决方案
- 开发和优化 ETL(提取、转换、加载)流程,以确保数据质量和完整性
- 实施批处理和实时数据集成的数据处理工作流
- 监控和排除数据管道故障,确保数据的准确性和可用性
- 执行数据探索和分析以支持业务决策,记录数据流程、架构和工作流
• *要求**:
拥有4年以上数据工程师或类似职位的经验。
在数据操作和转换方面具有**Python 和 PySpark**的强大能力。
具有使用 Apache Spark 进行大规模数据处理的实践经验。
具备高级 SQL 技能,用于数据查询、转换和性能调优。
熟悉云平台(AWS、Azure、Google Cloud)及其数据服务。
具有数据仓库概念和技术(如 Redshift、BigQuery、Snowflake)的经验。
了解数据架构和数据治理的最佳实践。