• 开发并实施数据管道,将数据从各种来源摄取和收集到集中式数据平台中
• 使用AWS Glue服务开发和维护ETL作业,以处理和转换大规模数据
• 优化和排除故障AWS Glue作业,以提高性能和可靠性
• 利用Python和PySpark在摄取过程中高效处理大量数据
• 使用PySpark设计和实施可扩展的数据处理解决方案,将原始数据转换为结构化和可用的格式
• 应用数据清洗、增强和验证技术,确保数据质量和准确性
• 使用Python和PySpark创建和维护ETL流程,以在不同系统之间移动和转换数据
• 优化ETL工作流程的性能和效率
• 与数据架构师合作设计和实施支持业务需求的数据模型
• 确保数据结构针对分析和报告进行了优化
• 使用Apache Spark等分布式计算框架处理和分析大规模数据集
• 管理和优化SQL和NoSQL数据库,以支持数据存储和检索需求
• 实施索引、分区和其他数据库优化技术
• 与数据科学家、分析师和业务利益相关者等跨职能团队合作,了解数据需求并提供有效的解决方案
• 与软件工程师密切合作,将数据解决方案集成到更大的应用程序中
• 实施监控解决方案,跟踪数据管道性能,并主动识别和解决问题
• 确保符合数据隐私法规和公司政策
• 了解数据工程、Python和PySpark的行业趋势和进展
要求
• 熟练掌握Python和PySpark
• 对数据工程概念和最佳实践有深入了解
• 具有AWS Glue和其他AWS服务的实际经验
• 有大数据技术和分布式计算的经验
• 熟悉数据库管理系统(SQL和NoSQL)
• 了解ETL流程和数据建模
• 出色的问题解决和分析能力
• 良好的沟通和协作能力
• 计算机科学、信息技术或相关领域的学士学位