仅在办公室工作
-----------
面试流程-3轮技术面试。
至少4年以上的AWS Glue和SQL Pyspark经验。
主要职责:
具有7年ETL、数据建模和数据架构工作经验,精通ETL优化,使用Pyspark设计、编码和调优大数据处理过程的能力。在AWS上构建数据平台的丰富经验,使用核心AWS服务Step function、EMR、Lambda、Glue、Athena、Redshift、Postgres、RDS等设计/开发数据工程解决方案。使用Airflow进行编排。
技术经验:
具有开发数据平台及其组件数据湖、云数据仓库、API、批处理和流处理数据管道的实际经验。具备构建数据管道和应用程序以流式传输和处理大型数据集的能力,延迟低。
➢使用AWS原生服务进行大数据ETL开发,包括增强功能、新开发、缺陷修复和生产支持。➢通过设计和实现数据摄取解决方案来创建数据管道架构。
➢使用AWS服务(如Glue、Lambda函数/Airflow)集成数据集。➢使用AWS数据存储(如Redshift、RDS、S3、Athena)设计和优化AWS Cloud上的数据模型。➢使用Python、Pyspark编写ETL流程。
➢使用S3中的数据构建Redshift Spectrum直接转换和数据建模。
➢使用CloudWatch事件监控ETL流程。➢您将与其他团队合作。良好的沟通能力是必须的。
➢必须具备使用AWS服务API、AWS CLI和SDK的经验。专业特质:
➢在操作非常大的数据仓库或数据湖方面具有丰富的经验。精通编写和优化SQL的高级技能。具有在企业解决方案中设计技术组件和定义解决方案架构和参考架构的实际经验,重点关注云技术。
➢在AWS环境中具有7年以上的大数据ETL经验,使用Python、S3、Lambda、Dynamo DB、Athena、Glue。非常希望具备S3、RDS、Redshift、Kinesis、EC2集群方面的专业知识。资格要求:➢计算机科学、计算机工程或类似专业学位。