职位描述:
职责
• 从Hadoop生态系统中导出数据到ORC或Parquet文件
• 构建脚本将数据从本地移动到GCP
• 构建Python/PySpark流水线
• 根据规定的数据模型转换数据
• 积极改进流水线的性能和效率
必备经验:
• 4年以上数据工程工作经验(ETL,SSIS,SSRS)
• 2年以上构建Python/PySpark流水线的经验
• 2年以上使用Hadoop/Hive的经验
• 4年以上SQL经验
• 任何云经验 - AWS,Azure,GCP(GCP优先)
• 数据仓库和数据湖经验
• 数据建模理解
• 了解ORC,Parquet,Avro等数据文件格式
额外经验:
• Google经验 - 云存储,云作曲家,Dataproc和BigQuery
• 使用BigQuery(首选),Amazon Redshift,Snowflake等云仓库的经验
• 等等
• 熟悉GCS,S3,HDFS等分布式文件系统
• 了解Airflow / Cloud Composer
• CI/CD和DevOps经验
• ETL工具,如Informatica(IICS),Ab Initio,Infoworks,SSIS