高级数据工程师

16个月前合同
CY9

CY9

location 洛杉矶
unsaved
职位描述: 职责 • 从Hadoop生态系统中导出数据到ORC或Parquet文件 • 构建脚本将数据从本地移动到GCP • 构建Python/PySpark流水线 • 根据规定的数据模型转换数据 • 积极改进流水线的性能和效率 必备经验: • 4年以上数据工程工作经验(ETL,SSIS,SSRS) • 2年以上构建Python/PySpark流水线的经验 • 2年以上使用Hadoop/Hive的经验 • 4年以上SQL经验 • 任何云经验 - AWS,Azure,GCP(GCP优先) • 数据仓库和数据湖经验 • 数据建模理解 • 了解ORC,Parquet,Avro等数据文件格式 额外经验: • Google经验 - 云存储,云作曲家,Dataproc和BigQuery • 使用BigQuery(首选),Amazon Redshift,Snowflake等云仓库的经验 • 等等 • 熟悉GCS,S3,HDFS等分布式文件系统 • 了解Airflow / Cloud Composer • CI/CD和DevOps经验 • ETL工具,如Informatica(IICS),Ab Initio,Infoworks,SSIS