高级数据工程师将负责设计、开发和维护以下内容:
• 在AWS EMR或Glue上使用Spark构建数据管道的丰富经验。
• 使用Apache Airflow进行批处理管道编排。
• 在Kubernetes(AWS EKS)上部署作业。
• 代码存储库管道,自动化持续集成和持续部署(CI / CD)。
• 使用分区和聚集构建结构化表,以提高成本和性能效益。
• 引导数据分析师和数据科学家编写高效的查询和工作负载。
• 使用按需加密/解密的数据共享,可在规模上操作。
• 在规模上运行容器化ETL工作流程。
资格要求
• 计算机科学或IT学士学位
• 至少4年的数据或软件工程经验
• 具备云计算架构、分布式计算、高速数据处理、Lambda架构等计算机科学概念的扎实基础
• 强大的数据建模和管理分布式计算平台的能力进行数据处理。
• 至少3年以上的ANSI SQL和编写资源高效查询的经验。
• 至少2年以上的PySpark专业编程经验。
• 对Kubernetes集群的工作原理和按需扩展有良好的理解。
• 充分的使用容器进行数据工程工作负载的经验。
• 实施手动或自动化工具来保证数据质量、目录和血统。
• 在数据工程团队中保持节俭的意识。
• 具备良好的人际关系和演讲技巧,能够向技术和非技术相关方解释和推广最佳实践。
技能:Pyspark、Airflow、Apache Spark、Kubernetes、Aws、Etl、信息技术、Emr、Apache Hadoop、Python
经验:2.00-5.00年