角色:数据工程师-流式处理
角色类型:永久
地点:英国米尔顿凯恩斯(现场)
职位描述
职责
• 参与需求收集、分析、解决方案设计,构建基于AWS数据服务(如AWS EMR、Snowflake)的大数据工程应用,使用Spark和AWS Glue作为ETL框架。
• 将基于Cloudera的Hadoop、Hive、Impala、Kafka、Sqoop、Spark的数据、作业和安全策略迁移到AWS EMR、S3、Snowflake和其他AWS服务,如AWS Glue、DMS、IAM。
• 参与大型数据项目的低级设计、开发和架构,领导开发和测试团队。
• 工作调度和自动化。
• 数据验证、质量检查、数据分析和数据对账测试。
• 在需要时作为个人贡献者和团队领导。
• 通过提高团队成员的技能和知识,指导团队中的初级成员,并具备推动项目交付的能力。
• 与高级和初级团队成员(如项目经理、Hadoop架构师、其他数据工程师、数据建模师、报表开发人员、测试人员)合作完成任务。
• 在AWS数据服务上设置数据、用户、数据流水线的安全和治理策略。
• 故障排除应用程序错误,并确保它们不再发生。
• 在敏捷和CI/CD方法和工具中应用于敏捷模式的开发和部署。
必备技能:流式数据工程和分析。Kafka、AWS数据服务、AWS、ETL、Spark/Scala、Java、Python、EMR、AWS Glue、AWS Athena
有益技能:Python、Spark、Hive、HDFS、Impala、Sqoop、Informatica
资格 -
• 学士学位,9年以上IT行业经验。
• 5年以上的Hadoop、AWS EMR及其生态系统的大数据工程师经验。
• 有银行领域经验者优先。
• 在AWS EMR、AWS Glue、Athena、S3、DMS、SCT和基于Cloudera CDH的Hadoop上有经验。
• 应在AWS EMR基于Hadoop、HDFS/S3、Spark、Hive、Impala的大数据项目上有丰富的工作经验,领导团队并与架构师和客户进行互动。
• 具备SQL、关系型数据库、复杂查询的工作经验。
• 理解并有数据仓库数据建模概念的经验。
• 了解大批量和流式处理。
• 熟悉质量保证方法,接触过ETL过程的各个方面。
• 熟练掌握Linux/Unix命令行。
• 在部署和相关自动化方面应用敏捷和CI/CD工具和方法的经验。
• 在Hadoop、HDFS、Hive、Spark、文件格式的性能优化技术方面有经验,并向其他应用程序开发人员提供技术指导。