数据工程师 - 流式处理

15个月前全职
SkillRecruit

SkillRecruit

location 伦敦
unsaved
角色:数据工程师-流式处理 角色类型:永久 地点:英国米尔顿凯恩斯(现场) 职位描述 职责 • 参与需求收集、分析、解决方案设计,构建基于AWS数据服务(如AWS EMR、Snowflake)的大数据工程应用,使用Spark和AWS Glue作为ETL框架。 • 将基于Cloudera的Hadoop、Hive、Impala、Kafka、Sqoop、Spark的数据、作业和安全策略迁移到AWS EMR、S3、Snowflake和其他AWS服务,如AWS Glue、DMS、IAM。 • 参与大型数据项目的低级设计、开发和架构,领导开发和测试团队。 • 工作调度和自动化。 • 数据验证、质量检查、数据分析和数据对账测试。 • 在需要时作为个人贡献者和团队领导。 • 通过提高团队成员的技能和知识,指导团队中的初级成员,并具备推动项目交付的能力。 • 与高级和初级团队成员(如项目经理、Hadoop架构师、其他数据工程师、数据建模师、报表开发人员、测试人员)合作完成任务。 • 在AWS数据服务上设置数据、用户、数据流水线的安全和治理策略。 • 故障排除应用程序错误,并确保它们不再发生。 • 在敏捷和CI/CD方法和工具中应用于敏捷模式的开发和部署。 必备技能:流式数据工程和分析。Kafka、AWS数据服务、AWS、ETL、Spark/Scala、Java、Python、EMR、AWS Glue、AWS Athena 有益技能:Python、Spark、Hive、HDFS、Impala、Sqoop、Informatica 资格 - • 学士学位,9年以上IT行业经验。 • 5年以上的Hadoop、AWS EMR及其生态系统的大数据工程师经验。 • 有银行领域经验者优先。 • 在AWS EMR、AWS Glue、Athena、S3、DMS、SCT和基于Cloudera CDH的Hadoop上有经验。 • 应在AWS EMR基于Hadoop、HDFS/S3、Spark、Hive、Impala的大数据项目上有丰富的工作经验,领导团队并与架构师和客户进行互动。 • 具备SQL、关系型数据库、复杂查询的工作经验。 • 理解并有数据仓库数据建模概念的经验。 • 了解大批量和流式处理。 • 熟悉质量保证方法,接触过ETL过程的各个方面。 • 熟练掌握Linux/Unix命令行。 • 在部署和相关自动化方面应用敏捷和CI/CD工具和方法的经验。 • 在Hadoop、HDFS、Hive、Spark、文件格式的性能优化技术方面有经验,并向其他应用程序开发人员提供技术指导。