职位描述:
• 具备6-10年与Hadoop大数据工具相关的经验:HDFS、Hive、Hive Meta store、Pig/Oozie等
• 经验在开发数据摄取流水线、数据处理和数据建模过程中
• 经验在工作过程中主动采取行动,识别常见问题和问题,并以最少的指导解决它们
• 从各业务部门收集关于数据湖中关键数据元素的元数据和/或数据质量要求
• 在Informatica、Atlas或Verizon批准的工具中记录元数据信息,并准备供业务用户和合作伙伴审查
• 支持数据质量工作,包括数据剖析、业务规则开发,并帮助确定支持数据质量所必需的标准
• 具备领导多个项目的经验,利用现场资源维护和开发企业版本和较小的维护版本的应用程序
• 与业务团队、第三方供应商和其他内部IT团队密切合作,按时交付项目
• 在实施数据治理工具(如Collibra和Informatica)方面具备四年或更多相关工作经验
• 具备较强的数据分析技能和数据治理、元数据管理和/或数据质量的内容知识
• 熟悉数据治理工具(如Collibra、Atlas、Informatica(Metadata Manager或IDQ)和Oracle EDQ)是一个加分项,但不是必需的
• 具备设计、构建、测试、调优和部署基于Hadoop生态系统的ETL基础设施的实际经验
• 具备编写表、实体、文件、列、属性和字段的业务定义的经验
• 理解业务和技术元数据、数据血缘关系以及为技术和业务用户记录此元数据的方法和模型
• 经验在敏捷方法论和CICD流程中开发应用程序
• 具备使用Jenkins、Jira、GIT和Maven等DevOps自动化和工具链的经验
• 具备使用Pig、Hive、Sqoop、Oozie等进行KPI提取和数据服务层的ETL开发经验
• 具备使用Apache Nifi、Data Highway等大数据流工具的经验
• 具备在多个数据中心管理Hadoop平台的经验
• 具备使用UDFs(Java)和理解作为Pig ETL一部分的分布式缓存机制的经验
• 具备使用Oracle、MySQL和Teradata等多个数据库引擎的经验
• 必须具备Java、Python或Scala等语言的编程经验
• 具备UNIX/Linux系统的强大经验,包括脚本编写
期望技能:
• 数据科学或商业分析的硕士学位
• 使用Jupyter Notebook、SparkML、SparkOnTensorflow实施数据科学/AI/ML用例的经验
• 熟悉可伸缩敏捷框架
• 使用Tableau、Qlik等可视化工具创建仪表板和报告的经验