主要职责:
• 使用Hadoop生态系统工具和技术设计、开发和维护可扩展的大数据解决方案。
• 实施数据摄取、存储、处理和分析流程。
• 开发和优化基于Hadoop的ETL流程,以支持数据转换和增强。
• 与跨职能团队合作,了解数据需求并将其转化为技术解决方案。
• 监控Hadoop集群环境中的性能并解决问题。
• 确保数据安全性并符合监管要求。
• 了解新兴的大数据技术和最佳实践。
所需经验和技能:
• 深入了解Hadoop生态系统组件,如HDFS、MapReduce、YARN、Hive、Pig、HBase、Spark、Kafka等。
• 熟练掌握在大数据项目中常用的编程语言,如Java、Scala、Python或SQL。
• 有分布式计算框架和并行处理技术的经验。
• 熟悉数据仓库概念和技术。
• 理解数据建模、模式设计和数据治理原则。
• 有Linux/Unix系统和Shell脚本编写经验。
• 出色的问题解决和分析能力。
• 良好的沟通和协作能力,能够在团队环境中有效工作。
教育和认证:
• 计算机科学、工程或相关领域的学士或硕士学位。
• 大数据技术认证(如Cloudera、Hortonworks、MapR)是一个加分项。
可选技能:
• 有云基础的大数据平台经验(如AWS EMR、Azure HDInsight、Google Dataproc)。
• 了解容器化和编排技术(如Docker、Kubernetes)。
• 熟悉机器学习和数据科学概念。
• 有NoSQL数据库的经验(如MongoDB、Cassandra)。
• 理解DevOps原则和实践。