• 根据资源(内存和CPU)和存储(磁盘)使用情况扩展现有的Hadoop集群。
• 通过故障排除Spark作业来提高性能并满足SLA要求。
• 调整Apache Spark配置以提高生产环境中的整体Spark执行效果。
• 优化SQL数据库以处理大量Hive查询请求。
• 分析HDFS、Hive、Yarn和HBase的Java堆(内存)使用情况,并根据使用情况调整大小。
• 查询Yarn API以分析队列使用情况,并根据使用情况确定需要调整大小的队列。
• 编写Linux脚本以自动备份和监控Hadoop的使用情况。
• 使用Grafana监控和警报Hadoop组件,如Namenode、Yarn、HiveServer2、Hive元数据存储、HBase主节点、HBase区域服务器、Nodemanagers等。
• 根据合规要求对Linux服务器进行季度补丁。
• 根据错误修复和主要产品发布进行小型和大型升级。
• 安装和配置数据治理工具Apache Ranger和Atlas。
• 解决终端用户报告的Yarn作业性能问题。
• 为Namenode、资源管理器、HBase和Hive实现高可用性。