负责Hadoop基础设施的实施和持续管理。负责集群维护、故障排除、监控,并遵循适当的备份和恢复策略。供应和管理多个集群的生命周期,如EMR和EKS。使用Prometheus/Grafana/Splunk进行基础设施监控、日志记录和警报。Spark编码(中级),SQL性能调优,在Hadoop/Cloudera环境中分配/分发Hadoop队列,性能调优Hadoop集群和Hadoop工作负载,并在应用程序/队列级别进行容量规划。负责内存管理、队列分配、在Hadoop/Cloud era环境中的分配经验。应能够在生产环境中扩展集群,并具有18/5或24/5生产环境的经验。监视Hadoop集群的连接和安全性,文件系统(HDFS)的管理和监控。调查和分析减少复杂性、创建更高效和生产力交付流程或创建增加业务价值的更好技术解决方案的新技术可能性、工具和技术。参与解决问题、RCA,并为基础设施/服务组件提供解决方案建议。负责满足服务级别协议(SLA)目标,并协同确保团队目标的实现。确保所有对生产系统的更改按照变更管理流程计划和批准。与应用团队合作,根据需要安装操作系统和Hadoop更新、补丁、版本升级。维护所有系统、数据、利用率和可用性指标的中央仪表板。