**领导Hadoop管理员**
加利福尼亚湾区(每周3天现场混合办公)
职位描述:
• 负责Hadoop基础设施的实施和持续管理。
• 负责集群维护、故障排除、监控,并遵循适当的备份和恢复策略。
• 提供和管理多个集群(如EMR和EKS)的生命周期。使用Prometheus/Grafana/Splunk进行基础设施监控、日志记录和警报。
• 对Hadoop集群和Hadoop工作负载进行性能调优,并在应用程序/队列级别进行容量规划。在Hadoop/Cloud era环境中负责内存管理、队列分配和分发经验。
• 应能够在生产环境中扩展集群,并具有18/5或24/5生产环境的经验。监控Hadoop集群的连接性和安全性,文件系统(HDFS)的管理和监控。
• 调查和分析降低复杂性、创建更高效和高产的交付过程或创建增加业务价值的更好技术解决方案的新技术可能性、工具和技术。参与问题修复、根本原因分析,并为基础设施/服务组件提供解决方案建议。
• 负责满足服务级别协议(SLA)目标,并协作确保团队目标的实现。
• 确保所有对生产系统的更改按照变更管理流程进行计划和批准。
• 与应用团队合作,根据需要安装操作系统和Hadoop更新、补丁、版本升级。
• 维护所有系统、数据、利用率和可用性指标的中央仪表板。
所需技能:
• 总工作经验8-12年,至少有5年的Hadoop集群开发、维护、优化和故障解决工作经验,支持业务用户。
• 具备Linux/Unix操作系统服务、管理、Shell、awk脚本编写的强大知识。
• 熟悉Python/Scala/Java/R等任一编程语言,并具备调试技能。
• 有Hadoop(Map Reduce、Hive、Pig、Spark、Kafka、HBase、HDFS、H-catalog、Zookeeper和Oozie/Airflow)方面的经验。
• 有Hadoop安全(Kerberos、Knox、TLS)方面的经验。
• 具备SQL和No SQL数据库(HBASE)的实践经验,并能进行性能优化。
• 具备在GIT、Jira平台上进行工具集成、自动化和配置管理的经验。
• 具备出色的口头和书面沟通和演示技巧,分析和解决问题的能力。
ID:yUx7fb 参考号:143642