领导Hadoop管理
加利福尼亚湾区(现场混合工作,每周3天)
职位描述:
· 负责Hadoop基础设施的实施和持续管理。
· 负责集群维护、故障排除、监控,并遵循适当的备份和恢复策略。
· 提供和管理多个集群(如EMR和EKS)的生命周期。使用PrometheGrafana/Splunk进行基础设施监控、日志记录和警报。
· 对Hadoop集群和Hadoop工作负载进行性能调优,并在应用程序/队列级别进行容量规划。负责内存管理、队列分配,在Hadoop/Cloud era环境中具有分布经验。
· 能够在生产环境中扩展集群,并具有18/5或24/5生产环境的经验。监视Hadoop集群的连接性和安全性,管理和监控文件系统(HDFS)。
· 调查和分析减少复杂性、创建更高效和高产的交付过程、或创建增加业务价值的更好技术解决方案的新技术可能性、工具和技术。参与解决问题、RCA,并为基础设施/服务组件提出解决方案建议。
· 负责满足服务级别协议(SLA)目标,并协作确保团队目标的实现。
· 确保所有对生产系统的更改按照变更管理流程计划和批准。
· 与应用团队合作,根据需要安装操作系统和Hadoop更新、补丁、版本升级。
· 维护所有系统、数据、利用率和可用性指标的中央仪表板。
所需技能:
· 总工作经验8-12年,至少有5年的Hadoop集群开发、维护、优化和问题解决支持业务用户的工作经验。
· 熟悉Linux/Unix操作系统服务、管理、Shell、awk脚本编写。
· 精通任何一种编程语言Python/Scala/Java/R,并具有调试技巧。
· 有Hadoop经验(Map Reduce、Hive、Pig、Spark、Kafka、HBase、HDFS、H-catalog、Zookeeper和Oozie/Airflow)。
· 有Hadoop安全(Kerberos、Knox、TLS)经验。
· 有SQL和NoSQL数据库(HBASE)的实际经验,并进行性能优化。
· 有工具集成、自动化、配置管理在GIT、Jira平台的经验。
· 出色的口头和书面沟通和演示技巧,分析和解决问题的能力。