高级网站可靠性工程师 - Hadoop(W7692)

16个月前全职
Xiaomi Technology

Xiaomi Technology

location 新加坡
unsaved
职位描述: - 部署、运营、维护、保护和管理能够提高Hadoop平台服务的运营效率、可用性、性能和可见性的解决方案。 - 收集信息,并为应用程序和Hadoop生态系统中的故障、错误、配置警告和瓶颈提供性能和根本原因分析和修复计划。 - 提供构建良好、解释性技术文档,用于我们开发的架构,并根据基础设施和Hadoop生态系统的业务需求,计划服务集成、部署自动化和配置管理。 - 了解分布式Java容器应用程序及其调优、监控和管理,如日志配置、垃圾回收和堆大小调优、JMX指标收集和基于参数的Java调优。 - 观察并提供关于客户基础设施的当前状态的反馈,并确定改进弹性、减少事故发生率和自动化重复的管理和运营任务的机会。 - 在部署自动化工件的开发中做出重大贡献,如镜像、配方、playbook、模板、配置脚本和其他开源工具。 - 理解生态系统部署选项以及如何通过API调用自动化它们是非常重要的优势。 职位要求: - 计算机科学、工程或相关领域的学士学位,或同等实际经验。 - 对复杂的基于Hadoop的生态系统的端到端操作有深入了解,并能处理/配置核心技术,如HDFS、MapReduce、YARN、HBase、ZooKeeper和Kafka。 - 了解这些核心组件之间的依赖关系和交互作用,备选配置(例如Kafka vs Spark,在YARN中进行调度),可用性特征和服务恢复方案。 - 具备对Hadoop工具集的深入了解,了解如何在Hadoop集群内部和之间管理和复制数据,与其他生态系统集成(例如云存储),配置复制并计划备份和数据弹性策略。 - 熟悉云架构、服务集成以及常见云平台(如AWS、Azure、Google)的运营可见性。 - 具备Grafana、Ganglia、Kibana等作业自动化和监控方面的实际知识。 - 能够快速掌握新技术和生态系统组件,并确定它们与现有系统的相关性、架构和集成。 - 具备一种或多种编程语言的实际经验,如Shell、Python、Golang等。 - 具备灵活性,能够在非工作时间工作,包括周末和/或假日。