角色目标:
大数据工程师是战略分析组织的支柱,确保团队的数据产品对整个组织的可靠性和适用性。
他们在ETL设计、编码和测试模式以及工程软件平台和大规模数据基础设施方面拥有丰富的经验。
大数据工程师能够使用不同的开源工具构建高度可扩展的端到端流水线,包括构建和操作高性能算法。
与大数据平台和实时/流式数据交付同时工作的丰富经验是必不可少的。
背景、经验和资格:
5-8年的Python或Java/J2EE开发经验,3年的Hadoop和大数据项目的技术熟练程度,5-8年的数据建模经验,精通编写shell脚本bash、korn,编写高性能、可靠和可维护的代码的能力。
能够编写MapReduce作业,能够设置、维护和实现Kafka主题和进程,了解和实施Flume进程,熟悉数据库结构、理论、原则和实践。
了解如何在使用本地KDC和OpenLDAP进行安全的环境中开发代码。
熟悉使用Sqoop加载数据的知识和能力。
了解并能够在Oozie中实施工作流/调度器的知识和能力,有使用AWS组件EC2、S3、SNS、SQS的经验,具备大数据领域的分析和问题解决能力,具备对Hadoop、Hive、Pig、Impala和Spark的深入理解和实际经验,具备多线程和并发概念的良好能力。
额外资格:
调整Hadoop解决方案以提高性能和终端用户体验,精通设计高效和健壮的数据工作流程,记录需求并解决冲突或不明确的问题,具备团队合作和协作的经验,具备处理复杂项目的协调和项目管理技巧,优秀的口头和书面沟通能力。
主要职责:
将复杂的功能和技术要求转化为详细设计,为现在和未来的成功进行Hadoop技术开发和实施,通过利用各种大数据技术(如Kafka)从不同的数据集中加载,使用Hive、Impala、Spark和Pig进行预处理,设计和实现数据建模,在使用Kerberos和LDAP进行安全环境中维护安全和数据隐私,使用Spark等内存技术进行高速查询,遵循和贡献源代码控制、发布管理、部署等最佳工程实践,生产支持、作业调度/监控、ETL数据质量、数据新鲜度报告。这份工作描述旨在涵盖该角色的主要责任和职责,但不是一个全面的列表。
预计薪资:根据资格,每小时20至28美元。