公司简介:
CEF Solutions Inc. 是一家专注于提供咨询服务和业务流程外包(BPO)的公司,专门为客户服务客户提供BPO运营、运营管理、流程工程/创新和成本优化解决方案。我们为世界上一些最大的跨国公司提供服务,并通过提供无与伦比的端到端客户体验快速扩张。
我们正在寻找一名技术娴熟的数据工程师来支持我们的客户。理想的候选人应具备出色的分析和沟通能力。该职位是作为CEF的员工招聘的,但将直接与客户专家合作。工作预计在办公环境中进行。
公司网站:www.cem-lab.com
职位概述:
数据工程师是组织内数据分析团队的重要组成部分。他们在ETL设计、编码和测试以及工程软件平台和大规模数据基础设施方面拥有丰富的经验。大数据工程师应能够使用不同的开源工具构建高度可扩展的端到端流水线,包括构建和运行高性能算法。
数据工程师了解如何应用技术来解决云端和本地系统上的大数据问题,并具备Python、Linux shell脚本、SQL等编程语言以及Hive、Impala、Presto和Spark等技术的专业知识。
数据工程师通过在客户面向平台上收集、解析、管理、分析和可视化大量数据,将信息转化为可操作的交付成果,实施复杂的大数据项目。他们具备决定所需硬件和软件设计的强大能力,并可以通过概念验证和完整实现来指导这些设计的开发。
其他资格应包括:
• 与数据分析师和利益相关者互动,了解项目范围和需求
• 调整大数据解决方案以提高性能和终端用户体验
• 熟练设计高效且稳健的数据工作流程
• 记录需求并解决冲突或模糊之处
• 有团队合作和与他人合作澄清需求的经验
• 出色的口头和书面沟通能力
• 具备ETL流程架构的经验
职责:
• 通过与分析师和利益相关者的互动,了解和记录范围和需求
• 将复杂的功能和技术需求转化为详细设计
• 为现在和未来的成功设计
• 使用大数据技术设计和开发可扩展的行业标准ETL流水线
• 利用各种大数据技术(EMR、Hive、Spark、Presto等)从不同的数据集中加载数据
• 代码和查询优化
• 设计和实施数据建模
• 使用Spark等内存技术进行高速查询
• 遵循和贡献源代码控制、发布管理、部署等最佳工程实践
• 生产支持、作业调度/监控、ETL数据质量、数据新鲜度报告
• 其他分配的职责
所需资格:
• 计算机工程学士或硕士学位
• 4年大数据解决方案经验,如Pyspark、Python和Hive,并具备AWS经验
• 4年以上编写复杂SQL查询的经验(优先考虑Hive QL/Spark SQL)
• 3年以上Python开发经验
• 3年以上在Hadoop和大数据项目方面的技术能力
• 3年以上开发ETL流水线的实际经验
• 熟练编写shell脚本[bash]
• 与AWS组件[EMR、S3]一起工作的经验
• 在Apache Airflow方面有工作经验
• 编写高性能、可靠且易于维护的代码
• 知识和能力在Oozie中实现工作流程/调度器
• 数据建模概念的知识
• 应用于大数据领域的分析和解决问题的能力
• 具备Hadoop、Hive、Pig、Presto和Spark的深入理解和实际经验
• 具备多线程和并发概念的能力
其他资格:
• 在美国合法工作,无限制
• 没有国内或国际旅行的限制
• 背景调查和药物测试
工作时间/地点
• 周一至周五:上午9:00 - 下午6:00(东部标准时间),根据业务需求可能会有变动
• 地点:在德克萨斯州普莱诺或新泽西州里奇菲尔德公园现场工作