Spark 数据入职工程师

纽约 1个月前全职 网络
30.4万 - 106.8万 / 年
职位名称:PySpark 数据工程师 概述: 我们正在寻找一位熟练的 PySpark 数据工程师加入我们的团队,推动我们数据平台内强大的数据处理和转换解决方案的开发。您将负责设计、实施和维护基于 PySpark 的应用程序,以处理复杂的数据处理任务,确保数据质量,并与多种数据源集成。理想的候选人拥有扎实的 PySpark 开发技能,具备大数据技术经验,并能够在快节奏、数据驱动的环境中工作。 主要职责:数据工程开发: • 设计、开发和测试基于 PySpark 的应用程序,以处理、转换和分析来自各种来源的大规模数据集,包括关系数据库、NoSQL 数据库、批处理文件和实时数据流。 • 使用 PySpark 和相关的大数据框架实施高效的数据转换和聚合。 • 开发强大的错误处理和异常管理机制,以确保 Spark 作业中的数据完整性和系统弹性。 • 优化 PySpark 作业的性能,包括分区、缓存和 Spark 配置的调优。 数据分析与转换: • 与数据分析师、数据科学家和数据架构师合作,了解数据处理需求并提供高质量的数据解决方案。 • 分析和解释数据结构、格式和关系,以使用 PySpark 实施有效的数据转换。 • 在 Spark 中处理分布式数据集,确保大规模数据处理和分析的最佳性能。 数据集成与 ETL: • 设计和实施 ETL(提取、转换、加载)流程,以从各种来源获取和集成数据,确保一致性、准确性和性能。 • 将 PySpark 应用程序与数据源集成,如 SQL 数据库、NoSQL 数据库、数据湖和流处理平台。 资格与技能: • 计算机科学、信息技术或相关领域的学士学位。 • 5 年以上大数据开发的实际经验,最好有数据密集型应用的接触。 • 深刻理解大数据环境中的数据处理原则、技术和最佳实践。 • 精通 PySpark、Apache Spark 和相关的大数据技术,用于数据处理、分析和集成。 • 具有 ETL 开发和数据管道编排工具(如 Apache Airflow、Luigi)的经验。 • 较强的分析和解决问题的能力,能够将业务需求转化为技术解决方案。 • 优秀的沟通与协作能力,能够有效地与数据分析师、数据架构师和其他团队成员合作。 薪酬、福利与工作期限: 最低薪资:43,000 美元 最高薪资:151,000 美元 薪资基于候选人的实际经验和资格。以上是对该职位的合理和良好信估。 全职员工可享受医疗、视力和牙科福利,401k 退休计划,变动薪酬/奖励,带薪休假和带薪假期。 此职位不对独立承包商开放。 如果申请在此职位发布日期超过 120 天后收到,将不予考虑。