职位名称:PySpark 数据工程师
概述:
我们正在寻找一位熟练的 PySpark 数据工程师加入我们的团队,推动我们数据平台内强大的数据处理和转换解决方案的开发。您将负责设计、实施和维护基于 PySpark 的应用程序,以处理复杂的数据处理任务,确保数据质量,并与多种数据源集成。理想的候选人拥有扎实的 PySpark 开发技能,具备大数据技术经验,并能够在快节奏、数据驱动的环境中工作。
主要职责:数据工程开发:
• 设计、开发和测试基于 PySpark 的应用程序,以处理、转换和分析来自各种来源的大规模数据集,包括关系数据库、NoSQL 数据库、批处理文件和实时数据流。
• 使用 PySpark 和相关的大数据框架实施高效的数据转换和聚合。
• 开发强大的错误处理和异常管理机制,以确保 Spark 作业中的数据完整性和系统弹性。
• 优化 PySpark 作业的性能,包括分区、缓存和 Spark 配置的调优。
数据分析与转换:
• 与数据分析师、数据科学家和数据架构师合作,了解数据处理需求并提供高质量的数据解决方案。
• 分析和解释数据结构、格式和关系,以使用 PySpark 实施有效的数据转换。
• 在 Spark 中处理分布式数据集,确保大规模数据处理和分析的最佳性能。
数据集成与 ETL:
• 设计和实施 ETL(提取、转换、加载)流程,以从各种来源获取和集成数据,确保一致性、准确性和性能。
• 将 PySpark 应用程序与数据源集成,如 SQL 数据库、NoSQL 数据库、数据湖和流处理平台。
资格与技能:
• 计算机科学、信息技术或相关领域的学士学位。
• 5 年以上大数据开发的实际经验,最好有数据密集型应用的接触。
• 深刻理解大数据环境中的数据处理原则、技术和最佳实践。
• 精通 PySpark、Apache Spark 和相关的大数据技术,用于数据处理、分析和集成。
• 具有 ETL 开发和数据管道编排工具(如 Apache Airflow、Luigi)的经验。
• 较强的分析和解决问题的能力,能够将业务需求转化为技术解决方案。
• 优秀的沟通与协作能力,能够有效地与数据分析师、数据架构师和其他团队成员合作。
薪酬、福利与工作期限:
最低薪资:43,000 美元
最高薪资:151,000 美元
薪资基于候选人的实际经验和资格。以上是对该职位的合理和良好信估。
全职员工可享受医疗、视力和牙科福利,401k 退休计划,变动薪酬/奖励,带薪休假和带薪假期。
此职位不对独立承包商开放。
如果申请在此职位发布日期超过 120 天后收到,将不予考虑。