主要职责数据工程与开发 • 设计、开发并部署可扩展的数据管道，使用 Apache Spark（PySpark/Scala/Java）。 • 构建批处理和实时数据处理解决方案。 • 在分布式环境中为大型数据集编写优化的 Spark 作业。 • 开发 ETL 工作流并整合来自多个来源的数据。性能优化 • 调优 Spark 应用程序以提高性能、内存使用和可靠性。 • 优化数据存储格式（Parquet、ORC、Delta 等）。 • 通过分区、缓存和高效转换来改善作业执行时间。大数据生态系统 • 操作 Hadoop 生态系统组件，如 HDFS、Hive、HBase、Kafka、Airflow 和 YARN。 • 在云平台上开发数据管道（AWS EMR、Azure Databricks、Google Dataproc）。 • 使用分布式计算框架和云原生服务。数据质量与治理 • 实施数据验证、清洗和监控逻辑。 • 确保数据安全、合规和访问控制。 • 创建并维护元数据、文档和数据沿袭。协作与操作 • 与数据工程师、数据科学家和分析团队合作。 • 参与代码审查、架构设计讨论和敏捷仪式。 • 支持部署、故障排除和生产问题解决。所需资格 • 3-6 年的数据工程或大数据开发经验。 • 精通 PySpark、Scala 或 Java 编程技能。 • 深入理解 Apache Spark（RDD、DataFrame、Dataset API）。 • 有分布式系统和大规模数据处理经验。 • 具有 Hadoop 生态系统/工具的实践经验。 • 强大的 SQL 技能。工作类型：全职薪资：每年 $50,133.51-$135,360.25

火花开发工程师

Spait Infotech Private Limited