火花开发工程师

Toronto 6 hours agoFull-time External
253.7k - 684.9k / yr
主要职责数据工程与开发 • 设计、开发并部署可扩展的数据管道,使用 Apache Spark(PySpark/Scala/Java)。 • 构建批处理和实时数据处理解决方案。 • 在分布式环境中为大型数据集编写优化的 Spark 作业。 • 开发 ETL 工作流并整合来自多个来源的数据。 性能优化 • 调优 Spark 应用程序以提高性能、内存使用和可靠性。 • 优化数据存储格式(Parquet、ORC、Delta 等)。 • 通过分区、缓存和高效转换来改善作业执行时间。 大数据生态系统 • 操作 Hadoop 生态系统组件,如 HDFS、Hive、HBase、Kafka、Airflow 和 YARN。 • 在云平台上开发数据管道(AWS EMR、Azure Databricks、Google Dataproc)。 • 使用分布式计算框架和云原生服务。 数据质量与治理 • 实施数据验证、清洗和监控逻辑。 • 确保数据安全、合规和访问控制。 • 创建并维护元数据、文档和数据沿袭。 协作与操作 • 与数据工程师、数据科学家和分析团队合作。 • 参与代码审查、架构设计讨论和敏捷仪式。 • 支持部署、故障排除和生产问题解决。 所需资格 • 3-6 年的数据工程或大数据开发经验。 • 精通 PySpark、Scala 或 Java 编程技能。 • 深入理解 Apache Spark(RDD、DataFrame、Dataset API)。 • 有分布式系统和大规模数据处理经验。 • 具有 Hadoop 生态系统/工具的实践经验。 • 强大的 SQL 技能。 工作类型:全职 薪资:每年 $50,133.51-$135,360.25