主要职责数据工程与开发
• 设计、开发并部署可扩展的数据管道,使用 Apache Spark(PySpark/Scala/Java)。
• 构建批处理和实时数据处理解决方案。
• 在分布式环境中为大型数据集编写优化的 Spark 作业。
• 开发 ETL 工作流并整合来自多个来源的数据。
性能优化
• 调优 Spark 应用程序以提高性能、内存使用和可靠性。
• 优化数据存储格式(Parquet、ORC、Delta 等)。
• 通过分区、缓存和高效转换来改善作业执行时间。
大数据生态系统
• 操作 Hadoop 生态系统组件,如 HDFS、Hive、HBase、Kafka、Airflow 和 YARN。
• 在云平台上开发数据管道(AWS EMR、Azure Databricks、Google Dataproc)。
• 使用分布式计算框架和云原生服务。
数据质量与治理
• 实施数据验证、清洗和监控逻辑。
• 确保数据安全、合规和访问控制。
• 创建并维护元数据、文档和数据沿袭。
协作与操作
• 与数据工程师、数据科学家和分析团队合作。
• 参与代码审查、架构设计讨论和敏捷仪式。
• 支持部署、故障排除和生产问题解决。
所需资格
• 3-6 年的数据工程或大数据开发经验。
• 精通 PySpark、Scala 或 Java 编程技能。
• 深入理解 Apache Spark(RDD、DataFrame、Dataset API)。
• 有分布式系统和大规模数据处理经验。
• 具有 Hadoop 生态系统/工具的实践经验。
• 强大的 SQL 技能。
工作类型:全职
薪资:每年 $50,133.51-$135,360.25