数据湖工程师,表格格式 - NVIDIA

15个月前全职
268K - 414K USD NVIDIA

NVIDIA

location 芝加哥
unsaved
数据湖工程师,表格式 - 加速Apache Spark 我们正在寻找有经验的分布式系统工程师,以加速Apache Spark和相关框架在GPU上的运行。Apache Spark是数据中心中最受欢迎的分布式数据处理引擎。它用于各种工作负载,包括数据准备、特征生成、报告、分析等。数据科学家花费大量时间探索数据和迭代机器学习(ML)实验。每小时用于处理数据集、提取特征和拟合ML算法的计算时间都会阻碍高效的业务工作流程。在NVIDIA,我们热衷于解决有影响力的难题。您将与开源社区合作,实现Apache Spark与GPU的数据处理。通过加速数据工作流程,数据科学家可以更快、更高效地探索更多和更大的数据集,实现业务目标。 您将要做的事情: • 将RAPIDS加速器扩展到与数据湖表格式(包括Delta Lake、Apache Iceberg和Apache Hudi)无缝配合使用 • 使用NVIDIA GPU对数据湖表格式进行规模化的基准测试和优化 • 优化表布局格式和后备存储(分布式文件系统、对象存储)的I/O操作 • 参与开源社区,包括Apache Spark、RAPIDS等,进行关于数据湖表格式的技术讨论和贡献 • 创建一系列针对数据处理、数据分析和ML的GPU加速库,以与数据湖表格式兼容 • 与NVIDIA战略合作伙伴合作,在公共云或本地集群中部署复杂的数据分析解决方案 • 在行业会议和聚会上介绍技术解决方案 我们希望看到以下要求: • 计算机科学、计算机工程或等同经验的学士、硕士或博士学位 • 在软件开发方面拥有15年以上的工作或研究经验 • 在关键的开源大数据项目中担任贡献者或提交者的工作经验,包括Delta Lake、Apache Iceberg、Apache Hudi、Apache Spark、Apache Hadoop、Apache Flink、Apache Kafka、Apache Storm和Apache Hive • 理解数据管理架构,并具有大规模表格式的经验 • 有Apache Parquet、Apache ORC、Apache Arrow的经验 • 在设计和实现高质量分布式系统方面具备出色的技术能力 • 在C++、Java和/或Scala方面具备优秀的编程技能 • 了解分布式系统调度器:Kubernetes、Hadoop YARN、Spark独立模式 • 能够成功与跨组织和地理边界的多功能团队合作 • 高度积极主动,具有良好的沟通能力 脱颖而出的方法: • 在Delta Lake、Apache Iceberg、Apache Hudi中进行开发工作,最好能向开源社区做出贡献 • 在重要开源项目(如Apache Spark、Apache Hadoop、Apache Flink、Apache Kafka、Apache Arrow)中有贡献记录 • 有加速库(CUDA、RAPIDS、UCX)的工作经验 基本工资范围为268,000美元-414,000美元。您的基本工资将根据您的位置、经验和类似职位的员工的薪资确定。 您还将有资格享受股权和福利。NVIDIA随时接受申请。 在此申请