数据湖工程师，表格格式 - NVIDIA - NVIDIA招聘

数据湖工程师，表格式 - 加速Apache Spark 我们正在寻找有经验的分布式系统工程师，以加速Apache Spark和相关框架在GPU上的运行。Apache Spark是数据中心中最受欢迎的分布式数据处理引擎。它用于各种工作负载，包括数据准备、特征生成、报告、分析等。数据科学家花费大量时间探索数据和迭代机器学习（ML）实验。每小时用于处理数据集、提取特征和拟合ML算法的计算时间都会阻碍高效的业务工作流程。在NVIDIA，我们热衷于解决有影响力的难题。您将与开源社区合作，实现Apache Spark与GPU的数据处理。通过加速数据工作流程，数据科学家可以更快、更高效地探索更多和更大的数据集，实现业务目标。您将要做的事情： • 将RAPIDS加速器扩展到与数据湖表格式（包括Delta Lake、Apache Iceberg和Apache Hudi）无缝配合使用 • 使用NVIDIA GPU对数据湖表格式进行规模化的基准测试和优化 • 优化表布局格式和后备存储（分布式文件系统、对象存储）的I/O操作 • 参与开源社区，包括Apache Spark、RAPIDS等，进行关于数据湖表格式的技术讨论和贡献 • 创建一系列针对数据处理、数据分析和ML的GPU加速库，以与数据湖表格式兼容 • 与NVIDIA战略合作伙伴合作，在公共云或本地集群中部署复杂的数据分析解决方案 • 在行业会议和聚会上介绍技术解决方案我们希望看到以下要求： • 计算机科学、计算机工程或等同经验的学士、硕士或博士学位 • 在软件开发方面拥有15年以上的工作或研究经验 • 在关键的开源大数据项目中担任贡献者或提交者的工作经验，包括Delta Lake、Apache Iceberg、Apache Hudi、Apache Spark、Apache Hadoop、Apache Flink、Apache Kafka、Apache Storm和Apache Hive • 理解数据管理架构，并具有大规模表格式的经验 • 有Apache Parquet、Apache ORC、Apache Arrow的经验 • 在设计和实现高质量分布式系统方面具备出色的技术能力 • 在C++、Java和/或Scala方面具备优秀的编程技能 • 了解分布式系统调度器：Kubernetes、Hadoop YARN、Spark独立模式 • 能够成功与跨组织和地理边界的多功能团队合作 • 高度积极主动，具有良好的沟通能力脱颖而出的方法： • 在Delta Lake、Apache Iceberg、Apache Hudi中进行开发工作，最好能向开源社区做出贡献 • 在重要开源项目（如Apache Spark、Apache Hadoop、Apache Flink、Apache Kafka、Apache Arrow）中有贡献记录 • 有加速库（CUDA、RAPIDS、UCX）的工作经验基本工资范围为268,000美元-414,000美元。您的基本工资将根据您的位置、经验和类似职位的员工的薪资确定。您还将有资格享受股权和福利。NVIDIA随时接受申请。在此申请