大数据工程师 - 数据湖 / 特征存储

新加坡 12天前全职 网络
面议
地点: 新加坡 团队: 技术 雇佣类型: 正式 职位代码: A183490 职责 关于字节跳动 字节跳动成立于2012年,使命是激发创造力,丰富生活。我们拥有超过十种产品,包括 TikTok 以及专为中国市场设计的平台,如今日头条、抖音和西瓜视频,让人们更轻松、更有趣地连接、消费和创作内容。 为什么加入我们 创造是字节跳动的核心使命。我们的产品旨在帮助想象力蓬勃发展。对于实现我们创新的团队来说,这一点尤其重要。 我们共同激发创造力,丰富生活——这是我们每天努力实现的使命。 对我们来说,每一个挑战,无论多么模糊,都是一个机会;去学习、去创新、去作为一个团队成长。现状?从不。勇气?永远。 在字节跳动,我们共同创造,共同成长。这就是我们推动影响力的方式——为我们自己、我们的公司和我们服务的用户。 加入我们。 关于团队 批处理团队负责公司的离线数据处理和分布式训练,支持公司内各种业务场景,如离线 ETL 和机器学习。涉及的组件包括离线计算引擎 Spark、内部分布式训练框架 Primus、特征存储解决方案 Iceberg 和 Hudi,以及下一代分布式应用框架 Ray。在面对大规模场景时,针对 Spark、Primus、特征存储进行了广泛的功能和性能优化,并在相关公司场景中支持采用新一代分布式应用框架 Ray。 你将要做的事情: • 负责基于 Iceberg 的内部特征存储功能的开发和性能优化; • 参与 Iceberg 与各种上层计算引擎的集成优化; • 参与平台相关基础设施的开发。 资格要求 最低资格 • 计算机科学或相关领域的学士学位或以上,拥有4年以上相关开发经验,具备较强的编程能力,熟练掌握 Java、Python、C++,能够开发和优化大规模分布式系统。 • 在 Delta、Hudi 或 Iceberg 等一种或多种数据湖格式方面具有深入研究和相关经验。 优先资格 • 在开源大数据计算框架和场景(如 Hadoop、Spark、Flink、Presto 等)方面具有深入研究或实践经验。 字节跳动致力于创造一个包容的空间,在这里员工因其技能、经验和独特视角而受到重视。我们的平台连接全球各地的人们,我们的工作环境也是如此。在字节跳动,我们的使命是激发创造力,带来快乐。为了实现这一目标,我们致力于庆祝多样的声音,创造一个反映我们所接触的多种社区的环境。我们对此充满热情,也希望你也是。 #LI-CT