LLM 全球数据 - 训练运营(编码)专家

新加坡 4个月前全职 网络
2.8万 - 5.6万 / 月
关于字节跳动 字节跳动成立于 2012 年,使命是激发创造力,丰富生活。我们的产品组合包括 TikTok、Lemon8、CapCut 和 Pico,以及专门面向中国市场的平台,如今日头条、抖音和西瓜视频,字节跳动让人们更轻松、更有趣地连接、消费和创造内容。 为什么加入我们 激发创造力是字节跳动使命的核心。我们的创新产品旨在帮助人们真实地表达自己,发现并建立联系,而我们的全球多元团队使这一切成为可能。我们共同为社区创造价值,激发创造力,丰富生活——这是我们每天努力实现的使命。 作为字节跳动的一员,我们努力与优秀的人一起做伟大的事情。我们以好奇心、谦逊和在快速成长的科技公司中产生影响的愿望为导向。通过不断迭代和培养“始终是第一天”的心态,我们为自己、公司和用户实现有意义的突破。当我们共同创造和成长时,可能性是无限的。加入我们。 多样性与包容性 字节跳动致力于创造一个包容的空间,在这里员工因其技能、经验和独特视角而受到重视。我们的平台连接来自全球的人们,我们的工作环境也是如此。在字节跳动,我们的使命是激发创造力,丰富生活。为了实现这一目标,我们致力于庆祝我们的多元声音,并创造一个反映我们所接触的众多社区的环境。我们对此充满热情,也希望您也是。 关于团队 作为我们 LLM 全球数据团队的核心成员,您将处于我们运营的中心。获得第一手经验,了解使用多样数据集训练大型语言模型(LLMs)的复杂性。通过我们精心设计的轮换项目,您将见证高质量数据是如何精心制作和使用的。 作为 LLM 全球数据团队的关键成员,LLM 训练运营专家/分析师将在管理使用多样编码数据集训练大型语言模型(LLMs)所涉及的复杂流程中发挥关键作用。该角色专注于监督和改善操作工作流程,主要针对与代码相关的项目,确保它们以高质量和高效率交付。 您的角色将包括: 1. 领导和管理多个以编码为重点的 LLM 训练项目,确保按时、符合质量标准和目标。跟踪项目进展,识别风险,并在必要时实施纠正措施以保持项目进度。与产品经理、研究人员、数据注释员和其他跨职能团队成员建立并维护良好关系。沟通项目更新,解决问题,调整期望,以确保项目成功完成。协调与全球团队的会议和讨论,以确保项目顺利执行,并根据项目需求与外部供应商和培训师合作。 2. 设计、管理和优化以编码为重点的 LLM 训练项目的工作流程,包括训练设计、质量保证流程和绩效跟踪,以满足项目需求。与产品经理、项目负责人和跨职能团队密切合作,以确保在质量指标和项目期望上达成一致。 3. 进行质量和生产力改进实验,以增强与代码相关的训练数据的操作流程。领导和支持各数据领域的一般注释操作改进计划。开发和维护技术指南和案例书,以支持一致的高质量数据生产。 4. 设计并实施强大的数据分析策略,以评估编码领域 LLM 项目的训练和评估数据集。使用统计、可视化和程序方法分析注释质量、模型性能和数据集覆盖率。通过进行切片评估、提示敏感性测试和基于聚类的错误分析,识别数据缺口、边缘案例和失败模式。利用 Python(Pandas、NumPy、Matplotlib)和 SQL 等工具生成可行见解,监控数据管道健康状况,并支持模型训练操作。与模型训练师和研究人员合作,告知训练策略并指导以数据为中心的迭代改进。 6. 为团队成员提供指导和支持,帮助他们发展技能,并确保高质量输出的交付。营造一个协作的环境,让团队成员能够分享知识和最佳实践,以改善整体表现。 资格 最低资格 1. 计算机科学、相关技术领域的学士学位或同等实践经验。 2. 1-2 年在软件工程团队的项目或运营管理角色的经验。 3. 1-2 年使用 Python、Java、Go 或 C 等编程语言的经验,通过编码项目或技术角色获得。 4. 强大的沟通和解决问题的能力,能够有效理解和传达与代码相关的概念。 5. 强大的项目管理技能,能够设计、管理和优化复杂的工作流程。 6. 能够在快速变化的项目环境中平衡独立判断与协作团队合作。 7. 对 LLM、计算思维的深厚兴趣,以及适应高强度工作环境的能力。 优先资格: 1. 具有区域或国际级别的竞争编码经验,如 Codeforce、CPC。 2. 精通普通话(阅读和口语),以有效与讲中文的全球团队沟通。 3. 在 RLHF 注释方面的经验,以及与领先的 AI/LLM 公司在技术项目上的合作经验。 4. 熟悉代码库,理解软件开发流程、编码最佳实践和版本控制系统(例如 Git)。熟悉全栈概念,包括前端界面、后端逻辑和数据库集成。 5. 在与数据相关或 AI/LLM 项目中,证明能够领导和指导初级团队成员。 6. 对学习充满热情,参与多样的技术案例研究,与全球团队合作,并对提升项目表现的技术工具感到舒适。 注意:此角色在面试前需要进行纸质测试。