工作模式：远程参与类型：独立承包商时间安排：全职或兼职合同语言要求：流利的英语角色概述我们与领先的AI团队合作，以提高通用会话AI系统的质量、实用性和可靠性。该项目专注于评估和改进AI系统对代码的推理、生成编程解决方案以及解释各种复杂程度的技术概念的能力。该角色涉及对AI生成的编码和软件工程背景下的响应进行严格的技术评估。工作内容评估LLM生成的对编码和软件工程查询的响应，检查其准确性、推理能力、清晰度和完整性使用可信的公共来源和权威参考进行事实核查通过执行代码和使用适当的工具验证输出进行准确性测试通过识别优点、改进领域以及事实或概念上的不准确性来注释模型响应评估代码质量、可读性、算法健全性和解释质量确保模型响应符合预期的会话行为和系统指南通过遵循明确的分类法、基准和详细的评估指南，应用一致的评估标准任职条件拥有计算机科学或相关领域的学士、硕士或博士学位在软件工程或相关技术岗位上有丰富的实际经验至少精通一种相关的编程语言（例如：Python、Java、C++、JavaScript、Go、Rust）能够独立解决HackerRank或LeetCode中等和困难级别的问题有为知名开源项目做出贡献的经验，包括合并的拉取请求在编码时有使用LLM的丰富经验，并了解其优缺点对细节有很强的关注能力，能够评估复杂的技术推理，识别细微的错误或逻辑缺陷加分专长有RLHF、模型评估或数据标注工作的经验在竞赛编程中有优异表现有在生产环境中审查代码的经验熟悉多种编程范式或生态系统有向非专业受众解释复杂技术概念的经验成功标准能够识别模型生成代码、技术概念和系统设计讨论中的错误逻辑、低效、边界情况或误导性解释您的反馈提高了AI编码输出的正确性、鲁棒性和清晰度您提供的可重复评估工件增强了模型性能

前端 JavaScript 开发人员 - AI 培训

YO IT CONSULTING