工作模式:远程
参与类型:独立承包商
时间安排:全职或兼职合同
语言要求:流利的英语
角色概述
我们与领先的人工智能团队合作,以提高通用会话人工智能系统的质量、实用性和可靠性。
该项目专注于评估和改进人工智能系统对代码的推理能力、生成编程解决方案以及解释各种复杂程度的技术概念。
该角色涉及对人工智能生成的代码和软件工程环境中的响应进行严格的技术评估。
您的工作内容
评估大型语言模型生成的对代码和软件工程查询的响应,检查其准确性、推理能力、清晰度和完整性
使用可信的公共来源和权威参考进行事实核查
通过执行代码和使用适当的工具验证输出进行准确性测试
通过识别优点、改进领域以及事实或概念上的不准确性来注释模型响应
评估代码质量、可读性、算法健全性和解释质量
确保模型响应符合预期的会话行为和系统指南
通过遵循明确的分类法、基准和详细的评估指南应用一致的评估标准
您的背景
您拥有计算机科学或相关领域的学士、硕士或博士学位
您在软件工程或相关技术职位上有丰富的实际经验
您至少精通一种相关的编程语言(例如,Python、Java、C++、JavaScript、Go、Rust)
您能够独立解决HackerRank或LeetCode中等和困难级别的问题
您有参与知名开源项目的经验,包括合并的拉取请求
您在编码时有丰富的使用大型语言模型的经验,并了解其优缺点
您对细节有很强的关注,并且能够评估复杂的技术推理,识别微妙的错误或逻辑缺陷
加分特长
有RLHF、模型评估或数据标注工作的经验
在竞赛编程中有良好的记录
有在生产环境中审核代码的经验
熟悉多种编程范式或生态系统
有向非专业观众解释复杂技术概念的经验
成功的表现
您能够识别模型生成代码、技术概念和系统设计讨论中的错误逻辑、低效、边缘情况或误导性解释
您的反馈提高了人工智能编码输出的正确性、稳健性和清晰度
您交付的可重复评估成果增强了模型性能