/GOV/ 人工智能质量工程师 大型语言模型 自然语言处理

新加坡 24天前全职 网络
3.3万 - 4.9万 / 月
人工智能质量工程师(大型语言模型/自然语言处理) • 工作时间:周一至周五 • 工作地点:市中心 • 薪资:最高可达 $9,000 + 年终奖金 职位概述 我们正在寻找一位人工智能质量工程师,负责评估和确保在生成式人工智能应用中使用的大型语言模型(LLMs)的准确性、可靠性和性能,例如聊天机器人、分类工具和RAG系统。该职位的重点是识别幻觉、验证模型行为,并通过结构化测试和协作支持改进。 主要职责 • 设计并执行测试用例,以评估大型语言模型的准确性、相关性和上下文正确性。 • 检测和分析幻觉或虚构输出,并清晰记录。 • 开发自动化测试脚本(Python、PyTest或类似工具),以简化大型语言模型的回归测试。 • 进行功能和非功能测试,包括针对基于大型语言模型的系统的性能和压力测试。 • 使用自然语言处理指标和特定业务的正确性规则评估模型输出质量。 • 与人工智能工程师、数据科学家和产品团队合作,根据测试结果改进模型行为。 • 在微调、重新训练或系统更新后进行回归测试,以确保没有准确性下降。 • 维护结构化文档:测试计划、测试用例、测试日志和问题报告。 • 使用问题跟踪工具(如Jira)报告和跟踪与大型语言模型相关的错误和不一致。 • 运用对大型语言模型、自然语言处理概念和基于云的人工智能环境(优先考虑AWS/GCP/Azure)的知识,支持全面的质量保证覆盖。 任职要求 • 具有测试大型语言模型(例如,GPT、BERT)用于聊天机器人和对话式人工智能的经验。 • 精通测试自动化(PyTest、自定义人工智能框架),以检测不准确和幻觉。 • 熟悉高风险自然语言处理应用的准确性评估方法。 • 理解人工智能/自然语言处理测试方法,包括幻觉和相关性测试。 • 具备强大的Python技能,用于编写测试脚本和分析模型输出。 • 能够使用Jira等工具记录和跟踪问题。 • 具备强大的问题解决能力,能够提出改进建议并减少幻觉。 提交简历即表示您同意根据ScienTec的隐私政策(scientecconsulting.com/privacy-policy)收集、使用和披露您的个人信息。 这授权我们: 与您联系潜在的机会。 在此申请阶段删除不再需要的个人数据。 所有申请将严格保密处理。仅会联系入围的候选人。 Aloysius Tan Sheng Rong - R22110441 ScienTec Consulting Pte Ltd - 11C5781 原始职位 /GOV/ 人工智能质量工程师 大型语言模型 自然语言处理 发布于GrabJobs ©。如需报告与此职位相关的问题,请使用GrabJobs上的报告职位按钮。