政府 AI 质量工程师 LLM NLP

新加坡 8天前全职 网络
面议
角色与职责 AI 质量工程师 (LLM/NLP) • 工作时间:周一至周五 • 工作地点:中央 • 薪酬:最高可达 $9,000 + AWS 职位概述 我们正在寻找一名 AI 质量工程师,以评估并确保用于 GenAI 应用(如聊天机器人、分类工具和 RAG 系统)的大型语言模型 (LLM) 的准确性、可靠性和性能。该职位专注于识别幻觉、验证模型行为,并通过结构化测试和协作支持改进。 主要职责 • 设计和执行测试用例,以评估 LLM 的准确性、相关性和上下文正确性。 • 检测和分析幻觉或虚构输出,并清晰记录。 • 开发自动化测试脚本(Python、PyTest 或类似工具),以简化 LLM 回归测试。 • 进行功能和非功能测试,包括基于 LLM 的系统的性能和压力测试。 • 使用 NLP 指标和特定业务的正确性规则评估模型输出质量。 • 与 AI 工程师、数据科学家和产品团队合作,根据测试结果改进模型行为。 • 在微调、再训练或系统更新后执行回归测试,以确保准确性没有下降。 • 维护结构化文档:测试计划、测试用例、测试日志和问题报告。 • 使用问题跟踪工具(如 Jira)报告和跟踪与 LLM 相关的错误和不一致。 • 应用 LLM、NLP 概念和基于云的 AI 环境(优选 AWS/GCP/Azure)的知识,以支持全面的 QA 覆盖。 要求 • 具有测试 LLM(如 GPT、BERT)用于聊天机器人和对话 AI 的经验。 • 精通测试自动化(PyTest、自定义 AI 框架),以检测不准确和幻觉。 • 熟悉高风险 NLP 应用的准确性评估方法。 • 理解 AI/NLP 测试方法,包括幻觉和相关性测试。 • 具备强大的 Python 技能,用于编写测试脚本和分析模型输出。 • 能够使用 Jira 等工具记录和跟踪问题。 • 具备强大的问题解决技能,以提出改进建议并减少幻觉。 提交您的简历即表示您同意根据 ScienTec 的隐私政策收集、使用和披露您的个人信息。 这授权我们: 联系您关于潜在机会。 删除在此申请阶段不需要的个人数据。 所有申请将严格保密处理。只有入围候选人会被联系。 Aloysius Tan Sheng Rong - R ScienTec Consulting Pte Ltd - 11C5781 告诉雇主您具备的技能 机器学习 手动测试 人工智能伦理 质量保证 压力 回归测试 人工智能 敏捷 脚本编写 测试用例 测试自动化 可靠性 JIRA Python 软件测试 写作 人工智能应用 Selenium 咨询 测试规划