关于公司我目前正在与一家专注于人工智能、LLM 和计算机视觉的公司合作。混合工作安排 - 每周 2 天在办公室，3 天在家工作。办公室位置靠近 Buona Vista。面试流程包含 4 轮，直至提供阶段。关于工作 • 设计和实施强大的框架，以评估生成性人工智能系统的性能，包括大型语言模型（LLMs）的文本和多模态模型，涵盖但不限于基于 GPT 的模型、BERT、T5 和其他最先进的架构。 • 对 LLM 进行技术人工智能评估，包括评估其性能的稳健性、嵌入偏见、对越狱和提示注入攻击的脆弱性。 • 与利益相关者合作，设计强大的 LLM 模型、自定义评估方法以及一套技术和分析人工智能评估框架和工具。 • 定义和完善评估模型性能的指标，例如困惑度（perplexity）、BLEU、ROUGE、准确性、一致性、事实一致性和偏见检测。 • 主导策划和管理大型高质量数据集，以评估 LLM。技能和要求 • 初级职位要求至少 2 年经验，高级职位要求至少 5 年经验。 • 具备代理人工智能或代理 LLM 的经验。 • 在使用困惑度、BLEU、ROUGE 和以人为本的评估技术评估 LLM 方面具有丰富经验。 • 具有管理和分析大型复杂语言数据集的良好记录，包括文本预处理和分词。 • 扎实的 Python 编程技能，并具备构建自动化管道以进行持续模型评估的经验。请在线申请，使用“申请”功能，或者您可以联系 Stella，电话 96554170（EA: 94C3609 / R1875382）。技能无额外技能要求资格无额外资格要求教育学士学位

人工智能科学家（专注于代理 LLM）

Randstad Singapore