Veeva Systems 是一家使命驱动的组织和行业云的先锋，帮助生命科学公司更快地将疗法带给患者。作为历史上增长最快的SaaS公司之一，我们在上一个财年收入超过20亿美元，未来具有广阔的增长潜力。 Veeva 的核心是我们的价值观：做正确的事、客户成功、员工成功和速度。我们不仅仅是一家上市公司——我们在2021年创造了历史，成为一家公益公司（PBC），在法律上有义务平衡客户、员工、社会和投资者的利益。作为一家“随时随地工作”公司，我们支持您在家或办公室工作的灵活性，以便您在理想的环境中茁壮成长。加入我们，致力于对客户、员工和社区产生积极影响，变革生命科学行业。职位该职位负责通过严格的评估和系统验证方法确保我们 Veeva AI 代理的可靠性、准确性和安全性。我们正在寻找具有以下经验的候选人： 1. 具有细致、批判和好奇的心态，致力于在快速发展的技术领域中保证产品质量 2. 出色的分析和系统性问题解决能力 3. 优秀的能力将技术发现传达给工程和产品管理受众 4. 能够快速学习应用领域在我们的“随时随地工作”环境中茁壮成长：我们支持您在加拿大或美国远程或在办公室工作的灵活性，确保在产品团队所在时区内的无缝协作。加入我们，成为一个使命驱动的组织的一部分，变革生命科学行业。您的职责 • 评估策略与规划：为新的 AI 代理定义和建立全面的评估策略。优先考虑测试数据集的完整性和覆盖范围，以反映真实世界的使用和潜在的故障模式 • LLM 输出完整性评估：以编程和手动方式根据预定义的指标（例如，事实准确性、上下文相关性、一致性和安全标准）评估 LLM 生成内容的质量 • 创建高保真数据集：设计、策划和生成多样化的高质量测试数据集，包括具有挑战性的提示和场景。评估 LLM 输出以主动识别系统偏见、不安全内容、幻觉和关键边缘案例 • 评估管道自动化：开发、实施和维护可扩展的自动化评估，以确保高效、持续地验证代理行为，并防止新功能和模型更新导致的回归 • 根本原因分析：理解模型行为，协助追踪和根本原因分析已识别的缺陷或性能下降 • 报告与绩效指标：清晰记录、跟踪和传达绩效指标、验证结果和错误状态给更广泛的开发和产品团队要求 • 数据完整性与验证：对数据质量原则有深入的专业理解，包括验证数据集是否存在偏见、完整性问题和质量标准的方法。能够设计多样化和对抗性的测试数据以发现 AI 边缘案例 • 提示工程与模型专业知识：在高级提示工程技术方面表现出色，以创建测试 AI 推理、行动计划和遵循系统指令的评估场景。对 LLM 常见故障模式（幻觉、不一致、越狱）有深入了解 • 自动化评估实施：5年以上设计和部署自动化评估管道以评估复杂代理行为的经验。熟悉任务成功率、语义相似性和情感分析等质量指标以衡量输出 • 调试代理系统：必须能够应对调试代理系统的特定挑战，包括追踪和解释代理的内部推理、工具使用和行动顺序以确定故障点 • 编程与框架：5年以上使用 Python 开发自定义评估框架、编写脚本和将管道与 CI/CD 系统集成的经验。熟悉标准测试自动化工具（例如，Pytest，现代 Web 自动化工具） • 拥有数据科学、机器学习、计算机科学或相关领域的学士学位，并在生成 AI / LLM 方面有经验 • 高工作伦理。Veeva 是一家勤奋的公司 • 高诚信和诚实。Veeva 是一家 PBC 和“做正确的事”的公司。我们期望所有员工都具备这些品质 • 申请人必须拥有在美国或加拿大工作的无限制权利。Veeva 目前不提供赞助了解更多 • 工程师视角：考虑 Veeva 的三个理由 • Veeva 的工程福利与待遇 • 医疗、牙科、视力和基本人寿保险 • 带薪休假和公司支付的假期 • 退休计划 • 1% 慈善捐赠计划薪酬 • 基本工资：85,000 - 225,000 加元 • 此处列出的薪资范围是为了遵守当地法规，并代表该职位的潜在基本工资范围。请注意，实际工资可能在上述范围内或以下波动，具体取决于经验和地点。我们根据每个人的独特资格、经验和预期贡献来确定薪酬。该职位可能还符合除基本工资外的其他类型的补偿，例如可变奖金和/或股票奖金。 #LI-Remote #LI-MidSenior Veeva 的总部位于旧金山湾区，在全球超过15个国家设有办事处。 Veeva 是一个平等机会雇主。所有合格的申请人将不论种族、肤色、性别、性取向、性别认同或表达、宗教、国籍或祖先、年龄、残疾、婚姻状况、怀孕、受保护的退伍军人身份、受保护的遗传信息、政治派别或任何其他受当地法律、法规或条例保护的特征，均会被考虑录用。如果您在申请职位或我们的招聘过程中因残疾或特殊需求需要帮助或便利，请通过 talent_accommodations@veeva.com 联系我们。

人工智能数据工程师

Veeva