人工智能开发专家机器学习工程师

1天前全职
215.7万 - 287.6万 / 年 beBeeApplied

beBeeApplied

location 旧金山
unsaved
在创新的前沿,我们正在为医疗保健构建一个尖端的电子病历和支付开发平台。我们现代的前端和后端工具使开发人员和临床医生能够以新的方式合作,解决医疗保健中最棘手的挑战。 角色 领导开发中的代理评估以及在我们系统中运行的后部署代理队列。使用最先进的基础模型推理和微调 API 以及我们的服务器端 SDK 开发代理。 此角色非常适合在大规模评估基于 LLM 的代理方面具有深厚经验的人。创建高保真单元评估和端到端评估,定义专家确定的真实结果,并管理模型变体、提示、工具使用和上下文窗口配置的迭代。 与产品、机器学习工程和临床信息学团队合作,以确保我们的 AI 代理不仅能够工作,而且在现实世界的医疗保健约束下是值得信赖和稳健的。 评估责任 • 设计和执行针对执行临床文档、调度、计费、沟通和一般工作流程自动化任务的基于 LLM 的代理的大规模评估计划。 • 构建端到端测试工具,以验证模型在不同配置(提示模板、上下文来源、工具可用性等)下的行为。 • 与临床医生合作,定义在临床重要领域进行性能比较的准确预期结果(黄金标准),并与其他非临床领域的主题专家合作。 • 在多个模型、参数和交互类型之间运行和复制实验,以确定最佳配置。 • 部署并维护后部署代理队列的持续抽样。 • 分析结果并总结产品和工程利益相关者以及我们客户和更广泛市场中技术利益相关者之间的清晰度权衡。 成功的标准 • 目前正在开发和生产的所有主要 AI 功能都有一套扩展的稳健评估套件。 • 我们为每个工作流程定义了明确的正确性标准,并有可靠的专家确定的结果对象来源。 • 产品和工程团队已将您的评估工具整合到他们的日常工作流程中。 • 评估结果清晰记录且可重复,使对性能轨迹的信任成为可能。 资格 • 5年以上应用机器学习或 AI 工程经验,专注于评估和基准测试。 • 精通基础模型 API,具有通过提示或工具编排复杂代理行为的经验。 • 具有设计和运行高通量评估管道的经验,理想情况下包括人机协作或专家标注的基准。 • 出色的 Python 工程技能,熟悉实验管理工具和数据工程工具集。