AI工程师，评估与可靠性 / 合同转正或直接聘用 / 红木城 / 混合办公，每周现场办公3天 / 此职位合同期内支付$70-80/小时，转正后年薪$140-190K / 仅限美国公民和绿卡持有者摘要：我们的客户正在寻找一位高级工程师，专注于AI评估与可靠性，负责领导设计和执行我们的智能AI特性的评估、质量保证和发布门控。您将开发管道、数据集和仪表板，以衡量和提高代理在现实世界SOC工作流程中的性能，确保每次发布都是安全、可靠、高效且具备生产准备的。您将保证我们的智能AI特性在全生产规模下运行，每天处理和激活数百万个SOC警报，对分析师的生产力和风险缓解产生可衡量的影响。此角色与产品团队紧密合作，以在每个AI驱动的功能中实现卓越运营和信任。职责：定义质量指标：将SOC用例转化为可衡量的KPI（例如，精确度/召回率，MTTR，误报率，步骤成功率，延迟/成本预算）。构建持续评估：开发离线/在线评估管道、回归套件和A/B或金丝雀测试；将它们集成到CI/CD中以进行发布门控。策划和管理数据集：维护黄金标准数据集和红队场景；建立数据治理和漂移监控实践。确保安全性、可靠性和可解释性：与平台和安全研究合作，编码防护措施、政策执行和运行时安全检查。扩大对抗性测试覆盖范围（提示注入、数据泄露、滥用场景）。确保代理决策的可解释性和可审计性，维护AI驱动工作流程的可追溯性和合规性。生产可靠性和可观察性：监控和维护智能AI特性发布后的可靠性——定义和维护SLIs/SLOs，建立警报和回滚策略，并进行事件事后分析。设计和实施基础设施，以扩展云环境中实时SOC工作流程的评估和生产管道。推动智能系统工程：实验多代理系统、工具使用语言模型、检索增强工作流程和提示编排。管理模型和提示生命周期——跟踪版本、推出策略和回退；通过统计上可靠的实验测量影响。跨职能协作：与产品、用户体验和工程团队合作，优先考虑高杠杆改进，快速解决回归问题，并提高整体系统可靠性。所需技能： 6年以上构建ML/LLM系统或大规模分布式系统的评估或测试基础设施的经验。证明能够将产品需求转化为可衡量的指标和测试计划。强大的Python技能。丰富的现代数据工具经验。实际操作A/B测试、金丝雀测试或实验框架的经验。定义和维护AI驱动系统的操作可靠性指标（SLIs/SLOs）的经验。熟悉大规模分布式或流媒体系统服务AI/代理工作流程（每天数百万事件或警报）。优秀的沟通能力——能够清晰地向工程师、产品经理和分析师传达技术结果和权衡。此职位的薪酬基于市场位置，可能会因与工作相关的知识、技能和经验而有所不同。作为合同工，您可能还符合健康福利的条件，如健康、牙科和视力保险，以及401K计划的访问权限。签约奖金和限制性股票单位可能作为薪酬包的一部分提供，此外还可能包括客户提供的全面医疗、财务和/或其他福利。申请人应通过The Mice Groups Inc.网站或通过此招聘网站发布申请。我们是一个机会均等的雇主，重视The Mice Groups Inc.的多样性。我们不因种族、宗教、肤色、国籍、性别、性取向、年龄、婚姻状况、退伍军人身份或残疾身份而歧视。根据旧金山公平机会条例，我们将考虑具有逮捕和定罪记录的合格申请人。根据洛杉矶公平机会条例，我们将考虑具有逮捕和定罪记录的合格申请人。 The Mice Groups Inc.重视您的隐私。请查阅我们的候选人隐私声明，了解我们如何收集、使用和披露候选人的个人信息。隐私政策 The Mice Groups在设计和运营本网站时遵循的基本原则之一是，我们仅要求提供我们所需的服务信息。 The Mice Groups目前不会通过其网站收集个人识别信息，除非（i）您在在线职位申请中提供此信息，以及（ii）您的网络浏览器提供个人识别信息。 The Mice Groups将仅为您提交信息的目的使用您的个人识别信息。然而，The Mice Groups可能会将您的个人识别信息的某些元素与我们网站其他用户的信息进行汇总，以分析其网站上各种网页的实用性和受欢迎程度。 The Mice Groups保留随时通过在此位置发布新隐私政策来更改此政策的权利。有关此声明的问题应直接向

人工智能工程师（红木城）

The Mice Groups, Inc.