职位概述
Anthropic的使命是创建可靠、可解释和可操控的AI系统,以确保其对用户和社会的安全和益处。在危险不对称危害团队的这个技术和政策双重角色中,您将主要专注于技术评估——设计和运行网络测试以评估风险并防范潜在的灾难性危害,同时为新兴技术设定政策界限。这是一个在协作、高影响力环境中工作的机会,致力于构建有益的AI系统。
主要职责
• 设计和实施强大的评估基础设施,以衡量模型在网络、CBRNE和危险不对称先进技术中的能力和风险,主要关注网络领域。
• 独立构建技术项目并扩展评估系统,可能设定行业标准。
• 开发和运行系统,以对Anthropic平台上的网络危害进行深入自动化分析。
• 为沙盒系统创建可扩展的评估基础设施。
• 测试和衡量AI能力提升,以预测和评估网络及相关风险领域的安全措施。
• 进行独立评估以测试和完善网络政策。
• 设计禁止和双重用途网络类别的启发式方法以支持分类器训练。
• 与研究和工程团队合作实施有效的网络安全系统。
• 提供关于威胁模式的操作见解以支持AI能力提升测试。
• 拥有并定义超出传统网络/CBRN框架的新兴技术政策。
• 解决领域交叉处的关键盲点(例如,网络物理攻击、生物网络威胁)。
• 支持与爆炸装置和先进投递系统相关的政策。
• 为新型不对称技术(例如,无人机群、太空武器)开发威胁模型。
• 与CBRN和网络政策经理协调以解决重叠威胁。
必备资格
• 熟悉提示大型语言模型(LLM)的基础知识,并将LLM用作生成模型和分类器。
• 能够设计智能语言模型管道以自动化任务。
• 精通Python,能够构建复杂系统,并具备强大的异步能力以实现高效扩展。
• 拥有黑客和快速原型设计思维,具备漏洞检测和对抗性思维的经验。
• 自给自足,具备独立创建和运行评估的能力。
• 强大的系统思维和调试技能,适用于复杂设置。
• 至少拥有相关领域的学士学位或同等经验。
优先资格
• 具备渗透测试、红队或漏洞研究等实际进攻性安全经验。
• 相关安全认证(例如,SANS、OSCP),重点关注ICS/SCADA系统。
• 接触过AI评估基准和框架。
• 具备AI/ML安全或对抗性测试背景。
• 在安全和政策交叉领域有过先前经验。
福利与津贴
• 竞争力薪酬:年薪:175,000—295,000美元
• 福利:可选的股权捐赠匹配、慷慨的假期和育儿假、灵活的工作时间和协作的办公空间。
• 混合工作政策:预计至少25%的时间在办公室进行面对面协作。
• 提供签证赞助(视职位要求和可用性而定)。