关于HUD HUD（YC W25）正在为浏览网络的计算机使用代理（CUAs）开发代理评估。我们的CUA评估框架是首个全面的CUA评估工具。我们的使命：人们实际上不知道AI代理是否有效。为了让AI代理在现实世界中发挥作用，我们需要对大量任务进行详细评估。我们得到了Y Combinator的支持，并与前沿AI实验室密切合作，以大规模提供代理评估基础设施。关于职位我们正在寻找一名系统/全栈工程师，以帮助构建支持大规模CUA测试的技术基础设施。职责 • 构建HUD现有的CUA评估框架 • 优化我们的大规模评估基础设施经验技术技能 • 具有AWS、Kubernetes、Docker、Redis、Linux、Python、PostgreSQL经验 • 优先考虑有系统设计、性能安全、CI/CD管理经验者如果您具备以下条件，您可能会很合适： • 拥有可扩展基础设施设计和实施的实践经验 • 参与过大规模系统架构项目 • 构建过可靠的高性能分布式系统 • 使用过容器化应用程序和编排平台优秀的候选人可能具备： • 在早期技术公司有创业经验，能够在快节奏环境中独立工作 • 具备强大的沟通能力以跨时区进行远程协作 • 熟悉当前的AI工具和LLM功能 • 理解LLM评估框架和方法论 • 在技术环境中快速学习和适应的证据我们优先考虑技术能力和学习潜力，而不是经验年限。即使不符合所有标准，积极的候选人也被鼓励申请。团队和公司详情 • 团队规模：目前约5-10人，计划再招聘2-3人（但我们根据具体情况判断——可能为零或更多，取决于候选人）。 • 我们的团队：我们的团队包括4名国际奥林匹克奖牌得主（IOI、ILO、IPhO）、连续AI创业公司创始人和在ICLR、NeurIPS等发表过论文的研究人员。物流 • 就业：全职。 • 地点：支持远程工作，但如果您在旧金山湾区，我们有一个办公室可以一起工作。我们更倾向于能够在太平洋时间（UTC-7:00/8:00）或中国/新加坡时间（UTC +8:00）参加会议的申请者。 • 签证支持：我们为优秀的全职候选人提供搬迁和签证支持。 • 时间表：申请是滚动进行的。过程应包括1-2次面试，耗时不到一周。由于申请量大，我们可能无法对每个申请进行积极回应，但如果我们错过了您的申请，请随时通过（见下文）或其他方式联系我们！

系统工程师-基础设施

HUD