关于HUD
HUD(YC W25)正在为浏览网络的计算机使用代理(CUAs)开发代理评估。我们的CUA评估框架是首个全面的CUA评估工具。
我们的使命:人们实际上不知道AI代理是否有效。为了让AI代理在现实世界中发挥作用,我们需要对大量任务进行详细评估。
我们得到了Y Combinator的支持,并与前沿AI实验室密切合作,以大规模提供代理评估基础设施。关于职位
我们正在寻找一名系统/全栈工程师,以帮助构建支持大规模CUA测试的技术基础设施。职责
• 构建HUD现有的CUA评估框架
• 优化我们的大规模评估基础设施 经验
技术技能
• 具有AWS、Kubernetes、Docker、Redis、Linux、Python、PostgreSQL经验
• 优先考虑有系统设计、性能安全、CI/CD管理经验者
如果您具备以下条件,您可能会很合适:
• 拥有可扩展基础设施设计和实施的实践经验
• 参与过大规模系统架构项目
• 构建过可靠的高性能分布式系统
• 使用过容器化应用程序和编排平台
优秀的候选人可能具备:
• 在早期技术公司有创业经验,能够在快节奏环境中独立工作
• 具备强大的沟通能力以跨时区进行远程协作
• 熟悉当前的AI工具和LLM功能
• 理解LLM评估框架和方法论
• 在技术环境中快速学习和适应的证据
我们优先考虑技术能力和学习潜力,而不是经验年限。即使不符合所有标准,积极的候选人也被鼓励申请。团队和公司详情
• 团队规模:目前约5-10人,计划再招聘2-3人(但我们根据具体情况判断——可能为零或更多,取决于候选人)。
• 我们的团队:我们的团队包括4名国际奥林匹克奖牌得主(IOI、ILO、IPhO)、连续AI创业公司创始人和在ICLR、NeurIPS等发表过论文的研究人员。物流
• 就业:全职。
• 地点:支持远程工作,但如果您在旧金山湾区,我们有一个办公室可以一起工作。我们更倾向于能够在太平洋时间(UTC-7:00/8:00)或中国/新加坡时间(UTC +8:00)参加会议的申请者。
• 签证支持:我们为优秀的全职候选人提供搬迁和签证支持。
• 时间表:申请是滚动进行的。过程应包括1-2次面试,耗时不到一周。
由于申请量大,我们可能无法对每个申请进行积极回应,但如果我们错过了您的申请,请随时通过(见下文)或其他方式联系我们!