软件工程师 - 应用AI
软件工程师 - 应用AI
我们正在构建下一代AI驱动的产品,我们的AI工程师正在快速制作新的代理、工作流程和评估工具的原型。我们正在寻找一位软件工程师,将这些原型转化为可靠的、具有良好仪表的服务和应用程序,以供更广泛的组织依赖。
这个角色处于快速原型制作和全栈工程的交汇点,你将负责新服务的架构、可观测性、可靠性、部署和文档。你的工作将使团队能够在实验中快速前进,同时保持强大的工程基础和卓越的运营,识别并解决任何工作流程瓶颈。由于优先事项可能会迅速变化,清晰和一致的沟通是关键。
职责
• 协作:与AI工程师紧密合作,将实验笔记本、脚本和工作流程转化为可靠的工具和服务;共同设计实验友好的系统(功能标志、提示、模型切换、评估钩子),以实现快速但安全的迭代。
• 架构:负责工具和服务的架构,定义可重用的模板、库和模式,在快速原型制作与团队内的可维护性和一致性之间取得平衡。
• 可观测性:领导AI应用程序和管道的可观测性,包括日志记录、指标、追踪、警报和仪表板,以便团队能够快速回答“现在发生了什么?”无论是在实验中还是在生产工具中。
• 可靠性:推动AI系统的可靠性和弹性实践,包括测试策略、安全故障模式、推出/回滚方法,以及包裹AI/LLM功能的强大API标准。
• 基础设施:负责研究工具的云基础设施(例如,AWS/GCP),包括数据库、容器化、CI/CD和基础设施即代码,同时为生产级系统设定和维护工程标准。
将基于LLM的研究代理生产化为一个受监控的微服务,具有强大的API、结构化日志记录、评估钩子和端到端追踪,适当地存储以便快速分析。
• 知识共享:简明有效地记录服务和系统,向团队演示工具和代码,并创建内部代理工具/技能/手册,供团队使用以加速开发。
资格
• 5年以上专业软件工程经验,具有强大的后端或全栈重点。
• 有将LLM或其他AI/ML系统集成到应用程序中的经验。
• 深厚的端到端构建和操作生产服务经验(设计、实施、部署、监控和事件响应)。
• 精通Python和现代服务开发(例如,REST API、微服务)。
• 拥有可观测性堆栈(日志记录、指标、追踪、警报)的实践经验,并能在生产中调试分布式系统。
• 具有工作流/编排工具(例如,Airflow、Dagster、Prefect)和构建可靠数据或实验管道的经验。
• 云部署专业知识(例如,AWS/GCP),包括容器、CI/CD和基础设施即代码。
• 能够在模糊的、研究导向的环境中工作,并将定义不明确的实验代码转化为可维护的、结构良好的系统。
• 强大的沟通和协作能力;能够指导以原型为重点的工程师关于生产最佳实践,并向非基础设施利益相关者清晰解释权衡。