在LeoTech，我们热衷于开发能够解决公共安全领域实际问题的软件。我们的软件已被用于打击持续的犯罪活动、毒品贩运组织、识别金融欺诈、破坏性交易和人身贩卖网络，以及关注心理健康等多个领域。角色这是一个远程工作（WFH）的职位。作为我们数据科学团队的人工智能/大型语言模型评估与对齐工程师，您将在确保我们的大型语言模型（LLM）和代理人工智能解决方案准确、安全，并符合公共安全和执法工作流程的独特要求方面发挥关键作用。您将设计和实施评估框架、保护措施和偏见缓解策略，使我们的客户对我们人工智能系统的可靠性和伦理使用充满信心。这是一个个人贡献者（IC）角色，结合了动手技术工程与负责任的人工智能部署。您将与人工智能工程师、产品经理和DevOps团队密切合作，建立评估标准，为生成模型设计测试框架，并在我们的人工智能技术栈中实施质量保证流程。核心职责 - 为公共安全和情报用例量身定制大型语言模型和生成性人工智能系统的评估框架。 - 设计保护措施和对齐策略，以最小化生产工作流程中的偏见、毒性、幻觉和其他伦理风险。 - 与人工智能工程师和数据科学家合作，定义在线和离线评估指标（例如，模型漂移、数据漂移、事实准确性、一致性、安全性、可解释性）。 - 实施人工智能模型的持续评估管道，集成到CI/CD和生产监控系统中。 - 与利益相关者合作，对模型进行压力测试，针对边缘案例、对抗性提示和敏感数据场景进行测试。 - 研究和整合第三方评估框架和解决方案；将其调整到我们的受监管、高风险环境中。 - 与产品和客户团队合作，确保人工智能输出的可解释性、透明性和可审计性。 - 在负责任的人工智能实践中提供技术领导，影响整个组织的标准。 - 参与DevOps/MLOps工作流，以便部署、监控和扩展人工智能评估和保护系统（具有Kubernetes经验者优先）。 - 记录最佳实践和发现，并在团队之间分享知识，以促进负责任的人工智能创新文化。我们重视的 - 计算机科学、人工智能、数据科学或相关领域的学士或硕士学位。 - 35年以上的机器学习/人工智能工程实践经验，至少有2年直接参与大型语言模型评估、质量保证或安全相关工作。 - 对生成性人工智能的评估技术有较强的熟悉度：人机协同评估、自动化指标、对抗性测试、红队测试。 - 具备偏见检测、公平性方法和负责任的人工智能设计经验。 - 了解大型语言模型的可观察性、监控和保护框架，例如Langfuse、Langsmith。 - 精通Python和现代人工智能/机器学习/大型语言模型/代理人工智能库（LangGraph、Strands Agents、Pydantic AI、LangChain、HuggingFace、PyTorch、LlamaIndex）。 - 有将评估集成到DevOps/MLOps管道中的经验，最好是使用Kubernetes、Terraform、ArgoCD或GitHub Actions。 - 理解云人工智能平台（AWS、Azure）和最佳部署实践。 - 具备出色的问题解决能力，能够为现实世界中的高风险场景设计实用的评估系统。 - 具备优秀的沟通能力，能够将技术风险和评估结果转化为技术和非技术利益相关者的见解。我们使用的技术云与基础设施：AWS（Bedrock、SageMaker、Lambda）、Azure AI、Kubernetes（EKS）、Terraform、ArgoCD。大型语言模型与评估：HuggingFace、OpenAI API、Anthropic、LangChain、LlamaIndex、Ragas、DeepEval、OpenAI Evals。可观察性与保护措施：Langfuse、GuardrailsAI。后端与数据：Python（主要）、ElasticSearch、Kafka、Airflow。 DevOps与自动化：GitHub Actions、CodePipeline。您可以期待的 - 远程工作机会。 - 享受良好的团队友谊。 - 在快速的节奏和充满挑战的问题中茁壮成长。 - 现代技术和工具。 - 持续学习的环境。 - 有机会与团队中各个技术水平的人沟通和合作。 - 在接受反馈并将其融入工作中时成长。 - 成为一个自我管理的团队的一部分，在需要时享受支持和指导。 - 一开始就享有3周的带薪假期！ - 竞争力的薪资。 - 慷慨的医疗、牙科和视力计划。 - 提供病假和带薪假期。 - 年薪135,000 - 160,000美元。请注意，职位发布中列出的国家薪资范围反映了适用于该职位的各级别和美国地点的新员工薪资范围。最终薪资将与候选人接受的雇佣级别和工作地点相称。此外，此范围仅代表基本薪资，不包括股权或其他适用的福利。 LeoTech是一个平等机会的雇主，不会因任何法律保护状态而歧视。

人工智能/大型语言模型评估与对齐软件工程师

LeoTech