机器学习-LLM平台工程师
工作地点:多伦多/蒙特利尔(候选人需要从第一天开始在现场工作,每周3天在客户办公室)
您将:
职责
• 架构/启用分布式计算,将工作负载与小/中/高端GPU对齐。
• 利用适当的存储硬件和数据格式来提高读/重读效率。
• 识别和纠正延迟的贡献者,特别是IO瓶颈,低效的数据洗牌,计算的过度/不足利用。
• 通过使用数据/模型并行技术来扩展模型。并行化推理处理以改善预测延迟。
• 在各种用例中提供图形和向量数据库的专业知识,包括知识图谱、RAG等。
• 实施LLM的可观察性和监控解决方案。
所需的教育和经验
• 计算机科学或工程学学位
• 先前经验包括:
• Docker,Kubernetes和容器化。
• 分布式系统。
• Databricks ML
• 机器学习工程
• 云(首选Azur)
• 精通Python,SQL
除了所需的经验外,将优先考虑具备以下经验的候选人:
• LLM微调、LLM运维、模型评估和提示工程方面的经验/专业知识
• Mosaic ML、Ray Framework的经验(或了解)
• Lang Chain或LlamaIndex的经验
• 任何向量数据库的经验。
工作规格:
权限、影响、风险
影响银行的数据、人工智能和云之旅。影响银行的可持续发展路线图。
影响
• 通过替代数据为新业务创造收入
• 创新
• 6年人工智能、大数据和云专业知识
• 3-4年替代数据经验
风险
• 通过AI驱动的数据质量来减轻声誉风险,以确保向客户提供最高质量的数据和服务
强制性技能集:
• 在生产环境中构建机器学习训练流水线或推理服务的2年以上经验。
• 具有LLM部署、微调、训练、提示工程等经验。
• 具有LLM推理延迟优化技术的经验,例如内核融合、量化、动态批处理等。
• 具有CUDA、模型编译器和其他模型特定优化的经验。
首选
• 有云技术堆栈(如Azure或AWS)的工作经验。
• 具有构建、部署和监控复杂微服务架构的经验。
• 具有Python、Docker、Kubernetes和基础设施即代码(如terraform)的经验。
• 具有LLMs、MLops的经验
• 具有使用Databricks等分布式笔记本环境的经验
• 具有构建AI驱动的数据质量框架和其他数据治理工具和能力的经验
• 具有构建元数据驱动的AI和统计模型以生成可重复洞察的经验
• 具有构建从前到后的数据管道的经验,包括数据摄取、增强、数据质量、分析和报告
• 具有敏捷开发方法论的经验
• 具有公司关键绩效指标和对公司关键绩效指标的替代数据因素进行回测的经验。
• 具有NLP技术和BERT等迁移学习框架的经验
• 具有使用HuggingFace模型工件的经验
关于公司:
Sumeru Solutions