机器学习-LLM平台工程师
工作地点:多伦多/蒙特利尔(候选人需要从第一天开始在现场工作,每周3天在客户办公室)
职责
设计/启用分布式计算,将工作负载与小型/中型/高端GPU对齐。
利用适当的存储硬件和数据格式提高读取/重新读取效率。
识别和纠正延迟因素,特别是IO瓶颈、低效的数据洗牌和计算资源的过度或不足利用。
通过使用数据/模型并行技术来扩展模型的规模。并行化推理处理以提高预测延迟。
为各种用例(包括知识图谱、RAG等)提供图形和向量数据库的专业知识。
实施LLM的可观察性和监控解决方案。
所需教育和经验
计算机科学或工程学学位
先前经验包括:
o Docker、Kubernetes和容器化。
o 分布式系统。
o Databricks ML
o 机器学习工程
o 云(首选Azur)
o 专家级Python、SQL
首选将给予以下经验的候选人:
具有LLM微调、LLM运维、模型评估和提示工程方面的经验/专业知识
具有Mosaic ML、Ray Framework的经验(或了解)
具有Lang Chain或LlamaIndex的经验
具有任何向量数据库的经验。
工作规格:
权威性、影响力、风险 影响银行的数据、人工智能和云之旅。影响银行的可持续性路线图。
通过替代数据创新为新业务带来收入
6年的人工智能、大数据和云专业知识
3-4年的替代数据经验
通过基于AI的数据质量降低声誉风险,以确保向客户提供最高质量的数据和服务
强制技能:
在生产环境中构建机器学习训练流水线或推理服务的2年以上经验。
具有LLM部署、微调、训练、提示工程等经验。
具有LLM推理延迟优化技术的经验,例如内核融合、量化、动态批处理等。
具备CUDA、模型编译器和其他模型特定优化的经验。
首选
具有使用云技术堆栈(例如Azure或AWS)的经验。
具有构建、部署和监控复杂微服务架构的经验。
具有Python、Docker、Kubernetes和基础架构即代码(例如terraform)的经验。
具有LLM、MLops的经验
具有使用Databricks等分布式笔记本环境的经验
具有构建基于AI的数据质量框架和其他数据治理工具和能力的经验
具有构建元数据驱动的AI和统计模型以生成可重复洞察的经验
具有构建从前端到后端的数据流水线(包括数据摄取、增强、数据质量、分析和报告)的经验
具有敏捷开发方法论的经验
具有公司关键绩效指标和对公司关键绩效指标进行备份测试的经验。
具有NLP技术和BERT等迁移学习框架的经验
具有使用HuggingFace模型工件的经验