机器学习-LLM平台工程师

15个月前全职
Cloudious LLC

Cloudious LLC

location 多伦多
unsaved
机器学习-LLM平台工程师 工作地点:多伦多/蒙特利尔(候选人需要从第一天开始在现场工作,每周3天在客户办公室) 职责 设计/启用分布式计算,将工作负载与小型/中型/高端GPU对齐。 利用适当的存储硬件和数据格式提高读取/重新读取效率。 识别和纠正延迟因素,特别是IO瓶颈、低效的数据洗牌和计算资源的过度或不足利用。 通过使用数据/模型并行技术来扩展模型的规模。并行化推理处理以提高预测延迟。 为各种用例(包括知识图谱、RAG等)提供图形和向量数据库的专业知识。 实施LLM的可观察性和监控解决方案。 所需教育和经验 计算机科学或工程学学位 先前经验包括: o Docker、Kubernetes和容器化。 o 分布式系统。 o Databricks ML o 机器学习工程 o 云(首选Azur) o 专家级Python、SQL 首选将给予以下经验的候选人: 具有LLM微调、LLM运维、模型评估和提示工程方面的经验/专业知识 具有Mosaic ML、Ray Framework的经验(或了解) 具有Lang Chain或LlamaIndex的经验 具有任何向量数据库的经验。 工作规格: 权威性、影响力、风险 影响银行的数据、人工智能和云之旅。影响银行的可持续性路线图。 通过替代数据创新为新业务带来收入 6年的人工智能、大数据和云专业知识 3-4年的替代数据经验 通过基于AI的数据质量降低声誉风险,以确保向客户提供最高质量的数据和服务 强制技能: 在生产环境中构建机器学习训练流水线或推理服务的2年以上经验。 具有LLM部署、微调、训练、提示工程等经验。 具有LLM推理延迟优化技术的经验,例如内核融合、量化、动态批处理等。 具备CUDA、模型编译器和其他模型特定优化的经验。 首选 具有使用云技术堆栈(例如Azure或AWS)的经验。 具有构建、部署和监控复杂微服务架构的经验。 具有Python、Docker、Kubernetes和基础架构即代码(例如terraform)的经验。 具有LLM、MLops的经验 具有使用Databricks等分布式笔记本环境的经验 具有构建基于AI的数据质量框架和其他数据治理工具和能力的经验 具有构建元数据驱动的AI和统计模型以生成可重复洞察的经验 具有构建从前端到后端的数据流水线(包括数据摄取、增强、数据质量、分析和报告)的经验 具有敏捷开发方法论的经验 具有公司关键绩效指标和对公司关键绩效指标进行备份测试的经验。 具有NLP技术和BERT等迁移学习框架的经验 具有使用HuggingFace模型工件的经验