机器学习工程师

芝加哥 3个月前全职 网络
143.4万 - 179.2万 / 年
员工机器学习工程师,肿瘤学基础模型 加入Tempus AI申请员工机器学习工程师,肿瘤学基础模型的职位 对精准医疗和推动医疗行业发展充满热情? 最近的技术进步终于使得人工智能能够以有意义的方式影响临床护理。Tempus的专有平台连接了整个真实世界证据生态系统,提供实时、可操作的见解给医生,提供关于为合适的患者提供合适治疗的重要信息,确保在合适的时间进行。 我们正在寻找一位经验丰富且技术精湛的员工机器学习工程师,具备大规模多模态模型系统工程的深厚专业知识,加入我们充满活力的人工智能团队。您将在设计、构建和优化支持Tempus最先进生成性人工智能模型的基础数据基础设施中发挥关键作用。您的工作将直接支持强大、生产就绪的多模态系统的培训和部署,这些系统能够分析复杂的数据类型(如基因组学、病理图像、放射学扫描和临床记录),以改善患者护理、优化临床工作流程并加速挽救生命的医学研究。 这是一个关键的高影响力职位,旨在推动尖端人工智能的实际应用,以彻底改变医疗保健。 重点 您的主要重点将是架构、构建和维护支持我们大型多模态生成模型的关键数据基础设施。这包括管理庞大数据集的整个生命周期——从多样化训练数据的摄取和处理到用于增强模型能力的广泛知识源的集成和检索。您将构建使我们的人工智能能够从Tempus丰富的真实世界证据中学习的数据支撑。 主要职责 作为该领域的技术领导者,您将: • 架构和构建复杂的数据处理工作流,负责摄取、处理和准备多模态训练数据,这些数据能够无缝集成到大规模分布式机器学习训练框架和基础设施(GPU集群)中。 • 制定高效、合规的数据摄取策略,来自多种来源,包括内部数据库、第三方API、公共生物医学数据集和Tempus的专有数据生态系统。 • 利用、优化并贡献于专门用于大规模机器学习数据加载和流式处理的框架(例如,Mosaic ML流式处理、Ray数据、HF数据集)。 • 与基础设施和平台团队紧密合作,利用和优化云原生服务(主要是GCP)以提高性能、成本效益和安全性。 • 为从多种知识源(如知识图谱、内部结构化数据库、生物医学文献库(如Pub Med)和策划本体)访问和处理信息,工程高效的连接器和数据加载器。 • 优化数据存储,以便有效进行大规模训练和知识访问。 • 使用Airflow、Kubeflow Pipelines等工具协调、监控和排除复杂数据工作流的故障。 • 为数据管道健康、数据漂移检测和数据质量保证建立稳健的监控、日志记录和警报系统,为持续改进提供反馈循环。 • 分析和优化数据输入/输出性能瓶颈,考虑存储系统、网络带宽和计算资源。 • 积极管理并寻求优化与在云中存储和处理海量数据集相关的成本。 所需技能和经验 • 计算机科学、人工智能、软件工程或相关领域的硕士学位。具有强大的学术背景,重点关注人工智能数据工程。 • 在生产环境中设计、构建和运营大规模数据管道和基础设施方面有8年以上的行业经验。 • 在处理大规模异构数据集(TB级以上)方面具有丰富经验。