全球药物开发的生产力正在呈指数级下降,无法有效开发针对许多日益普遍的复杂疾病的治疗方法,这些疾病每年影响数百万患者。我们希望通过结合创新的机器学习技术和开创性的测量多个细胞方面的技术来解决这个问题,旨在大幅改进和加速药物的发现和开发过程。
我们正在寻找高度积极的实习生加入数据科学和机器学习(DSML)团队,希望在2024年夏季加入我们的团队,从事机器学习和生命科学的交叉领域工作。
在整个暑期(11周)期间,您将与DSML团队导师直接合作,开发和/或应用机器学习方法来处理和分析来自多种模态的大规模数据集。DSML团队跨越公司各个领域开展工作,涵盖成像、组学、统计遗传学、小分子发现、临床研究和研究软件工程等。
您将在以下领域和主题上进行工作:
• 计算生物学:
• 进行单细胞转录组数据分析,包括细胞类型注释和使用RNA速度模型建模分化轨迹;
• 使用生物信息学方法进行下游分析,以提取有关疾病机制的见解,如与治疗领域相关的基因和通路;
• 组学和成像数据模态的方法:
• 开发、生产化和部署先进的机器学习方法,分析和整合大规模多模态表型数据,包括多组学模态(单细胞(sc)转录组学、sc-ATAC-seq)和成像(如明场、组织病理学)。
• 开发机器学习方法,处理和分析来自多种显微镜模态的图像,并整合我们的体外成像数据,以提取有关疾病机制的见解。
• 研究工程:
• 探索一些关于自监督学习的最近论文,并证明它们在应用于insitro的内部生物数据集时,与我们当前的算法相比,是否提供实际的好处;
• 帮助我们将新的大型语言模型整合到我们的分析工具中,以帮助我们的分析师更好地利用我们的实验数据,更快地进行分析。
• 统计和转化遗传学:
• 开发工作流程,以支持GWAS(全基因组关联扫描)结果的后续分析,如精细定位等;
• 转化遗传学深入研究:实现对候选基因的更高通量注释和探索,以支持我们的发现工作;
• 创建流水线,更好地获取和利用测序细胞系的元数据,并将其纳入基于图像的机器学习特征提取中;
• 设计统计方法,改进罕见变异负担测试,并改进纵向表型的研究力量;
• 临床机器学习:
• 开发用于从高内容临床成像或时间序列数据(如组织病理学、MRI/PET-CT、EEG、EKG)中填补与疾病相关的表型的机器学习模型;
• 开发用于解开复杂表型变异轴的机器学习方法;
• 使用LLMs从医疗记录中提取与疾病相关的信息;
• 小分子机器学习:
• 使用DNA-Encode Library(DEL)数据构建丰富的嵌入模型,并将这些表示用于下游药物发现任务,如发现靶点;
• 探索各种数据模态中小分子的生成模型,如2D和3D表示,用于药物发现的进一步研究;
• 开发新的几何深度学习方法,更好地表征微妙的分子性质和关系。
通过这次实习,您将学到以下知识和经验:
• 在实习期间,您将学习多种机器学习技术,对复杂数据集进行严格分析,并设计指标以确保我们方法的稳健性。
• 您可以期望开发和原型化解决方案,以在我们的自动化工作流程中实现基于机器学习的决策。
• 您将与机器学习工程师、科学家、生物学家、化学家、显微镜专家和自动化工程师密切合作。
• 您将得到我们的资深研究人员的指导,他在机器学习和计算生物学方面拥有丰富的经验。
• 您还将参加我们的机器学习团队会议,并接触到各种解决不同生物学问题的新技术和机器学习概念。
作为回报,我们将为您提供支持:
• 对您的想法和执行给予高度的信任
• 让您迅速了解药物开发领域
• 努力提供低压力的工作环境
• 提供合作机会
• 关心您作为一个完整的人,而不仅仅是一个资源
• 作为一家资金充裕的初创公司,具备稳健的资金储备
关于您:
• 正在攻读工程、计算生物学、系统生物学、计算机科学、数学、统计学、生命科学、化学、物理学或相关领域的学士、硕士或博士学位
• 熟练掌握一种或多种通用编程语言。我们主要使用Python
• 对使用和开发受现实问题启发的全新统计和机器学习方法感兴趣
• 对人体生理学或疾病生物学有好奇心
• 致力于编写高质量、有良好注释的代码和文档
• 能够有效沟通并与具有不同背景和工作职能的人合作
• 热衷于改变世界
以下是一些额外的优势:
• 有生物数据的第一手经验,最好是使用计算方法
• 热衷于学习如何处理各种功能基因组学实验(RNA/DNase/ATAC/ChIP-seq等)
• 对学习如何分析单细胞RNA测序数据感兴趣
• 对计算化学有扎实的理解,包括虚拟筛选(经典QSAR建模、基于结构的药物发现)、库设计等
• 具备使用和开发受现实问题启发的尖端统计和机器学习方法的能力
• 有机器学习和深度学习框架的经验(例如scikit-learn、PyTorch等)
• 具备编写高质量、可投入生产的代码的能力(可读性强、经过良好测试、具有良好设计的API)
• 在Linux环境下有经验,熟悉数据库语言(如SQL、No-SQL)和版本控制实践和工具,如Git或Mercurial
• 在相关计算生物学、生物信息学、系统生物学、生命科学或生物医学领域的高质量工作发表,包括期刊和会议
• 热衷于解决问题、提出问题和独立学习
• 熟悉SciPy/PyData生态系统(numpy、pandas、scipy、dask等)
• 熟悉云计算服务(AWS或GCP)
• 熟悉统计分析软件,如R
insitro的薪酬和福利
我们对该职位的美国申请者的目标起薪范围为每小时55美元至65美元。我们确定起薪时,考虑了多个与工作相关的因素,包括候选人的技能、教育和经验、市场需求、业务需求和内部平衡。根据市场数据,我们可能在将来调整这个范围。
此外,insitro还为我们的实习生提供以下福利:
• 优秀的医疗、牙科和视觉保险;insitro为员工支付100%的保费
• 优秀的心理健康和福祉支持
• 免费的现场咖啡师和咖啡厅,每天提供午餐和早餐
• 免费的现场健身中心
• 通勤福利
insitro是一家机会均等的雇主。我们将对所有申请者进行就业考虑,不论种族、肤色、宗教、性别、性取向、性别认同、国籍、退伍军人或残疾状况。
我们认为多样性、公平和包容需要成为我们文化的基础。我们努力汇集多样化的团队,这些团队拥有广泛的专业知识和生活经验,并更加努力确保这些团队在包容、成长导向的环境中蓬勃发展,得到公平的公司和团队实践的支持。所有候选人可以期待在整个面试过程中获得公平的对待、尊重和公正。
insitro是一家机会均等的雇主。我们将对所有申请者进行就业考虑,不论种族、肤色、宗教、性别、性取向、性别认同、国籍、退伍军人或残疾状况。我们认为多样性、公平和包容需要成为我们文化的基础。我们努力汇集多样化的团队,这些团队拥有广泛的专业知识和生活经验,并更加努力确保这些团队在包容、成长导向的环境中蓬勃发展,得到公平的公司和团队实践的支持。所有候选人可以期待在整个面试过程中获得公平的对待、尊重和公正。
关于insitro
insitro是一家利用机器学习(ML)和大规模数据解读生物学以开发转化医学的药物研发公司。insitro的核心方法是整合内部生成的多模态细胞数据和高内容表型人群数据。我们依靠这些数据开发基于机器学习的预测性疾病模型,揭示潜在的生物状态和疾病的关键驱动因素。这些强大的模型依赖于广泛的生物学和计算基础设施,使insitro能够推进新的靶点和患者生物标志物的研究,设计治疗方法并制定临床策略。insitro正在推进在神经科学、肿瘤学和代谢学领域的全资和合作项目的洞察和治疗。自2018年成立以来,insitro已从顶级科技、生物技术和交叉投资者以及与制药合作伙伴的合作中筹集了超过7亿美元的资金。有关insitro的更多信息,请访问www.insitro.com。