看图追踪蛋白扎克伯格和妻子创立的生物中心开发AI新算法

·《自然》子刊上最新发表了一种完全自监督学习的算法,能根据蛋白质图像,跟踪其定位的微小变化,预测蛋白质在细胞中协同工作的方式。这可能是进一步了解许多疾病和促进药物研发的关键。

人工智除了学会了从图像中识别和分类不同的狗品种(上),来自CZ Biohub的一种新的机器学习方法可以从荧光显微镜图像中分辨出不同的人类蛋白质(下) 图片来源:CZ Biohub

人体的每个细胞大约含有10000种不同类型的蛋白质,它们支持了几乎所有的细胞活动,堪称身体各项机能的“小管家”。有些蛋白质单独工作,有些则协同工作,来保证细胞的健康运转。

这些蛋白质可能以组合的形式,出现在细胞中的不同位置,它们究竟是怎么协调工作的?

7月下旬,来自陈·扎克伯格生物中心(CZ Biohub)的研究团队开发了这种名为“Cytoself”的完全自监督的深度学习方法,可以在没有任何先验知识的情况下,对蛋白质的显微镜图像进行定量分析和比较。

几十年来,生物学家一直在尝试各种方法和工具,确定细胞内蛋白质所有可能的位置和结构,来帮助人类进一步了解蛋白质的工作方式,而Cytoself的出现让问题的答案迅速浮出水面。

简单来说,它能够通过机器学习中的自我监督学习,来识别蛋白质定位的多样性和复杂性。

研究人员在对Cytoself算法进行训练时,并没有选择向算法逐一输入单个示例,而是选择了一种自我监督学习的训练方案,以此来揭示出高分辨率的蛋白质亚细胞定位图谱。

在监督学习模型中,人类必须不断地用单个的例子来教机器人,也就是需要向算法输入大量关于蛋白质图像的知识,从而达到对算法的训练效果,这个过程对于研究人员而言是繁杂且乏味的。如果机器人仅局限于人类给它训练的有限数目的例子,它可能会给系统带来一定的偏差。自我监督学习却可以规避这些缺点。

研究人员对Cytoself算法经过学习训练后从蛋白质图像中提取的信息量感到惊讶。Cytoself不仅展示了机器学习算法的能力,还能给细胞以及蛋白质的研究提供新的视角。

论文的通讯作者Loic Roye感慨道,“这非常令人兴奋,我们正在将人工智能应用于一种新的问题,并且正在复现人类所知道的一切,甚至发现人类目前还不知道的。”

另一个通讯作者Manuel D. Leonetti表示,“机器将每个蛋白质图像转换为数学向量,因此,研究人员可以对看起来几乎没有差别的蛋白质图像进行比较。我们亦可以通过比较蛋白质的图像来预测它们在细胞中协同工作的方式,这有点令人惊讶。”

机器学习和高速成像专家Kobayashi则表示,“虽然此前有一些关于使用自我监督或无监督模型的蛋白质图像的工作,但从未如此成功地将自我监督学习用于处理如此庞大的数据集,该数据集拥有超过100万张图像,涵盖了人体细胞中的1300多种蛋白质。”

值得一提的是,这100多万张图像来源于CZ Biohub的OpenCell数据库。这个数据库旨在创建人类细胞的完整图谱,包括最终描述细胞中20000种左右的蛋白质。

据悉,该研究团队下一步将用Cytoself跟踪蛋白质定位的微小变化,以识别不同的细胞状态,如正常细胞与癌细胞,这可能是进一步了解许多疾病和促进药物研发的关键。

对此,Kobayashi表示,药物研发过程中的筛选基本上需要反复进行试验,但是有了Cytoself算法后,科学家就不再需要用成千上万的蛋白质逐个做实验。这个方法可以有效降低成本,提高药物研发的速度。

Cytoself由陈·扎克伯格生物中心的科研人员发明,这家私人研究机构到底有何来头?

陈·扎克伯格生物中心于2016年正式启动,总部位于旧金山,它是一个非营利性研究中心。

据中国科学报报道,该中心由Facebook创始人马克·扎克伯格(Mark Zukerberg)与妻子普莉希拉·陈(Priscilla Chan)共同创立,位于美国加利福尼亚州旧金山市,是一家致力于治疗、预防与控制各类疾病的非盈利研究机构。2017年初,该中心宣布将无条件资助附近3所研究型大学里47位充满冒险新想法的研究者。该生物中心也是“陈·扎克伯格行动”涉足科学领域的第一个实体机构,在2016年9月成立之初,扎克伯格与儿科医生的妻子共同承诺,将在未来10年内对该中心持续投资30亿美元。

简单来说,陈·扎克伯格生物中心支持细胞生物学中严谨、定量的研究,来对抗由细胞失调引起的疾病。他们还帮助人类应对现有和新型病原体的威胁。除此之外,陈·扎克伯格生物中心开源他们的工具和技术给科研同行。

陈·扎克伯格生物中心的联合总裁Joe DeRisi博士曾表示,“陈·扎克伯格生物中心将通过创建新的技术平台、基础数据库和大规模细胞生物学管道,扩大我们在全球范围的病原体检测工作,在传染病和基础科学方面进行更加深入地研究。”

谈到了Cytoself,让我们不禁想到赫赫有名的AlphaFold。它们都是利用机器学习算法来研究蛋白质。但二者有何不同?

AlphaFold由DeepMind公司开发,根据基因序列已预测出2亿多种蛋白质结构。

而Cytoself是通过对蛋白质的荧光显微镜图像进行定量分析和比较,可以帮助科学家预测蛋白质在细胞中协同工作的方式。

总体而言,不论是AlphaFold系统,还是Cytoself算法,它们都是人工智能(AI)与生命科学研究领域跨学科融合的成果。在未来,这种跨学科的研究方法或许会越来越多,也会给人们带来更多惊喜和发现。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注