李翛然 (2023-09-26 17:25):
#paper Cell2Sentence: Teaching Large Language Models the Language of Biology doi:10.1101/2023.09.11.557287; 该论文提出了一种称为Cell2Sentence的新方法,以便使大规模语言模型能够在单细胞转录组数据上进行训练。 该方法将基因表达配置文件表示为文本序列,作者称之为“细胞句子”。 这些细胞句子由基因名称组成,这些基因名称根据表达水平排序,从而创造了一个稳健且可逆的生物数据编码。作者的研究表明,细胞句子以语言模型易于理解的格式正确编码了基因表达数据。 在这些细胞句子上微调的语言模型不仅稳健收敛,而且与从零开始训练的模型或其他专门用于处理单细胞RNA测序数据的前沿深度学习模型相比,在与细胞句子相关的任务上的表现显著提高。 细胞句子可以与文本注释无缝集成,以执行生成和总结任务,这两种任务都从自然语言预训练中受益。 事实上,在使用Cell2Sentence生成的细胞句子上应用任何基于文本的体系结构没有理论限制。 作者的发现强调了迁移学习在这一交叉学科设置中的好处。 总之,该方法提供了一种简单、可适应的框架,利用现有的语言模型和库将自然语言和转录组学相结合。 作者证明了语言模型可以被进一步微调以生成和理解转录组学数据,同时保留其生成文本的能力。这为分析、解释和生成单细胞RNA测序数据开辟了新的途径。 关键贡献包括: 引入Cell2Sentence,一种有效的方法,可以将单细胞数据表示为文本序列。 证明了大规模语言模型可以在细胞句子上进行微调,以生成准确的细胞类型并理解转录组数据,从而预测细胞标签。 提供了一个简单且模块化的框架,利用流行的LLM库将LLM适配到转录组学。 Cell2Sentence模型的关键思想是将单个细胞的基因表达谱转换成基因名称的文本序列,这些基因名称按表达水平排序。具体来说:对单细胞RNA测序数据进行标准预处理,包括过滤低质量细胞,归一化计数矩阵等。对每个细胞的基因表达式进行排序,排序根据每个基因的表达量从高到低进行。将排序后的基因名称序列作为该细胞对应的文本,称为“细胞句子”。可以在细胞句子中加入元数据,如细胞类型等 biological annotations。现有的预训练语言模型可以在这些细胞句子上进一步微调,学习细胞句子的分布。微调后的模型可以用于下游任务,如根据细胞类型提示生成细胞句子,或者根据细胞句子预测细胞类型等。生成的细胞句子可以转换回基因表达空间,用于后续分析。整个框架提供了一种直接运用现有语言模型处理转录组学数据的灵活方法。 Cell2Sentence的关键创新在于提出了一种可逆的细胞表达至文本序列的转换,将单细胞数据表示成语言模型可以处理的格式。研究表明,该转换可以高效地在两个模态之间传递信息,为应用自然语言模型提供了可能。 这是我看到的第一个大模型的方法在基因和单细胞分析上,一看就是一个学生作品,比如关于转录中,上下游的调控,和基因的异质性的问题都没有考虑。 不过把,我倒觉得是个进步,随着AI的深度介入,如果真的在 DNA-RNA-蛋白质建立起来了一个庞大的对应关系库。 那么人类的再生医学会有质的飞跃,而且我觉得这个时间不会太久。
Cell2Sentence: Teaching Large Language Models the Language of Biology
翻译
Abstract:
AbstractLarge language models like GPT have shown impressive performance on natural language tasks. Here, we present a novel method to directly adapt these pretrained models to a biological context, specifically single-cell transcriptomics, by representing gene expression data as text. Our Cell2Sentence approach converts each cell’s gene expression profile into a sequence of gene names ordered by expression level. We show that these gene sequences, which we term “cell sentences”, can be used to fine-tune causal language models like GPT-2. Critically, we find that natural language pretraining boosts model performance on cell sentence tasks. When fine-tuned on cell sentences, GPT-2 generates biologically valid cells when prompted with a cell type. Conversely, it can also accurately predict cell type labels when prompted with cell sentences. This demonstrates that language models fine-tuned using Cell2Sentence can gain a biological understanding of single-cell data, while retaining their ability to generate text. Our approach provides a simple, adaptable framework to combine natural language and transcriptomics using existing models and libraries. Our code is available at:https://github.com/vandijklab/cell2sentence-ft.
翻译
回到顶部