响马读paper

一个要求成员每月至少读一篇文献并打卡的学术交流社群

本页面显示由用户 Vincent 推荐的文献。 当前共有 23 篇文献,本页显示第 1 - 20 篇。

1.
2023, Nature. DOI: 10.1038/s41586-023-06139-9
2024-02-29 17:06:00
#paper Transfer learning enables predictions in network biology. Nature. 2023. doi: https://doi.org/10.1038/s41586-023-06139-9. 学习基因互作网络通常需要大量数据,对于数据较少的生物研究来说,利用迁移学习和预训练模型能够有效降低对数据量的需求。这篇文章提出了一种基于transformer的深度学习模型geneformer,其使用了大量的单细胞数据集进行预训练(自监督学习)。在模型训练中,geneformer 并未使用gene的原始表达值,而是使用了gene expression rank(相当于数据降噪)来学习基因网络。对于下游任务,利用少量数据对模型微调就能够很好的增强预测准确率。文章列举了geneformer在基因剂量, 染色质,基因网络方面的例子,预测准确性相较传统的机器学习模型均有明显提升。
2.
2006, Journal of the American Statistical Association.
2024-01-31 15:43:00
#paper doi:https://www.jstor.org/stable/30047444 Journal of the American Statistical Association, 2006, Prediction by Supervised Principal Components. 当特征维度较高时,回归分析结果往往不是很理想,这一方面是因为数据噪声较大,另一方面是特征之间的相关性较高所导致的。这篇文章提出了一个简单有效的监督学习降维的框架,即根据特征与因变量之间的回归系数进行阈值筛选,再对筛出的少量特征降维,利用得到的主成分进行回归或者广义回归分析。这篇文章的主要理论贡献是在回归和生存分析的背景下论证了该方法的渐进一致性,比较了该方法其他方法(例如岭回归,lasso回归,偏最小二乘)的异同。文章最后还提到了该方法的局限性,例如无法处理单个特征与因变量边缘独立,但是几个特征联合起来与因变量不独立的情况等。
3.
2023, Science. DOI: 10.1126/science.adi6000
2023-12-31 21:15:00
#paper doi: 10.1126/science.adi6000 Prediction-powered inference, science 2023 目前很多领域里已标注的数据(金标准)较稀缺而未标注的数据较丰富,如何使用这些数据得到严谨的统计结论还面临着颇多挑战。传统方法的思路是只使用这些少数的金标准的数据进行统计推断,这种方案得到的统计结果有效,但样本量少会导致可能的发现较少。另一种思路是使用预测模型对未标注的数据进行标注,用补全标签后的数据和金标准数据进行统计推断,这种方案样本量大,但其假设了预测模型是完美的, 很多时候这种假设并不成立,预测误差与偏差累计可能会导致无效的统计结论。这篇文章提出了一个通用的框架,在使用预测模型的同时也保证了统计结论的有效性。该框架分为三步,1.选择需要估计的参数,2.从未标注数据估计拟合度,从标注数据估计矫正量,3.结合拟合度与校正量获取参数的置信区间。文章在数学上证明了对于任意的预测算法与数据分布,这种基于预测的统计推断能够确保置信区间涵盖真实值的概率达到给定的置信度。由于该方法能够使用的样本量更大,后续数据分析也验证了其较传统方法得到的置信区间更窄,p-value更有效。
4.
2019, arXiv. DOI: 10.48550/arXiv.1902.04601 arXiv ID: 1902.04601
2023-11-30 16:34:00
#paper Contrastive Variational Autoencoder Enhances Salient Features, arxiv, 2019 https://arxiv.org/abs/1902.04601 最近的对比PCA采用了对比学习的思路,能够捕捉目标数据集与背景之间的差异,从而实现保留对比信号的无监督降维。然而对比PCA跟PCA类似,只能对变量做线性组合进行降维,无法捕捉变量间的非线性关系。这篇文章对对比PCA做了拓展,使用变分自编码模型(VAE)来实现对非线性关系的捕捉,该方法称为对比VAE。对比VAE通过对数据集间的共享特征以及富集在目标数据中的特征进行显式建模,从而分离和增强目标数据中的突出潜在特征。该方法的运算时间与VAE类似,并且对噪音和数据纯度有较高的鲁棒性。文章在多个数据集上(例如手写数字MNIST)验证了该方法在捕捉突出潜在特征方面的有效性,比起传统的VAE也有持续提高。同时其作为一种生成式学习工具,训练好以后也能够用这些显著潜在特征来生成新的数据。
5.
2022, Nature Reviews Genetics. DOI: 10.1038/s41576-022-00477-6
2023-10-31 14:27:00
#paper https://doi.org/10.1038/s41576-022-00477-6 Nat Rev Genet 2022 Making sense of the ageing methylome 衰老近些年引起了比较大的研究兴趣。这篇综述文章总结了近些年关于衰老的甲基化组学研究。文章介绍了寻找衰老关联位点的几种统计方法和对应的工具,例如最常见的使用线性模型寻找差异化位点,使用假设检验寻找变异位点,以及通过使用熵值和相关性网络等统计工具寻找更复杂的变化模式。此外文章还介绍了一些有趣的与衰老相关的甲基化证据,探讨了通过干预甲基化模式与机制来达到延长寿命的策略。最后文章还讨论了甲基化年龄机理的相关理论。
6.
2018, Nature Methods. DOI: 10.1038/s41592-018-0213-x
2023-09-30 23:59:00
#paper https://doi.org/10.1038/s41592-018-0213-x Identification of differentially methylated cell types in epigenome-wide association studies. Nature Methods, 2018。表观基因组关联研究经常使用细胞类型的比例作为协变量,使用线性模型挖掘出与研究性状相关的差异甲基化位点,然而此类方法很难确定具体是什么细胞类型导致了该差异甲基化位点。这篇论文介绍了简单而有效的新的甲基化差异检测方法,通过引入性状与细胞类型的interaction term,在原有的统计框架下,该方法能够发现引起甲基化位点变化的具体的细胞类型。在模拟研究中,该方法表现优异,能够达到超过90%的灵敏度和特异性。
7.
2023, arXiv. DOI: 10.48550/arXiv.2306.03301 arXiv ID: 2306.03301
2023-08-31 23:50:00
#paper https://doi.org/10.48550/arXiv.2306.03301. arxiv 2023, Estimating Conditional Mutual Information for Dynamic Feature Selection. 动态特征选择涉及到学习特征选择策略,以及使用任意特征对目标值进行预测。其中学习选择策略往往十分具有挑战性。这篇文章介绍了一种基于特征与预测目标的条件互信息(conditional mutual information)对特征进行优先级排序,该方法通过训练一个神经网络估算在给定特征集情况下,其他特征的预测能力(条件互信息),每一步选择最具信息的特征加入到已有特征集中。依次迭代下去直到满足停止条件(例如达到给定特征数量,不确定度,代价等)。此外,该框架同样能够利用先验信息。文章验证了该方法在表格与图像数据集测试中均有不错效果。
8.
2021, Nature Machine Intelligence. DOI: 10.1038/s42256-021-00383-2
2023-07-31 14:42:00
#paper Deep learning-based prediction of the T cell receptor–antigen binding specificity https://doi.org/10.1038/s42256-021-00383-2 2021 nature machine intelligence. 肿瘤新抗原在T细胞识别肿瘤细胞的过程中发挥着重要的作用,肿瘤新抗原与T细胞受体的结合与相互作用预测一直备受关注,然而相关的实验与计算方法一直有诸多不足,可验证性也很差。这篇文章开发了一套基于迁移学习的机器学习方法pMTnet,来预测抗原MHC结合物与T细胞受体的结合能力。通过将pMTnet运用到人的肿瘤基因组数据上,发现肿瘤新抗原比自身抗原的免疫原性更高,拥有对肿瘤新抗原结合能力强的T细胞克隆的病人在免疫治疗中有更好的预后和治疗效果。
9.
2018, Nature Communications. DOI: 10.1038/s41467-018-04608-8
2023-06-30 15:00:00
#paper https://www.nature.com/articles/s41467-018-04608-8, Nature communication 2018, Exploring patterns enriched in a dataset with contrastive principal component analysis PCA(主成分分析)能够将高维数据映射到低维,是最常用的数据探索和可视化工具。然而PCA(以及其他降维方法例如t-sne, umap)每次只能分析一个数据集。当处理多个数据集,尤其是寻找某数据集特有的信号时,使用PCA就需要人工比较不同数据集的投影来试图寻找数据集间的相似和不同点。这篇文章提出了解决此类问题的一种简单有效的降维方法:对比PCA。该方法旨在寻找一个投影,使得目标数据集和背景数据集的差距尽可能大,从而富集目标数据集特有的信号。该方法原理与实现和PCA类似,后续实验验证了其能有效发现那些被PCA忽视的目标数据集特有的信号。除此之外,文章还详述了该方法的理论基础和几何表示,并指出其可以运用在很多PCA的使用场景中。
10.
2008, Journal of the Royal Statistical Society Series B: Statistical Methodology. DOI: 10.1111/j.1467-9868.2008.00674.x
2023-05-31 13:56:00
#paper doi: https://doi.org/10.1111/j.1467-9868.2008.00674.x Journal of he Royal Statistical Society, 2008, Sure independence screening for ultrahighdimensional feature space. 高维数据往往面临着两大难题,参数估计的准确性和计算负担。先前的方法(Dantzig selector)在处理极高维数据(log p > n)时还是不够有效,这篇文章提出了一种基于相关性学习的特征筛选方法,能够将数据从极高维降到的合适的维度(小于n)。文章展示了在十分普遍的渐进框架下,相关性学习有可靠的筛选性能。同时作为该方法的扩展,文章还提出了一种迭代式的特征筛选,能够在有限数据量的情况下,提高筛选的准确性。此外当使用该方法把高维数据降低到低维之后,其他变量选择的方法例如lasso等也可以被运用进来,从而实现更准确和更快速的变量选择。
11.
2023, Nature Reviews Genetics. DOI: 10.1038/s41576-023-00586-w
2023-04-30 15:13:00
#paper doi: https://www.nature.com/articles/s41576-023-00586-w Best practices for single-cell analysis across modalities. Nature review genetics,2023. 这篇综述文章来自Fabian Theis组, 是一篇极好的单细胞分析指导文章。文章涵盖了几种不同的技术(scRNA-seq, scATAC-seq, scTCR/BCR, spatial transcriptomics), 对于每一种技术路线,介绍了完整的分析流程和目前最好的处理方法,例如scRNA, 介绍了原始数据处理、数据过滤和去杂,标准化和批次效应去除,降维聚类分型,拟时序分析和RNA速率分析,差异基因分析,细胞组成分析和细胞通讯分析等等。对于每一个步骤,文章会总结当前的最佳实践(如果有其他文章做过基准测试)或者给出分析建议(如果目前还没有基准测试的工作)。鉴于当前单细胞分析领域各种方法层出不穷,这篇文章提供了一个很好的指导总结,非常推荐做单细胞分析的朋友阅读。
12.
2019, arXiv. DOI: 10.48550/arXiv.1904.10098 arXiv ID: 1904.10098
2023-03-31 15:34:00
#paper https://doi.org/10.48550/arXiv.1904.10098 ICML 2019 DAG-GNN: DAG Structure Learning with Graph Neural Networks. 有向无环图(DAG)的结构学习是一项十分具有挑战性的工作,其搜索空间随着节点数的增多而呈现指数式的增长。常用的研究手段是将结构学习转化为一种score的优化问题。为了让问题可解,传统的方法通常考虑线性结构方程模型(Linear SEM),这篇文章基于线性SEM的框架,发展了一套基于变分自编码器VAE和图神经网络GNN的DAG学习方法,得益于神经网络的非线性拟合,这套方法在保证至少比线性SEM好的情况下还能解决一些非线性的问题。通过数据仿真和真实数据的学习,文章验证了该方法的准确度比线性SEM好,假发现率比线性SEM低。
13.
2021, Nature Methods. DOI: 10.1038/s41592-021-01205-4
2023-02-28 19:08:00
#paper DOI: https://doi.org/10.1038/s41592-021-01205-4 DOME: recommendations for supervised machine learning validation in biology. Nat Methods 2021. 机器学习方法在生物学领域变得越发重要,理想情况下机器学习预测结果最好能够被生物实验所验证,但是目前绝大多数的文章并没有配套的实验验证步骤,而只是通过计算指标来反映模型的性能,但这类计算指标往往受很多步骤的影响(例如数据集选择,训练集测试集的拆分,正负样本平衡性等等),导致最后的结论不一定稳定可靠。这篇评论文章旨在号召相关领域应该建立一套机器学习研究的写作和汇报标准,从而提高该领域内机器学习应用的交流效率。这篇文章从数据,算法,模型,评价四个方面列举了诸多影响模型性能的因素,并建议研究者在发表机器学习的文章时应该参照这四个方面的问题,详细阐述方法的细节,以此推动文章评审的效率,提高研究的透明度和可重复性
14.
2021, Genome Biology. DOI: 10.1186/s13059-021-02388-x
2023-01-31 14:45:00
#paper doi:https://doi.org/10.1186/s13059-021-02388-x Gene set enrichment analysis for genome-wide DNA methylation data. Genome Biology 2021. 甲基化芯片相比WGBS而言所需要的费用更低,其被广泛用于DNA甲基化的测量。过去的研究主要着重于甲基化芯片的数据处理和甲基化差异分析上,对基因集富集分析的关注较少,这篇文章提出了一个基于甲基化差异分析结果的的基因集富集分析:GOmeth(适用于探针层面的差异分析数据)和GOregion(适用于区域层面的差异分析数据)。具体来说,CpG位点在基因组上的分布并不是均匀的,不同基因附近的CpG位点数量并不一样多,这导致依照甲基化差异分析选择相邻基因做富集分析时,CpG较多的基因更容易被选中,给富集分析带来偏差。同时同一个CpG位点可能位于好几个基因附近(大概占总数的8%),导致那些差异甲基化的基因并不是独立获得的,也会给基因集富集分析带来偏差。这篇文章的方案调整了富集分析中CpG位点的权重和统计分布,通过数据仿真和重复抽样的方法探究了上述两种偏差对基因集富集分析的影响,同时也验证了提出的方法能够很好的控制错误发现率(FDR),同时能给更加biological meaningful的通路分析结果
15.
2019, Genome Biology. DOI: 10.1186/s13059-019-1824-y
2022-12-31 17:51:00
#paper DNA methylation aging clocks: challenges and recommendations, Genome Biology, 2019, https://doi.org/10.1186/s13059-019-1824-y 衰老通常伴随着疾病的发生,理解人类为何以及如何衰老是生物学中的重要课题。衰老伴随着分子层面的变化,过去十年内,不少研究发现可以使用基因组上的一部分CpG位点甲基化水平来准确预测年龄,这样的一组CpG位点又被称为 表观遗传时钟。事实上表观遗传时钟的预测误差与疾病发生率和死亡率也被发现有联系,从而广泛引起了研究者们的兴趣。这篇综述文章总结了表观遗传时钟领域的如下七大挑战,并分别介绍了研究现状,不确定性和未来研究方向的推荐:1. 拆分表观时钟的时序成分和生物成分;2. 组织特异或者疾病特异时钟的功能性研究;3.大规模时序种群研究的表观遗传学整合; 4. 衰老的全基因组分析以及其他表观遗传标记物的探索;5. 衰老与疾病的单细胞组学分析; 6. 稳健产生其他物种的衰老数据; 7. 将表观遗传学与遗传学的伦理和法律框架融合起来。个人感觉文章质量一般
16.
2020, Nature Communications. DOI: 10.1038/s41467-020-15298-6
2022-11-30 19:09:00
#paper https://doi.org/10.1038/s41467-020-15298-6 nature communication, 2020, Integrative differential expression and gene set enrichment analysis using summary statistics for scRNA-seq studies. 基因表达差异分析和基因集富集分析是单细胞领域两个最常用的分析方式,但是两种分析往往是独立进行的,由于单细胞数据噪声较大,这样单独分析会造成统计效力的降低以及不同的数据集(或者使用不同方法分析同一套数据)得到的分析结果不一致。另一方面差异分析和富集分析其实在内部是紧密相连的,差异分析的结果是富集分析的基础,同时基因集富集分析反过来也可以反哺差异分析(基因之间并非独立,如果某基因差异表达了,与之相关的基因也可能差异表达),这意味着将两者结合起来同时分析能够提高统计效力并且使得分析结果更加稳健和可重复。这篇文章提出了一种新方法iDEA,该方法使用了层次贝叶斯模型,将差异分析和富集分析整合起来综合分析,通过仿真实验和真实数据分析,文章发现该方法较现有的差异或者富集方法有更高的统计效力,更一致的差异分析结果和更准确的富集分析结论
17.
2022, Nature Reviews Genetics. DOI: 10.1038/s41576-022-00532-2
2022-10-31 15:22:00
#paper Obtaining genetics insights from deep learning via explainable artificial intelligence, Nature Reviews Genetics https://doi.org/10.1038/ s41576-022-00532-2 基于深度学习的人工智能模型在基因组功能预测中发挥重要作用,被认为是当下表现最好的模型(state of the art)。但是由于深度学习模型的复杂性, 它们往往被认为是黑箱模型,其预测效果/机制往往很难被解释,但是基因组的研究中很多时候作用机制(过程)比预测效果(结果)更有价值。这篇review paper总结了近年来新兴的可解释性机器学习(xAI)技术在基因组领域的研究进展,展望了该技术在揭示生物机理方面的潜能。这篇文章主要以regulatory genomics 作为例子, 总结归纳了4种解释机器学习模型的技术:基于模型的解释(检查隐含层的神经元活动,注意力机制),影响的数学传播(前向传播/后向传播), 特征相互作用的鉴别,和基于先验知识的透明模型,以及这几种技术在高通量测序技术中的潜在假设和相应的局限性。
18.
2021, Nature Reviews Methods Primers. DOI: 10.1038/s43586-021-00056-9
2022-09-30 14:56:00
#paper doi: https://doi.org/10.1038/s43586-021-00056-9 Genome-wide association studies. Nature Reviews Methods Primers. 2021. GWAS旨在寻找基因型和表型之间的关联。截止目前,总共有超过5700项,涵盖3300性状的GWAS研究。这篇review文章丛统计原理、实验设计、实际操作、结果解释,下游应用等方面很好地介绍了全基因组关联研究(GWAS)。在统计原理方面,文章介绍了假设检验常用的线性混合模型,假发现率的控制(FDR control)和下游fine mapping方法。实验设计方面,文章详细介绍了人群的选择(population-based, family-based 和 isolation populations),以及测序技术(microarray, WES, WGS)方面的优缺点。应用上,文章介绍了GWAS的两大重要应用:疾病风险预测(PRS score) 和 揭示生物性状的遗传基础。文章最后还提及了GWAS研究目前的局限和对未来发展的期待。总结起来是篇很不错的GWAS入门文章。
19.
2021, Nature Reviews Molecular Cell Biology. DOI: 10.1038/s41580-021-00407-0
2022-08-31 13:52:00
#paper  https://doi.org/10.1038/s41580-021-00407-0, Nat Rev Mol Cell Biol, 2021, A guide to machine learning for biologists. 这篇review paper深入浅出的介绍了各类机器学习算法和在生物领域的应用。文章一开始先梳理了很多ML的关键概念(例如机器学习算法的分类,overfitting/underfitting,bias-variance tradeoff)。随后分别介绍了传统机器学习算法(PCA, k-means, SVM, ridge regression, randomforest等),基于深度学习的算法(CNN, RNN, transformer, autoencoder等),描述了每种算法的优缺点和并且探讨了在生物学数据中使用机器学习算法的最佳实践。文章最后还介绍了机器学习算法在生物学领域的所面临的的挑战,例如数据可得性, 数据泄露, 模型可解释性,以及隐私保护方面的问题。感兴趣的可以看看,是一篇十分不错的参考文献。
20.
2021, Bioinformatics. DOI: 10.1093/bioinformatics/btab083
2022-07-31 17:30:00
#paper doi: 10.1093/bioinformatics/btab083 DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome. 由于序列多义性和遥远的语义联系,基因调控编码十分复杂。近年来有研究陆续发现DNA序列,尤其是非编码区序列,在字符表、语法、语义方面的特征都与自然语言相似,而基于transformer注意力机制的机器学习工具BERT在自然语言处理方面大放异彩。这篇文章运用类似的研究思路开发了DNABERT,一个基于上下文序列的、能表征DNA特征的预处理模型。为了展现这个模型的用处和效果,这篇文章尝试了几个经典的计算任务:启动子预测、剪切位点预测和转录因子结合位点的预测,文章先使用该模型去encode DNA 序列,然后再对具体的计算任务fine-tune,发现其在准确度上能够轻松超越其他算法。同时为了解决基于深度学习可解释性差的问题,该方法提供了可视化选项,能展现位点层面的重要性以及与其他位点的联系(attention机制)。同时该工作还发现用人类基因组预训练的模型,运用到其他生物也有很好的效果,进一步展现了这种encoding是可以迁移的(不是memorize,而是真正抓住了一些序列层面特征)
TOP