文献收藏与分享平台

21.

Vincent (2023-08-31 23:50):

#paper https://doi.org/10.48550/arXiv.2306.03301. arxiv 2023, Estimating Conditional Mutual Information for Dynamic Feature Selection. 动态特征选择涉及到学习特征选择策略，以及使用任意特征对目标值进行预测。其中学习选择策略往往十分具有挑战性。这篇文章介绍了一种基于特征与预测目标的条件互信息（conditional mutual information）对特征进行优先级排序，该方法通过训练一个神经网络估算在给定特征集情况下，其他特征的预测能力（条件互信息），每一步选择最具信息的特征加入到已有特征集中。依次迭代下去直到满足停止条件（例如达到给定特征数量，不确定度，代价等）。此外，该框架同样能够利用先验信息。文章验证了该方法在表格与图像数据集测试中均有不错效果。

arXiv, 2023. DOI: 10.48550/arXiv.2306.03301

Estimating Conditional Mutual Information for Dynamic Feature Selection

翻译

Soham Gadgil, Ian Covert, Su-In Lee

Abstract:

Dynamic feature selection, where we sequentially query features to make accurate predictions with a minimal budget, is a promising paradigm to reduce feature acquisition costs and provide transparency into the … >>>

翻译

22.

Vincent (2023-07-31 14:42):

#paper Deep learning-based prediction of the T cell receptor–antigen binding specificity https://doi.org/10.1038/s42256-021-00383-2 2021 nature machine intelligence. 肿瘤新抗原在T细胞识别肿瘤细胞的过程中发挥着重要的作用，肿瘤新抗原与T细胞受体的结合与相互作用预测一直备受关注，然而相关的实验与计算方法一直有诸多不足，可验证性也很差。这篇文章开发了一套基于迁移学习的机器学习方法pMTnet，来预测抗原MHC结合物与T细胞受体的结合能力。通过将pMTnet运用到人的肿瘤基因组数据上，发现肿瘤新抗原比自身抗原的免疫原性更高，拥有对肿瘤新抗原结合能力强的T细胞克隆的病人在免疫治疗中有更好的预后和治疗效果。

IF:18.800Q1 Nature machine intelligence, 2021-Oct. DOI: 10.1038/s42256-021-00383-2 PMID: 36003885 PMCID:PMC9396750

Deep learning-based prediction of the T cell receptor-antigen binding specificity

翻译

Abstract:

Neoantigens play a key role in the recognition of tumor cells by T cells. However, only a small proportion of neoantigens truly elicit T cell responses, and fewer clues exist … >>>

翻译

23.

Vincent (2023-06-30 15:00):

#paper https://www.nature.com/articles/s41467-018-04608-8, Nature communication 2018, Exploring patterns enriched in a dataset with contrastive principal component analysis PCA（主成分分析）能够将高维数据映射到低维，是最常用的数据探索和可视化工具。然而PCA（以及其他降维方法例如t-sne, umap）每次只能分析一个数据集。当处理多个数据集，尤其是寻找某数据集特有的信号时，使用PCA就需要人工比较不同数据集的投影来试图寻找数据集间的相似和不同点。这篇文章提出了解决此类问题的一种简单有效的降维方法：对比PCA。该方法旨在寻找一个投影，使得目标数据集和背景数据集的差距尽可能大，从而富集目标数据集特有的信号。该方法原理与实现和PCA类似，后续实验验证了其能有效发现那些被PCA忽视的目标数据集特有的信号。除此之外，文章还详述了该方法的理论基础和几何表示，并指出其可以运用在很多PCA的使用场景中。

IF:14.700Q1 Nature communications, 2018-05-30. DOI: 10.1038/s41467-018-04608-8 PMID: 29849030

Exploring patterns enriched in a dataset with contrastive principal component analysis

翻译

Abubakar Abid, Martin J Zhang, Vivek K Bagaria, James Zou

Abstract:

Visualization and exploration of high-dimensional data is a ubiquitous challenge across disciplines. Widely used techniques such as principal component analysis (PCA) aim to identify dominant trends in one dataset. However, … >>>

翻译

24.

Vincent (2023-05-31 13:56):

#paper doi: https://doi.org/10.1111/j.1467-9868.2008.00674.x Journal of he Royal Statistical Society, 2008, Sure independence screening for ultrahighdimensional feature space. 高维数据往往面临着两大难题，参数估计的准确性和计算负担。先前的方法(Dantzig selector)在处理极高维数据（log p > n）时还是不够有效，这篇文章提出了一种基于相关性学习的特征筛选方法，能够将数据从极高维降到的合适的维度（小于n）。文章展示了在十分普遍的渐进框架下，相关性学习有可靠的筛选性能。同时作为该方法的扩展，文章还提出了一种迭代式的特征筛选，能够在有限数据量的情况下，提高筛选的准确性。此外当使用该方法把高维数据降低到低维之后，其他变量选择的方法例如lasso等也可以被运用进来，从而实现更准确和更快速的变量选择。

Journal of the Royal Statistical Society Series B: Statistical Methodology, 2008. DOI: 10.1111/j.1467-9868.2008.00674.x

Sure Independence Screening for Ultrahigh Dimensional Feature Space

翻译

Jianqing Fan , Jinchi Lv

Abstract:

SummaryVariable selection plays an important role in high dimensional statistical modelling which nowadays appears in many areas and is key to various scientific discoveries. For problems of large scale or … >>>

翻译

25.

Vincent (2023-04-30 15:13):

#paper doi: https://www.nature.com/articles/s41576-023-00586-w Best practices for single-cell analysis across modalities. Nature review genetics，2023. 这篇综述文章来自Fabian Theis组，是一篇极好的单细胞分析指导文章。文章涵盖了几种不同的技术(scRNA-seq, scATAC-seq, scTCR/BCR, spatial transcriptomics), 对于每一种技术路线，介绍了完整的分析流程和目前最好的处理方法，例如scRNA, 介绍了原始数据处理、数据过滤和去杂，标准化和批次效应去除，降维聚类分型，拟时序分析和RNA速率分析，差异基因分析，细胞组成分析和细胞通讯分析等等。对于每一个步骤，文章会总结当前的最佳实践（如果有其他文章做过基准测试）或者给出分析建议（如果目前还没有基准测试的工作）。鉴于当前单细胞分析领域各种方法层出不穷，这篇文章提供了一个很好的指导总结，非常推荐做单细胞分析的朋友阅读。

Nature reviews. Genetics, 2023-08. DOI: 10.1038/s41576-023-00586-w PMID: 37002403

Best practices for single-cell analysis across modalities

翻译

Abstract:

Recent advances in single-cell technologies have enabled high-throughput molecular profiling of cells across modalities and locations. Single-cell transcriptomics data can now be complemented by chromatin accessibility, surface protein expression, adaptive … >>>

翻译

26.

Vincent (2023-03-31 15:34):

#paper https://doi.org/10.48550/arXiv.1904.10098 ICML 2019 DAG-GNN: DAG Structure Learning with Graph Neural Networks. 有向无环图（DAG）的结构学习是一项十分具有挑战性的工作，其搜索空间随着节点数的增多而呈现指数式的增长。常用的研究手段是将结构学习转化为一种score的优化问题。为了让问题可解，传统的方法通常考虑线性结构方程模型（Linear SEM），这篇文章基于线性SEM的框架，发展了一套基于变分自编码器VAE和图神经网络GNN的DAG学习方法，得益于神经网络的非线性拟合，这套方法在保证至少比线性SEM好的情况下还能解决一些非线性的问题。通过数据仿真和真实数据的学习，文章验证了该方法的准确度比线性SEM好，假发现率比线性SEM低。

arXiv, 2019. DOI: 10.48550/arXiv.1904.10098

DAG-GNN: DAG Structure Learning with Graph Neural Networks

翻译

Yue Yu, Jie Chen, Tian Gao, Mo Yu

Abstract:

Learning a faithful directed acyclic graph (DAG) from samples of a joint distribution is a challenging combinatorial problem, owing to the intractable search space superexponential in the number of graph … >>>

翻译

27.

Vincent (2023-02-28 19:08):

#paper DOI: https://doi.org/10.1038/s41592-021-01205-4 DOME: recommendations for supervised machine learning validation in biology. Nat Methods 2021. 机器学习方法在生物学领域变得越发重要，理想情况下机器学习预测结果最好能够被生物实验所验证，但是目前绝大多数的文章并没有配套的实验验证步骤，而只是通过计算指标来反映模型的性能，但这类计算指标往往受很多步骤的影响(例如数据集选择，训练集测试集的拆分，正负样本平衡性等等)，导致最后的结论不一定稳定可靠。这篇评论文章旨在号召相关领域应该建立一套机器学习研究的写作和汇报标准，从而提高该领域内机器学习应用的交流效率。这篇文章从数据，算法，模型，评价四个方面列举了诸多影响模型性能的因素，并建议研究者在发表机器学习的文章时应该参照这四个方面的问题，详细阐述方法的细节，以此推动文章评审的效率，提高研究的透明度和可重复性

IF:36.100Q1 Nature methods, 2021-10. DOI: 10.1038/s41592-021-01205-4 PMID: 34316068

DOME: recommendations for supervised machine learning validation in biology

翻译

Ian Walsh, Dmytro Fishman, Dario Garcia-Gasulla, Tiina Titma, Gianluca Pollastri, ELIXIR Machine Learning Focus Group, Jennifer Harrow, Fotis E Psomopoulos, Silvio C E Tosatto

Abstract: No abstract available.

28.

Vincent (2023-01-31 14:45):

#paper doi:https://doi.org/10.1186/s13059-021-02388-x Gene set enrichment analysis for genome-wide DNA methylation data. Genome Biology 2021. 甲基化芯片相比WGBS而言所需要的费用更低，其被广泛用于DNA甲基化的测量。过去的研究主要着重于甲基化芯片的数据处理和甲基化差异分析上，对基因集富集分析的关注较少，这篇文章提出了一个基于甲基化差异分析结果的的基因集富集分析：GOmeth（适用于探针层面的差异分析数据）和GOregion（适用于区域层面的差异分析数据）。具体来说，CpG位点在基因组上的分布并不是均匀的，不同基因附近的CpG位点数量并不一样多，这导致依照甲基化差异分析选择相邻基因做富集分析时，CpG较多的基因更容易被选中，给富集分析带来偏差。同时同一个CpG位点可能位于好几个基因附近（大概占总数的8%），导致那些差异甲基化的基因并不是独立获得的，也会给基因集富集分析带来偏差。这篇文章的方案调整了富集分析中CpG位点的权重和统计分布，通过数据仿真和重复抽样的方法探究了上述两种偏差对基因集富集分析的影响，同时也验证了提出的方法能够很好的控制错误发现率（FDR），同时能给更加biological meaningful的通路分析结果

IF:10.100Q1 Genome biology, 2021-06-08. DOI: 10.1186/s13059-021-02388-x PMID: 34103055

Gene set enrichment analysis for genome-wide DNA methylation data

翻译

Jovana Maksimovic, Alicia Oshlack, Belinda Phipson

Abstract:

DNA methylation is one of the most commonly studied epigenetic marks, due to its role in disease and development. Illumina methylation arrays have been extensively used to measure methylation across … >>>

翻译

29.

Vincent (2022-12-31 17:51):

#paper DNA methylation aging clocks: challenges and recommendations, Genome Biology, 2019, https://doi.org/10.1186/s13059-019-1824-y 衰老通常伴随着疾病的发生，理解人类为何以及如何衰老是生物学中的重要课题。衰老伴随着分子层面的变化，过去十年内，不少研究发现可以使用基因组上的一部分CpG位点甲基化水平来准确预测年龄，这样的一组CpG位点又被称为表观遗传时钟。事实上表观遗传时钟的预测误差与疾病发生率和死亡率也被发现有联系，从而广泛引起了研究者们的兴趣。这篇综述文章总结了表观遗传时钟领域的如下七大挑战，并分别介绍了研究现状，不确定性和未来研究方向的推荐：1. 拆分表观时钟的时序成分和生物成分；2. 组织特异或者疾病特异时钟的功能性研究；3.大规模时序种群研究的表观遗传学整合； 4. 衰老的全基因组分析以及其他表观遗传标记物的探索；5. 衰老与疾病的单细胞组学分析； 6. 稳健产生其他物种的衰老数据； 7. 将表观遗传学与遗传学的伦理和法律框架融合起来。个人感觉文章质量一般

IF:10.100Q1 Genome biology, 2019-11-25. DOI: 10.1186/s13059-019-1824-y PMID: 31767039 PMCID:PMC6876109

DNA methylation aging clocks: challenges and recommendations

翻译

Christopher G Bell, Robert Lowe, Peter D Adams, Andrea A Baccarelli, Stephan Beck, Jordana T Bell, Brock C Christensen, Vadim N Gladyshev, Bastiaan T Heijmans, Steve Horvath, ... >>>

Abstract:

Epigenetic clocks comprise a set of CpG sites whose DNA methylation levels measure subject age. These clocks are acknowledged as a highly accurate molecular correlate of chronological age in humans … >>>

翻译

30.

Vincent (2022-11-30 19:09):

#paper https://doi.org/10.1038/s41467-020-15298-6 nature communication, 2020, Integrative differential expression and gene set enrichment analysis using summary statistics for scRNA-seq studies. 基因表达差异分析和基因集富集分析是单细胞领域两个最常用的分析方式，但是两种分析往往是独立进行的，由于单细胞数据噪声较大，这样单独分析会造成统计效力的降低以及不同的数据集（或者使用不同方法分析同一套数据）得到的分析结果不一致。另一方面差异分析和富集分析其实在内部是紧密相连的，差异分析的结果是富集分析的基础，同时基因集富集分析反过来也可以反哺差异分析（基因之间并非独立，如果某基因差异表达了，与之相关的基因也可能差异表达），这意味着将两者结合起来同时分析能够提高统计效力并且使得分析结果更加稳健和可重复。这篇文章提出了一种新方法iDEA，该方法使用了层次贝叶斯模型，将差异分析和富集分析整合起来综合分析，通过仿真实验和真实数据分析，文章发现该方法较现有的差异或者富集方法有更高的统计效力，更一致的差异分析结果和更准确的富集分析结论

IF:14.700Q1 Nature communications, 2020-03-27. DOI: 10.1038/s41467-020-15298-6 PMID: 32221292

Integrative differential expression and gene set enrichment analysis using summary statistics for scRNA-seq studies

翻译

Ying Ma, Shiquan Sun, Xuequn Shang, Evan T Keller, Mengjie Chen, Xiang Zhou

Abstract:

Differential expression (DE) analysis and gene set enrichment (GSE) analysis are commonly applied in single cell RNA sequencing (scRNA-seq) studies. Here, we develop an integrative and scalable computational method, iDEA, … >>>

翻译

31.

Vincent (2022-10-31 15:22):

#paper Obtaining genetics insights from deep learning via explainable artificial intelligence, Nature Reviews Genetics https://doi.org/10.1038/ s41576-022-00532-2 基于深度学习的人工智能模型在基因组功能预测中发挥重要作用，被认为是当下表现最好的模型(state of the art)。但是由于深度学习模型的复杂性, 它们往往被认为是黑箱模型，其预测效果/机制往往很难被解释，但是基因组的研究中很多时候作用机制（过程）比预测效果（结果）更有价值。这篇review paper总结了近年来新兴的可解释性机器学习(xAI)技术在基因组领域的研究进展，展望了该技术在揭示生物机理方面的潜能。这篇文章主要以regulatory genomics 作为例子，总结归纳了4种解释机器学习模型的技术：基于模型的解释(检查隐含层的神经元活动，注意力机制)，影响的数学传播(前向传播/后向传播), 特征相互作用的鉴别，和基于先验知识的透明模型，以及这几种技术在高通量测序技术中的潜在假设和相应的局限性。

Nature reviews. Genetics, 2023-02. DOI: 10.1038/s41576-022-00532-2 PMID: 36192604

Obtaining genetics insights from deep learning via explainable artificial intelligence

翻译

Gherman Novakovsky, Nick Dexter, Maxwell W Libbrecht, Wyeth W Wasserman, Sara Mostafavi

Abstract:

Artificial intelligence (AI) models based on deep learning now represent the state of the art for making functional predictions in genomics research. However, the underlying basis on which predictive models … >>>

翻译

32.

Vincent (2022-09-30 14:56):

#paper doi: https://doi.org/10.1038/s43586-021-00056-9 Genome-wide association studies. Nature Reviews Methods Primers. 2021. GWAS旨在寻找基因型和表型之间的关联。截止目前，总共有超过5700项，涵盖3300性状的GWAS研究。这篇review文章丛统计原理、实验设计、实际操作、结果解释，下游应用等方面很好地介绍了全基因组关联研究（GWAS）。在统计原理方面，文章介绍了假设检验常用的线性混合模型，假发现率的控制（FDR control）和下游fine mapping方法。实验设计方面，文章详细介绍了人群的选择（population-based, family-based 和 isolation populations)，以及测序技术（microarray, WES, WGS）方面的优缺点。应用上，文章介绍了GWAS的两大重要应用：疾病风险预测（PRS score）和揭示生物性状的遗传基础。文章最后还提及了GWAS研究目前的局限和对未来发展的期待。总结起来是篇很不错的GWAS入门文章。

IF:50.100Q1 Nature Reviews Methods Primers, 2021. DOI: 10.1038/s43586-021-00056-9

Genome-wide association studies

翻译

Emil Uffelmann , Qin Qin Huang , Nchangwi Syntia Munung , Jantina de Vries , Yukinori Okada , Alicia R. Martin , Hilary C. Martin , Tuuli Lappalainen , Danielle Posthuma

Abstract:

Genome-wide association studies (GWAS) test hundreds of thousands of genetic variants across many genomes to find those statistically associated with a specific trait or disease. This methodology has generated a … >>>

翻译

33.

Vincent (2022-08-31 13:52):

#paper https://doi.org/10.1038/s41580-021-00407-0, Nat Rev Mol Cell Biol, 2021, A guide to machine learning for biologists. 这篇review paper深入浅出的介绍了各类机器学习算法和在生物领域的应用。文章一开始先梳理了很多ML的关键概念（例如机器学习算法的分类，overfitting/underfitting，bias-variance tradeoff）。随后分别介绍了传统机器学习算法（PCA, k-means, SVM, ridge regression, randomforest等），基于深度学习的算法（CNN, RNN, transformer, autoencoder等），描述了每种算法的优缺点和并且探讨了在生物学数据中使用机器学习算法的最佳实践。文章最后还介绍了机器学习算法在生物学领域的所面临的的挑战，例如数据可得性, 数据泄露, 模型可解释性，以及隐私保护方面的问题。感兴趣的可以看看，是一篇十分不错的参考文献。

IF:81.300Q1 Nature Reviews Molecular Cell Biology, 2021. DOI: 10.1038/s41580-021-00407-0

A guide to machine learning for biologists

翻译

Joe G. Greener , Shaun M. Kandathil , Lewis Moffat , David T. Jones

Abstract:

The expanding scale and inherent complexity of biological data have encouraged a growing use of machine learning in biology to build informative and predictive models of the underlying biological processes. … >>>

翻译

34.

Vincent (2022-07-31 17:30):

#paper doi: 10.1093/bioinformatics/btab083 DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome. 由于序列多义性和遥远的语义联系，基因调控编码十分复杂。近年来有研究陆续发现DNA序列，尤其是非编码区序列，在字符表、语法、语义方面的特征都与自然语言相似，而基于transformer注意力机制的机器学习工具BERT在自然语言处理方面大放异彩。这篇文章运用类似的研究思路开发了DNABERT，一个基于上下文序列的、能表征DNA特征的预处理模型。为了展现这个模型的用处和效果，这篇文章尝试了几个经典的计算任务：启动子预测、剪切位点预测和转录因子结合位点的预测，文章先使用该模型去encode DNA 序列，然后再对具体的计算任务fine-tune，发现其在准确度上能够轻松超越其他算法。同时为了解决基于深度学习可解释性差的问题，该方法提供了可视化选项，能展现位点层面的重要性以及与其他位点的联系（attention机制）。同时该工作还发现用人类基因组预训练的模型，运用到其他生物也有很好的效果，进一步展现了这种encoding是可以迁移的（不是memorize,而是真正抓住了一些序列层面特征）

Bioinformatics (Oxford, England), 2021-Aug-09. DOI: 10.1093/bioinformatics/btab083 PMID: 33538820

DNABERT: pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome

翻译

Yanrong Ji, Zhihan Zhou, Han Liu, Ramana V Davuluri

Abstract:

MOTIVATION: Deciphering the language of non-coding DNA is one of the fundamental problems in genome research. Gene regulatory code is highly complex due to the existence of polysemy and distant … >>>

翻译

35.

Vincent (2022-04-30 21:26):

#paper https://doi.org/10.1038/s41467-020-17678-4 A deep learning model to predict RNA-Seq expression of tumours from whole slide images. Nature Comm (2020) 深度学习模型(CNN)在医学影像中有广泛的应用，最近也有研究指出可以通过病理图片来预测DNA突变和突变数，但是还没有研究关注过是否可以通过病理图片来预测基因表达，这篇文章填补了这部分空白。文章提出了一种基于多任务弱监督的深度学习模型 HE2RNA, 使用TCGA不同癌症类型数据(WSI + RNA-seq)进行训练，发现能准确预测基因的数量主要取决于训练数据集的大小，对这些被准确预测的基因进行富集分析，发现他们集中在免疫和T细胞调控，细胞周期，和癌症hallmark的通路上。最后文章还展现HE2RNA可以用于基因表达的空间可视化（预测基因在slide上表达）和提高MSI预测效果

IF:14.700Q1 Nature communications, 2020-08-03. DOI: 10.1038/s41467-020-17678-4 PMID: 32747659 PMCID:PMC7400514

A deep learning model to predict RNA-Seq expression of tumours from whole slide images

翻译

Abstract:

Deep learning methods for digital pathology analysis are an effective way to address multiple clinical questions, from diagnosis to prediction of treatment outcomes. These methods have also been used to … >>>

翻译

36.

Vincent (2022-03-31 11:11):

#paper doi: 10.1186/s13059-021-02443-7 Genome Biol 2021 Technology dictates algorithms: recent developments in read alignment. 序列比对是生物信息测序数据分析的基础步骤，这篇文章详细回顾了107种序列比对软件，并且通过实验评估了其中的11种软件的计算效率和速度。文章中提到序列比对算法和测序技术是共同进化的（co-evolution），一种新技术的诞生能带来了一系列工具的开发，而底层的核心算法往往没有很大的革命性的改变（只不过是tailored for the new technology）。文章调查发现基于哈希表index基因组的方法是最常见的，但是缺点是对存储空间的要求较大，基于suffix-tree的index方法往往计算速度也较快并且被越来越广泛的使用。另一方面，文章也发现，局部序列比对方法通常使用海明距离（hamming distance）和smith-waterman算法来寻找测序片段在基因组中的确切位置。此外文章还回顾了长序列读长对序列比对方法开发的影响等等。

IF:10.100Q1 Genome biology, 2021-08-26. DOI: 10.1186/s13059-021-02443-7 PMID: 34446078

Technology dictates algorithms: recent developments in read alignment

翻译

Abstract:

Aligning sequencing reads onto a reference is an essential step of the majority of genomic analysis pipelines. Computational algorithms for read alignment have evolved in accordance with technological advances, leading … >>>

翻译

37.

Vincent (2022-02-28 15:50):

#paper What are the most important statistical ideas of the past 50 years? #Link: https://arxiv.org/abs/2012.00174 导读：作者Andrew Gelman是哥伦比亚大学统计系的教授，也是经济学人等杂志的资深统计顾问，2020年当选美国科学院院士。2021年他在arxiv上发布了这篇备受统计学家关注的文章。文中总结了过去50年来统计学领域最为重要的八大思想(he thinks) 1. 因果推断；2. bootstrap和基于模拟的推断；3.超参数模型和正则化；4.层次结构模型；5.通用计算算法；6.自适应判定分析；7.鲁棒性推断；8.探索性数据分析。个人认为第一点和第三点尤其得当。第三点基本可以囊括很多machine leanring的算法。而第一点直接影响着人们的决策和认知，多数时候我们总把相关关系误认为因果（在社会科学领域尤甚），大家如果有幸观察到网上的各类争论，不妨从这点来审视他们在论证中有没有犯这种常识性的错误。

arXiv, 2020. DOI: 10.48550/arXiv.2012.00174

What are the most important statistical ideas of the past 50 years?

翻译

Abstract: No abstract available.