文献收藏与分享平台

1.

白鸟 (2024-03-31 23:05):

#paper Single-cell chromatin state analysis with Signac. Nat Methods (2021). https://doi.org/10.1038/s41592-021-01282-5 最近分析scATAC-seq数据，用到Signac的一些函数，特别GeneActivity函数的理解。系统的学习和理解一个分析工具，还是要花大量的时间，工具包的整体分析思路，源码中如何一步步实现的，fragments到peak，peak的注释，分析延展，与同类软件的对比，需要一点点理解和消化。

IF:36.100Q1 Nature methods, 2021-11. DOI: 10.1038/s41592-021-01282-5 PMID: 34725479 PMCID:PMC9255697

Single-cell chromatin state analysis with Signac

翻译

Tim Stuart, Avi Srivastava, Shaista Madad, Caleb A Lareau, Rahul Satija

Abstract:

The recent development of experimental methods for measuring chromatin state at single-cell resolution has created a need for computational tools capable of analyzing these datasets. Here we developed Signac, a … >>>

翻译

2.

颜林林 (2024-02-29 09:02):

#paper doi:10.1038/s41592-024-02201-0. Nature Methods, 2024, scGPT: toward building a foundation model for single-cell multi-omics using generative AI. 这篇文章使用了生成式AI大模型，来进行单细胞测序数据分析。文章并未自己收集样本和测序，而仅仅依靠已发表的公开数据或来自公共数据库的数据，进行模型训练、工具开发和性能验证，属于典型的纯生信文章，借着生成式AI概念的火热，加上结果性能表现良好，这篇文章发表到了Nature Methods杂志，很值得生信专业者学习和模仿。文章在九个多月前，就已预发表在bioRxiv上，当时整合使用了1000万个细胞的数据，在这次的正式发表版本中，整合的细胞数量增加到了3300万，模型性能也得到了进一步的改进。文章开发的模型名为scGPT，它基于生成式预训练变换器（Transformer）架构的单细胞基础模型，旨在处理和解析大规模的单细胞数据。scGPT模型展示了在多种下游任务中，如细胞类型注释、遗传扰动反应预测、多批次整合以及多组学数据整合等方面的卓越性能。研究的创新点在于首次将基础模型概念应用于单细胞生物学领域，通过自监督预训练和任务特定的微调，有效捕获和理解细胞和基因之间复杂的生物学关系。scGPT利用其强大的学习能力揭示了特定条件下的基因-基因互作，展现了转移学习中的扩展性和上下文效应。相比传统的机器学习模型，大模型能够捕捉到更为细致和全面的生物学特征，尤其是一些长距离依赖和复杂的数据关系，比如隐藏在数据背后的未知细胞类型或细胞相互作用，这大概也是这篇文章将其用于单细胞数据分析的重要出发点。

IF:36.100Q1 Nature methods, 2024-Aug. DOI: 10.1038/s41592-024-02201-0 PMID: 38409223

scGPT: toward building a foundation model for single-cell multi-omics using generative AI

翻译

Haotian Cui, Chloe Wang, Hassaan Maan, Kuan Pang, Fengning Luo, Nan Duan, Bo Wang

Abstract:

Generative pretrained models have achieved remarkable success in various domains such as language and computer vision. Specifically, the combination of large-scale diverse datasets and pretrained transformers has emerged as a … >>>

翻译

3.

白鸟 (2024-01-31 23:02):

#paper doi:10.1038/s41592-023-02117-1 SEVtras delineates small extracellular vesicles at droplet resolution from single-cell transcriptomes.因工作需要搜到这篇文献， 1.囊泡功能简介：胞外小囊泡（sEV）是由细胞分泌的微小囊泡，携带蛋白质、脂质和RNA等多种内容物，广泛存在于组织微环境中，充当细胞间信息交流的“信使”角色，生理病理过程中的关键参与者。 2.待解决：目前缺乏能够捕获到sEV复杂异质性和追踪sEV分泌的潜在细胞的高通量技术，需要证实检出的滴液为囊泡， 3.胞外小囊泡异质性追踪算法SEVtras：判定囊泡的算法，单细胞数据中追踪分泌囊泡的细胞来源；不同样本来源，广泛论证算法可行性；从公共数据库中汇总胞外小囊泡关联基因集，利用最大期望算法(expectation–maximization, EM)推断单个液滴中胞外小囊泡的信号分值； 4.我的疑惑：对于细胞的身份和生物学功能研究是不容易的，囊泡的研究更甚，该算法可能需要更多的基准测试来证实；单细胞技术和囊泡是否适用；如何解析有限信息的囊泡表达谱？问题1：判定捕获的barcode是不是为真实的囊泡--->通过SEVtras判别；问题2：先暂不判定barcode身份（假定为真实的囊泡），基因表达谱可以分析出哪些内容？--->通过高表达基因的富集分析；

IF:36.100Q1 Nature methods, 2024-Feb. DOI: 10.1038/s41592-023-02117-1 PMID: 38049696 PMCID:PMC10864178

SEVtras delineates small extracellular vesicles at droplet resolution from single-cell transcriptomes

翻译

Ruiqiao He, Junjie Zhu, Peifeng Ji, Fangqing Zhao

Abstract:

Small extracellular vesicles (sEVs) are emerging as pivotal players in a wide range of physiological and pathological processes. However, a pressing challenge has been the lack of high-throughput techniques capable … >>>

翻译

4.

颜林林 (2023-10-27 12:22):

#paper doi:10.1038/s41592-023-02043-2. Nature Methods, 2023, Comprehensive benchmarking and guidelines of mosaic variant calling strategies. 本文是一篇方法学评估对比的文章，对11个嵌合体突变鉴定工具（这其中也包括我读博期间参与的MosaicHunter）进行了系统评估。嵌合体突变是精卵结合形成合子后，在生物个体发育早期发生的一类体细胞突变，这类突变会随着发育和器官形成，被携带并分布到生物个体的不同部位。本文使用预先确定了胚系突变信息的细胞系，分步骤进行混合，以模拟生物个体早期不同阶段发生的嵌合体突变，由此得到一组拥有不同频率嵌合体突变结果（ground truth）的参考样品，用来测试和评估各鉴定工具（这个参考品制备方法，在过去几年里，也被我们用于癌症基因检测产品研发，对体细胞突变鉴定进行技术验证）。本文的评估结果显示，嵌合体突变鉴定，很大程度上取决于研究目的（及由此考虑的假设条件），根据不同目的所选择的工具及参数，可能对结果产生较大影响，本文根据评估结果对不同工具的特点进行了描述，为后续其他关于嵌合体突变的研究，以及分析工具开发，提供了参考指导和建议。

IF:36.100Q1 Nature methods, 2023-12. DOI: 10.1038/s41592-023-02043-2 PMID: 37828153 PMCID:PMC10703685

Comprehensive benchmarking and guidelines of mosaic variant calling strategies

翻译

Yoo-Jin Ha, Seungseok Kang, Jisoo Kim, Junhan Kim, Se-Young Jo, Sangwoo Kim

Abstract:

Rapid advances in sequencing and analysis technologies have enabled the accurate detection of diverse forms of genomic variants represented as heterozygous, homozygous and mosaic mutations. However, the best practices for … >>>

翻译

5.

徐炳祥 (2023-10-21 11:39):

#paper doi: 10.1038/s41592-023-01978-w Nature methods, 2023, scNanoHi-C: a single-cell long-read concatemer sequencing method to reveal high-order chromatin structures within individual cells。本文提出了一种将基于Nanopore的染色质空间构象捕获技术（Pore-C）推广到了单细胞水平的新技术，命名为scNanoHi-C。其在保持与其他单细胞Hi-C和bulk Hi-C结果的高度一致性前提下，提高了相互作用片段的产量。此外，基于ONT的长读长优势，scNanoHiC的结果可用于检查由多个位点参与的复杂基因组相互作用，也可用于在单细胞水平下检测拷贝数变异和基因组结构变异，并辅助基因组组装。本文的单细胞处理是通过多重标签策略实现的。其思路并不新鲜，其成功之处在于对复杂实验流程的把控和愿意投入大量资源。

IF:36.100Q1 Nature methods, 2023-Oct. DOI: 10.1038/s41592-023-01978-w PMID: 37640936

scNanoHi-C: a single-cell long-read concatemer sequencing method to reveal high-order chromatin structures within individual cells

翻译

Abstract:

The high-order three-dimensional (3D) organization of regulatory genomic elements provides a topological basis for gene regulation, but it remains unclear how multiple regulatory elements across the mammalian genome interact within … >>>

翻译

6.

Vincent (2023-09-30 23:59):

#paper https://doi.org/10.1038/s41592-018-0213-x Identification of differentially methylated cell types in epigenome-wide association studies. Nature Methods, 2018。表观基因组关联研究经常使用细胞类型的比例作为协变量，使用线性模型挖掘出与研究性状相关的差异甲基化位点，然而此类方法很难确定具体是什么细胞类型导致了该差异甲基化位点。这篇论文介绍了简单而有效的新的甲基化差异检测方法，通过引入性状与细胞类型的interaction term，在原有的统计框架下，该方法能够发现引起甲基化位点变化的具体的细胞类型。在模拟研究中，该方法表现优异，能够达到超过90%的灵敏度和特异性。

IF:36.100Q1 Nature methods, 2018-12. DOI: 10.1038/s41592-018-0213-x PMID: 30504870

Identification of differentially methylated cell types in epigenome-wide association studies

翻译

Shijie C Zheng, Charles E Breeze, Stephan Beck, Andrew E Teschendorff

Abstract:

An outstanding challenge of epigenome-wide association studies (EWASs) performed in complex tissues is the identification of the specific cell type(s) responsible for the observed differential DNA methylation. Here we present … >>>

翻译

7.

小擎子 (2023-04-30 23:14):

#paper doi: 10.1038/s41592-021-01141-3 Nat Methods, 2021, Challenges in Benchmarking Metagenomic Profilers. 文献提出了一个研究宏基因组中会遇到的问题，即计算相对丰度时，不同生信工具给出的统计结果不同。区别就是有的结果是给出的序列丰度（DNA to DNA），有的结果给出的是物种丰度（DNA to Marker）。序列丰度和物种丰度的差别在于，有没有将物种的基因组大小考虑在其中。序列丰度是不考虑物种基因组大小的（如Kraken）。文章认为，基于物种丰度（即考虑物种基因组大小）的结果更具有解释性，建议严谨解释宏基因组分析结果，特别是从序列丰度得出的结果。

IF:36.100Q1 Nature methods, 2021-06. DOI: 10.1038/s41592-021-01141-3 PMID: 33986544 PMCID:PMC8184642

Challenges in benchmarking metagenomic profilers

翻译

Abstract:

Accurate microbial identification and abundance estimation are crucial for metagenomics analysis. Various methods for classification of metagenomic data and estimation of taxonomic profiles, broadly referred to as metagenomic profilers, have … >>>

翻译

8.

Vincent (2023-02-28 19:08):

#paper DOI: https://doi.org/10.1038/s41592-021-01205-4 DOME: recommendations for supervised machine learning validation in biology. Nat Methods 2021. 机器学习方法在生物学领域变得越发重要，理想情况下机器学习预测结果最好能够被生物实验所验证，但是目前绝大多数的文章并没有配套的实验验证步骤，而只是通过计算指标来反映模型的性能，但这类计算指标往往受很多步骤的影响(例如数据集选择，训练集测试集的拆分，正负样本平衡性等等)，导致最后的结论不一定稳定可靠。这篇评论文章旨在号召相关领域应该建立一套机器学习研究的写作和汇报标准，从而提高该领域内机器学习应用的交流效率。这篇文章从数据，算法，模型，评价四个方面列举了诸多影响模型性能的因素，并建议研究者在发表机器学习的文章时应该参照这四个方面的问题，详细阐述方法的细节，以此推动文章评审的效率，提高研究的透明度和可重复性

IF:36.100Q1 Nature methods, 2021-10. DOI: 10.1038/s41592-021-01205-4 PMID: 34316068

DOME: recommendations for supervised machine learning validation in biology

翻译

Ian Walsh, Dmytro Fishman, Dario Garcia-Gasulla, Tiina Titma, Gianluca Pollastri, ELIXIR Machine Learning Focus Group, Jennifer Harrow, Fotis E Psomopoulos, Silvio C E Tosatto

Abstract: No abstract available.

9.

Ricardo (2023-01-31 23:52):

#paper doi:https://doi.org/10.1038/s41592-022-01703-z Multifaceted atlases of the human brain in its infancy 脑图谱是整合、处理和分析从不同个体、来源和尺度收集的大脑特征的空间参考。这篇发表于nature methods的文章介绍了一组关于脑皮层-脑体积的联合脑图谱，以时空密集的方式绘制了从两周到两岁的人脑产后发育轨迹。这套特异性图谱捕捉了早期大脑发育的关键特征，因此有助于识别正常发育轨迹的异常。这些图谱将促进绘制婴儿大脑的不同特征，从而为精确量化皮层和皮层下变化提供一个共同的参考框架，从而增强我们对早期结构和功能发展的理解。

IF:36.100Q1 Nature methods, 2023-01. DOI: 10.1038/s41592-022-01703-z PMID: 36585454 PMCID:PMC9834057

Multifaceted atlases of the human brain in its infancy

翻译

Sahar Ahmad, Ye Wu, Zhengwang Wu, Kim-Han Thung, Siyuan Liu, Weili Lin, Gang Li, Li Wang, Pew-Thian Yap

Abstract:

Brain atlases are spatial references for integrating, processing, and analyzing brain features gathered from different individuals, sources, and scales. Here we introduce a collection of joint surface-volume atlases that chart … >>>

翻译

10.

徐炳祥 (2022-11-23 13:30):

#paper doi:10.1038/s41592-021-01248-7 Nature methods, 2021, Systematic evaluation of chromosome conformation capture assays。染色质空间构象捕获（3C）及由其衍生的一系列技术是当前研究真核生物染色质空间组织模式的主要高通量手段，已经取得了多项重要发现。目前，多个实验室已发展了多套不同的实验流程。本文对这些流程中的主要差异点，包括交联剂配方，使用的内切酶等对实验结果的影响进行了详细分析。通过对比多个细胞类型的结果，作者找到了最优的交联剂配方和内切酶类型，发展了一套新的，能同时适用于染色质结构与和染色质环检测的新Hi-C实验流程。

IF:36.100Q1 Nature methods, 2021-09. DOI: 10.1038/s41592-021-01248-7 PMID: 34480151

Systematic evaluation of chromosome conformation capture assays

翻译

Abstract:

Chromosome conformation capture (3C) assays are used to map chromatin interactions genome-wide. Chromatin interaction maps provide insights into the spatial organization of chromosomes and the mechanisms by which they fold. … >>>

翻译

11.

笑对人生 (2022-10-06 00:00):

#paper doi: 10.1038/nmeth.2883. PyClone: statistical inference of clonal population structure in cancer. Nat Methods. 2014 Apr;11(4):396-8. 恶性肿瘤的发生往往起源于一个癌变细胞（即肿瘤是由单克隆发育而来的）。癌变细胞在细胞增殖的过程中，由于变异或外界因素的压力选择，可能会产生在基因和表型方面与母细胞存在较大差异的子细胞。当这些具有相同遗传特点的子细胞逐渐形成一个细胞群体时，就称为是一个亚克隆。体细胞的突变是随机的，因此一个肿瘤块可能存在不同的克隆或亚克隆细胞。PyClone是一个基于分层贝叶斯的统计推断模型来分析癌症中克隆群体结构的软件。PyClone适用于多样本深度测序的体细胞突变数据，推断克隆群体时主要评估了细胞普遍性（prevalences），并解释了由于片段拷贝数变异（segmental copy-number changes）和正常细胞污染（normal-cell contamination）引起的等位基因不平衡。本研究还利用单细胞测序验证了PyClone推断克隆和亚克隆细胞群体的准确性。

IF:36.100Q1 Nature methods, 2014-Apr. DOI: 10.1038/nmeth.2883 PMID: 24633410

PyClone: statistical inference of clonal population structure in cancer

翻译

Andrew Roth, Jaswinder Khattra, Damian Yap, Adrian Wan, Emma Laks, Justina Biele, Gavin Ha, Samuel Aparicio, Alexandre Bouchard-Côté, Sohrab P Shah

Abstract:

We introduce PyClone, a statistical model for inference of clonal population structures in cancers. PyClone is a Bayesian clustering method for grouping sets of deeply sequenced somatic mutations into putative … >>>

翻译

12.

吴增丁 (2022-08-31 17:15):

#paper https://doi.org/10.1038/s41592-022-01488-1 这篇于2022年发表在nature method的文章，介绍了一种基于AlphaFold2的蛋白质折叠预测的接口工具ColabFold。该工具首要解决了一个广大用户使用AlphaFold2的难点，就是在无GUP，无大存储计算资源下依然可以使用这些蛋白质结构预测的工具，并且提升了计算速度。 ColabFold工作主要在三个方面:1.在多序列比对(MSA)时用MMseqs2替换了 HMMer和HHblits的方法，从结果看提高了约50倍速度且保持高准确度。值得提一下，MSA在蛋白质结构预测中是主要的限速步骤；2.构建了自己的同源比对数据库ColabFoldDB。相比较Big Fantastic Databse（BFD）和 MGnify database，ColabFoldDB数据库具有更好的MSA多样性。3.开发基于Google Colaboratory的notebook版本的使用接口，这个使用工具允许无计算资源和编程经验的用户方便使用https://github.com/sokrypton/ColabFold。当然也开发了本地命令行版本https://github.com/YoshitakaMo/localcolabfold

IF:36.100Q1 Nature methods, 2022-06. DOI: 10.1038/s41592-022-01488-1 PMID: 35637307 PMCID:PMC9184281

ColabFold: making protein folding accessible to all

翻译

Milot Mirdita, Konstantin Schütze, Yoshitaka Moriwaki, Lim Heo, Sergey Ovchinnikov, Martin Steinegger

Abstract:

ColabFold offers accelerated prediction of protein structures and complexes by combining the fast homology search of MMseqs2 with AlphaFold2 or RoseTTAFold. ColabFold's 40-60-fold faster search and optimized model utilization enables … >>>

翻译

13.

笑对人生 (2022-05-31 22:11):

#paper doi: 10.1038/s41592-022-01481-8. Benchmarking spatial and single-cell transcriptomics integration methods. Nat Methods. 2022 May 16. 空间转录组(spatial transcriptomics)的发展极大提高了我们对组织RNA转录本的空间定位的认知。然而，目前空间转录组的技术并不能获取单个细胞的转录组特征。为了突破这个局限，人们往往将单细胞转录组测序（single-cell transcriptomics）和空间转录组测序进行整合分析。本文利用45对公开数据（空转和单细胞）和32份模拟数据，分别就两个整合需考虑的问题，对16种整合工具（有些工具两种功能都有）进行了基准测试（benchmark）。第一个问题是预测RNA转录本在组织空间分布(复位)，共测试了8种整合方法。第二个问题是对组织的spot进行正确的单细胞类型区分和注释，共测试了12种整合方法。结果表明，解决第一个问题优势明显的有Tangram、gimVI、SpaGE。解决第二问题优势明显的是Cell2location、SpatialDWLS和RCTD。如果综合效率和准确性的话，推荐使用Tangram和Seurat。

IF:36.100Q1 Nature methods, 2022-06. DOI: 10.1038/s41592-022-01481-8 PMID: 35577955

Benchmarking spatial and single-cell transcriptomics integration methods

翻译

Abstract: No abstract available.

14.

na na na (2022-03-29 23:30):

#paper Zhu T, Liu J, Beck S, Pan S, Capper D, Lechner M, Thirlwell C, Breeze CE, Teschendorff AE. A pan-tissue DNA methylation atlas enables in silico decomposition of human tissue methylomes at cell-type resolution. Nat Methods. 2022 Mar;19(3):296-306. doi: 10.1038/s41592-022-01412-7. Epub 2022 Mar 11. PMID: 35277705; PMCID: PMC8916958. 该文是3月19刚发表在Nat Methods上的一篇文章，文章主要讲的是利用组织特异性单细胞RNA 测序数据集的高分辨率特性构建了针对13种实体组织类型和40种细胞类型定义的DNA甲基化图谱，简单来说就是构建了一个利用DNA甲基化变异解析多种组织中细胞类型。目前单细胞测序主要还是以RNA表达谱为主，因此如何通过甲基化测序来准确预测组织中各种细胞类型还待研究。虽然已经有一些算法例如MehylCIBERSORT，其原理如其名字一样，都是借鉴CIBERSORT的反卷积算法，但根据其原理，只能计算成纤维细胞以及7种免疫细胞的甲基化谱，但不同肿瘤类型的组织中实际情况是更加复杂的。本文作者从多个不同肿瘤组织的单细胞测序数据出发，细胞的marker基因的mRNA表达量与其启动子区域的甲基化成显著反比的位点来定义甲基化marker。可以准确在13种组织类型和40种细胞的高分辨率DNA甲基化图谱。作者基于不同组织的中特异的细胞类型结果，分别做了验证，并且在具体的临床问题（神经细胞瘤和2期黑色素瘤的新预后关联）上，也都有良好的表现。最后作者提供了上述表达谱计算R包，并且该R包也能通过自测数据，在新的组织上构建起特异的细胞类型：https://github.com/ww880412/RPresto ；遗憾的是，我没成功安装上还，缺少依赖包“presto”。但未找到该包，只有一个RPresto，装上后依然报错，待解决中；

IF:36.100Q1 Nature methods, 2022-03. DOI: 10.1038/s41592-022-01412-7 PMID: 35277705 PMCID:PMC8916958

A pan-tissue DNA methylation atlas enables in silico decomposition of human tissue methylomes at cell-type resolution

翻译

Tianyu Zhu, Jacklyn Liu, Stephan Beck, Sun Pan, David Capper, Matt Lechner, Chrissie Thirlwell, Charles E Breeze, Andrew E Teschendorff

Abstract:

Bulk-tissue DNA methylomes represent an average over many different cell types, hampering our understanding of cell-type-specific contributions to disease development. As single-cell methylomics is not scalable to large cohorts of … >>>

翻译

15.

Ricardo (2022-02-27 22:12):

#paper doi:https://doi.org/10.1038/s41592-020-01008-z nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation 介绍这一篇2020年发表在nature methods上的文章，做医学图像算法的同学估计都知道这个非常牛逼的工作，用一套自己设计的图像分割的pipeline，没有对神经网络结构做什么改进，在23个公开的医学影像数据集上大都获得了非常好的结果。细看文章和源码，可以看到作者在数据集的预处理上、超参数的选择上、模型调优和集成以及后处理等步骤上做了相当多的工作。

IF:36.100Q1 Nature methods, 2021-02. DOI: 10.1038/s41592-020-01008-z PMID: 33288961

nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation

翻译

Fabian Isensee, Paul F Jaeger, Simon A A Kohl, Jens Petersen, Klaus H Maier-Hein

Abstract:

Biomedical imaging is a driver of scientific discovery and a core component of medical care and is being stimulated by the field of deep learning. While semantic segmentation algorithms enable … >>>

翻译