文献收藏与分享平台

1.

Vincent (2026-01-31 17:31):

#paper https://arxiv.org/abs/2201.11903 arxiv 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. 这篇文首次提出了Chain-of-Thought（CoT）的思路，通过在少样本提示中显式提供中间自然语言推理步骤，可以显著提升大语言模型在复杂推理任务上的表现。作者在多种推理任务基准测试上展示了 CoT 的显著增益，尤其在 100B+ 参数规模模型上表现为一种随规模涌现（emergent）的能力。消融实验表明，性能提升并非仅来自“多算一步”，而是顺序化、可读的推理过程本身在发挥作用。该方法无需额外训练或微调，仅通过提示即可实现，因而得以广泛运用，为大模型的可解释推理研究开辟了新方向

arXiv, 2022-01-28T02:33:07Z. DOI: 10.48550/arXiv.2201.11903

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

翻译

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou

Abstract:

We explore how generating a chain of thought -- a series of intermediate reasoning steps -- significantly improves the ability of large language models to perform complex reasoning. In particular, … >>>

翻译

2.

Vincent (2025-12-31 20:29):

#paper https://arxiv.org/abs/1706.03762 arxiv 2017. Attention Is All You Need. 这篇经典论文提出了Transformer，一种全新设计的序列转换模型，完全基于注意力机制而不再使用循环神经网络（RNN）或卷积神经网络（CNN），通过自注意力（Self-Attention）和多头注意力（Multi-Head Attention）有效建模序列中不同位置之间的依赖关系，使得训练可以大规模并行化而不受序列顺序计算的限制。Transformer 采用标准的编码器-解码器架构，其中编码器和解码器都由多个注意力层与前馈网络层堆叠构成，并通过位置编码注入序列中的位置信息，从而弥补没有序列结构时丢失的顺序信息。实验结果表明，该模型在 WMT 2014 英德翻译和英法翻译任务上分别显著优于传统的循环与卷积基线模型，同时训练速度更快，展现出强大的长距离依赖建模能力，并为后续大规模语言模型与多模态 Transformer 架构奠定了基础

arXiv, 2017-06-12T17:57:34Z. DOI: 10.48550/arXiv.1706.03762

Attention Is All You Need

翻译

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

Abstract:

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an … >>>

翻译

3.

Vincent (2025-11-30 21:07):

#paper https://arxiv.org/abs/2104.09864 Arxiv. 2021. RoFormer: Enhanced Transformer with Rotary Position Embedding 这篇论文提出 RoFormer，一种通过旋转式位置编码（Rotary Position Embedding, RoPE）增强 Transformer 推理能力的新方法。传统 Transformer 需要依赖绝对或相对位置向量“相加”到 token 表示中，而 RoPE 另辟蹊径，通过对 query 与 key 施加与位置相关的旋转变换，使自注意力在点积阶段自然地体现相对位置信息。该方法在数学上更优雅、在实现上轻量，并具备更好的长程依赖建模能力，同时与线性注意力等高效变体完全兼容。实验结果显示，RoFormer 在多个长文本任务上均显著优于传统位置编码方案，不需要额外训练成本却能带来更强表示能力，展示出其在更大规模语言模型与复杂序列任务中的广泛应用潜力。

arXiv, 2021-04-20T09:54:06Z. DOI: 10.48550/arXiv.2104.09864

RoFormer: Enhanced Transformer with Rotary Position Embedding

翻译

Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu

Abstract:

Position encoding recently has shown effective in the transformer architecture. It enables valuable supervision for dependency modeling between elements at different positions of the sequence. In this paper, we first … >>>

翻译

4.

Vincent (2025-10-31 16:28):

#paper https://doi.org/10.48550/arXiv.2510.14901 Arxiv. 2025. Reasoning with Sampling: Your Base Model is Smarter Than You Think. 大语言模型(LLM)+ 强化学习(RL)在众多领域展现出了强大的推理能力，以往研究多集中于探讨强化学习如何赋予基础模型其原本不具备的能力。这篇文章另辟蹊径，提出一个发人深省的问题：是否仅通过采样，而非额外训练，就能让基础模型展现出与强化学习策略相当的推理能力？这篇文章基于模型自身的似然值，提出了一种简单的基于马尔可夫蒙特卡罗（MCMC）的迭代采样方法。实验结果显示，该方法在多种基础模型上均取得了与强化学习算法相当甚至更优的表现。更为重要的是，这一方法避免了强化学习中常见的多样性缺失问题，且无需额外数据或者训练，展现出其在不同领域中的广泛应用潜力

arXiv, 2025-10-16T17:18:11Z. DOI: 10.48550/arXiv.2510.14901

Reasoning with Sampling: Your Base Model is Smarter Than You Think

翻译

Aayush Karan, Yilun Du

Abstract:

Frontier reasoning models have exhibited incredible capabilities across awide array of disciplines, driven by posttraining large language models (LLMs)with reinforcement learning (RL). However, despite the widespread success ofthis paradigm, much … >>>

翻译

5.

Vincent (2025-09-30 19:34):

#paper https://doi.org/10.1038/s43588-025-00849-y Nat Comput Sci. 2025. SciToolAgent: a knowledge-graph-driven scientific agent for multitool integration. 现有 LLM 工具代理在科学研究中往往只能单步调用或简单串联工具，难以处理复杂工作流，且缺乏对输入输出兼容性与安全性的控制。本文提出 SciToolAgent，将科学工具知识图谱 (TKG) 融入 LLM，利用图检索增强生成 (graph-RAG) 指导工具选择与衔接，并在运行过程中实现格式转换、错误重试和安全校验，从而实现跨领域多工具协同。作者构建 SciToolEval 基准并在蛋白质工程、化学反应性预测、合成规划及 MOF 筛选等任务中验证，结果显示 SciToolAgent 在成功率与鲁棒性上显著优于现有方法。其优势在于结构化知识与 LLM 的结合及责任使用设计，但仍面临知识图谱维护、推理错误和现实环境适配等

Nature Computational Science, 2025-8-20. DOI: 10.1038/s43588-025-00849-y

SciToolAgent: a knowledge-graph-driven scientific agent for multitool integration

翻译

Keyan Ding, Jing Yu, Junjie Huang, Yuchen Yang, Qiang Zhang, Huajun Chen

Abstract: No abstract available.

6.

Vincent (2025-08-31 18:12):

#paper https://doi.org/10.1038/s41587-021-01033-z Nat Biotechnol. 2022. Differential abundance testing on single-cell data using k-nearest neighbor graphs. 传统的单细胞差异丰度检测依赖将细胞划分为聚类再比较比例，但难以捕捉连续轨迹、微小变化，并受批次效应影响。本文提出的 Milo 基于 kNN 图，通过重叠邻域建模细胞状态，并用 NB-GLM 统计检验，再结合加权 Benjamini–Hochberg 控制空间 FDR，从而在复杂实验设计中保持准确性和灵活性。实验显示，Milo 在模拟和真实单细胞数据中均优于传统方法，能更敏锐地检测细胞状态变化。它运行高效、内存可控，适用于大规模数据，并可扩展至多组学。总体而言，Milo 提供了一种突破聚类局限的差异丰度检测方法，在疾病、衰老和发育研究中展现广泛应用潜力。

Nature Biotechnology, 2022-2. DOI: 10.1038/s41587-021-01033-z

Differential abundance testing on single-cell data using k-nearest neighbor graphs

翻译

Emma Dann, Neil C. Henderson, Sarah A. Teichmann, Michael D. Morgan, John C. Marioni

Abstract: No abstract available.

7.

Vincent (2025-04-30 21:21):

#paper https://doi.org/10.1038/s41467-025-57430-4 DrBioRight 2.0: an LLM-powered bioinformatics chatbot for large-scale cancer functional proteomics analysis, nature communications, 2025. 该研究介绍了由大型语言模型驱动的生物信息学平台 DrBioRight 2.0，旨在以自然语言交互方式支持大规模癌症功能蛋白质组学分析。研究团队整合了来自 TCGA 和 CCLE 的约 9000 个样本，使用近 500 种抗体构建了涵盖主要癌症信号通路的蛋白质组学数据库。DrBioRight 2.0 通过自然语言指令即可实现跨组学数据的查询、分析与可视化，具备自动代码生成、错误校正、插件式可视化等功能，显著提升了非程序员研究者对复杂蛋白质组学数据的可及性与分析效率。该平台现已上线，网址为 https://drbioright.org。

Nature Communications, 2025-3-6. DOI: 10.1038/s41467-025-57430-4

DrBioRight 2.0: an LLM-powered bioinformatics chatbot for large-scale cancer functional proteomics analysis

翻译

Abstract: No abstract available.

8.

Vincent (2025-03-31 16:09):

#paper doi: https://doi.org/10.48550/arXiv.2503.00096 BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology 大语言模型在加速科学发现方面展现出了重要潜力。目前大语言模型智能体在生物信息领域的应用缺乏系统评估，这篇文章整理了近50个真实场景，约300个开放性问题来衡量基于大语言模型的智能体在解决复杂生信问题的能力，作者测试了两个前沿大语言模型(gpt 4o和claude 3.5 sonnet)，发现这些模型在回答开放性问题的准确率都较低，回答多选问题的能力也并不比随机选择策略好。这篇文章的贡献在于提供了测试用例与评估框架，为更搭建性能更好的智能体打下了基础

arXiv, 2025-02-28T18:47:57Z. DOI: 10.48550/arXiv.2503.00096

BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational Biology

翻译

Ludovico Mitchener, Jon M Laurent, Benjamin Tenmann, Siddharth Narayanan, Geemi P Wellawatte, Andrew White, Lorenzo Sani, Samuel G Rodriques

Abstract:

Large Language Models (LLMs) and LLM-based agents show great promise inaccelerating scientific research. Existing benchmarks for measuring thispotential and guiding future development continue to evolve from pure recalland rote knowledge … >>>

翻译

9.

Vincent (2025-02-28 18:53):

#paper https://doi.org/10.1038/s41586-024-08328-6 nature. 2025. Accurate predictions on small data with a tabular foundation model. 过去二十年表格型数据预测一直是梯度提升决策树（gradient boosting decision tree）的天下，这篇文章开发了一种基于生成型transformer的表格基础模型。模型采用统一的嵌入方式来表示数值型和类别型特征，通过自注意力机制捕捉不同特征之间的复杂交互关系，并在数百万个合成数据上进行了大规模预训练，从而显著提升了对新任务的适应能力。实验结果显示，在多个真实小规模数据集上，该模型在预测准确度和训练效率方面都优于传统梯度提升决策树以及其他常见深度学习基线。研究还通过定量、定性和可解释性分析验证了模型在模型微调、数据生成、密度估计及表示学习等方面的多任务能力。尽管该模型在小数据场景中展现出显著优势，但真实数据分布的多样性、扩展到更高维度数据，理解模型的理论基础等问题仍有待进一步研究。

IF:50.500Q1 Nature, 2025-1-9. DOI: 10.1038/s41586-024-08328-6 PMID: 39780007 PMCID:PMC11711098

Accurate predictions on small data with a tabular foundation model

翻译

Noah Hollmann, Samuel Müller, Lennart Purucker, Arjun Krishnakumar, Max Körfer, Shi Bin Hoo, Robin Tibor Schirrmeister, Frank Hutter

Abstract:

AbstractTabular data, spreadsheets organized in rows and columns, are ubiquitous across scientific fields, from biomedicine to particle physics to economics and climate science1,2. The fundamental prediction task of filling in … >>>

翻译

10.

Vincent (2025-01-31 14:05):

#paper https://doi.org/10.48550/arXiv.2111.06377 arxiv. 2021. Masked Autoencoders Are Scalable Vision Learners. Computer vision里很经典的一篇文章，提出了一种简单、快速、有效的模型 Masked autoencoder (MAE)。核心思路是随机遮盖图像区域，然后用模型去复原这些被遮盖的区域。MAE由不对称的编码器和解码器构成，编码器将图像的可见区域编码到隐空间，解码器使用隐空间的数据表征和遮盖符还原原始图片。值得注意的是即使遮盖区域达到75%，还原的图像和原始图像仍然很像，也说明图像里面的信息是十分稀疏的。另外由于编码区域只使用了原始图像的一部分，这使得MAE能大大加速训练的过程，同时得益于自监督学习和更好的表征能力，其在下游任务的预测效果也更好。值得注意的是，这种“预测掩盖区域”的技术在语言模型中早有应用，这篇文章只是将其用在了CV领域，展现了CV也可以用NLP的一些研究思路来推进。

arXiv, 2021-11-11T18:46:40Z. DOI: 10.48550/arXiv.2111.06377

Masked Autoencoders Are Scalable Vision Learners

翻译

Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick

Abstract:

This paper shows that masked autoencoders (MAE) are scalable self-supervisedlearners for computer vision. Our MAE approach is simple: we mask randompatches of the input image and reconstruct the missing pixels. … >>>

翻译

11.

Vincent (2024-06-30 16:11):

#paper doi:https://doi.org/10.1038/s41556-020-00620-7, Nat Cell Biol,2021, CRISPR technologies for precise epigenome editing. 这篇论文综述了CRISPR/Cas系统在表观基因组编辑中的应用和进展。文章介绍了CRISPR/Cas9系统的基本原理，以及如何利用Cas9（dCas9）招募表观遗传修饰酶，实现特定基因的转录激活或抑制。文章回顾了一些细胞和动物模型的应用实例，展示了CRISPR技术在研究基因功能和治疗疾病中的潜力，并指出了现有的技术挑战与优化策略，包括编辑效率、脱靶效应和表观遗传修饰的动态性。最后展望了CRISPR技术在表观基因组编辑领域的未来发展方向，强调需要进一步研究以提高技术的特异性和稳定性。

IF:17.300Q1 Nature cell biology, 2021-01. DOI: 10.1038/s41556-020-00620-7 PMID: 33420494

CRISPR technologies for precise epigenome editing

翻译

Muneaki Nakamura, Yuchen Gao, Antonia A Dominguez, Lei S Qi

Abstract:

The epigenome involves a complex set of cellular processes governing genomic activity. Dissecting this complexity necessitates the development of tools capable of specifically manipulating these processes. The repurposing of prokaryotic … >>>

翻译

12.

Vincent (2024-05-31 15:19):

#paper https://doi.org/10.1016/j.cell.2022.12.027 Cell. 2023 Loss of epigenetic information as a cause of mammalian aging 衰老过程伴随着信息丢失。遗传信息（DNA层面）和表观遗传信息（DNA组蛋白修饰等）可以类比为生物体的硬件和软件，这两个层面的信息丢失都有可能导致衰老。这篇文章主要是通过不引起突变的DNA双链断裂，利用细胞修复DNA的过程破坏其表观遗传信息全景。验证了在只有表观遗传信息丢失的情况下，哺乳动物细胞展现出了衰老特征，例如细胞特征的丢失，细胞休眠等。后续实验通过表观遗传重编程又将细胞拉回到年轻的状态，验证了表观遗传信息的丢失能够导致衰老，且该变化在一定程度上是可逆的。

IF:45.500Q1 Cell, 2023. DOI: 10.1016/j.cell.2022.12.027

Loss of epigenetic information as a cause of mammalian aging

翻译

Jae-Hyun Yang, Motoshi Hayano, Patrick T. Griffin, João A. Amorim, Michael S. Bonkowski, John K. Apostolides, Elias L. Salfati, Marco Blanchette, Elizabeth M. Munding, Mital Bhakta, ... >>>

Abstract: No abstract available.

13.

Vincent (2024-04-30 23:17):

#paper https://doi.org/10.1214/23-AOAS1780 Ann. Appl. Stat. 2024 Bayesian multiple instance classification based on hierarchical probit regression 多示例学习（multiple instance learning）在药效预测，病理图像检测等领域有着广泛的应用，与常见的监督学习中每个实例有一个label不同，多示例学习中，不同的实例组成一个bag，每个bag有一个label，哪些实例是主要实例（primary instance）以及主要实例如何决定label是未知的。过去的多示例学习研究集中在计算机科学领域，着重预测。而统计推理以及模型可解释性的工作较少。这篇文章试图填补这部分空白。文章中提出了一种贝叶斯层次概率比回归模型（nested probit model），内层回归模型学习实例特征与主要实例之间的关系，外层回归模型学习主要实例与label之间的关系。相较其他模型，该参数模型在模拟数据和真实数据上的表现较具竞争力，同时能够提供更好的模型解释和更直观的统计推理。

The Annals of Applied Statistics, 2024. DOI: 10.1214/23-AOAS1780

Bayesian multiple instance classification based on hierarchical probit regression

翻译

Danyi Xiong, Seongoh Park, Johan Lim, Tao Wang, Xinlei Wang

Abstract: No abstract available.

14.

Vincent (2024-03-31 16:59):

#paper Clarifying the biological and statistical assumptions of cross-sectional biological age predictors: an elaborate illustration using synthetic and real data. BMC Medical Research Methodology. 2024. https://doi.org/10.1186/s12874-024-02181-x. 生物年龄代表了个体真实的生理状态，其与实际年龄可能会有差异（个体可能比实际年龄更年轻/更老）。生物年龄与实际年龄之间的偏离（aging divergence）激发了广泛的研究兴趣，通常认为当生物年龄大于实际年龄时，个体会有更低的预期寿命以及更高的死亡或者疾病风险。常见的生物年龄通常由生化或者分子特征预测得知，而实际应用中这类数据往往属于横截面数据（cross-section data, 指在某一个时间点收集的数据，与时序数据相区别）。这篇文章指出，当使用的是横截面数据时候，研究 aging divergence是否与某一些性状相关往往有一个隐含假设（identical-association-assumption），即与年龄最有关的形状也必然与aging divergence最有联系。该假设是否成立直接影响分析结果是否有生物学意义。可惜的是从横截面数据中我们无法测试这种假设是否成立或者不成立（untestable）。这篇文章的主要贡献是通过模拟和真实数据显示地揭示了这个经常被忽视的隐含假设，对衰老的研究和衰老机理的解释有一些警醒作用。

IF:3.900Q1 BMC medical research methodology, 2024-Mar-08. DOI: 10.1186/s12874-024-02181-x PMID: 38459475

Clarifying the biological and statistical assumptions of cross-sectional biological age predictors: an elaborate illustration using synthetic and real data

翻译

Marije H Sluiskes, Jelle J Goeman, Marian Beekman, P Eline Slagboom, Hein Putter, Mar Rodríguez-Girondo

Abstract:

BACKGROUND: There is divergence in the rate at which people age. The concept of biological age is postulated to capture this variability, and hence to better represent an individual's true … >>>

翻译

15.

Vincent (2024-02-29 17:06):

#paper Transfer learning enables predictions in network biology. Nature. 2023. doi: https://doi.org/10.1038/s41586-023-06139-9. 学习基因互作网络通常需要大量数据，对于数据较少的生物研究来说，利用迁移学习和预训练模型能够有效降低对数据量的需求。这篇文章提出了一种基于transformer的深度学习模型geneformer，其使用了大量的单细胞数据集进行预训练（自监督学习）。在模型训练中，geneformer 并未使用gene的原始表达值，而是使用了gene expression rank（相当于数据降噪）来学习基因网络。对于下游任务，利用少量数据对模型微调就能够很好的增强预测准确率。文章列举了geneformer在基因剂量，染色质，基因网络方面的例子，预测准确性相较传统的机器学习模型均有明显提升。

IF:50.500Q1 Nature, 2023-06. DOI: 10.1038/s41586-023-06139-9 PMID: 37258680 PMCID:PMC10949956

Transfer learning enables predictions in network biology

翻译

Abstract:

Mapping gene networks requires large amounts of transcriptomic data to learn the connections between genes, which impedes discoveries in settings with limited data, including rare diseases and diseases affecting clinically … >>>

翻译

16.

Vincent (2024-01-31 15:43):

#paper doi:https://www.jstor.org/stable/30047444 Journal of the American Statistical Association, 2006, Prediction by Supervised Principal Components. 当特征维度较高时，回归分析结果往往不是很理想，这一方面是因为数据噪声较大，另一方面是特征之间的相关性较高所导致的。这篇文章提出了一个简单有效的监督学习降维的框架，即根据特征与因变量之间的回归系数进行阈值筛选，再对筛出的少量特征降维，利用得到的主成分进行回归或者广义回归分析。这篇文章的主要理论贡献是在回归和生存分析的背景下论证了该方法的渐进一致性，比较了该方法其他方法（例如岭回归，lasso回归，偏最小二乘）的异同。文章最后还提到了该方法的局限性，例如无法处理单个特征与因变量边缘独立，但是几个特征联合起来与因变量不独立的情况等。

IF:3.000Q1 Journal of the American Statistical Association, 2006.

Prediction by Supervised Principal Components

翻译

Abstract: No abstract available.

17.

Vincent (2023-12-31 21:15):

#paper doi: 10.1126/science.adi6000 Prediction-powered inference, science 2023 目前很多领域里已标注的数据(金标准)较稀缺而未标注的数据较丰富，如何使用这些数据得到严谨的统计结论还面临着颇多挑战。传统方法的思路是只使用这些少数的金标准的数据进行统计推断，这种方案得到的统计结果有效，但样本量少会导致可能的发现较少。另一种思路是使用预测模型对未标注的数据进行标注，用补全标签后的数据和金标准数据进行统计推断，这种方案样本量大，但其假设了预测模型是完美的, 很多时候这种假设并不成立，预测误差与偏差累计可能会导致无效的统计结论。这篇文章提出了一个通用的框架，在使用预测模型的同时也保证了统计结论的有效性。该框架分为三步，1.选择需要估计的参数，2.从未标注数据估计拟合度，从标注数据估计矫正量，3.结合拟合度与校正量获取参数的置信区间。文章在数学上证明了对于任意的预测算法与数据分布，这种基于预测的统计推断能够确保置信区间涵盖真实值的概率达到给定的置信度。由于该方法能够使用的样本量更大，后续数据分析也验证了其较传统方法得到的置信区间更窄，p-value更有效。

Science (New York, N.Y.), 2023-Nov-10. DOI: 10.1126/science.adi6000 PMID: 37943906

Prediction-powered inference

翻译

Anastasios N Angelopoulos, Stephen Bates, Clara Fannjiang, Michael I Jordan, Tijana Zrnic

Abstract:

Prediction-powered inference is a framework for performing valid statistical inference when an experimental dataset is supplemented with predictions from a machine-learning system. The framework yields simple algorithms for computing provably … >>>

翻译

18.

Vincent (2023-11-30 16:34):

#paper Contrastive Variational Autoencoder Enhances Salient Features, arxiv, 2019 https://arxiv.org/abs/1902.04601 最近的对比PCA采用了对比学习的思路，能够捕捉目标数据集与背景之间的差异，从而实现保留对比信号的无监督降维。然而对比PCA跟PCA类似，只能对变量做线性组合进行降维，无法捕捉变量间的非线性关系。这篇文章对对比PCA做了拓展，使用变分自编码模型(VAE)来实现对非线性关系的捕捉，该方法称为对比VAE。对比VAE通过对数据集间的共享特征以及富集在目标数据中的特征进行显式建模，从而分离和增强目标数据中的突出潜在特征。该方法的运算时间与VAE类似，并且对噪音和数据纯度有较高的鲁棒性。文章在多个数据集上（例如手写数字MNIST）验证了该方法在捕捉突出潜在特征方面的有效性，比起传统的VAE也有持续提高。同时其作为一种生成式学习工具，训练好以后也能够用这些显著潜在特征来生成新的数据。

arXiv, 2019. DOI: 10.48550/arXiv.1902.04601

Contrastive Variational Autoencoder Enhances Salient Features

翻译

Abubakar Abid, James Zou

Abstract:

Variational autoencoders are powerful algorithms for identifying dominantlatent structure in a single dataset. In many applications, however, we areinterested in modeling latent structure and variation that are enriched in atarget … >>>

翻译

19.

Vincent (2023-10-31 14:27):

#paper https://doi.org/10.1038/s41576-022-00477-6 Nat Rev Genet 2022 Making sense of the ageing methylome 衰老近些年引起了比较大的研究兴趣。这篇综述文章总结了近些年关于衰老的甲基化组学研究。文章介绍了寻找衰老关联位点的几种统计方法和对应的工具，例如最常见的使用线性模型寻找差异化位点，使用假设检验寻找变异位点，以及通过使用熵值和相关性网络等统计工具寻找更复杂的变化模式。此外文章还介绍了一些有趣的与衰老相关的甲基化证据，探讨了通过干预甲基化模式与机制来达到延长寿命的策略。最后文章还讨论了甲基化年龄机理的相关理论。

Nature reviews. Genetics, 2022-10. DOI: 10.1038/s41576-022-00477-6 PMID: 35501397

Making sense of the ageing methylome

翻译

Kirsten Seale, Steve Horvath, Andrew Teschendorff, Nir Eynon, Sarah Voisin

Abstract:

Over time, the human DNA methylation landscape accrues substantial damage, which has been associated with a broad range of age-related diseases, including cardiovascular disease and cancer. Various age-related DNA methylation … >>>

翻译

20.

Vincent (2023-09-30 23:59):

#paper https://doi.org/10.1038/s41592-018-0213-x Identification of differentially methylated cell types in epigenome-wide association studies. Nature Methods, 2018。表观基因组关联研究经常使用细胞类型的比例作为协变量，使用线性模型挖掘出与研究性状相关的差异甲基化位点，然而此类方法很难确定具体是什么细胞类型导致了该差异甲基化位点。这篇论文介绍了简单而有效的新的甲基化差异检测方法，通过引入性状与细胞类型的interaction term，在原有的统计框架下，该方法能够发现引起甲基化位点变化的具体的细胞类型。在模拟研究中，该方法表现优异，能够达到超过90%的灵敏度和特异性。

IF:36.100Q1 Nature methods, 2018-12. DOI: 10.1038/s41592-018-0213-x PMID: 30504870

Identification of differentially methylated cell types in epigenome-wide association studies

翻译

Shijie C Zheng, Charles E Breeze, Stephan Beck, Andrew E Teschendorff

Abstract:

An outstanding challenge of epigenome-wide association studies (EWASs) performed in complex tissues is the identification of the specific cell type(s) responsible for the observed differential DNA methylation. Here we present … >>>

翻译