文献收藏与分享平台

81.

颜林林 (2022-07-07 07:41):

#paper doi:10.1186/s13059-022-02699-7 Genome Biology, 2022, Storing and analyzing a genome on a blockchain. 好几年前，我就听很多人说起，想把区块链技术用于基因组相关的应用，然而，后来各种结局惨淡，似乎都没了下文。在币圈跌跌不休一片哀嚎的最近，竟然《Genome Biology》上会发表出这么一篇文章，也真是神奇和亮眼。这篇来自耶鲁的文章，其全文和源码都是开放访问的，值得对区块链技术感兴趣的朋友仔细一读。文章设想了一个由测序仪、所有者、临床医生和研究人员组成的网络，每个人都参与同步 VCFchain 或 SAMchain，以此来形成分布式的数据共享，且数据分析过程也穿插在链的延伸过程中。在区块链有限的额外字节存储中，保存巨大的基因组数据，也确实需要一些技巧（如数据拆分和查询时的重新组合）加以实现，这篇文章也确实因此做了一些工作。但整体上还是有一种“为了区块链而区块链”的感觉。权限的管理和不容篡改可能是其特点和优势，但并未在文章中充分呈现，这与此前分享过的提及区块链技术的另外两篇文章有所不同（那两篇文章的DOI分别是：10.1038/s41591-022-01768-5 和 10.1038/s41586-021-03583-3，分别发表在 Nature Medicine 和 Nature，它们更多是AI算法及数据分享价值），而本文的重点还是在于区块链相关的程序实现细节。有这篇做铺垫，说不定类似文章后续真能冲击NBT呢。

IF:10.100Q1 Genome biology, 2022-06-29. DOI: 10.1186/s13059-022-02699-7 PMID: 35765079 PMCID:PMC9241283

Storing and analyzing a genome on a blockchain

翻译

Gamze Gürsoy, Charlotte M Brannon, Eric Ni, Sarah Wagner, Amol Khanna, Mark Gerstein

Abstract:

There are major efforts underway to make genome sequencing a routine part of clinical practice. A critical barrier to these is achieving practical solutions for data ownership and integrity. Blockchain … >>>

翻译

82.

颜林林 (2022-07-06 00:02):

#paper doi:10.1186/s12864-022-08717-z BMC Genomics, 2022, The effects of sequencing depth on the assembly of coding and noncoding transcripts in the human genome. 众所周知，测序深度会影响其数据的分析结果。然而，到底影响多大，怎么影响的，往往视研究目的和研究对象而定，得具体分析，也值得研究。这篇文章，就是在系统研究测序深度对转录组数据的转录本组装的影响。文章纳入了来自150个人类干细胞样本的不同细胞组织的RNA-seq数据，除了短读长平台外，还包括四个PacBio平台的长读长数据。其中有两个样本还测了高达200M reads的NGS数据量，于是可以用它们来抽取不同比例数据，以模拟不同的测序数据量。分析结果表明，编码转录本与非编码转录本之间存在差异，前者随着测序深度增加而迅速进入饱和，后者在所分析的数据中则几乎始终未达到饱和。这可能与两者的组装难度有关。此外，长读长信息有助于含有转座元件的转录本组装。比较有意思的是单细胞RNA-seq（scRNA-seq），其非编码转录本的表达水平低，是由于表达细胞较少，而在表达的细胞中，非编码转录本的表达水平其实与编码转录本相似，这个现象的发现得益于长读长测序平台，因此文章得出结论是长读长测序更适合scRNA-seq。但我个人多少还是怀疑这些结论很可能与分析评估方法有关，也许值得重复下这篇文章的分析过程。

IF:3.500Q2 BMC genomics, 2022-Jul-04. DOI: 10.1186/s12864-022-08717-z PMID: 35787153

The effects of sequencing depth on the assembly of coding and noncoding transcripts in the human genome

翻译

Isaac Adeyemi Babarinde, Andrew Paul Hutchins

Abstract:

Investigating the functions and activities of genes requires proper annotation of the transcribed units. However, transcript assembly efforts have produced a surprisingly large variation in the number of transcripts, and … >>>

翻译

83.

颜林林 (2022-07-05 00:03):

#paper doi:10.1093/database/baac049 Database, 2022, dbBIP: a comprehensive bipolar disorder database for genetic research. 这篇文章，正如其期刊名，是一个数据库。它的研究主题和对象是bipolar disorder（BIP，双相情感障碍，又称躁狂抑郁症）。通过整合既往关于该疾病的大规模组学数据，包括两个基于芯片的GWAS队列（PGC2和PGC3，分别贡献了20352例BIP病例和31358名对照、41917例BIP和371549对照），也包括后续多项研究的WGS/WES测序数据，还包括大规模脑组织的转录组测序数据（表达谱数据），并通过各类组学分析方法，提供了对这些数据的功能注释、连锁关联、蛋白质相互作用、时空表达模式等信息。所有这些信息都以网站形式提供查询和在线分析功能。这是典型的生物信息学类型研究工作，也是深入开启某一研究方向的有效开局方式。

Database : the journal of biological databases and curation, 2022-07-02. DOI: 10.1093/database/baac049 PMID: 35779245

dbBIP: a comprehensive bipolar disorder database for genetic research

翻译

Xiaoyan Li, Shunshuai Ma, Wenhui Yan, Yong Wu, Hui Kong, Mingshan Zhang, Xiongjian Luo, Junfeng Xia

Abstract:

Bipolar disorder (BIP) is one of the most common hereditary psychiatric disorders worldwide. Elucidating the genetic basis of BIP will play a pivotal role in mechanistic delineation. Genome-wide association studies … >>>

翻译

84.

颜林林 (2022-07-04 20:59):

#paper doi:10.1038/s41467-022-31236-0, Nature Communications, 2022, A convolutional neural network highlights mutations relevant to antimicrobial resistance in Mycobacterium tuberculosis. 本文建立了一套CNN（卷积神经网络）模型，从2万多个结核分枝杆菌的测序数据中，使用18个根据先验知识挑选的与其耐药性相关的基因座，将基因座的整个序列作为输入，以此来预测耐药性。结果显示，该CNN模型性能超过了目前其他基于传统机器学习方法和非卷积的常规神经网络方法。而且，由于深度学习方法提取了序列中的隐含特征信息，可以有效帮助预测未知突变对耐药性的影响。

IF:14.700Q1 Nature communications, 2022-07-02. DOI: 10.1038/s41467-022-31236-0 PMID: 35780211 PMCID:PMC9250494

A convolutional neural network highlights mutations relevant to antimicrobial resistance in Mycobacterium tuberculosis

翻译

Anna G Green, Chang Ho Yoon, Michael L Chen, Yasha Ektefaie, Mack Fina, Luca Freschi, Matthias I Gröschel, Isaac Kohane, Andrew Beam, Maha Farhat

Abstract:

Long diagnostic wait times hinder international efforts to address antibiotic resistance in M. tuberculosis. Pathogen whole genome sequencing, coupled with statistical and machine learning models, offers a promising solution. However, … >>>

翻译

85.

颜林林 (2022-07-03 00:04):

#paper doi:10.1002/ajmg.c.31987 American Journal of Medical Genetics, 2022, Genetic testing and glomerular hematuria - A nephrologist's perspective. 这篇综述介绍了Alport综合征（一种遗传性肾炎）的诊断和早期治疗方法的演变。该疾病表现为血尿，但并非急性外伤引起，而是与慢性炎症相关，且具有遗传性。该疾病发现于1920年，但直至2003年才被报道有药物可以进行治疗（之前只能选择透析和肾移植）。长期的临床病例积累和观察研究，确定了该疾病的遗传性，以及定位出COL4A3、COL4A4和COL4A5这三个基因与该疾病相关。由于血尿的原因很多，Alport综合征也存在各种不同程度症状的谱系分布，因此其诊断也需要开展对上述三个基因的突变检测。基因检测方法早期使用Sanger（一代测序），后来改为使用NGS（新一代测序，或者称为二代测序），无论哪种方法，都存在费用高昂等问题。在临床肾病专家的角度，会通过显微镜观察尿液中血细胞的形态等特征，帮助确定血尿的来源是否为肾小球，并综合考虑患者个体因素，确定是采取基因检测方法，或是肾活检方法。各种检测方法都并不完美，需要通过彼此互补来帮助进行疾病确诊。诸如对三个基因的检测，在NGS时代可以开展全外显子测序，不仅可能发现这三个基因上从未被报道过的难以判断致病性的突变，也可能发现与此疾病相关的其他基因突变，这些突变的解读，则需要依赖于遗传咨询师的辅助配合。这篇综述中展示的临床诊治路径（及其演化），反映了对这些信息的综合利用，以及从使患者受益的角度，该以何种顺序来组合不同的检测方法。

American journal of medical genetics. Part C, Seminars in medical genetics, 2022-09. DOI: 10.1002/ajmg.c.31987 PMID: 35775584

Genetic testing and glomerular hematuria-A nephrologist's perspective

翻译

Clifford E Kashtan

Abstract:

Alport syndrome is an inherited disorder of the kidneys that results from variants in three collagen IV genes-COL4A3, COL4A4, and COL4A5. Early diagnosis and pharmacologic intervention can delay the progression … >>>

翻译

86.

颜林林 (2022-07-02 00:24):

#paper doi:10.1186/s12859-022-04798-5 BMC Bioinformatics, 2022, DeepPN: a deep parallel neural network based on convolutional neural network and graph convolutional network for predicting RNA-protein binding sites. 识别RNA与蛋白的结合位点（RBP），是研究基因调控的重要内容。传统采用免疫沉淀等方法进行高通量的筛选和测定，但实验方法存在诸多局限，故人们尝试开发了许多计算工具来预测RBP，这其中大多为根据序列和结构信息进行数学计算的方法。深度学习技术，由于能够自动根据数据学习到重要且复杂的隐藏特征，因此也逐步被应用到这个问题上来。本文的研究，在考虑深度学习技术时，采用了图卷积网络（GCN）中的ChebNet。该方法过去多被用于光谱数据，且近年的研究在fMRI、图像语义分割等领域也都取得不错效果。于是本文基于CNN和ChebNet搭建了一个名为DeepPN的并行深度神经网络，并在24个真实数据集上进行测试，效果优于其他同类方法。推测可能是由于本文方法利用了统计频率来补充特征，因此取得了更好的性能。

IF:2.900Q1 BMC bioinformatics, 2022-Jun-29. DOI: 10.1186/s12859-022-04798-5 PMID: 35768792

DeepPN: a deep parallel neural network based on convolutional neural network and graph convolutional network for predicting RNA-protein binding sites

翻译

Jidong Zhang, Bo Liu, Zhihan Wang, Klaus Lehnert, Mark Gahegan

Abstract:

BACKGROUND: Addressing the laborious nature of traditional biological experiments by using an efficient computational approach to analyze RNA-binding proteins (RBPs) binding sites has always been a challenging task. RBPs play … >>>

翻译

87.

颜林林 (2022-07-01 07:57):

#paper doi:10.1101/2022.06.27.497710 bioRxiv, 2022, PaliDIS: A tool for fast discovery of novel insertion sequences. 这是一篇有关的生信工具的文章，通讯作者来自Wellcome Sanger Institute。该工具从宏基因组数据中，寻找彼此之间含有相同重复片段的序列，将其比对到各组装好的微生物基因组上，将连锁位于同一组装序列且彼此反向互补的重复片段筛选出来，并经过一系列质控过滤，从而鉴别出在微生物基因组上发生的倒位形式的移动元件，以此帮助对耐药基因及其在不同菌种之间传播进行研究。类似流程在人类基因组分析中并不少见，且基本都是根据基因组事件及其序列特征直接进行实现，方法本身算不上有什么特别的创新之处。只不过应用于特定场景的特定数据集（在这篇文章里，数据是来自HMP，Human Microbiome Project，人类微生物计划），对分析结果进行（关于该移动元件的）统计描述和分析，倒是可行且常见的研究套路。

bioRxiv, 2022. DOI: 10.1101/2022.06.27.497710

PaliDIS: A tool for fast discovery of novel insertion sequences

翻译

Victoria R Carr, Solon P. Pissis, Peter Mullany, Saeed Shoaie, David Gomez-Cabrero, David L. Moyes

Abstract:

The diversity of microbial insertion sequences, crucial mobile genetic elements in generating diversity in microbial genomes, needs to be better represented in current microbial databases. Identification of these sequences in … >>>

翻译

88.

颜林林 (2022-06-30 00:17):

#paper doi:10.1038/s41597-022-01450-y Scientific Data, 2022, HunCRC: annotated pathological slides to enhance deep learning applications in colorectal cancer screening. 《Nature》子刊《Scientific Data》确实是宝藏。这篇来自匈牙利的论文，就分享了一组很有用的数据。取材了200张H&E染色的结直肠癌的肿瘤组织切片，使用40倍高分辨率扫描全片，然后由病理医生进行标注，从中切分出多个不同类别的图像块，可用于后续结直肠癌的各类病理图像分析研究。值得夸赞的是，从样本采集到数据处理，整个过程有详细描述，数据处理代码、带标注的原始图像、处理后的带分类信息的图像块，全部都开放供直接下载使用。代码地址： https://github.com/qbeer/qupath-binarymask-extension https://github.com/patbaa/crc_data_paper 原始图像数据： https://wiki.cancerimagingarchive.net/pages/viewpage.action?pageId=91357370 处理后数据： https://figshare.com/articles/dataset/patches_and_local_annotations_slide_200_zoom_124x124_um2/19500266

IF:5.800Q1 Scientific data, 2022-06-28. DOI: 10.1038/s41597-022-01450-y PMID: 35764660

HunCRC: annotated pathological slides to enhance deep learning applications in colorectal cancer screening

翻译

Abstract:

Histopathology is the gold standard method for staging and grading human tumors and provides critical information for the oncoteam's decision making. Highly-trained pathologists are needed for careful microscopic analysis of … >>>

翻译

89.

颜林林 (2022-06-29 22:30):

#paper doi:10.1002/humu.24424 Human Mutation, 2022, Screening of potential novel candidate genes in schwannomatosis patients. 这篇论文研究的是神经鞘瘤病（Schwannomatosis），是一种由周围神经的神经鞘所形成的肿瘤，该疾病与遗传有很大关系，通常会筛查NF2、SMARCB1和LZTR1这三个基因的胚系突变。然而，仍有相当大比例的患者并不携带这三个基因的突变，提示存在其他致病基因，本文则为寻找这样的基因。研究纳入了来自75个家庭的散发患者，这些患者均经筛查未携带上述三个基因的致病突变，于是采用NGS、MLPA、PCR+Sanger等方法，扩展筛查范围，找到DGCR8、COQ6、CDKN2A和CDKN2B等基因携带致病突变，结合既往文献研究，推断它们与该疾病发生相关，为后续研究该疾病的发病机制提供了证据提示。本文的研究逻辑和方法，也是拓展遗传病致病基因的常规研究套路。

IF:3.300Q2 Human mutation, 2022-10. DOI: 10.1002/humu.24424 PMID: 35723634

Screening of potential novel candidate genes in schwannomatosis patients

翻译

Abstract:

Schwannomatosis comprises a group of hereditary tumor predisposition syndromes characterized by, usually benign, multiple nerve sheath tumors, which frequently cause severe pain that does not typically respond to drug treatments. … >>>

翻译

90.

颜林林 (2022-06-28 07:39):

#paper doi:10.1101/2022.06.22.497216 bioRxiv, 2022, Intratumoral mregDC and CXCL13 T helper niches enable local differentiation of CD8 T cells following PD-1 blockade. 这篇文章来自西奈山伊坎医学院，其病例队列出自一项用于非小细胞肺癌（NSCLC）、肝细胞癌（HCC）和头颈部鳞癌（HNSCC）的手术前抗PD-1免疫药物（西米普利单抗，Cemiplimab）新辅助治疗的多中心II期临床试验（NCT03916627，该临床试验尚在进行中，始于2019年，预计2024年完成）。本文仅针对其中的肝细胞癌患者，通过对其新辅助治疗后手术取样组织，开展TCR测序、全外显子测序、单细胞转录组测序、多重免疫组化等实验，寻找与新辅助治疗疗效相关的特定细胞类群。通过免疫组化和免疫荧光方法，确认在肿瘤中确实富含T细胞并浸润其中的患者，仍有部分患者对PD-1药物并无响应。对比响应者与无响应者之间的细胞类群组成差异，找到一个细胞类群组合，成熟调节树突状细胞（mregDC，LAMP3+）与 CXCL13+ CD4+ 辅助性T细胞，它们与 PD-1高表达的CD8+ T细胞前体结合，形成三元组，促使后者形成 PD-1高表达的 GZMK+ 效应T细胞。而在没有这两类细胞的情况下，后者将形成耗竭型CD8+ T细胞。这导致了该新辅助治疗的不同预后结局。这项研究也为进一步揭示免疫治疗相关机制提供了新的证据。

bioRxiv, 2022. DOI: 10.1101/2022.06.22.497216

Intratumoral mregDC and CXCL13 T helper niches enable local differentiation of CD8 T cells following PD-1 blockade

翻译

Assaf Magen , Pauline Hamon , Nathalie Fiaschi , Leanna Troncoso , Etienne Humblin , Darwin D'souza , Travis Dawson , Matthew D. Park , Joel Kim , Steven Hamel , ... >>>

Abstract:

Here, we leveraged a large neoadjuvant PD-1 blockade trial in patients with hepatocellular carcinoma (HCC) to search for correlates of response to immune checkpoint blockade (ICB) within T cell-rich tumors. … >>>

翻译

91.

颜林林 (2022-06-27 00:24):

#paper doi:10.3390/diagnostics12061493 Diagnostics, 2022, MixPatch: A New Method for Training Histopathology Image Classifiers. 病理图像分析中，由于原始全片数据量太大（通常为5万x5万像素），很难直接丢入DNN模型，故通常会进行切分，形成大量图块（patch），逐一进行分析（训练或预测）。对于每个图块，一般会由病理医生进行注释，确定其临床特征（如是否恶性肿瘤区域）。该临床特征一般是“是或否”的二分状态。然而，事实上很多分块会同时包含良性或恶性的不同类型区域，这种“不确定”的图块，会造成模型的误判和性能损失。本文的研究，采取最小图块（128x128像素，被病理医生认为最小可识别区域），以便给出“干净”的金标准数据集，并在此基础上，合并相邻最小图块（一般9个或16个，即3x3或4x4），得到“混合的图块（mix patch）”，并根据组合前原始信息，给出对该“混合图块”的结果的可信度估计。这其实是个模糊集合的理念。而通过这般操作，使得病理分析的性能得到了提升，且在对全片水平（slide level）进行的预测中也取得了更好的结果。

Diagnostics (Basel, Switzerland), 2022-Jun-18. DOI: 10.3390/diagnostics12061493 PMID: 35741303

MixPatch: A New Method for Training Histopathology Image Classifiers

翻译

Youngjin Park, Mujin Kim, Murtaza Ashraf, Young Sin Ko, Mun Yong Yi

Abstract:

CNN-based image processing has been actively applied to histopathological analysis to detect and classify cancerous tumors automatically. However, CNN-based classifiers generally predict a label with overconfidence, which becomes a serious … >>>

翻译

92.

颜林林 (2022-06-26 22:13):

#paper doi:10.1371/journal.pcbi.1009730 PLOS Computational Biology, 2022, Improved transcriptome assembly using a hybrid of long and short reads with StringTie. 这篇文章来自Johns Hopkins，开发了一个能够混合使用长读长及短读长测序数据进行转录组拼装的工具。高通量测序数据中，短读长平台的准确性高，但读长较短，难以覆盖完整转录本，而长读长平台虽然可以跨越多个外显子，帮助确定转录本剪切方式，但由于碱基准确度相对较差，因而也容易在比对时造成错误，影响转录本的确定。本文的工具，展示了由于测序错误导致的“嘈杂”比对，以及由此导致的搜索空间大幅增加。通过使用图论中的最大流量问题的解法，以及在“嘈杂”比对局部使用更准确的短读长数据，帮助确定正确的剪切位点，从而实现综合两种平台（长读长与短读长）的优势，且运算速度也并不弱于以往使用单一数据的工具算法。为评估此工具，本文除了使用模拟数据外，同时也选择了拟南芥、小鼠和人的多套真实数据集，在组装精读和输出的可正确注释的转录本等方面，都表现出符合预期的更好成绩。

IF:3.800Q1 PLoS computational biology, 2022-06. DOI: 10.1371/journal.pcbi.1009730 PMID: 35648784

Improved transcriptome assembly using a hybrid of long and short reads with StringTie

翻译

Alaina Shumate, Brandon Wong, Geo Pertea, Mihaela Pertea

Abstract:

Short-read RNA sequencing and long-read RNA sequencing each have their strengths and weaknesses for transcriptome assembly. While short reads are highly accurate, they are rarely able to span multiple exons. … >>>

翻译

93.

颜林林 (2022-06-25 20:26):

#paper doi:10.3390/s22124409 Sensors, 2022, Deep Neural Networks Applied to Stock Market Sentiment Analysis. 这篇来自葡萄牙的关于深度学习技术应用的论文，被发现和推送自PubMed（PMID:35746192）。文章主要介绍了如何使用深度神经网络，从社交网站（Twitter、Reddit等）的文字内容，推断其情绪分类（积极或消极），并利用此情绪结果，进行模拟投资，以评估其投资收益率。文章内容算不上有太多创新价值，不过其认真介绍DL技术原理、实现和评估过程，倒是有点像一篇教程。反而是关于股市及投资的内容，显得有些割裂，像是强行补充。因为其深度模型的性能评估，也还是仅仅针对情绪分类进行的。作者在文末展望之处还提到，后续打算引入数据流技术（data streaming technology），使该分析过程能够实时进行，倒或许会指出更多合适的新应用场景。

Sensors (Basel, Switzerland), 2022-Jun-10. DOI: 10.3390/s22124409 PMID: 35746192

Deep Neural Networks Applied to Stock Market Sentiment Analysis

翻译

Filipe Correia, Ana Maria Madureira, Jorge Bernardino

Abstract:

The volume of data is growing exponentially and becoming more valuable to organizations that collect it, from e-commerce data, shipping, audio and video logs, text messages, internet search queries, stock … >>>

翻译

94.

颜林林 (2022-06-24 21:32):

#paper doi:10.1038/s41587-022-01294-2 Nature Biotechnology, 2022, The clinical progress of mRNA vaccines and immunotherapies. 这是一篇关于mRNA疫苗的长篇综述。使用mRNA作为载体开发疫苗的概念，始于1990年，它通过借用接种者身体内的蛋白质翻译机制来产生靶蛋白，而非直接注射（灭活或减活）病原体或靶蛋白本身。这种方式带来一系列优点，诸如设计简便、固有免疫原性、可快速量产等。当然，它也存在诸如稳定性差、疫苗在体内递送至目标位置困难等缺点或挑战。在新冠疫情爆发以来的这三年里，借着大量资金投入增加、紧急使用授权等机会，mRNA疫苗的研发及投产使用得到了极大加速。本文对这些发展，包括给药递送方法，针对传染病的疫苗研发、使用及优化，针对癌症治疗的疫苗方法，mRNA疫苗在蛋白质和细胞免疫治疗中的使用等，都做了比较详细的综述介绍，并据此讨论了当前存在的问题和未来研发方向。通篇读下来，能对mRNA疫苗及其技术路线形成比较深入的了解，也确实能体会到这是个潜力巨大、值得探索和继续研发的重要技术体系。

IF:33.100Q1 Nature biotechnology, 2022-06. DOI: 10.1038/s41587-022-01294-2 PMID: 35534554

The clinical progress of mRNA vaccines and immunotherapies

翻译

Ann J Barbier, Allen Yujie Jiang, Peng Zhang, Richard Wooster, Daniel G Anderson

Abstract:

The emergency use authorizations (EUAs) of two mRNA-based severe acute respiratory syndrome coronavirus (SARS-CoV)-2 vaccines approximately 11 months after publication of the viral sequence highlights the transformative potential of this … >>>

翻译

95.

颜林林 (2022-06-23 07:02):

#paper doi:10.1186/s12859-022-04768-x BMC Bioinformatics, 2022, Using BERT to identify drug-target interactions from whole PubMed. 这篇文章通过使用自然语言处理技术中BERT模型，批量分析了PubMed和PMC的全数据库，从文章中识别出药物和蛋白质信息，并提取药物-靶点相互作用（DTI）数据，包括对应所使用的实验方法类别等重要信息。通过本文的方法，新识别出的60万篇文章，都未被公共DTI数据库所包含。通过人工抽查审核和较差验证的方法，确认了该方法的准确度（99%以上）。通常这类数据的文献挖掘和整理，都依赖于人工，在效率上存在很大局限。诸如本文的人工智能方法，将为药物发现和重定位、加快药物开发等提供帮助。

IF:2.900Q1 BMC bioinformatics, 2022-Jun-21. DOI: 10.1186/s12859-022-04768-x PMID: 35729494

Using BERT to identify drug-target interactions from whole PubMed

翻译

Jehad Aldahdooh, Markus Vähä-Koskela, Jing Tang, Ziaurrehman Tanoli

Abstract:

BACKGROUND: Drug-target interactions (DTIs) are critical for drug repurposing and elucidation of drug mechanisms, and are manually curated by large databases, such as ChEMBL, BindingDB, DrugBank and DrugTargetCommons. However, the … >>>

翻译

96.

颜林林 (2022-06-22 00:43):

#paper doi:10.1038/s41591-022-01768-5 Nature Medicine, 2022, Swarm learning for decentralized artificial intelligence in cancer histopathology. 前段时间刚在Nature上一篇文章（doi:10.1038/s41586-021-03583-3）读到Swarm learning（群体学习），该文提及一种在不违反隐私法规的前提下进行临床数据共享，从而帮助针对那些普遍存在异质性的疾病开展精准医学研究。本文则是针对肿瘤病理图像分析，也使用群体学习技术。病理图像分析，是典型的需要依赖大量高质量数据集的研究方向，群体学习正好使得合作单位可以共同训练AI模型，同时又避免数据传输和数据垄断。本文基于来自爱尔兰、德国和美国的三个结直肠癌患者队列训练了模型，该模型通过分析患者的H&E染色切片，预测其驱动基因突变、dMMR突变和微卫星不稳定性状态（MSI）等，并在来自英国的两个独立队列数据集中进行模型的性能验证。在训练模型的三个数据节点（研究中心）之间，并不直接传递原始数据，而是在每次迭代步骤中，通过去中心化的区块链技术，进行模型参数的同步。也因此，各数据节点之间是对等的，并没有需要汇总其他节点的特殊中心节点。这种模式为将来拓展到更大范围、更多机构的合作，提供了可能性，也将使病理图像分析模型得到更大进步。

IF:58.700Q1 Nature medicine, 2022-06. DOI: 10.1038/s41591-022-01768-5 PMID: 35469069 PMCID:PMC9205774

Swarm learning for decentralized artificial intelligence in cancer histopathology

翻译

Oliver Lester Saldanha, Philip Quirke, Nicholas P West, Jacqueline A James, Maurice B Loughrey, Heike I Grabsch, Manuel Salto-Tellez, Elizabeth Alwers, Didem Cifci, Narmin Ghaffari Laleh, ... >>>

Abstract:

Artificial intelligence (AI) can predict the presence of molecular alterations directly from routine histopathology slides. However, training robust AI systems requires large datasets for which data collection faces practical, ethical … >>>

翻译

97.

颜林林 (2022-06-21 00:03):

#paper doi:10.1016/j.jmoldx.2022.05.003 The Journal of Molecular Diagnostics, 2022, Comprehensive Validation of Diagnostic Next-Generation Sequencing Panels for Acute Myeloid Leukemia (AML) Patients. 这是来自瑞士和德国的一篇关于血液肿瘤基因检测panel验证的文章。通常认为，肿瘤是遗传病，即由于遗传物质发生突变而导致的疾病。因此，在诊断和治疗决策过程中，会需要开展特定基因的检测。在临床实践上，可以采取panel富集特定DNA片段进行测序的方法，这也是目前肿瘤相关基因检测商业服务的基本模式。这种检测服务得以上市的前提，是需要经过充分的验证。本文便是这样一个验证过程的实例。本文的验证对象，是为诊断AML（急性髓系白血病）的panel，验证过程纳入了26例AML患者的33个DNA样本（骨髓或外周血），以及Acrometrix Oncology Hotspot Control DNA作为对照。对这些样本中携带的AML相关突变进行了检测和性能评价。而临床样本中的突变，也采用qPCR、Sanger测序等方法进行了确认。通过评估，从四个不同panel及多种分析软件中，选出了针对血液病性能最佳的panel及软件组合。

The Journal of molecular diagnostics : JMD, 2022-08. DOI: 10.1016/j.jmoldx.2022.05.003 PMID: 35718092

Comprehensive Validation of Diagnostic Next-Generation Sequencing Panels for Acute Myeloid Leukemia Patients

翻译

Abstract:

Next-generation sequencing has greatly advanced the molecular diagnostics of malignant hematological diseases and provides useful information for clinical decision making. Studies have shown that certain mutations are associated with prognosis … >>>

翻译

98.

颜林林 (2022-06-20 07:48):

#paper doi:10.1016/j.gpb.2022.03.002 Genomics, Proteomics & Bioinformatics, 2022, Cancer is a survival process under persistent microenvironmental and cellular stresses. 这篇综述是关于癌症发生发展的机制，提出了一个新的框架看法。相较于传统以突变为核心的理解，该新看法的关键点在于，认为癌细胞的持续分裂是其生存的“必须”行为，而非仅受遗传物质突变所指导的被动结果。针对这个看法，文章从代谢模式变化、胞质pH状态、慢性炎症、过量铁积累负荷、芬顿反应等角度分别进行了阐释。对于某些癌种随年龄增长其发病率反而下降，以及某些物种很少发生或几乎不会发生癌症，这种看法也提供了新的解释。

Genomics, proteomics & bioinformatics, 2023-12. DOI: 10.1016/j.gpb.2022.03.002 PMID: 35728722 PMCID:PMC11082257

Cancer Is A Survival Process under Persistent Microenvironmental and Cellular Stresses

翻译

Renbo Tan, Yi Zhou, Zheng An, Ying Xu

Abstract: No abstract available.

99.

颜林林 (2022-06-19 00:14):

#paper doi:10.1186/s13073-022-01069-z Genome Medicine, 2022, Reanalysis of exome negative patients with rare disease: a pragmatic workflow for diagnostic applications. 过去这些年里，我们经常会对罕见遗传病患者开展全外显子组测序，以便确认其致病基因并形成诊断结论。然而，受限于技术和积累的知识，大部分患者在测序后也仍然无法确诊。这篇来自荷兰拉德堡德大学（Radboud University）的文章，回顾了其医学中心在2011年11月至2015年1月期间到访的疑似罹患复杂神经系统遗传疾病的150名儿童患者，对其中103名未得到确诊的患者进行了随访调查，通过重新查阅评估表型信息、重新分析其全外显子测序数据，以及对仍无法确诊的患者（使用新的实验流程和外显子panel）重新进行测序和分析。这一系列操作，让32名之前未被诊断的患者得到确诊，诊断率从31%（47/150）提升到53%（79/150）。其结果也支持了在临床护理和后续随访过程中，应该对未确诊患者进行重新分析和系统评估，新的临床证据信息、新的技术方法和分析方法，都有助于改善诊治，使患者获益。

IF:10.400Q1 Genome medicine, 2022-06-17. DOI: 10.1186/s13073-022-01069-z PMID: 35710456

Reanalysis of exome negative patients with rare disease: a pragmatic workflow for diagnostic applications

翻译

Abstract:

BACKGROUND: Approximately two third of patients with a rare genetic disease remain undiagnosed after exome sequencing (ES). As part of our post-test counseling procedures, patients without a conclusive diagnosis are … >>>

BACKGROUND: Approximately two third of patients with a rare genetic disease remain undiagnosed after exome sequencing (ES). As part of our post-test counseling procedures, patients without a conclusive diagnosis are advised to recontact their referring clinician to discuss new diagnostic opportunities in due time. We performed a systematic study of genetically undiagnosed patients 5 years after their initial negative ES report to determine the efficiency of diverse reanalysis strategies.METHODS: We revisited a cohort of 150 pediatric neurology patients originally enrolled at Radboud University Medical Center, of whom 103 initially remained genetically undiagnosed. We monitored uptake of physician-initiated routine clinical and/or genetic re-evaluation (ad hoc re-evaluation) and performed systematic reanalysis, including ES-based resequencing, of all genetically undiagnosed patients (systematic re-evaluation).RESULTS: Ad hoc re-evaluation was initiated for 45 of 103 patients and yielded 18 diagnoses (including 1 non-genetic). Subsequent systematic re-evaluation identified another 14 diagnoses, increasing the diagnostic yield in our cohort from 31% (47/150) to 53% (79/150). New genetic diagnoses were established by reclassification of previously identified variants (10%, 3/31), reanalysis with enhanced bioinformatic pipelines (19%, 6/31), improved coverage after resequencing (29%, 9/31), and new disease-gene associations (42%, 13/31). Crucially, our systematic study also showed that 11 of the 14 further conclusive genetic diagnoses were made in patients without a genetic diagnosis that did not recontact their referring clinician.CONCLUSIONS: We find that upon re-evaluation of undiagnosed patients, both reanalysis of existing ES data as well as resequencing strategies are needed to identify additional genetic diagnoses. Importantly, not all patients are routinely re-evaluated in clinical care, prolonging their diagnostic trajectory, unless systematic reanalysis is facilitated. We have translated our observations into considerations for systematic and ad hoc reanalysis in routine genetic care. <<<

翻译

100.

颜林林 (2022-06-18 14:39):

#paper doi:10.1021/acssynbio.2c00120 ACS Synthetic Biology, 2022, Graph Computation Using Algorithmic Self-Assembly of DNA Molecules. 利用DNA等生物分子进行计算，可以追溯至上世纪90年代初，该领域这些年来不断进步并取得新成果，本文便是这样的一个案例。本文另辟蹊径，使用了一种称为DNA折纸的技术（即通过精巧地设计DNA序列，使其折叠成为某种特定形状），来解决一个“六顶点三色涂色”的图论计算问题。宏观上极少量的生物物质，其实包含着数量庞大的分子，因而，使用这些分子进行计算，是一个天然能提供巨大算力的策略，可以很轻松实现大量排列组合的暴力穷举，这就是生物计算概念提出的基本出发点之一。虽说被称为“DNA computing”，但它其实还远不及我们日常认识的通用电子计算机。本文的研究，是在特定图论问题上，人为列举出各个待求顶点的所有可能颜色，以及利用DNA链互补特性，设计相应序列，实现控制哪些顶点之间可以互相连接的规则。然后大量合成这样的分子，使其在特定实验条件下自由组合，最终利用AFM（原子力显微镜）扫描，找到符合特定结构形状的答案。由于使用了DNA折纸技术，AFM可以直接观察并识别出各顶点的“颜色”及连接组合，从而给出问题的求解。文章所解决的问题，被限定在特定范围，且只是概念验证阶段，未来要扩展到更多应用场景，使其具备“通用”或一定程度“通用”的程度，还有很长的路要走。

IF:3.700Q1 ACS synthetic biology, 2022-07-15. DOI: 10.1021/acssynbio.2c00120 PMID: 35703038

Graph Computation Using Algorithmic Self-Assembly of DNA Molecules

翻译

Jin Xu, Congzhou Chen, Xiaolong Shi

Abstract:

DNA molecules have been used as novel computing tools, by which Synthetic DNA was designed to execute computing processes with a programmable sequence. Here, we proposed a parallel computing method … >>>

翻译