响马读paper

一个要求成员每月至少读一篇文献并打卡的学术交流社群

本页面显示由用户 笑对人生 推荐的文献。 当前共有 30 篇文献,本页显示第 1 - 20 篇。

1.
2020, PLOS Computational Biology. DOI: 10.1371/journal.pcbi.1007531
2023-11-29 11:48:00
#paper doi: 10.1371/journal.pcbi.1007531. Kumuthini J, et al. Ten simple rules for providing effective bioinformatics research support. PLoS Comput Biol. 2020 Mar 26;16(3):e1007531. 高通量测序技术的普及使得生物信息分析的需求逐渐增加,然而,作为一名生物信息分析工作者,应该如何有效地与实验室科学家合作呢?本研究的作者们结合自身多年交叉学科的数据分析经验,为此总结出十条简单但有效的规则。(1)充分了解实验设计。(2)明确数据分析项目的范围、达成路径和预期结果。(3)对数据进行全面和科学的管理,例如及时备份。(4)数据分析步骤和结果应该可追溯。(5)明确包含样本信息的元数据的存储形式和内容。(6)注意数据安全。(7)在项目的整个生命周期都需要进行质量控制。(8)选择合适的数据分析工具。正确选择的前提是了解使用工具的优点和局限性,是否被科研人员广泛使用。(9)及时记录数据分析过程中的每一次修改。(10)对于不可用的数据,及时与实验科学家沟通,必要时要重新调整该数据的用途。
2.
2022, Nature Medicine. DOI: 10.1038/s41591-022-01906-z
2023-10-31 23:59:00
# paper doi: 10.1038/s41591-022-01906-z. Fu B, et al. CRISPR-Cas9-mediated gene editing of the BCL11A enhancer for pediatric β0/β0 transfusion-dependent β-thalassemia. Nat Med. 2022 Aug;28(8):1573-1580. 研究背景:B细胞淋巴瘤/白血病11A蛋白(B-cell lymphoma/leukemia 11A,BCL11A)是一种转录因子,可抑制红系细胞中的γ-珠蛋白和胎儿血红蛋白表达。因此,理论上靶向抑制BCL11A的表达可能使γ-珠蛋白表达抑制解除。地中海贫血(Thalassemia)是由于珠蛋白基因突变、缺失导致的珠蛋白链合成减少或完全缺失所引起的遗传性慢性溶血性疾病。根据临床症状严重程度和是否需要定期输血将地贫分为输血依赖型地贫(TDT)和非输血依赖型地贫(NTDT)。TDT需终身依赖输血,包括重型β地贫、重型Hb E/β地贫、非缺失型HbH病和重型α地贫。人出生后不久胎儿期γ-珠蛋白 (γ-globin)基因沉默表达,成体则主要表达β-珠蛋白 (β-globin),它在红细胞中与a-珠蛋白组成血红蛋白四聚体(HbA : α2β2)运载氧气。过去的研究表明,胎儿血红蛋白(HbF)水平升高可以减轻镰状细胞病 (SCD)和β-地中海贫血的临床严重程度,利用HbF替代功能受损的HbA可能是治疗β地贫的可行方案之一。在2020年,NEJM同期分别发表了两项分别利用CRISPR-Cas9和慢病毒介导的shRNA治疗β-地中海贫血症患者和镰刀状细胞贫血症患者临床试验。第一项是利用CRISPR-Cas9对患者自体CD34+细胞BCL11A的增强子区域(GATA1结合位点)进行编辑,激活γ-珠蛋白表达,最终提高血液中HbF含量。第二项是慢病毒介导的shRNA,在体外特异性靶向敲低患者自体CD34+细胞的BCL11A基因的mRNA。 研究内容:本研究是中国,也是世界首个通过CRISPR基因编辑技术重激活γ珠蛋白治疗β0/β0型重度地中海贫血儿童(两名TDT患者)并获得成功的研究。两名患者体内红细胞数量和总体Hb水平在75天左右达到健康水平。此外,研究还利用scRNAseq分析了两名健康人、一名患者治疗前和两名患者治疗后的PBMC,在单细胞水平验证了他们之间各种细胞类型比例均无显著差异。
3.
2023, Nature Communications. DOI: 10.1038/s41467-023-41452-x
2023-09-30 11:38:00
#paper doi: 10.1038/s41467-023-41452-x. Belliveau NM, et al. Whole-genome screens reveal regulators of differentiation state and context-dependent migration in human neutrophils. Nat Commun. 2023 Sep 18;14(1):5770. 中性粒细胞是人类数量最多的淋巴细胞,主要通过迁移到组织损伤和感染发生部位为机体提供早期的先天性免疫应答。在分子信号的刺激下,中性粒细胞的迁移速度能达5-20 um/min。那么,在迁移过程,中性粒细胞分化和出现表型多样性的机制是什么?它们是如何适应和改变目的环境?本研究通过全基因组CRISPR敲低筛选技术(CRISPRi screen),首先发现mTORC1信号通路是人HL-60分化的类中性细胞系分化向迁移状态转化的关键通路。接着通过定向敲低该通路的基因,定位到ATIC基因。ATIC基因主要通过影响中性粒细胞能量代谢驱动迁移。此外,作者发现中性粒细胞直接的趋化作用和间接的化学动力学行为具有非常强的基因表达相关性。以及黏附依赖和非黏附依赖迁移行为之间存在数百个差异基因。总之,本研究为CRISPRi screen应用于细胞时序行为提供了很好的研究范式。有趣的是,本研究对活细胞示踪图像数据提供了一个定量细胞迁移持久性的算法模型(贝叶斯推断)。
4.
2023, Nature. DOI: 10.1038/s41586-023-06464-z
2023-08-31 23:55:00
#paper Li J, et al. Non-cell-autonomous cancer progression from chromosomal instability. Nature. 2023 Aug;620(7976):1080-1088. doi: 10.1038/s41586-023-06464-z. Epub 2023 Aug 23. PMID: 37612508. 染色体不稳定(chromosomal instability,CIN)是癌症的基本特征之一,与治疗耐药、免疫逃逸和转移密切相关。CIN的形成始于细胞有丝分裂过程中染色体的持续性的错误分离。先前该团队的研究表明(Samuel F Bakhoum, et al. nature, 2018),CIN通过诱发cCAS-STING先天免疫信号通路介导的胞质双链DNA感应来促进肿瘤细胞转移。然而,关于CIN对肿瘤进展的影响究竟是肿瘤细胞自发的,还是依赖于免疫系统的问题,以及染色体不稳定肿瘤适应CIN和逃避免疫监视的具体机制是什么,目前仍未知。本研究通过四种相同遗传背景的肿瘤转移小鼠模型,首先证实了CIN是通过肿瘤细胞非自发机制驱动转移的发生。其次,开发了一个名为ContactTracing的单细胞转录组细胞互作工具,发现CIN引发的cGAS-STNG信号通路慢性激活,会促进下游I型干扰素的快速应答和内质网应激增加,最终导致促转移的肿瘤微环境形成。进一步的挽救实验(CIN逆转、STNG缺失和内质网抑制)和使用STING抑制剂处理细胞实验也支持这一结论。
5.
2023, Clinical Cancer Research. DOI: 10.1158/1078-0432.CCR-22-2032
2023-07-31 23:37:00
#paper doi: 10.1158/1078-0432.CCR-22-2032. Landen CN, et al. Influence of Genomic Landscape on Cancer Immunotherapy for Newly Diagnosed Ovarian Cancer: Biomarker Analyses from the IMagyn050 Randomized Clinical Trial. Clin Cancer Res. 2023 May 1;29(9):1698-1707. doi: 10.1158/1078-0432.CCR-22-2032. 研究背景:2020年7月13日,罗氏宣布阿替利珠单抗(atezolizumab,PD-L1抑制剂)联合贝伐单抗(Avastin,抗血管生成靶向药)、紫杉醇和卡铂一线治疗晚期卵巢癌患者的III期IMagyn050研究未能达到主要终点,相比对照组没有明显改善患者的无进展生存期(PFS)。 研究目的:以IMagyn050 III期临床试验为研究队列,探究携带BRCA1/2突变或同源重组缺陷(Homologous recombination deficient,HRD)的卵巢癌患者能否从atezolizumab中获益。 研究意义:同源重组缺陷(HRD)是HGSOC患者使用聚(ADP- 核糖)聚合酶抑制剂(PARPi)的重要生物标志物。本研究作为一个双盲随机对照临床试验,首次揭示了卵巢癌中BRCA1/2突变或HRD引起的基因不稳定,与免疫检查点治疗敏感性的增强无关。 研究方法:FoundationOne 伴随诊断324基因NGS试剂盒,检测的基因组特征包括BRCA1/2突变、基因组杂合性缺失(genomic, loss of heterozygosity)、TMB和MSI。以PFS作为临床终点,探究其与上述基因组特征的关联。BRCA1/2基因未发生突变,且gLOH发生比例大于等于16%。 研究结果:(1)该队列携带BRCA1/2突变有22%(234/1050)、定位为HRD人群占46%(446/980)。(2)大部分的晚期卵巢癌患者TMB较低,仅有3%患者TMB大于等于10 mut/Mb(29/1024),MSI-high患者也仅有0.3%(3/1022)。(3)携带BRCA2突变的患者PFS优于野生型患者,HRD患者PFS长于修复机制完整患者。(4)与对照组相比,BRCA2突变或HRD组患者无法从atezolizumab中获益。卵巢癌是美国女性因癌症死亡的第五大原因,最常见卵巢癌是高级别浆液性卵巢癌(High-grade serous ovarian cancer, HGSOC)。这类卵巢癌被发现时往往是晚期。目前免疫治疗,尤其免疫检查点抑制剂单药治疗对卵巢癌疗效不佳,未来急需发现更多免疫疗效预测标志物,用于筛选潜在获益人群。
6.
2021, Nature. DOI: 10.1038/s41586-021-03894-5
2023-06-30 21:33:00
#paper doi: 10.1038/s41586-021-03894-5. Epub 2021 Sep 8. Bentham R, et al. Using DNA sequencing data to quantify T cell fraction and therapy response. Nature. 2021 Sep;597(7877):555-560. doi: 10.1038/s41586-021-03894-5. Epub 2021 Sep 8. 在V(D)J重排过程中,T细胞受体alpha链编码基因(TCRA或TRA,T cell receptor-alpha gene)通常会发生丢失(TREC,T cell receptor excision circle)。基于此,本研究针对肿瘤配对的全外显子组测序数据开发了一个名为T cell ExTRECT的T细胞比例估计工具。该工具的原理主要是通过检测TRA基因发生肿瘤体细胞拷贝数变化(RDR,read-depth ratio),进而直接定量T细胞的比例。局限性:不能区分发生新抗原反应的T细胞和检测克隆型(clonotype);只能应用于全外显子组测序,要求测序深度大于30x。
7.
2023, Nature Communications. DOI: 10.1038/s41467-023-36948-5
2023-05-31 23:47:00
#paper doi: 10.1038/s41467-023-36948-5. Yang B, et al. CTCF controls three-dimensional enhancer network underlying the inflammatory response of bone marrow-derived dendritic cells. Nat Commun. 2023 Mar 8;14(1):1277.  树突状细胞是一类重要的抗原呈递细胞,参与先天性和适应性免疫的精密调控过程。激活的树突状细胞能够通过上调主要相容性复合物、共刺激分子和多种促炎细胞因子调节淋巴细胞的激活和分化。然而,树突状细胞的异常激活可能会导致多发硬化等自身免疫性疾病。因此,深入研究树突状细胞激活的内在机制对相关疾病治疗策略的制定具有重要意义。本研究结合HiC、ChIP-seq和RNAseq三种组学技术,在三维基因组层面揭示了骨髓来源的树突状细胞激活重要机制。研究结果显示,染色质loop结构和增强子-启动子互作重编程诱导树突状细胞激活;树突状细胞CTCF缺失后会引起粒细胞-巨噬细胞集落刺激因子(GM-CSF)介导的JAK2/STAT5信号通路,最终导致NF-kB复合物失活;CTCF是NK-kB依赖染色质互作和增强与Th1和Th17细胞分化相关的促炎细胞因子表达的关键分子。
8.
2023, Nature Medicine. DOI: 10.1038/s41591-023-02221-x
2023-04-30 23:23:00
#paper doi: 10.1038/s41591-023-02221-x. Comitani F, et al. Diagnostic classification of childhood cancer using multiscale transcriptomics. Nat Med. 2023 Mar;29(3):656-666. 研究背景:世界每年新增的儿童肿瘤患者大约40万。与成年人癌症不同的是,儿童肿瘤大多起源于胚胎组织,并且影响肿瘤发展的细胞类型是不同的。白血病是一种多发于儿童的肿瘤,比例约占1/3。再如,神经母细胞瘤,是一种高度异质性癌症,可始于婴儿和在儿童或青少年期间出现恶性进展,但少见于成年人。目前,尚未发现能用于所有儿童肿瘤诊断的全面分子生物标志物。转录组测序不仅能反映肿瘤的表达谱特征,而且可以能发现独立于基因组的肿瘤间差异。大多数已建立的转录组测序分类模型都是需要预标的有监督工具,因此难以发现一些复杂的表型变化。此外,瘤内异质性和肿瘤基质或免疫细胞浸润存在可能会导致在同一种肿瘤同时存在预后不良和预后良好的生物标志物。综上,有必要寻找以转录组测序为基础、灵活性高和适用于所有儿童肿瘤的生物标志物。 样本类型:聚类用数据集:2,178份儿童肿瘤样本、9,400成人肿瘤和1,735非癌组织。神经母细胞瘤转录可塑性验证样本8份。 数据类型:RNAseq和scRNAseq 研究主要内容:基于RNAseq建立一种名为RACCOON的自适应聚类方法,该方法能实现对肿瘤亚型进行无监督分类。通过比较不同类群的特征,发现儿童和成年肿瘤因年龄不同明显的差异,并且发现儿童转录紊乱性更高。接着研究者开发了一个名为OTTER的集成CNN分类器,并以RACCOON的聚类结果作为输入。与任何单一模型和以往发表的分类器相比,OTTER在所有指标上都表现更为优秀,并能高精确地对儿童肿瘤样本进行癌种类型、癌与非癌和亚型进行分类。更令人惊讶的是,该分类管道在低肿瘤纯度、高技术噪音和低测序深度(几百万个reads)下,仍能保持较高的准确度。总而言之,该研究提供了一个适用儿童肿瘤的通用分类器,并有望应用于其他的癌症类型。
9.
2018, Cell. DOI: 10.1016/j.cell.2018.03.027
2023-03-31 23:57:00
#paper doi: 10.1016/j.cell.2018.03.027.Chen H, et al. A Pan-Cancer Analysis of Enhancer Expression in Nearly 9000 Patient Samples. Cell. 2018 Apr 5;173(2):386-399.e12. 增强子(enhancer)通常位于结构基因的附近,是一类非编码DNA调节元件,在癌症的发展过程中起到越来越重要的作用。本研究利用TCGA数据库33癌种,总共8928肿瘤患者的RNA-seq数据,从全基因组范围识别和鉴定出大量表达的增强子。通过与正常组织进行比较,发现大多数癌种的增强子处在激活状态,且与非整倍体改变正相关,但与突变负荷无关,由此提出增强子与基因互作的染色体状态假说。为了建立因果关系的增强子-基因调控网络模型,作者通过整合eQTL分析、mRNA共表达分析以及Hi-C数据分析的结果,最终发现65个增强子-基因互作对。这些互作对经过CGC注释,总共包含22个原癌基因和8个肿瘤抑制基因。文章的最后,作者还通过CRISPR/Cas9 RNAs技术证实了存在于PD-L1基因上游140kb的一个增强子。
10.
2017, Cell. DOI: 10.1016/j.cell.2017.10.001
2023-02-26 23:52:00
#paper doi: 10.1016/j.cell.2017.10.001. Epub 2017 Oct 26. McGranahan N, et al. Allele-Specific HLA Loss and Immune Escape in Lung Cancer Evolution. Cell. 2017 Nov 30;171(6):1259-1271.e11.  背景:CD8+ T细胞在机体内的杀伤肿瘤的免疫应答起到至关重要的作用。肿瘤细胞表面的肿瘤抗原并不能直接激活CD8+ T细胞,而必须经抗原提呈细胞(APC)摄入后加工成短肽,并通过表面的MHC-I类分子呈递至CD8+ T细胞。因此,MHC-抗原肽-TCR复合物的形成是CD8+ T细胞激活肿瘤免疫杀伤的关键一步(后续还需要有共刺激分子提供的第二信号,例如CD28)。人类组织相容性复合体(major histocompatibility complex,MHC)是一组编码动物主要组织相容性抗原基因群的统称。人类白细胞抗原(human leucocyte antigen,HLA)是MHC的表达产物。HLA I类分子存在于所有有核细胞(含血小板和网织红细胞)表面。过去的研究表明,HLA的杂合性缺失(loss of heterozygosity in human leukocyte antigen ,LOHHLA)会影响T细胞的肿瘤抗原识别,导致肿瘤免疫逃逸。人体大部分细胞都含有两套HLA分子编码基因,它们分别来自父本和母本,如果HLA发生LOH,则意味着其中一套的编码基因可能发生完全或部分丢失。每个人的基因组包含多达6种不同HLA I类分子的等位基因,它们由三个基因(HLA-A,HLA-B和HLA-C)编码,位于6号染色体上。 研究内容:本研究开发一个基于高通量测序数据,专门计算HLA等位基因拷贝数变化,用于发现HLA的LOH的计算工具,名为LOHHLA。LOHHLA的主要分析流程包括:(1)从来自肿瘤和正常对照的样本的bam文件中提取HLA区域的reads,并转换成fastq文件。(2)将提取的reads重新比对到多个HLA等位基因区域,利用OptiType或Polysolver进行HLA分型。利用samtools计算mpileup,每一个比对位点的覆盖深度。(3)根据每个位点的测序深度的不同,确定同源HLA等位基因的多态性位点(call SNP)。(4)获取HLA等位基因区域的logR(tumor/normal coverage ratio,肿瘤组织和正常组织深度的比值)和BAF(类似VAF,对于每个多态性位点,HLA allele 1深度/(HLA allel1深度+HLA allel2))。(5)在考虑肿瘤纯度和倍性的情况下,对每个HLA基因计算HLA等位基因拷贝数变化。 本文应用该工具,在来自TRACERx队列的90位早期非小细胞肺癌(NSCLCs)患者中,发现40%(36/90)的患者存在HLA的LOH。进一步地,这些HLA的LOH与亚克隆新抗原负荷升高、APOBEC介导的体细胞突变产生、毒性T细胞活性增加以及肿瘤PD-L1表达阳性相关。
11.
2023, Nature Biotechnology. DOI: 10.1038/s41587-022-01612-8
2023-01-31 23:51:00
#paper Tan J, et al. Cell-type-specific prediction of 3D chromatin organization enables high-throughput in silico genetic screening. Nat Biotechnol. 2023 Jan 9. doi: 10.1038/s41587-022-01612-8.  在过去,三维基因组学的发展已经极大地拓宽了人们对染色质空间结构和相关构象变化对基因表达的影响。然而,受限于时间和技术成本的原因,针对特定细胞类型类型的染色质重塑事件的研究仍存在巨大挑战。本研究利用7份公开的小鼠和人的Hi-C数据,基于Transformer的多模态深度学习框架,以DNA序列信息、CTCF结合状态和ATAC-seq密度特征(非peak特征)作为输入,二维的Hi-C矩阵作为输出,构建了一个名为C.Origami,具有细胞类型特异性的三维基因组构象变化预测模型。该模型不仅de novo预测特定细胞类型的不同层次的基因组结构,而且还可以预测可能影响染色质构象的DNA元件,以及发现导致疾病发生的染色质重塑调控事件。
12.
2021, Cell. DOI: 10.1016/j.cell.2021.03.009
2022-12-31 13:24:00
#paper doi: 10.1016/j.cell.2021.03.009. Characterizing genetic intra-tumor heterogeneity across 2,658 human cancer genomes. Cell. 2021 Apr 15;184(8):2239-2254.e39. 瘤内异质性(Intra-tumor heterogeneity,ITH)是癌症治疗耐药发生的重要因素之一。ITH的计算其实是首先通过计算突变在所有肿瘤细胞的占比(即CCF),然后将具有相似肿瘤占比的突变进行聚类,最终区分肿瘤组织中哪些细胞是clone,哪些是subclone。因此,ITH的形成与肿瘤组织内clone和subclone的比例密切相关。一般来说,患者ITH低,具有免疫原性的肿瘤新生抗原主要来自clone,那么在经过治疗后,大部分的肿瘤细胞会杀死,患者预后较好。本研究通过对38种癌症类型,共2658份肿瘤组织样本的全基因组测序数据(Whole-genome sequencing,WGS)进行了ITH分析。该分析的数据集来自PCAWG,分析的内容包括单核苷酸变异、插入或缺失、结构变异、拷贝数变异、亚克隆结构推断和进化关系、以及突变特征分析,每种分析使用了4-11种算法。研究发现,大概95.1%的样本在复杂的亚克隆支型进化关系种存在明显的亚克隆扩张。在大多数癌症类型中存在亚克隆驱动突变的正向选择(positive selection)。正向选择通常会引起突变位点的多态性降低,累积有利变异,最终引起selective sweep。Selective sweep就是指当某种有利突变受到强的自然选择后,引起该位点所在染色体区域的基因多态性降低的现象。此外,该研究进一步揭示了亚克隆扩张之间存在具有癌种特异性的驱动基因突变、基因融合、结构变异和拷贝数变异的亚克隆模式,以及一些动态的突变过程。类似的研究在2019年曾有报道 (doi: 10.1038/s41586-019-1689-y),但主要关注肿瘤的转移灶,认为相比于原发肿瘤,转移灶的肿瘤内异质性相对较低。文章中涉及的一些专有名词如下:CCF,cancer cell fraction是指包含某种变异的细胞在所有肿瘤细胞的占比。如果肿瘤组织中所有肿瘤细胞携带某个特定的体细胞突变,那么这个突变的CCF即为1。乘客突变(passenger mutation)指肿瘤的发生和发展无关的突变、与之相对的促进肿瘤发展的驱动突变(driver mutation)。WGD,whole-genome duplication/doubling,全基因组倍增涉及整套染色体复制,可引起所有基因的拷贝增加,是人类肿瘤非整倍体变异进化的主要影响因素。2021年,有研究使用了约10000个原发肿瘤样本,涵盖32种不同肿瘤类型,全面分析了具有WGD的肿瘤基因组特征(doi: 10.1038/s41586-020-03133-3)。
13.
2022, Nature. DOI: 10.1038/s41586-022-05426-1
2022-11-30 23:55:00
#paper doi: 10.1038/s41586-022-05426-1. Schmitt M, Ceteci F, Gupta J, Pesic M, Böttger TW, Nicolas AM, Kennel KB, Engel E, Schewe M, Callak Kirisözü A, Petrocelli V, Dabiri Y, Varga J, Ramakrishnan M, Karimova M, Ablasser A, Sato T, Arkan MC, de Sauvage FJ, Greten FR. Colon tumour cell death causes mTOR dependence by paracrine P2X4 stimulation. Nature. 2022 Nov 16. 研究背景:实体瘤的不断形成和生长依赖于细胞死亡和增殖之间的动态平衡。越来越多的研究表明,肿瘤细胞凋亡的增加会通过旁分泌引起微环境内其他细胞激活,启动组织修复相关机制,最终反而为肿瘤生长提供支持。 科学问题:濒死的肿瘤细胞对邻近细胞究竟产生哪些直接影响,以及这种旁分泌机制是否与化疗耐药有关。 研究结果或结论:(1)在结直肠癌患者来源的肿瘤类器官中,化疗诱导肿瘤细胞死亡的同时,会释放ATP,从而触发邻近细胞中由离子通道受体P2X4介导的mTOR信号通路依赖的促存活机制,这使得存活的肿瘤上皮细胞对mTOR抑制敏感。(2)持续存在的上皮细胞中诱发的mTOR抑制敏感是由于活性氧的产生升高,以及随后对邻近细胞死亡的DNA损伤增加。因此,对化疗处理的细胞,使用针对P2X4受体的抑制剂或mTOR直接阻断剂,可防止诱导S6磷酸化,导致活性氧诱导的大量细胞死亡和明显的肿瘤消退。然而,如果单独使用抑制剂或阻断剂,并不能观察到该现象。相反,清除活性氧可防止肿瘤细胞对mTOR激活的依赖。总的来说,本研究详细阐明了肿瘤细胞死亡对邻近细胞存活一种可能机制,未来可就P2X4这一靶点进行结直肠癌治疗药物的开发。
14.
2018, npj Breast Cancer. DOI: 10.1038/s41523-018-0066-6
2022-10-08 00:00:00
#paper doi: 10.1038/s41523-018-0066-6. Migrating the SNP array-based homologous recombination deficiency measures to next generation sequencing data of breast cancer.  NPJ Breast Cancer.  2018 Jul 2;4:16. 同源重组修复(homologous recombination repair,HRR)是DNA双链断裂(double strand break,DSB)的首选修复方式。同源重组修复缺陷(homologous recombination defificiency,HRD)通常指细胞水平上的HRR功能障碍状态,可由HRR相关基因胚系突变或体细胞突变以及表观遗传失活等诸多因素导致,常存在于多种恶性肿瘤中,其中在卵巢癌、乳腺癌、胰腺导管癌、前列腺癌等肿瘤尤其突出。当HRD存在时,DSB会过度依赖非同源末端连接(non-homologous end joining,NHEJ)、微同源末端连接(microhomology mediated end joining,MMEJ)和单链退火途径(single-strand annealing,SSA)等低保真、高易错的替代性DNA损伤修复途径,从而极可能造成核酸序列的插入/缺失,拷贝数异常,并引起染色体交联,造成基因组和染色体不稳定。HRD临床检验所描述的是肿瘤基因组特定改变,也称为基因组瘢痕(genomic scar)。HRD评分(HRD score)可以用来反映肿瘤样本因HRR通路异常而导致的肿瘤样本基因组不稳定的情况。HRD score计算了三种得分的和:端粒等位基因不平衡(telomeric allelic imbalance,TAI或NtAI)评分,杂合缺失(loss of heterozygosity,LOH)评分和大片段迁移(large-scale state transition)评分。HRD评分的检测可采用SNP芯片或NGS平台。 本研究开发了一个名为scarHRD的软件包。利用scarHRD对SNP芯片和NGS平台(WES或WGS)的数据计算HRD评分,结果发现两个平台之间具有很好的相关性(Pearson相关系数在0.73-0.87之间)。对来自TCGA的三阴性乳腺癌BRCA突变和BRCA野生型队列进行分析,发现与BRCA1/2野生型患者相比,利用scarHRD计算HRD评分在突变型患者中更高,ROC曲线对应的AUC面积达80.8%,表明scarHRD能够成功反映真实的生物学功能。乳腺癌1号基因(breast cancer 1,BRCA1)是抑癌基因,主要参与DNA断裂修复过程。当BRCA发生功能缺失会导致双链断裂的DNA修复不能通过同源重组修复,进而引起基因组不稳定(genomic instability,GI)。
15.
2022, Nature Communications. DOI: 10.1038/s41467-022-30033-z
2022-10-07 22:00:00
#paper doi: 10.1038/s41467-022-30033-z. Reference-free cell type deconvolution of multi-cellular pixel-resolution spatially resolved transcriptomics data. Nat Commun. 2022 Apr 29;13(1):2339. 空间转录组技术能够揭示组织内不同区域的细胞转录谱特征,对理解组织的细胞生物学功能具有重要意义。然而,目前空间转录组技术存在一定的局限性,一是基于测序的空间转录组技术分辨率较低,无法达到真正的单细胞水平,二是基于原位杂交或显微成像的空间转录组技术检测的RNA数量有限且价格昂贵。 为了解决上述的问题,科学家开发了一系列整合单细胞转录组数据和空间转录组的算法,用于预测多细胞空间分辨率(multi-cellular pixel-resolution)下的细胞类型和复原单个细胞的完整转录表达谱。SPOTlight主要是利用来自单细胞转录组数据(scRNA-seq)的细胞类型标记基因矩阵,基于种子非负向矩阵分解方法对空间转录组的捕获位置(spot)进行细胞类型去卷积。RCTD需要利用scRNA-seq中每种细胞类型所有marker基因的表达均值作为参考数据的输入,用于建立能够反映spot内每种细胞贡献的概率统计模型,进而预测细胞类型及其比例。SpatialDWLS首先使用来自scRNAseq的细胞类型特征基因去做GSEA富集,然后利用阻尼最小二乘法(dampened weighted least squares)算法推断spot的细胞类型组成。然而,以上的这些方法均依赖于合适的scRNAseq数据,受成本、技术和生物学差异等因素的影响较大。尽管目前已公布了众多的健康人器官或组织图谱文章,但也可能存在批次效应和异质性问题。此外,基于液滴的scRNAseq需要对组织进行解离和捕获,可能会导致scRNAseq鉴定细胞类型和空间转录组不一致的问题。基于以上种种原因,有必要开发一种无需参考数据的spot细胞类型解卷积方法。 STdeconvolve是一个无需单细胞参考数据即可对空间转录组数据进行细胞类型反卷积的软件包。STdeconvolve的核心算法是隐狄利克雷分配模型(Latent Dirichlet Allocation,LDA)。LDA是自然语言处理中被普遍使用的一种统计模型,可以用于发现文档集(documents)中潜在的主题(latent topics),并最终以概率分布的形式输出。当LDA应用到空间转录组数据时,则以多细胞空间分辨率下的基因表达计数矩阵(count matrix)作为输入,进而推断每种细胞类型(主题)的转录表达谱和每种细胞类型的占比。无论是在模拟的ST数据,还是在不同分辨率的空间转录组数据(10X Visium、DBiT-seq和Slide-seq),STdeconolve都能够有效地复原组织内某一细胞类型的转录表达谱信息以及在原分辨率下的每种细胞占比。当存在匹配的单细胞参考数据集时,STdeconolve的细胞类型反卷积性能与其他依赖参考数据的软件相当。而当缺乏匹配数据集时,STdeconolve的性能更优。文章中的性能评价指标是均方根误差(Root Mean Square Error,RMSE),RMSE可用于表示模型预测中产生的误差大小,一般来说,RMSE越小,表示模型的预测能力越好。
16.
2015, Nature Biotechnology. DOI: 10.1038/nbt.3344
2022-10-07 00:02:00
#paper doi: 10.1038/nbt.3344. PMID: 26372948. Comprehensive analysis of cancer-associated somatic mutations in class I HLA genes. Nat Biotechnol. 2015 Nov;33(11):1152-8. 主要组织相容性复合物(major histocompatibility complex,MHC)是一群紧密连锁并呈现高度多态性的基因群的统称。MHC编码的蛋白通常称为MHC分子或MHC抗原。MHC的发现源自异种移植产生免疫排斥反应。研究表明,脊椎动物都具有MHC抗原,但它们的命名并不相同。人的MHC抗原称为人类白细胞抗原(human leucocyte antigen,HLA)。编码HLA的DNA序列为6号染色体短臂上一段长度约为3600kb的区域。该区域含有224个基因座,每个基因座又分别含有众多等位基因,是目前人类已知的基因多态性最丰富的区域。HLA的生物学功能包括参与抗原呈递,制约细胞间相互识别和诱导免疫应答等。HLA主要分成三类,MHC I类分子几乎在集体所有细胞中表达,能够被CD8+ T细胞识别;MHC II类分子主要表达在抗原呈递细胞(APC),能够被CD4+T细胞识别;MHC III类分子包括补体系统的成分和与炎症相关的分子,例如C4、TNF和热休克蛋白。肿瘤细胞自身能够表达与正常细胞不同的抗原,称为肿瘤新生抗原(neoantigen)。新生抗原属于肿瘤特异性抗原(tumor specific antigen,TSA)。为了让TSA不被免疫细胞发现,肿瘤细胞会通过让HLA基因发生杂合性缺失(LOH)、下调HLA基因表达(突变)和分泌PD-L1来隐藏自身。既往的研究表明,体细胞HLA基因的突变增加是导致HLA功能缺失的重要原因。基于NGS的全外显子测序技术(WES)因性价比高和能有效检测几乎所有基因的突变,目前在临床和科研肿瘤基因组检测得到广泛应用。然而,由于HLA基因序列单一和高GC含量的序列特点,利用WES进行HLA分型仍旧存在不少挑战。为此,本研究开发了一个名为POLYSOLVER(POLYmorphic loci reSOLVER)的高精确度HLA分型算法,适用于低覆盖度的WES数据。该算法在7930位癌症患者的WES数据得到验证,并在检测体细胞HLA基因突变表现出高的灵敏度和特异度。
17.
2014, Nature Methods. DOI: 10.1038/nmeth.2883
2022-10-06 00:00:00
#paper doi: 10.1038/nmeth.2883. PyClone: statistical inference of clonal population structure in cancer. Nat Methods. 2014 Apr;11(4):396-8. 恶性肿瘤的发生往往起源于一个癌变细胞(即肿瘤是由单克隆发育而来的)。癌变细胞在细胞增殖的过程中,由于变异或外界因素的压力选择,可能会产生在基因和表型方面与母细胞存在较大差异的子细胞。当这些具有相同遗传特点的子细胞逐渐形成一个细胞群体时,就称为是一个亚克隆。体细胞的突变是随机的,因此一个肿瘤块可能存在不同的克隆或亚克隆细胞。PyClone是一个基于分层贝叶斯的统计推断模型来分析癌症中克隆群体结构的软件。PyClone适用于多样本深度测序的体细胞突变数据,推断克隆群体时主要评估了细胞普遍性(prevalences),并解释了由于片段拷贝数变异(segmental copy-number changes)和正常细胞污染(normal-cell contamination)引起的等位基因不平衡。本研究还利用单细胞测序验证了PyClone推断克隆和亚克隆细胞群体的准确性。
18.
2016, Genome Biology. DOI: 10.1186/s13059-016-0893-4
2022-10-05 00:01:00
#paper doi: 10.1186/s13059-016-0893-4. DeconstructSigs: delineating mutational processes in single tumors distinguishes DNA repair deficiencies and patterns of carcinoma evolution. Genome Biol. 2016 Feb 22;17:31. 突变信号(或突变特征)(mutational signature)首次提出来自Alexandrov LB, et al. Nature, 2013.的一项研究,当时利用非负矩阵分解(Non-negative matrix factorization,NMF)算法共发现21种mutational signature,每个signature包含96种不同三核苷酸突变(96 trinucleotide contexts)。最近来自science的研究报道了58种未被识别的mutational signature(Degasperi A, Science. 2022.)。与以往的研究相比,本研究开发的deconstructSigs包能够对单个肿瘤样本分析由环境暴露、DNA损伤修复异常和诱变等引起的突变信号。目前cosmic网站(https://cancer.sanger.ac.uk/signatures/)已经根据不同变异类型分成四大类signatures,分别是SBS Signature(Single base substitutions,95种亚signature)、DBS Signature(Doublet Base Substitution,11种亚signature)、ID Signatures(Small insertions and deletions,18种亚signature)和CN Signatures(Copy Number Variantions,24种亚signature)。deconstructSigs包的分析步骤包括(1)利用mut.to.sigs.input构建输入文件。(2)利用whichSignatures进行Signature 预测。这里提到的NMF是一种用于发现数据特征的算法,之前在图像识别领域很常用,较其他PCA或SVD等算法相比,保证了矩阵元素为非负(在大多数应用场景种负值元素大多数是无意义的)。NMF的基本思想是对于任意给定的一个非负矩阵V,其能够寻找到一个非负矩阵W和一个非负矩阵H,满足条件V=W*H,从而将一个非负的矩阵分解为左右两个非负矩阵的乘积。V分解为矩阵W和H的过程需要不断地迭代,直至矩阵W和H收敛才停止。V矩阵中每一列代表一个观测(observation),每一行代表一个特征(feature),比如RNAseq的样本(列)和基因(行)的表达矩阵;W矩阵称为基矩阵(行列式的值不等于0,就是基矩阵),H矩阵称为系数矩阵或权重矩阵。这时用系数矩阵H代替原始矩阵,就可以实现对原始矩阵进行降维,得到数据特征的降维矩阵,从而减少存储空间。
19.
2022, British Journal of Cancer. DOI: 10.1038/s41416-022-01913-4
2022-10-03 23:59:00
#paper doi: 10.1038/s41416-022-01913-4. Comprehensive assessment of actionable genomic alterations in primary colorectal carcinoma using targeted next-generation sequencing. Br J Cancer. 2022 Oct;127(7):1304-1311. 这是一篇设计思路较为简单的原发结直肠癌体细胞突变检测文章,检测项目包括SNV(单核苷酸变异)、small INDELS(小的插入或缺失)、CNV(拷贝数变异)、TMB(肿瘤突变负荷)和microsatellite status(微卫星状态)。使用基于扩增子的靶向二代测序技术,设计靶向测序panel为428 cancer-related genes。使用的测序平台为Ion Proton sequencer using the Ion PI chip。临床样本的主要信息为澳大利亚队列,575份原发CRC(结肠腺癌)的FFPE样本,按取样部位划分,45.6%来自右侧colon(结肠),剩下54.4%来自左侧结肠。该篇文章主要的亮点是在对突变数据进行解读时,始终围绕着临床用药进行对比或探讨。主要值得关注的发现包括(1)在MSI-H的CRCs,BRAF是突变频率最高的原癌基因,占比为71%,其次是抑癌基因RNF43(63%)、KMT2C(50%)、APC(48%)、FAT1(48%)、ATM(39%)和ARID1A(39%)。在MSS的CRC中,APC和TP53是突变频率最高的抑癌基因,占比分别是74%和67%,突变频率最高的原癌基因是KRAS(47%)、PIK3CA(21%)和BRAF(13%)。413基因的拷贝数变异图谱也发现了MSI-H和MSS间存在差异。(2)MSI-H组患者的TMBs中位值显著高于MSS组。左侧结肠,只有5.6%是MSI-H,右侧结肠,1/3是MSI-H。47%的MSI-H患者存在至少一种loss of function(功能丧失)的突变导致ICIs治疗不佳。在MSS且RAS/RAF野生型突变的CRC患者中,59%含有至少一个可采取anti-EGFR靶向治疗的actionable mutation。actionable mutation理解为目前具有明确治疗策略的突变。随着NGS高通量测序的普及,肿瘤基因检测会报告大量的突变,其中包含具有临床意义的突变,而这些突变又包括可评估预后的突变、目前已经有批准的或正在临床试验的靶向药基因突变。(3)根据生物标志物(未找到具体标准),对复发晚期(III或IV)的CRC患者,分成6类,分别是MSI、On-label、On-label plus Off-label、Off-label、WT-RAS/RAF和WT-RAS/RAF plus Off-label。这里的on-label是指按药物包装上标注的适应症使用,off-label意为超出所标注的适应症用药。
20.
2021, Molecular Therapy - Nucleic Acids. DOI: 10.1016/j.omtn.2021.12.009
2022-10-02 23:49:00
#paper doi: 10.1016/j.omtn.2021.12.009. Computational elucidation of spatial gene expression variation from spatially resolved transcriptomics data.Mol Ther Nucleic Acids. 2021 Dec 11;27:404-411. 尽管由于技术限制,空间转录组(spatial transcriptomics,ST)无法实现真正的单细胞空间转录组,然而,相对于single cell transcriptomics,ST却可以提供重要的细胞空间位置信息。识别空间变异基因(Spatially Variable Gene,SVGs),即找到表达与空间位置相关的基因,是ST数据分析的重要内容之一。SVGs有助于系统地分析特定位置细胞状态、推断细胞间通讯,确定空间组织病理表型与基因表达的关系。与对不同区域直接做差异表达分析方法不同的是,高可变基因分析能够揭示跨区域间的类梯度表达模式变化,例如癌变区和非癌区之间的过渡区域表达模式。本综述系统且详细地总结了目前最前沿的识别SVGs工具及其背后涉及的算法。作者根据算法原理,将SVGs工具分为三大类,分别是基于统计学模型、基于机器学习和基于空间网格。作者认为,目前大多数方法都存在运存消耗过大和输出的统计显著性p值为0过多的问题,此外,缺乏对各个工具相比较的评价指标。这里提到莫兰指数(Moran‘s I),它是一种评价空间自相关(spatial autocorrelation)的统计学方法,来源于地理学。Moran’s I 的取值范围在-1到1之间,Moran’s I>0表示空间正相关,值越大,空间相关性越明显。Moran’s I<0表示空间负相关性,值越小,空间差异越大。否则,Moran’s I=0,空间呈随机性。
TOP