响马读paper

一个要求成员每月至少读一篇文献并打卡的学术交流社群

本页面显示由用户 尹志 推荐的文献。 当前共有 30 篇文献,本页显示第 1 - 20 篇。

1.
2022, arXiv. DOI: 10.48550/arXiv.2211.07697 arXiv ID: 2211.07697
2024-04-30 22:48:00
#paper doi:https://doi.org/10.48550/arXiv.2211.07697,NeurIPS 2022 Workshop on Symmetry and Geometry in Neural Representations, 2022. Do Neural Networks Trained with Topological Features Learn Different Internal Representations? 作者主要讨论了使用拓扑特征训练神经网络和使用常规数据直接进行神经网络训练在表征上的区别。结论很有意思,比较容易猜到的是,两者确实有区别,特别是在作者选择的metrics下,这也说明了拓扑机器学习的价值。但作者发现在一些情况下,也存在可以利用简单的表征来替代拓扑特征训练的模型。当然,在具体的数据场景下怎么样提取出合适的拓扑特征显著区别于使用raw data可以提取的特征,这仍是一个开放的主题。
2.
2017, EPJ Data Science. DOI: 10.1140/epjds/s13688-017-0109-5
2024-03-31 10:33:00
#paper A roadmap for the computation of persistent homology. doi: 10.1140/epjds/s13688-017-0109-5 本文是持续同调计算的经典介绍,tutorial性质。持续同调作为拓扑数据分析或者拓扑深度学习的基本概念,其基于的数据表征、计算方法、计算工具多种多样。本文综述介绍了这些内容,虽然使用的是数学语言,但不晦涩,容易理解,方便非拓扑背景的研究者与学习者对持续同调的学习和使用。
3.
2017, arXiv. DOI: 10.48550/arXiv.1710.04019 arXiv ID: 1710.04019
2024-02-28 22:09:00
#paper An introduction to Topological Data Analysis: fundamental and practical aspects for data scientists doi: https://doi.org/10.48550/arXiv.1710.04019 生成式AI风光无两,Sora甚嚣尘上,虽然我还做不到这样的效果(对,我就是酸),但我却认为这不是终极方案,特别是对于物理世界、生物系统。The Bitter Lesson中对scaling law的强调甚至信奉,在语言、视频这样的领域有其价值,但生命科学、物理系统有数十亿年的的历史(物理系统应该是创始之初把),生命的演化、物理系统的本源,人类对其千百年来积累的原理性探索,应该是更优的先验。哦,回到这篇paper的主题。拓扑数据分析,是一种将系统的拓扑与几何性质引入分析建模过程,从而对系统获取更深刻的理解的工具。本篇综述对这个工具做了细致的讲解并对它的应用领域做了分析和tutorial。对拓扑数据分析这门技术的数学前置也做了简单但细致的介绍,主要是代数拓扑和计算几何。之所以有前面一段的碎碎念,就是因为我结合最近的一些实践,切实感受到拓扑和几何这些抽象的数学工具与生成式AI的结合,对生物系统和物理世界的描述,也许是优于目前暴力怼计算的一种更高效的建模方式,能够更深入系统的物理本质。如果你也相信物理系统和生命世界的简单高效的,是美丽简洁的,建议尝试一下这些新的技术。对了,这篇综述的revison信息是[Submitted on 11 Oct 2017 (v1), last revised 25 Feb 2021 (this version, v2)], 是不是说明了点什么呢?
4.
2023, arXiv. DOI: 10.48550/arXiv.2304.02643 arXiv ID: 2304.02643
2024-01-31 10:39:00
#paper doi: https://doi.org/10.48550/arXiv.2304.02643 Segment Anything。Meta在2023年的一篇工作,提出了一个CV领域的基础模型。文章的目标很清楚,通过prompt的方式,实现通用的segmentatoin任务。虽然在互联网上爆炒一轮后趋于平淡,但是对CV社区的影响还是非常大的。后续的Grounding-DINO,Grounded-SAM等工作,都有着不错的效果,而且对后续CV任务的解决给出了一套不同的思考范式。整个工作偏工程,或者想法上原创性的亮点不多,网络结构上也充分借鉴了大量基于Transformer的创新工作。值得一提的正是工程上的思路或者说解决方案。meta提出了一个新颖的任务,即:如何通过一个通用的任务来解决图像分割。进而设计训练流程和对应的损失。在过程中,设计了一套有效的数据标注引擎,实现了高效标注数据生产,这对于行业应用有着很强的借鉴价值。 从研究角度来看,如何充分利用预训练好的sam模型,大模型中的先验如何提取,从而为特定领域下游任务提供支持是一个重要的研究方向。
5.
2023, arXiv. DOI: 10.48550/arXiv.2303.01469 arXiv ID: 2303.01469
2023-12-31 14:32:00
#paper Consistency Models https://doi.org/10.48550/arXiv.2303.01469 扩散模型目前已经是生成式AI的核心技术方案了,但是由于它的迭代生成的性质,使得采样速度一直存在问题,因此在实际应用的场景下就会遇到阻碍。CM(consistency models)作为常规的扩散模型的高效改进方案,基于PE(probability flow) ODE轨道,提出一个针对ODE轨道(可以认为是演化迭代的步骤)上的映射,使得我们能够从任意轨道点,即任意迭代的timestep,映射到初始点,即原图。cm模型的提出,让单步扩散模型采样的质量变得更高,从而带动了大量实际应用的产生,包括图像编辑、图像补全等。目前大量基于扩散模型的实际应用,都已经使用了cm。这个是年初的时候Yang Song大佬和Ilya Sutskever一起的工作,四个作者全部都是来自openAI的扩散模型大佬。
6.
2023, Cell Systems. DOI: 10.1016/j.cels.2023.10.006
2023-11-30 16:36:00
#paper Hamed Khakzad, Ilia Igashov, Arne Schneuing, et al. A new age in protein design empowered by deep learning. Cell Systems 14, 925–939 (2023). https://doi.org/10.1016/j.cels.2023.10.006. 蛋白质作为细胞的主要组成,参与了包括酶促反应、信号转导等在内的各种生命反应,其意义毋庸置疑。但是如何通过人工的方式设计特定的蛋白质,从而解决疾病治疗、药物研发等一系列生命科学问题,一直是科学家的追求。人工智能的发展,特别是深度学习的发展,给这个主题带来了特别巨大的进展。这篇最新的综述就是对使用深度学习进行蛋白质设计的几类范式和sota方法进行了介绍。从方法角度看,介绍的非常全面。有意思的是,我们会发现目前生成式模型在AI的冲击已经迁移到蛋白质设计领域,并孵化出独有的味道。图神经网络、物理启发的模型、语言模型的模仿、深度生成模型的利用在蛋白质设计领域都展现出不错的性能,特别是当把几何先验通过数学的手段,比如群轮与深度学习进行结合,往往可以较好的捕获蛋白质精巧晦涩的结构信息。当然,考虑到蛋白质设计所涉及的序列、结构、功能三者的精密联系,如何协调序列建模、结构建模等方法,也成为未来发展的关键问题。文章中对数据、benchmark等方面的讨论也很有价值。当然,问题也是一大堆,最令人不爽的是,拥有生命科学基本属性的蛋白质设计,最终的效果需要实验甚至实际效果进行验证,因此计算方法论上再优秀的设计,也需要湿实验、临床实验的验证。希望随着技术的进步,这个领域的自动化agent技术会带来全新的范式。
7.
2020, The Journal of Chemical Physics. DOI: 10.1063/5.0006074
2023-10-31 19:35:00
#paper https://doi.org/10.1063/5.0006074 J. Chem. Phys. 153, 024109 (2020) Recent developments in the PySCF program package, 这是pyscf的一篇介绍性文章,是pyscf主创团队写的,全面介绍了pyscf的目标、功能、应用领域,更重要的是作者详细讲述了pyscf库的设计理念,这个部分相信会比较吸引对科学计算感兴趣的小伙伴。pyscf是一个基于python的量子化学库,对于分子及固体的第一性原理模拟非常友好。自从2014年作者创建该库之后,越来越多从事量子模拟,电子结构计算的小伙伴为这个库做出贡献,现在pyscf不仅在量化领域,在数据科学、机器学习、量子计算领域也占据一席之地。文章写的很细,着重表达了作者团队希望pyscf能够更加松耦合,小结构驱动,成为更大项目的脚手架等设计理念,该理念也使得越来越多的量化项目优先使用pyscf,更大的项目吸取pyscf作为其核心组成部分;除了可用性,团队对性能的追求也使得pyscf成为众多量化软件中出色的候选。文章通过很多例子对上述观点进行了说明,极具可读性和参考价值,比如使用后HF对哈密顿量进行定制,使用一般化的CASSCF solverx实现轨道优化MP2方法,这些例子的代码都在20-30行代码左右,却能比很多书本都讲得清楚。最后,作者也展望了pyscf在机器学习,量子计算等领域的发展。考虑到本人在使用pyscf过程中的良好体验,推荐感兴趣的小伙伴读读这篇文章并尝试使用pyscf。对了,pyscf的作者也是传奇,真正做到了经营着量化基金,开发着量化软件,哈哈哈哈哈哈哈
8.
2022, Proceedings of the National Academy of Sciences. DOI: 10.1073/pnas.2112677119
2023-09-30 22:52:00
#paper https://doi.org/10.1073/pnas.2112677119 Thoughts on how to think (and talk) about RNA structure。mRNA疫苗的出现,再一次唤起了生物学家们对RNA结构与功能研究的热情。本文强调了重新审视rna,开展未来更多研究的重要性,反思了当前对rna结构与功能理解上可能存在的误区,并结合自己的经验,提出了6条rna研究上值得注意的点,这些观点对未来rna研究提供了一个很有价值的方向。rna的复杂性及目前的开放性是一个特别吸引计算研究者入坑的原因。传统上将rna看做一条松垮的面条的方式目前看来恐怕不能很好的描述rna的结构,rna折叠的预测目前存在非常大的挑战或者说研究空间,据我所知,目前rna折叠连二级结构都做不好,那三级结构呢?即使结构测定相对容易的情况下,作为计算工作者,能不能很好的跟进?作者在文中多次强调了rna的“unstructed”的表述问题,所谓的非结构给rna的结构预测反而提出了更大挑战:所谓“Inherently Structured”Does Not Mean “Static”, 从计算角度而言,rna的骨架约束变少,自由能landscape梯度较低,那么给计算优化带来了很多有趣的问题,面对大量的局部最优,有不有更合适的优化算法?特别是rna的动态敏感性,怎么在实际预测中考虑 这些因素,如何建模这些环境影响?Non-Watson–Crick Pairing在在RNA的功能和调控中的作用如何被考虑,等等问题。正如作者在文末呼吁的:RNA has gone mainstream, solet’s make sure RNA structure properties return to thefront seat。
9.
2018, arXiv. DOI: 10.48550/arXiv.1812.07907 arXiv ID: 1812.07907
2023-08-31 22:11:00
#paper https://doi.org/10.48550/arXiv.1812.07907 PnP-AdaNet: Plug-and-Play Adversarial Domain Adaptation Network at Unpaired Cross-Modality Cardiac Segmentation。调研高效生成模型的过程中偶遇的论文,发现还是有点意思的。文章提出了一个网络结构:PnP-AdaNet,实现了无监督的不同模态间分割任务领域适应。考虑到是2018年的老文章,其替换网络结构和利用对抗学习的想法现在已经比较常见,但我认为替换网络的思想在大模型盛行的今天有着更深刻的内涵,本人手头的一个研究主题也是沿着这条线索,目前看部分实验结果还是很不错的。
10.
2023, arXiv. DOI: 10.48550/arXiv.2210.13695 arXiv ID: 2210.13695
2023-07-31 22:52:30
#paper doi: https://doi.org/10.48550/arXiv.2210.13695 Structure-based Drug Design with Equivariant Diffusion Models 又读了一遍这篇文献,用等变扩散模型进行结构化药物设计确实是一种有效的药物设计方式,越来越多的工作也在不断证明它的价值。这篇工作挺经典的(虽然貌似被iclr拒了),它基于蛋白质口袋利用se3等变扩散模型进行了分子生成。大量实验证明它生成药物分子的新颖性和多样性在效率和有效性上都很不错。文章还讨论了使用该方法对现有分子的优化,基于补全进行分子设计等问题,虽然在效果上还存在很多缺陷,但这些思路对于小分子药物设计及现有方法的改进都非常有价值。
11.
2022, Angewandte Chemie. DOI: 10.1002/ange.202210001
2023-06-30 21:30:00
#paper https://doi.org/10.1002/ange.202210001, Angewandte Chemie 134.40 (2022), A Carbon-Carbon Bond Cleavage-Based Prodrug Activation Strategy Applied to β-Lapachone for Cancer-Specific Targeting。基本过了一遍,特别有意思的工作。文章提出了一种新型的前药(prodrug)设计策略,利用C-C键断裂来生成父药(parent drug)。在文章中这个父药是β-Lapachone, 一种对胰腺癌和肺癌有靶向效果的药物分子。前药设计策略是靶向药设计的一种现代方法,它的思路是,很多药物直接服用或者使用对患者的毒性较高,因此治疗窗口就较小。而前药设计策略是,将父药包装成前药分子,然后通过前药分子的摄入进入体内,然后在到达靶点之后,通过某种方式,转变为父药,进而被激活,产生药物活性。这个过程降低了药物毒性的影响,延长了治疗窗口。传统上,前药激活的方式是通过断裂C-N/C-O键,但是很多可修饰基团没有C-N/C-O bond。作者的新策略是进行C-C bond的断裂,从而产生父药,从而产生药效。脑洞一下啊,今年初,张锋组的一篇工作,我之前在paper群有写,通过一种叫外胞质收缩注射系统的纳米机器,进行各种蛋白质负载的传递,我感觉和前药设计的思想很像啊,都是通过间接的方式,避开某种问题,实现最终效果,类似构建一套传递体系或者传递策略。这点上很值得借鉴。只能说,药物设计生物设计简直泰裤辣
12.
2021, Drug Discovery Today. DOI: 10.1016/j.drudis.2021.05.019
2023-05-31 22:12:00
#paper doi: https://doi.org/10.1016/j.drudis.2021.05.019 Drug Discovery Today, 2021, De novo molecular design and generative models. 文章是来自业界的Benevolent AI写的,对从头的分子设计进行了综述。主要从颗粒度的角度进行 了分类,讨论了atom based, fragment based, reaction based三种不同的分子表示的视角下分子设计的方法。对于分子设计中的优化方法,文章分为无梯度和基于梯度的方法进行讨论,前者主要集中在演化算法和群体智能算法,而后者则是目前基于深度生成模型的主流。文章还强调了该领域建立合适评价标准和benchmark的重要性,不过考虑到分子设计务实的属性,这里还有非常多亟待解决的问题。文章的总结的思路很清楚,但是这个领域的发展实在是太快太快,因此2021年的综述显然是太老了,最近几年基于各种深度生成模型的分子设计很多已经相当实用化,还是建议大家看最新的文章,当然这篇综述还是可以当做一条不错的线索的。
13.
2022, bioRxiv. DOI: 10.1101/2022.12.09.519842
2023-04-30 10:32:00
#paper Broadly applicable and accurate protein design by integrating structure prediction networks and diffusion generative models doi: https://doi.org/10.1101/2022.12.09.519842 这篇文章提出了一种全新的蛋白质设计方法,叫做rf diffusion,它使用深度生成学习生成全新的蛋白质结构。文章主要使用的是 diffusion model,考虑到蛋白质骨架的复杂几何性质以及氨基酸序列-结构的复杂关系,蛋白质生成任务一直以来的挑战很大。这篇工作 使用diffusion model的思路如下:1.使用RoseTTAFold作为去噪网络,考虑到RoseTTA本来就是baker组用来做蛋白质设计的(更多的是基于物理的),这个去噪网络的选择还是很巧妙的;2.整个加噪去噪过程主要针对alpha碳原子的坐标进行,因此rf diffusion的思路是先对骨架结构进行生成的;3.然后full 的protein structure是通过backbone tracking的技术来实现的,这个过程可以理解为基于一些几何约束、bond的长度角度参数等等为已经预测的alpha碳原子添加缺失的bond和原子,4.侧链是通过rotamer实现的,rotamer是一个已经对 每个氨基酸残基做了预先计算的库,它可以为你选择符合能量最优的构象的侧链结构。 因此整个蛋白质生成的过程可以认为是深度生成模型+物理约束+后处理(预先计算)来实现的。当然,这篇工作也做了很多的实验对设计进行验证。baker组在之后使用了rfdiffusion做了后续的一些设计工作,包括De novo design of high-affinity protein binders to bioactive helical peptides这个工作,并在不久前开源了rf diffusion的代码,也有很多蛋白质设计的研究人员开始大量尝试 基于rfdiffusion的设计,并尝试进行湿实验的验证,因此这绝对是一篇开创性的工作,值得各位小伙伴关注。
14.
2023, Nature. DOI: 10.1038/s41586-023-05870-7
2023-03-31 00:12:00
#paper https://doi.org/10.1038/s41586-023-05870-7. Nature, 2023, Programmable protein delivery with a bacterial contractile injection system。这是今年张锋组的一篇新文章。文章介绍了一种叫做外胞质收缩注射系统(eCISs)的纳米机器,它们可以被重新编程以针对人类细胞并传递各种蛋白质负载,包括Cas9、碱基编辑器和毒素。这些系统可以用于基因治疗、癌症治疗和生物控制等领域。还讨论了利用收缩注射系统(CIS)作为蛋白质传递和基因编辑的潜在工具以及它们在生物技术和医学中的应用。基本都是实验,方法部分简直大开眼界,琳琅满目,基本看不懂;但看结论还是觉得挺有前瞻性的工作,而且使用了AF技术作为structure-guided engineering,这个很引起我的兴趣。总之,先浅浅仰慕读一下
15.
2022, arXiv. DOI: 10.48550/arXiv.2203.17003 arXiv ID: 2203.17003
2023-02-28 21:51:00
#paper https://doi.org/10.48550/arXiv.2203.17003 ICML, 2022, Equivariant Diffusion for Molecule Generation in 3D。扩散模型在各个领域发展极其迅速。除了图形图像,其触角已经扩展到生物制药、材料科学领域。本文就是一篇使用扩散模型进行3D分子生成的文章。作者提出了一种等变扩散模型,其中的等变网络能够很好的同时处理原子坐标这样的连续变量和原子类型这样的离散变量。该工作在QM9和GEOM两个典型的数据集上取得了sota的性能,是将等变性引入扩散模型的开篇工作之一。
16.
2022, arXiv. DOI: 10.48550/arXiv.2209.00796 arXiv ID: 2209.00796
2023-01-31 20:59:00
#paper Diffusion Models: A Comprehensive Survey of Methods and Applications, https://doi.org/10.48550/arXiv.2209.00796. 这篇综述对当前非常热门的扩散模型进行了详细的介绍与梳理。文章将当前的扩散模型总结为三类主要模型:DDPMs、SGMs、score SDEs,三类模型逐级一般化,可处理更广泛的问题。除了对三类主流扩散模型进行了详细的讲解,对比,对其相关改进工作进行了梳理,文章还探讨了扩散模型与其它主流的生成模型的联系与区别。文章在最后列举了扩散模型目前在各个领域的应用。考虑到扩散模型受物理概念启发,非常看好其后续结合数学物理的更多推广和应用,比如最近顾险峰老师就在文章中指出基于最优传输的可能改进,这确实是非常有意思的想法和主题。
17.
2022, arXiv. DOI: 10.48550/arXiv.2210.11250 arXiv ID: 2210.11250
2022-12-31 14:48:00
#paper doi: https://doi.org/10.48550/arXiv.2210.11250,Structure-based drug design with geometric deep learning. 这是一篇比较新的关于药物设计和深度学习的短小的综述。主要探讨了在结构化药物设计领域的若干重要子任务上,几何深度学习技术是如何发挥其作用的。考虑到结构化药物设计主要使用大分子(比如蛋白质、核酸)的三维几何信息来识别合适的配体,几何深度学习作为一种将几何对称性引入深度学习的技术是非常有潜力的工具。文章主要探讨了1)分子性质预测(结合亲和度、蛋白质功能、位置分数);2)结合位点和结合面预测(小分子结合位点和蛋白-蛋白结合面);3)结合位置生成和分子对接(配体-蛋白和蛋白-蛋白对接);4)基于结构的小分子配体de novo 设计几个子任务。从分子的常见表征谈起,再讨论结构化药物设计中存在的对称性问题,然后通过四个小节,分别讨论了几何深度学习对四个子任务的研究现状。是基于AI的结构化药物设计领域的一篇很不错的guideline。
18.
2021, Briefings in Bioinformatics. DOI: 10.1093/bib/bbab344
2022-11-28 21:20:00
#paper https://doi.org/10.1093/bib/bbab344 Briefings in Bioinformatics, 22(6), 2021, 1-11:Molecular design in drug discovery: a comprehensive review of deep generative models. 一篇基于深度生成模型的药物发现中的分子设计的综述。看年份是比较新的,但其实已经完全不sota了啊,哈哈哈哈哈。但是作为科普是很好的。文章介绍了基于深度生成模型的分子设计这个在药物发现领域的重要主题。综述了两种主流的分子表示:SMILES-based和图based。然后在每个表示下,分别介绍了基于VAE,GAN,RNN,Flow几种深度生成模型的分子设计。同时也介绍了目前市面上主要的de novo的分子设计的数据集。文章的结尾还从数据、模型、评价指标的角度讨论了分子设计目前存在的挑战。不过作者在写这篇综述的时候,可能是万万没想到今年diffusion model会在生成模型领域大杀四方吧,哈哈哈哈
19.
2018, arXiv. DOI: 10.48550/arXiv.1708.02002 arXiv ID: 1708.02002
2022-10-27 20:44:00
#paper doi: https://doi.org/10.48550/arXiv.1708.02002,Focal Loss for Dense Object Detection. (ICCV 2017) 这是一篇目标检测领域的经典的论文,我们知道,一直以来,目标检测领域有两类模型,单阶段和二阶段检测模型。前者以yolo和ssd为主,后者基本上是R-CNN派生出来的。一般而言,单阶段的目标检测算法速度快于二阶段检测算法,而准确性上弱于二阶段算法。原理上,二阶段检测算法基本是第一步生成一堆的候选目标框,然后第二步精准分类这些候选目标框;而单阶段检测算法是直接生成一堆(大量)的检测框。那么是不是提出一个单阶段的检测算法,速度也快,准确性也可以媲美二阶段算法呢?文章认为,单阶段在准确性上目前比不过二阶段算法的原因,是因为存在类别不平衡的问题。在二阶段算法中,我们通过第一阶段已经过滤了大多数的背景样本了,但单阶段算法一次生成的候选框非常密集,其中前景-背景类别的不平衡就非常严重,这也导致准确率上不去。因此作者提出,我们在常规的交叉熵里引入一个缩放因子,这个缩放因子在训练中能够自动对容易的样本进行降权重,从而让模型能更好的处理难例。这就是大名鼎鼎的focal loss。基于focal loss,作者设计了一个单阶段目标检测网络:RetinaNet, 通过实验对比,RetinaNet不论在速度上还是准确性上,都获得了SOTA的性能,在COCO数据集上获得了39.1的AP(这在当年是非常优秀的成绩)
20.
2019, arXiv. DOI: 10.48550/arXiv.1907.10830 arXiv ID: 1907.10830
2022-09-30 11:06:00
#paper doi:10.48550/arXiv.1907.10830 U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation, ICLR 2020. 这又是一篇图像翻译的文章,还是在网络结构上做了有效的改进。作者通过提出一个新的注意力模块和一种新的归一化函数实现无监督的图像翻译工作。作者提出的注意力模块对于图像的几何形变能够做出很好的处理,这也让文章的架构对于很多艺术风格的变化处理具有优越的效果。
TOP