文献收藏与分享平台

21.

尹志 (2024-03-31 10:33):

#paper A roadmap for the computation of persistent homology. doi: 10.1140/epjds/s13688-017-0109-5 本文是持续同调计算的经典介绍，tutorial性质。持续同调作为拓扑数据分析或者拓扑深度学习的基本概念，其基于的数据表征、计算方法、计算工具多种多样。本文综述介绍了这些内容，虽然使用的是数学语言，但不晦涩，容易理解，方便非拓扑背景的研究者与学习者对持续同调的学习和使用。

IF:3.000Q1 EPJ Data Science, 2017. DOI: 10.1140/epjds/s13688-017-0109-5

A roadmap for the computation of persistent homology

翻译

Nina Otter, Mason A Porter, Ulrike Tillmann, Peter Grindrod, Heather A Harrington

Abstract: No abstract available.

22.

尹志 (2024-02-28 22:09):

#paper An introduction to Topological Data Analysis: fundamental and practical aspects for data scientists doi: https://doi.org/10.48550/arXiv.1710.04019 生成式AI风光无两，Sora甚嚣尘上，虽然我还做不到这样的效果（对，我就是酸），但我却认为这不是终极方案，特别是对于物理世界、生物系统。The Bitter Lesson中对scaling law的强调甚至信奉，在语言、视频这样的领域有其价值，但生命科学、物理系统有数十亿年的的历史（物理系统应该是创始之初把），生命的演化、物理系统的本源，人类对其千百年来积累的原理性探索，应该是更优的先验。哦，回到这篇paper的主题。拓扑数据分析，是一种将系统的拓扑与几何性质引入分析建模过程，从而对系统获取更深刻的理解的工具。本篇综述对这个工具做了细致的讲解并对它的应用领域做了分析和tutorial。对拓扑数据分析这门技术的数学前置也做了简单但细致的介绍，主要是代数拓扑和计算几何。之所以有前面一段的碎碎念，就是因为我结合最近的一些实践，切实感受到拓扑和几何这些抽象的数学工具与生成式AI的结合，对生物系统和物理世界的描述，也许是优于目前暴力怼计算的一种更高效的建模方式，能够更深入系统的物理本质。如果你也相信物理系统和生命世界的简单高效的，是美丽简洁的，建议尝试一下这些新的技术。对了，这篇综述的revison信息是[Submitted on 11 Oct 2017 (v1), last revised 25 Feb 2021 (this version, v2)]，是不是说明了点什么呢？

arXiv, 2017. DOI: 10.48550/arXiv.1710.04019

An introduction to Topological Data Analysis: fundamental and practical aspects for data scientists

翻译

Frédéric Chazal, Bertrand Michel

Abstract:

Topological Data Analysis is a recent and fast growing field providing a setof new topological and geometric tools to infer relevant features for possiblycomplex data. This paper is a brief … >>>

翻译

23.

尹志 (2024-01-31 10:39):

#paper doi: https://doi.org/10.48550/arXiv.2304.02643 Segment Anything。Meta在2023年的一篇工作，提出了一个CV领域的基础模型。文章的目标很清楚，通过prompt的方式，实现通用的segmentatoin任务。虽然在互联网上爆炒一轮后趋于平淡，但是对CV社区的影响还是非常大的。后续的Grounding-DINO,Grounded-SAM等工作，都有着不错的效果，而且对后续CV任务的解决给出了一套不同的思考范式。整个工作偏工程，或者想法上原创性的亮点不多，网络结构上也充分借鉴了大量基于Transformer的创新工作。值得一提的正是工程上的思路或者说解决方案。meta提出了一个新颖的任务，即：如何通过一个通用的任务来解决图像分割。进而设计训练流程和对应的损失。在过程中，设计了一套有效的数据标注引擎，实现了高效标注数据生产，这对于行业应用有着很强的借鉴价值。从研究角度来看，如何充分利用预训练好的sam模型，大模型中的先验如何提取，从而为特定领域下游任务提供支持是一个重要的研究方向。

arXiv, 2023. DOI: 10.48550/arXiv.2304.02643

Segment Anything

翻译

Abstract:

We introduce the Segment Anything (SA) project: a new task, model, anddataset for image segmentation. Using our efficient model in a data collectionloop, we built the largest segmentation dataset to … >>>

翻译

24.

尹志 (2023-12-31 14:32):

#paper Consistency Models https://doi.org/10.48550/arXiv.2303.01469 扩散模型目前已经是生成式AI的核心技术方案了，但是由于它的迭代生成的性质，使得采样速度一直存在问题，因此在实际应用的场景下就会遇到阻碍。CM(consistency models)作为常规的扩散模型的高效改进方案，基于PE(probability flow) ODE轨道，提出一个针对ODE轨道（可以认为是演化迭代的步骤）上的映射，使得我们能够从任意轨道点，即任意迭代的timestep，映射到初始点，即原图。cm模型的提出，让单步扩散模型采样的质量变得更高，从而带动了大量实际应用的产生，包括图像编辑、图像补全等。目前大量基于扩散模型的实际应用，都已经使用了cm。这个是年初的时候Yang Song大佬和Ilya Sutskever一起的工作，四个作者全部都是来自openAI的扩散模型大佬。

arXiv, 2023. DOI: 10.48550/arXiv.2303.01469

Consistency Models

翻译

Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever

Abstract:

Diffusion models have significantly advanced the fields of image, audio, andvideo generation, but they depend on an iterative sampling process that causesslow generation. To overcome this limitation, we propose consistency … >>>

翻译

25.

尹志 (2023-11-30 16:36):

#paper Hamed Khakzad, Ilia Igashov, Arne Schneuing, et al. A new age in protein design empowered by deep learning. Cell Systems 14, 925–939 (2023). https://doi.org/10.1016/j.cels.2023.10.006. 蛋白质作为细胞的主要组成，参与了包括酶促反应、信号转导等在内的各种生命反应，其意义毋庸置疑。但是如何通过人工的方式设计特定的蛋白质，从而解决疾病治疗、药物研发等一系列生命科学问题，一直是科学家的追求。人工智能的发展，特别是深度学习的发展，给这个主题带来了特别巨大的进展。这篇最新的综述就是对使用深度学习进行蛋白质设计的几类范式和sota方法进行了介绍。从方法角度看，介绍的非常全面。有意思的是，我们会发现目前生成式模型在AI的冲击已经迁移到蛋白质设计领域，并孵化出独有的味道。图神经网络、物理启发的模型、语言模型的模仿、深度生成模型的利用在蛋白质设计领域都展现出不错的性能，特别是当把几何先验通过数学的手段，比如群轮与深度学习进行结合，往往可以较好的捕获蛋白质精巧晦涩的结构信息。当然，考虑到蛋白质设计所涉及的序列、结构、功能三者的精密联系，如何协调序列建模、结构建模等方法，也成为未来发展的关键问题。文章中对数据、benchmark等方面的讨论也很有价值。当然，问题也是一大堆，最令人不爽的是，拥有生命科学基本属性的蛋白质设计，最终的效果需要实验甚至实际效果进行验证，因此计算方法论上再优秀的设计，也需要湿实验、临床实验的验证。希望随着技术的进步，这个领域的自动化agent技术会带来全新的范式。

IF:9.000Q1 Cell systems, 2023-11-15. DOI: 10.1016/j.cels.2023.10.006 PMID: 37972559

A new age in protein design empowered by deep learning

翻译

Hamed Khakzad, Ilia Igashov, Arne Schneuing, Casper Goverde, Michael Bronstein, Bruno Correia

Abstract:

The rapid progress in the field of deep learning has had a significant impact on protein design. Deep learning methods have recently produced a breakthrough in protein structure prediction, leading … >>>

翻译

26.

尹志 (2023-10-31 19:35):

#paper https://doi.org/10.1063/5.0006074 J. Chem. Phys. 153, 024109 (2020) Recent developments in the PySCF program package，这是pyscf的一篇介绍性文章，是pyscf主创团队写的，全面介绍了pyscf的目标、功能、应用领域，更重要的是作者详细讲述了pyscf库的设计理念，这个部分相信会比较吸引对科学计算感兴趣的小伙伴。pyscf是一个基于python的量子化学库，对于分子及固体的第一性原理模拟非常友好。自从2014年作者创建该库之后，越来越多从事量子模拟，电子结构计算的小伙伴为这个库做出贡献，现在pyscf不仅在量化领域，在数据科学、机器学习、量子计算领域也占据一席之地。文章写的很细，着重表达了作者团队希望pyscf能够更加松耦合，小结构驱动，成为更大项目的脚手架等设计理念，该理念也使得越来越多的量化项目优先使用pyscf，更大的项目吸取pyscf作为其核心组成部分；除了可用性，团队对性能的追求也使得pyscf成为众多量化软件中出色的候选。文章通过很多例子对上述观点进行了说明，极具可读性和参考价值，比如使用后HF对哈密顿量进行定制，使用一般化的CASSCF solverx实现轨道优化MP2方法，这些例子的代码都在20-30行代码左右，却能比很多书本都讲得清楚。最后，作者也展望了pyscf在机器学习，量子计算等领域的发展。考虑到本人在使用pyscf过程中的良好体验，推荐感兴趣的小伙伴读读这篇文章并尝试使用pyscf。对了，pyscf的作者也是传奇，真正做到了经营着量化基金，开发着量化软件，哈哈哈哈哈哈哈

IF:3.100Q1 The Journal of chemical physics, 2020-Jul-14. DOI: 10.1063/5.0006074 PMID: 32668948

Recent developments in the PySCF program package

翻译

Qiming Sun, Xing Zhang, Samragni Banerjee, Peng Bao, Marc Barbry, Nick S Blunt, Nikolay A Bogdanov, George H Booth, Jia Chen, Zhi-Hao Cui, ... >>>

Abstract:

PySCF is a Python-based general-purpose electronic structure platform that supports first-principles simulations of molecules and solids as well as accelerates the development of new methodology and complex computational workflows. This … >>>

翻译

27.

尹志 (2023-09-30 22:52):

#paper https://doi.org/10.1073/pnas.2112677119 Thoughts on how to think (and talk) about RNA structure。mRNA疫苗的出现，再一次唤起了生物学家们对RNA结构与功能研究的热情。本文强调了重新审视rna，开展未来更多研究的重要性，反思了当前对rna结构与功能理解上可能存在的误区，并结合自己的经验，提出了6条rna研究上值得注意的点，这些观点对未来rna研究提供了一个很有价值的方向。rna的复杂性及目前的开放性是一个特别吸引计算研究者入坑的原因。传统上将rna看做一条松垮的面条的方式目前看来恐怕不能很好的描述rna的结构，rna折叠的预测目前存在非常大的挑战或者说研究空间，据我所知，目前rna折叠连二级结构都做不好，那三级结构呢？即使结构测定相对容易的情况下，作为计算工作者，能不能很好的跟进？作者在文中多次强调了rna的“unstructed”的表述问题，所谓的非结构给rna的结构预测反而提出了更大挑战：所谓“Inherently Structured”Does Not Mean “Static”，从计算角度而言，rna的骨架约束变少，自由能landscape梯度较低，那么给计算优化带来了很多有趣的问题，面对大量的局部最优，有不有更合适的优化算法？特别是rna的动态敏感性，怎么在实际预测中考虑这些因素，如何建模这些环境影响？Non-Watson–Crick Pairing在在RNA的功能和调控中的作用如何被考虑，等等问题。正如作者在文末呼吁的：RNA has gone mainstream, solet’s make sure RNA structure properties return to thefront seat。

IF:9.400Q1 Proceedings of the National Academy of Sciences of the United States of America, 2022-04-26. DOI: 10.1073/pnas.2112677119 PMID: 35439059

Thoughts on how to think (and talk) about RNA structure

翻译

Quentin Vicens, Jeffrey S Kieft

Abstract:

Recent events have pushed RNA research into the spotlight. Continued discoveries of RNA with unexpected diverse functions in healthy and diseased cells, such as the role of RNA as both … >>>

翻译

28.

尹志 (2023-08-31 22:11):

#paper https://doi.org/10.48550/arXiv.1812.07907 PnP-AdaNet: Plug-and-Play Adversarial Domain Adaptation Network at Unpaired Cross-Modality Cardiac Segmentation。调研高效生成模型的过程中偶遇的论文，发现还是有点意思的。文章提出了一个网络结构：PnP-AdaNet，实现了无监督的不同模态间分割任务领域适应。考虑到是2018年的老文章，其替换网络结构和利用对抗学习的想法现在已经比较常见，但我认为替换网络的思想在大模型盛行的今天有着更深刻的内涵，本人手头的一个研究主题也是沿着这条线索，目前看部分实验结果还是很不错的。

arXiv, 2018. DOI: 10.48550/arXiv.1812.07907

PnP-AdaNet: Plug-and-Play Adversarial Domain Adaptation Network with a Benchmark at Cross-modality Cardiac Segmentation

翻译

Qi Dou, Cheng Ouyang, Cheng Chen, Hao Chen, Ben Glocker, Xiahai Zhuang, Pheng-Ann Heng

Abstract:

Deep convolutional networks have demonstrated the state-of-the-art performance on various medical image computing tasks. Leveraging images from different modalities for the same analysis task holds clinical benefits. However, the generalization … >>>

翻译

29.

尹志 (2023-07-31 22:52):

#paper doi: https://doi.org/10.48550/arXiv.2210.13695 Structure-based Drug Design with Equivariant Diffusion Models 又读了一遍这篇文献，用等变扩散模型进行结构化药物设计确实是一种有效的药物设计方式，越来越多的工作也在不断证明它的价值。这篇工作挺经典的（虽然貌似被iclr拒了），它基于蛋白质口袋利用se3等变扩散模型进行了分子生成。大量实验证明它生成药物分子的新颖性和多样性在效率和有效性上都很不错。文章还讨论了使用该方法对现有分子的优化，基于补全进行分子设计等问题，虽然在效果上还存在很多缺陷，但这些思路对于小分子药物设计及现有方法的改进都非常有价值。

arXiv, 2023. DOI: 10.48550/arXiv.2210.13695

Structure-based Drug Design with Equivariant Diffusion Models

翻译

Arne Schneuing, Yuanqi Du, Charles Harris, Arian Jamasb, Ilia Igashov, Weitao Du, Tom Blundell, Pietro Lió, Carla Gomes, Max Welling, Michael Bronstein, Bruno Correia

Abstract:

Structure-based drug design (SBDD) aims to design small-molecule ligands that bind with high affinity and specificity to pre-determined protein targets. In this paper, we formulate SBDD as a 3D-conditional generation … >>>

翻译

30.

尹志 (2023-06-30 21:30):

#paper https://doi.org/10.1002/ange.202210001, Angewandte Chemie 134.40 (2022), A Carbon-Carbon Bond Cleavage-Based Prodrug Activation Strategy Applied to β-Lapachone for Cancer-Specific Targeting。基本过了一遍，特别有意思的工作。文章提出了一种新型的前药(prodrug)设计策略，利用C-C键断裂来生成父药(parent drug）。在文章中这个父药是β-Lapachone，一种对胰腺癌和肺癌有靶向效果的药物分子。前药设计策略是靶向药设计的一种现代方法，它的思路是，很多药物直接服用或者使用对患者的毒性较高，因此治疗窗口就较小。而前药设计策略是，将父药包装成前药分子，然后通过前药分子的摄入进入体内，然后在到达靶点之后，通过某种方式，转变为父药，进而被激活，产生药物活性。这个过程降低了药物毒性的影响，延长了治疗窗口。传统上，前药激活的方式是通过断裂C-N/C-O键，但是很多可修饰基团没有C-N/C-O bond。作者的新策略是进行C-C bond的断裂，从而产生父药，从而产生药效。脑洞一下啊，今年初，张锋组的一篇工作，我之前在paper群有写，通过一种叫外胞质收缩注射系统的纳米机器，进行各种蛋白质负载的传递，我感觉和前药设计的思想很像啊，都是通过间接的方式，避开某种问题，实现最终效果，类似构建一套传递体系或者传递策略。这点上很值得借鉴。只能说，药物设计生物设计简直泰裤辣

Angewandte Chemie, 2022. DOI: 10.1002/ange.202210001

A Carbon‐Carbon Bond Cleavage‐Based Prodrug Activation Strategy Applied to β‐Lapachone for Cancer‐Specific Targeting

翻译

Qijie Gong , Xiang Li , Tian Li , Xingsen Wu , Jiabao Hu , Fulai Yang , Xiaojin Zhang

Abstract:

Prodrugs are one of the most common strategies for the design of targeted anticancer agents. However, their application is often hampered by the modifiable groups available on parent drugs. Herein, … >>>

翻译

31.

尹志 (2023-05-31 22:12):

#paper doi: https://doi.org/10.1016/j.drudis.2021.05.019 Drug Discovery Today, 2021, De novo molecular design and generative models. 文章是来自业界的Benevolent AI写的，对从头的分子设计进行了综述。主要从颗粒度的角度进行了分类，讨论了atom based, fragment based, reaction based三种不同的分子表示的视角下分子设计的方法。对于分子设计中的优化方法，文章分为无梯度和基于梯度的方法进行讨论，前者主要集中在演化算法和群体智能算法，而后者则是目前基于深度生成模型的主流。文章还强调了该领域建立合适评价标准和benchmark的重要性，不过考虑到分子设计务实的属性，这里还有非常多亟待解决的问题。文章的总结的思路很清楚，但是这个领域的发展实在是太快太快，因此2021年的综述显然是太老了，最近几年基于各种深度生成模型的分子设计很多已经相当实用化，还是建议大家看最新的文章，当然这篇综述还是可以当做一条不错的线索的。

IF:6.500Q1 Drug discovery today, 2021-11. DOI: 10.1016/j.drudis.2021.05.019 PMID: 34082136

De novo molecular design and generative models

翻译

Joshua Meyers, Benedek Fabian, Nathan Brown

Abstract:

Molecular design strategies are integral to therapeutic progress in drug discovery. Computational approaches for de novo molecular design have been developed over the past three decades and, recently, thanks in … >>>

翻译

32.

尹志 (2023-04-30 10:32):

#paper Broadly applicable and accurate protein design by integrating structure prediction networks and diffusion generative models doi: https://doi.org/10.1101/2022.12.09.519842 这篇文章提出了一种全新的蛋白质设计方法，叫做rf diffusion，它使用深度生成学习生成全新的蛋白质结构。文章主要使用的是 diffusion model，考虑到蛋白质骨架的复杂几何性质以及氨基酸序列-结构的复杂关系，蛋白质生成任务一直以来的挑战很大。这篇工作使用diffusion model的思路如下：1.使用RoseTTAFold作为去噪网络，考虑到RoseTTA本来就是baker组用来做蛋白质设计的（更多的是基于物理的），这个去噪网络的选择还是很巧妙的；2.整个加噪去噪过程主要针对alpha碳原子的坐标进行，因此rf diffusion的思路是先对骨架结构进行生成的；3.然后full 的protein structure是通过backbone tracking的技术来实现的，这个过程可以理解为基于一些几何约束、bond的长度角度参数等等为已经预测的alpha碳原子添加缺失的bond和原子，4.侧链是通过rotamer实现的，rotamer是一个已经对每个氨基酸残基做了预先计算的库，它可以为你选择符合能量最优的构象的侧链结构。因此整个蛋白质生成的过程可以认为是深度生成模型+物理约束+后处理（预先计算）来实现的。当然，这篇工作也做了很多的实验对设计进行验证。baker组在之后使用了rfdiffusion做了后续的一些设计工作，包括De novo design of high-affinity protein binders to bioactive helical peptides这个工作，并在不久前开源了rf diffusion的代码，也有很多蛋白质设计的研究人员开始大量尝试基于rfdiffusion的设计，并尝试进行湿实验的验证，因此这绝对是一篇开创性的工作，值得各位小伙伴关注。

bioRxiv, 2022. DOI: 10.1101/2022.12.09.519842

Broadly applicable and accurate protein design by integrating structure prediction networks and diffusion generative models

翻译

Joseph L. Watson , David Juergens , Nathaniel R. Bennett , Brian L. Trippe , Jason Yim , Helen E. Eisenach , Woody Ahern , Andrew J. Borst , Robert J. Ragotte , Lukas F. Milles , ... >>>

Abstract:

AbstractThere has been considerable recent progress in designing new proteins using deep learning methods1–9. Despite this progress, a general deep learning framework for protein design that enables solution of a … >>>

翻译

33.

尹志 (2023-03-31 00:12):

#paper https://doi.org/10.1038/s41586-023-05870-7. Nature, 2023, Programmable protein delivery with a bacterial contractile injection system。这是今年张锋组的一篇新文章。文章介绍了一种叫做外胞质收缩注射系统（eCISs）的纳米机器，它们可以被重新编程以针对人类细胞并传递各种蛋白质负载，包括Cas9、碱基编辑器和毒素。这些系统可以用于基因治疗、癌症治疗和生物控制等领域。还讨论了利用收缩注射系统（CIS）作为蛋白质传递和基因编辑的潜在工具以及它们在生物技术和医学中的应用。基本都是实验，方法部分简直大开眼界，琳琅满目，基本看不懂；但看结论还是觉得挺有前瞻性的工作，而且使用了AF技术作为structure-guided engineering，这个很引起我的兴趣。总之，先浅浅仰慕读一下

IF:50.500Q1 Nature, 2023-04. DOI: 10.1038/s41586-023-05870-7 PMID: 36991127

Programmable protein delivery with a bacterial contractile injection system

翻译

Joseph Kreitz, Mirco J Friedrich, Akash Guru, Blake Lash, Makoto Saito, Rhiannon K Macrae, Feng Zhang

Abstract:

Endosymbiotic bacteria have evolved intricate delivery systems that enable these organisms to interface with host biology. One example, the extracellular contractile injection systems (eCISs), are syringe-like macromolecular complexes that inject … >>>

翻译

34.

尹志 (2023-02-28 21:51):

#paper https://doi.org/10.48550/arXiv.2203.17003 ICML, 2022, Equivariant Diffusion for Molecule Generation in 3D。扩散模型在各个领域发展极其迅速。除了图形图像，其触角已经扩展到生物制药、材料科学领域。本文就是一篇使用扩散模型进行3D分子生成的文章。作者提出了一种等变扩散模型，其中的等变网络能够很好的同时处理原子坐标这样的连续变量和原子类型这样的离散变量。该工作在QM9和GEOM两个典型的数据集上取得了sota的性能，是将等变性引入扩散模型的开篇工作之一。

arXiv, 2022. DOI: 10.48550/arXiv.2203.17003

Equivariant Diffusion for Molecule Generation in 3D

翻译

Emiel Hoogeboom, Victor Garcia Satorras, Clément Vignac, Max Welling

Abstract:

This work introduces a diffusion model for molecule generation in 3D that is equivariant to Euclidean transformations. Our E(3) Equivariant Diffusion Model (EDM) learns to denoise a diffusion process with … >>>

翻译

35.

尹志 (2023-01-31 20:59):

#paper Diffusion Models: A Comprehensive Survey of Methods and Applications, https://doi.org/10.48550/arXiv.2209.00796. 这篇综述对当前非常热门的扩散模型进行了详细的介绍与梳理。文章将当前的扩散模型总结为三类主要模型：DDPMs、SGMs、score SDEs，三类模型逐级一般化，可处理更广泛的问题。除了对三类主流扩散模型进行了详细的讲解，对比，对其相关改进工作进行了梳理，文章还探讨了扩散模型与其它主流的生成模型的联系与区别。文章在最后列举了扩散模型目前在各个领域的应用。考虑到扩散模型受物理概念启发，非常看好其后续结合数学物理的更多推广和应用，比如最近顾险峰老师就在文章中指出基于最优传输的可能改进，这确实是非常有意思的想法和主题。

arXiv, 2022. DOI: 10.48550/arXiv.2209.00796

Diffusion Models: A Comprehensive Survey of Methods and Applications

翻译

Ling Yang, Zhilong Zhang, Yang Song, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Bin Cui, Ming-Hsuan Yang

Abstract:

Diffusion models have emerged as a powerful new family of deep generative models with record-breaking performance in many applications, including image synthesis, video generation, and molecule design. In this survey, … >>>

翻译

36.

尹志 (2022-12-31 14:48):

#paper doi: https://doi.org/10.48550/arXiv.2210.11250,Structure-based drug design with geometric deep learning. 这是一篇比较新的关于药物设计和深度学习的短小的综述。主要探讨了在结构化药物设计领域的若干重要子任务上，几何深度学习技术是如何发挥其作用的。考虑到结构化药物设计主要使用大分子（比如蛋白质、核酸）的三维几何信息来识别合适的配体，几何深度学习作为一种将几何对称性引入深度学习的技术是非常有潜力的工具。文章主要探讨了1）分子性质预测（结合亲和度、蛋白质功能、位置分数）；2）结合位点和结合面预测（小分子结合位点和蛋白-蛋白结合面）；3）结合位置生成和分子对接（配体-蛋白和蛋白-蛋白对接）；4）基于结构的小分子配体de novo 设计几个子任务。从分子的常见表征谈起，再讨论结构化药物设计中存在的对称性问题，然后通过四个小节，分别讨论了几何深度学习对四个子任务的研究现状。是基于AI的结构化药物设计领域的一篇很不错的guideline。

arXiv, 2022. DOI: 10.48550/arXiv.2210.11250

Structure-based drug design with geometric deep learning

翻译

Clemens Isert, Kenneth Atz, Gisbert Schneider

Abstract:

Structure-based drug design uses three-dimensional geometric information of macromolecules, such as proteins or nucleic acids, to identify suitable ligands. Geometric deep learning, an emerging concept of neural-network-based machine learning, has … >>>

翻译

37.

尹志 (2022-11-28 21:20):

#paper https://doi.org/10.1093/bib/bbab344 Briefings in Bioinformatics, 22(6), 2021, 1-11:Molecular design in drug discovery: a comprehensive review of deep generative models. 一篇基于深度生成模型的药物发现中的分子设计的综述。看年份是比较新的，但其实已经完全不sota了啊，哈哈哈哈哈。但是作为科普是很好的。文章介绍了基于深度生成模型的分子设计这个在药物发现领域的重要主题。综述了两种主流的分子表示：SMILES-based和图based。然后在每个表示下，分别介绍了基于VAE，GAN，RNN，Flow几种深度生成模型的分子设计。同时也介绍了目前市面上主要的de novo的分子设计的数据集。文章的结尾还从数据、模型、评价指标的角度讨论了分子设计目前存在的挑战。不过作者在写这篇综述的时候，可能是万万没想到今年diffusion model会在生成模型领域大杀四方吧，哈哈哈哈

IF:6.800Q1 Briefings in bioinformatics, 2021-11-05. DOI: 10.1093/bib/bbab344 PMID: 34415297

Molecular design in drug discovery: a comprehensive review of deep generative models

翻译

Yu Cheng, Yongshun Gong, Yuansheng Liu, Bosheng Song, Quan Zou

Abstract:

Deep generative models have been an upsurge in the deep learning community since they were proposed. These models are designed for generating new synthetic data including images, videos and texts … >>>

翻译

38.

尹志 (2022-10-27 20:44):

#paper doi: https://doi.org/10.48550/arXiv.1708.02002,Focal Loss for Dense Object Detection. (ICCV 2017) 这是一篇目标检测领域的经典的论文，我们知道，一直以来，目标检测领域有两类模型，单阶段和二阶段检测模型。前者以yolo和ssd为主，后者基本上是R-CNN派生出来的。一般而言，单阶段的目标检测算法速度快于二阶段检测算法，而准确性上弱于二阶段算法。原理上，二阶段检测算法基本是第一步生成一堆的候选目标框，然后第二步精准分类这些候选目标框；而单阶段检测算法是直接生成一堆（大量）的检测框。那么是不是提出一个单阶段的检测算法，速度也快，准确性也可以媲美二阶段算法呢？文章认为，单阶段在准确性上目前比不过二阶段算法的原因，是因为存在类别不平衡的问题。在二阶段算法中，我们通过第一阶段已经过滤了大多数的背景样本了，但单阶段算法一次生成的候选框非常密集，其中前景-背景类别的不平衡就非常严重，这也导致准确率上不去。因此作者提出，我们在常规的交叉熵里引入一个缩放因子，这个缩放因子在训练中能够自动对容易的样本进行降权重，从而让模型能更好的处理难例。这就是大名鼎鼎的focal loss。基于focal loss，作者设计了一个单阶段目标检测网络：RetinaNet，通过实验对比，RetinaNet不论在速度上还是准确性上，都获得了SOTA的性能，在COCO数据集上获得了39.1的AP（这在当年是非常优秀的成绩）

arXiv, 2018. DOI: 10.48550/arXiv.1708.02002

Focal Loss for Dense Object Detection

翻译

Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár

Abstract:

The highest accuracy object detectors to date are based on a two-stage approach popularized by R-CNN, where a classifier is applied to a sparse set of candidate object locations. In … >>>

翻译

39.

尹志 (2022-09-30 11:06):

#paper doi:10.48550/arXiv.1907.10830 U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation， ICLR 2020. 这又是一篇图像翻译的文章，还是在网络结构上做了有效的改进。作者通过提出一个新的注意力模块和一种新的归一化函数实现无监督的图像翻译工作。作者提出的注意力模块对于图像的几何形变能够做出很好的处理，这也让文章的架构对于很多艺术风格的变化处理具有优越的效果。

arXiv, 2019. DOI: 10.48550/arXiv.1907.10830

U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation

翻译

Junho Kim, Minjae Kim, Hyeonwoo Kang, Kwanghee Lee

Abstract:

We propose a novel method for unsupervised image-to-image translation, which incorporates a new attention module and a new learnable normalization function in an end-to-end manner. The attention module guides our … >>>

翻译

40.

尹志 (2022-08-31 09:46):

#paper doi:10.1089/genbio.2022.0017 GEN Biotechnology, 2022, Deep Learning Concepts and Applications for Synthetic Biology. 这是一篇2022年新出的深度学习与合成生物学的综述，或者我更愿意称之为元综述。文章对深度学习在合成生物学领域的应用做了简要介绍。对合成生物学中可用于深度学习框架的数据做了分类，对深度学习目前常用的结构也做了介绍。最值得一看的是深度学习在合成生物学领域的的应用：比如生物组成的设计与建模、使用生成模型方法合成新的组成、结构预测、视觉应用等等，对于提纲挈领非常有帮助。但是内容不是很具体，这也是我称之为元综述的原因。在每个具体的小节，作者在基本概念的科普之后，一般会指向几篇这个领域更合适的综述。因此，带着自己的方向和问题去看这篇元综述，逐步挖下去，应该会有很好的阅读体验。

IF:2.000Q3 GEN biotechnology, 2022-Aug-01. DOI: 10.1089/genbio.2022.0017 PMID: 36061221

Deep Learning Concepts and Applications for Synthetic Biology

翻译

William A V Beardall, Guy-Bart Stan, Mary J Dunlop

Abstract:

Synthetic biology has a natural synergy with deep learning. It can be used to generate large data sets to train models, for example by using DNA synthesis, and deep learning … >>>

翻译