响马读paper

一个要求成员每月至少读一篇文献并打卡的学术交流社群

本页面显示由用户 前进 推荐的文献。 当前共有 16 篇文献。

1.
2023, arXiv.
2024-04-30 11:44:00
#paper Han D, Pan X, Han Y, et al. Flatten transformer: Vision transformer using focused linear attention[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 5961-5971. 自注意力(self-attention)在计算机视觉任务中应用时面临的主要挑战是其二次计算复杂度,这使得处理视觉任务变得非常昂贵。作为Softmax注意力的一种替代方案,线性注意力通过精心设计的映射函数来近似Softmax操作,从而将计算复杂度从二次降低到线性。尽管线性注意力在理论上更加高效,但现有的线性注意力方法要么性能显著下降,要么需要额外的计算开销,这限制了它们的实际应用。为了克服这些限制,论文提出了FLA模块,它通过两个主要的改进来提高效率和表达能力:焦点能力:1 通过一个简单的映射函数,增强了自注意力对最信息特征的聚焦能力。特征多样性:引入了一个高效的秩恢复模块,通过深度卷积(DWC)来恢复注意力矩阵的秩,增加了特征的多样性。通过在多个先进的视觉Transformer模型上的广泛实验,FLA模块在多个基准测试中均显示出了一致的性能提升。
2.
2019, Lecture Notes in Computer Science Medical Image Computing and Computer Assisted Intervention – MICCAI 2019. DOI: 10.1007/978-3-030-32245-8_43
2024-03-31 12:44:00
#paper [1] Hu X , Kang M , Huang W ,et al.Dual-Stream Pyramid Registration Network[J].Springer, Cham, 2019.DOI:10.1007/978-3-030-32245-8_43. 这篇论文主要用于无监督的3D大脑医学图像配准。与以往的基于卷积神经网络(CNN)的配准方法不同,例如VoxelMorph,Dual-PRNet设计了一个双流架构,能够从一对3D体积图像中顺序估计多级配准场。 主要贡献包括: 设计了一个双流3D编码器-解码器网络,分别从两个输入体积计算两个卷积特征金字塔。 提出了一种顺序金字塔配准方法,设计了一系列金字塔配准(PR)模块,直接从解码特征金字塔预测多级配准场。通过顺序变形,逐渐以粗到细的方式细化配准场,使模型具有处理大变形的强大能力。 通过计算特征金字塔之间的局部3D相关性,可以进一步增强PR模块,从而得到改进的Dual-PRNet++,能够聚合丰富的详细解剖结构。 将Dual-PRNet++集成到3D分割框架中,通过精确变形体素级注释,实现联合配准和分割。 论文还介绍了相关工作,包括基于深度学习的医学图像配准方法,并对提出的方法进行了评估。在Mindboggle101数据集上,Dual-PRNet++在Dice得分上从0.511提高到0.748,大幅度超过了现有的最先进方法。此外,论文还展示了该方法在有限注释的联合学习框架中,如何通过利用有限的注释极大地促进分割任务的完成。
3.
2019, Medical Physics. DOI: 10.1002/mp.13976
2024-02-28 10:57:00
#paper Mckenzie E M , Santhanam A , Ruan D ,et al.Multimodality image registration in the head‐and‐neck using a deep learning‐derived synthetic CT as a bridge[J].Medical Physics, 2020, 47(3).DOI:10.1002/mp.13976. 本文提出并验证一种利用深度学习驱动的跨模态综合技术的头颈多模式图像配准方法。 采用CycleGAN将MRI 转化为合成CT(sCT),将头颈部的MRI-CT多模态配准转化为sCT-CT的单模态配准。配准方法采用传统的B-spline方法。实验结果表明sCT→CT 配准精度好于MRI→CT。平均配准误差从9.8mm下降到6.0mm
4.
2023, arXiv. DOI: 10.48550/arXiv.2311.02612 arXiv ID: 2311.02612
2024-01-31 22:50:00
#paper arxiv.org//pdf/2311.026 2023 Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection. 大型多模态模型 (LMM) GPT-4V(ision) 赋予 GPT-4 视觉grounding能力,使得通过视觉问答 (VQA) 范式处理某些任务成为可能。本文探讨了面向 VQA 的 GPT-4V 在最近流行的视觉异常检测(AD)中的潜力,并首次对流行的 MVTec AD 和 VisA 数据集进行定性和定量评估。 考虑到该任务需要图像/像素级评估,提出的 GPT-4V-AD 框架包含三个组成部分:1)粒度区域划分,2)提示设计,3)用于轻松定量评估的 Text2Segmentation,并做了一些不同的 尝试进行比较分析。 结果表明,GPT-4V可以通过VQA范式在零样本AD任务中取得一定的结果,例如在MVTec AD和VisA数据集上分别实现图像级77.1/88.0和像素级68.0/76.6 AU-ROC 。 然而,其性能与最先进的零样本方法(例如WinCLIP和CLIP-AD)相比仍然存在一定差距,需要进一步研究。 这项研究为零样本 AD 任务中面向 VQA 的 LMM 的研究提供了基线参考
5.
2023, arXiv. DOI: 10.48550/arXiv.2312.11514 arXiv ID: 2312.11514
2023-12-27 15:11:00
#paper arXiv:2312.11514v1 ,2023, LLM in a flash: Efficient Large Language Model Inference with Limited Memory 大型语言模型(LLMs)在现代自然语言处理中具有重要作用,但其高昂的计算和内存需求对于内存有限的设备构成了挑战。为了高效运行超过可用DRAM容量的LLMs,该论文采用了存储模型参数在闪存上,并按需将其调入DRAM的方法。研究方法包括构建与闪存行为协调的推理模型,并在两个关键领域进行优化:减少闪存传输的数据量和以更大、更连续的块来读取数据。在这个框架下,引入了两种主要技术:“windowing”策略通过重复使用先前激活的神经元减少数据传输,“row-column bunding”则充分利用了闪存的顺序数据访问特性,增加了从闪存中读取的数据块的大小。这些方法使得可以在有限DRAM上运行比原先两倍大的模型,相较于朴素的加载方法,在CPU和GPU上推断速度分别提高了4-5倍和20-25倍。
6.
2022, Computers in Biology and Medicine. DOI: 10.1016/j.compbiomed.2022.105799
2023-11-30 10:22:00
#paper GraformerDIR: Graph convolution transformer for deformable image registration Computers in Biology and Medicine 30 june 2022 https://doi.org/10.1016/j.compbiomed.2022.105799 这是一篇用图卷积来进行图像配准的论文,通过将图卷积变换器(Graformer)层放在 在特征提取网络中,提出了一个基于Graformer的DIR框架,命名为GraformerDIR。Graformer层由Graformer模块和Cheby-shev图卷积模块组成。其中 Graformer模块旨在捕获高质量的长期依赖关系。Cheby-shev图卷积模块用于进一步扩大感受野。GraformerDIR的性能已经在公开的大脑数据集中进行了评估,包括OASIS、LPBA40和MGH10数据集。与VoxelMorph相比,GraformerDIR在DSC方面获得4.6%的性能改进,在平均值方面获得0.055mm的性能改进,同时折叠率更低。
7.
2022, Physics in Medicine & Biology. DOI: 10.1088/1361-6560/ac5f70
2023-10-30 13:57:00
#paper https://doi.org/10.1088/1361-6560/ac5f70 Training low dose CT denoising network without high quality reference data 低剂量CT(LDCT)去噪领域主要是基于监督学习的方法,需要完全配准的LDCT对及其相应的干净参考图像(normal-dose CT)。然而,无干净标签的训练更具有实际意义,因为在临床上不可能获得大量的这些配对样本。本文提出了一种用于LDCT成像的自监督去噪方法。方法该方法不需要任何干净的图像。此外,在去噪过程中,利用感知损失来实现特征域的数据一致性。在解码阶段使用的注意块可以帮助进一步提高图像质量。在实验中横向对比了3种方法,并进行了6个消融实验,验证了提出的自监督框架的有效性,以及自注意模块和感知损失的有效性。
8.
2020, 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). DOI: 10.1109/cvpr.2019.00223
2023-09-27 10:56:00
#paper doi:10.1109/cvpr.2019.00223  2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).  Noise2Void - Learning Denoising From Single Noisy Images. 基于深度学习的图像去噪一般是通过干净图像和噪声图像组成的图相对来进行训练的。目前也有一些做法可以无需干净图像,仅需多张噪声图像来完成模型的训练(N2N)。而本文提出了一种基于单张噪声图像的去噪方法。基于Patch去噪的观点认为,结果图像中的每一个像素点由于感受野的限制只取决于输入图像中的一部分区域。基于这个观点衍生出许多去噪的方法,例如Noise2Noise的方法,它不再需要干净的图像作为target。而本文提出了一种只需要单张噪声图像就能完成去噪的方法。作者认为,如果对于单张图像,以其中的一个patch作为网络的input,以这个patch中心位置的像素作为target,那么网络将会学习到直接将输入patch中心的像素映射到网络的输出这这种identity map。因此,作者设计了有一种特殊的感受野,将感受野中心的像素“抹去”,再要求网络去预测中心位置的信息。这种做法基于两个假设:1、不同位置的噪声像素之间是相互独立的 2、噪声的均值为0 。因此预测出来的中心像素点更有可能是信号而非噪声。
9.
2023, arXiv. arXiv ID: 2301.11360
2023-01-31 23:30:00
#paper Rethinking 1x1 Convolutions: Can we train CNNs with Frozen Random Filters? arXiv:2301.11360 本文引入了一种新的卷积块,计算(冻结随机)滤波器的可学习线性组合(LC),并由此提出 LCResNets,还提出一种新的权重共享机制,可大幅减少权重的数量。在本文中,即使在仅随机初始化且从不更新空间滤波器的极端情况下,某些CNN架构也可以被训练以超过标准训练的精度。通过将逐点(1x1)卷积的概念重新解释为学习冻结(随机)空间滤波器的线性组合(LC)的算子,这种方法不仅可以在CIFAR和ImageNet上达到较高的测试精度,而且在模型鲁棒性、泛化、稀疏 性和所需权重的总数方面具有良好。此外本文提出了一种新的权重共享机制,该机制允许在所有空间卷积层之间共享单个权重张量,以大幅减少权重的数量。
10.
2022, arXiv. DOI: 10.48550/arXiv.2212.06060 arXiv ID: 2212.06060
2022-12-31 11:39:00
#paper Liu Y, Chen J, Wei S, et al. On Finite Difference Jacobian Computation in Deformable Image Registration[J]. arXiv preprint arXiv:2212.06060, 2022. 产生微分同胚的空间变换一直是变形图像配准的中心问题。作为一个微分同胚变换,应在任何位置都具有正的雅可比行列式|J|。|J|<0的体素数已被用于测试微分同胚性,也用于测量变换的不规则性。 对于数字变换,|J|通常使用中心差来近似,但是对于即使在体素分辨率级别上也明显不具有差分同胚性的变换,这种策略可以产生正的|J|。为了证明这一点,论文首先研究了|J|的不同有限差分近似的几何意义。为了确定数字图像的微分同胚性,使用任何单独的有限差分逼近|J|是不够的。论文证明对于2D变换,|J|的四个唯一的有限差分近似必须是正的,以确保整个域是可逆的,并且在像素级没有折叠。在3D中,|J|的十个唯一的有限差分近似值需要是正的。论文提出的数字微分同胚准则解决了|J|的中心差分近似中固有的几个误差,并准确地检测非微分同胚数字变换。
11.
2022, Lecture Notes in Computer Science Medical Image Computing and Computer Assisted Intervention – MICCAI 2022. DOI: 10.1007/978-3-031-16446-0_8
2022-11-28 10:25:00
#paper Zhu Y , Lu S . Swin-VoxelMorph: A Symmetric Unsupervised Learning Model forDeformable Medical Image Registration Using Swin Transformer[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2022. 可变形医学图像配准广泛应用于医学图像处理中,具有可逆一对一的映射。虽然最先进的图像配准方法是基于卷积神经网络,但很少有人尝试用Transformer的方法。现有的模型忽略了在嵌入学习中使用注意机制来处理远程交叉图,限制了这种方法来识别解剖结构的语义上有意义的对应关系。这些方法虽然实现了快速的图像配准,但也忽略了变换的拓扑保存和可逆性。在本文中,提出了一种新的基于Swin Transformer对称无监督学习网络,它可以最小化图像之间的差异,并同时估计正变换和逆变换像相关性.具体地说,本文提出了三维Swin-UNet,它应用具有Shfited window的分层Swin Transformer作为编码器来提取上下文特征。设计了一种基于patch expanding的symmetric swin Transformer解码器,进行上采样操作,估计配准场。此外,目标损失函数可以保证预测变换的实质性微分性质。本文在ADNI和PPMI两个数据集上验证了该方法,并在保持理想的微分性质的同时实现了最先进的配准精度。
12.
2022, Lecture Notes in Computer Science Medical Image Computing and Computer Assisted Intervention – MICCAI 2022. DOI: 10.1007/978-3-031-16446-0_21
2022-10-30 21:26:00
#paper Shi J, He Y, Kong Y, et al. XMorpher: Full Transformer for Deformable Medical Image Registration via Cross Attention[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2022: 217-226.现有的深度网络专注于单个图像的特征提取,并且在对成对图像执行的配准任务方面受到限制。因此,本文提出了一种新的骨干网络XMorpher,有效地对变形配准中成对特征进行表示。1) 它提出了一种新的Transformer架构,包括双并行特征提取网络,该网络通过Cross Attention来改变信息,从而发现多级语义对应关系,同时逐步提取各自的特征,以实现最终的有效配准。2) 它提出了Cross Attention Transformer(CAT)块,以建立图像之间的注意力机制,该机制能够自动找到对应关系,并促使特征在网络中有效融合。3) 它限制了不同大小的基本窗口和搜索窗口之间的计算,从而集中于可变形配准的局部变换,同时提高了计算效率。XMorpher使Voxelmorph在DSC上提高了2.8%,证明了其在变形配准中对配对图像的特征的有效表示。
13.
2022, arXiv. DOI: 10.48550/arXiv.2203.15216 arXiv ID: 2203.15216
2022-09-29 12:12:00
#paper Affine Medical Image Registration with Coarse-to-Fine Vision Transformer Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 20835-20844 仿射配准是综合医学图像配准中不可缺少的一部分。然而,关于快速、鲁棒的仿射配准算法的研究很少。这些研究大多都是联合仿射和变形配准的CNN模型,而对仿射子网络的独立性能研究较少。此外,现有的基于CNN的仿射配准方法要么关注输入的局部错位,要么关注输入的全局方向和位置,以预测仿射变换矩阵,这种方法对空间初始化敏感,泛化能力有限。这篇论文提出了一种快速、鲁棒的基于学习的三维仿射医学图像配准算法C2FViT。该方法自然地利用Transformer的全局连通性和CNN的局部性以及多分辨率策略来学习全局仿射配准,并且在3D脑图谱配准中评估了该方法。结果表明该方法在配准精度、鲁棒性、配准速度和泛化性都表现良好。
14.
2022, arXiv. DOI: 10.48550/arXiv.2208.04939 arXiv ID: 2208.04939
2022-08-24 22:22:29
#paper arXiv:2208.04939v1 ,2022,U-Net vs Transformer: Is U-Net Outdated in Medical Image Registration? 基于Transformer的网络由于其长距离建模能力,在可变形图像配准中越来越流行。然而本文认为,一个具有5层卷积Unet网络的感受野足以在不需要依赖长距离建模能力的情况下捕捉精确的图像形变。本文想要探究UNet网络在应用于医学图像配准时,与现代基于Transformer的方法相比是否已经过时?为此,作者提出了一个具有大的卷积核的UNet网络(LKU-Net),即通过在一个普通的UNet网络内嵌入平行的卷积块来争强网络的感受野。在公用3D IXI 大脑数据集上进行基于atlas的配准实验,作者证明了LKU-Net的变现依旧可以和如今最先进的基于Transformer的方法相当甚至超越,而且只用了TransMorph 1.12%的参数量和10.8%的计算量。作者进一步将算法应用在MICCAI 2021的配准比赛中,同样超越了Transmorph,目前排在第一。只对UNet进行了简单的改造,基于Unet的配准算法依旧可以达到最先进的效果,证明基于UNet的配准网络并未过时。
15.
2019, IEEE Transactions on Medical Imaging. DOI: 10.1109/TMI.2019.2953788
2022-07-28 11:54:00
#paper doi: 10.1109/TMI.2019.2953788 Transactions on Medical Imaging 2019 Progressively trained convolutional neural networks for deformable image registration 现有的基于深度学习的配准算法对存在大尺度变形的配准任务经常表现不佳。为了解决这种大尺度变形的问题,现有的方法主要分为两种:1、在配准前先采用传统的方法对图像进行预配准(affine,rigid)2、采用多个网络级联的方式,逐步变形,最终生成大尺度变形配准场。这两种方式都存在一定的弊端:1、传统方法耗时过长,削弱了利用深度学习进行后续配准的优势。2、级联网络在配准图像时,会对浮动图像进行多次插值,插值误差积累将会影响最后的变形场质量。因此论文作者提出只采用一个单独的网络联合渐进式训练方式来进行大尺度变形配准。渐进式训练方式首先是被用来提高GAN生成图像的分辨率,现被作者迁移用来解决配准问题。渐进式训练方式简单解释就是当网络的一层训练收敛以后,添加新层,再进行训练,直到生成最后的变形场。该论文有3点创新: 1、 提出了一个渐进式学习模型,能在同一个卷积网络内学习图像不同尺度的变形。 2、 证明了用神经网络配准两张图之前无需预配准。 3、 证明了神经网络可以采用合成的变形场进行监督训练,最后能够泛化解决实际配准问题。
16.
2020, 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). DOI: 10.1109/CVPR42600.2020.00470
2022-06-30 17:14:00
#paper doi:10.1109/CVPR42600.2020.00470 CVPR 2020 Fast Symmetric Diffeomorphic Image Registration with Convolutional Neural Networks 这篇图像配准论文的思路新颖,不同于以往浮动图像朝着固定图像配准的思路,本文将浮动图像和固定图像同时朝着中间图像进行配准。在图像配准过程中,需要保证变形场的微分同胚性,即需要保留图像的拓扑结构,保证变形场是可逆的(不发生折叠)。以往的基于学习的方法通常通过给变形场施加一个全局的正则化来实现这一要求。但是这种做法引入了超参数,要么容易导致变形场过度平坦使得配准精度下降,要么变形场变形过大无法保证变形场不发生折叠。受到传统的对称图像归一化方法的启发,本文提出了一种新的、有效的无监督对称图像配准方法,该方法使微分纯映射空间内图像之间的相似性最大化,并同时估计正变换和逆变换,使得输入的图像从两个方向朝中间对齐,能够同时保证配准精度和变形场的微分同胚性。
TOP