来自杂志 arXiv 的文献。
当前共找到 127 篇文献分享,本页显示第 121 - 127 篇。
121.
Ricardo
(2022-04-30 20:39):
#paper https://doi.org/10.48550/arXiv.1806.09055 DARTS: differentiable architecture search ICLR(2019) Neural Architectural Search (NAS) 这个问题是出了名的消耗算力,动不动就需要消耗上千个gpu hour,基本也只能在顶级的研究机构做这类研究。这篇文章没有使用类似于进化算法或者强化学习这样的方法在离散和不可微的空间中搜索网络架构, 而是通过对神经网络的架构表征进行松弛,将NAS问题转化为一个可微分的形式,从而能够使用梯度下降法在连续空间中搜索神经网络架构。作者将这个问题建模成一个bilevel的优化问题,然后提出了一个类似于EM算法的优化方法,通过交替优化模型架构参数\alpha和模型权重w来找到较优的模型架构\alpha 。由于优化过程中涉及二阶导的计算,作者进一步对二阶导的计算做了松弛,将其转化为形式为一阶导的估计,从而进一步降低了方法的复杂度。结果也都很漂亮,相比于之前那些动辄需要上千个gpu day的计算量,darts方法只需要几个gpu day的计算,而且也能达到差不多的效果。
arXiv,
2019.
DOI: 10.48550/arXiv.1806.09055
Abstract:
This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and …
>>>
This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and non-differentiable search space, our method is based on the continuous relaxation of the architecture representation, allowing efficient search of the architecture using gradient descent. Extensive experiments on CIFAR-10, ImageNet, Penn Treebank and WikiText-2 show that our algorithm excels in discovering high-performance convolutional architectures for image classification and recurrent architectures for language modeling, while being orders of magnitude faster than state-of-the-art non-differentiable techniques. Our implementation has been made publicly available to facilitate further research on efficient architecture search algorithms.
<<<
翻译
122.
尹志
(2022-04-28 22:10):
#paper https://doi.org/10.48550/arXiv.1503.03585 Deep Unsupervised Learning using Nonequilibrium Thermodynamics ICML (2015). 这是一篇还没完全看懂的论文,但是非常有意思。说起这篇文章的扩散模型大家一不定熟悉,但是提到最近大火的openai的工作dall-e 2,大家可能会更熟悉一点。对,Dall-E 2最早的启发就是这篇文章。本文受非平衡热力学的启发,设计了一个称之为扩散模型(diffusion model)的生成模型。我们知道,在机器学习中,对一堆数据的分布进行估计是一个极具挑战的事情。特别是要兼顾模型的灵活性(flexible)和过程的可解性(tractable)。如果把建模隐变量z到观测量x的映射作为任务,那么扩散模型的想法是,
假设整个映射是一个马尔科夫链(MC),然后数据的初始状态是由一步步不断添加高斯噪声,最终获得某种最终形态,那么反过来,可以将去噪的过程看做是生成的过程。我们针对这个MC过程进行训练,那么逆过程则可以作为生成模型生成符合分布的数据。是的,很像VAE。考虑到这类生成模型通过不断的改进,已经达到Dall-E 2的效果,值得我们深入理解背后的机制,以及是否可以在数据合成上产生更好的效果。
arXiv,
2015.
DOI: 10.48550/arXiv.1503.03585
Abstract:
A central problem in machine learning involves modeling complex data-sets using highly flexible families of probability distributions in which learning, sampling, inference, and evaluation are still analytically or computationally tractable. …
>>>
A central problem in machine learning involves modeling complex data-sets using highly flexible families of probability distributions in which learning, sampling, inference, and evaluation are still analytically or computationally tractable. Here, we develop an approach that simultaneously achieves both flexibility and tractability. The essential idea, inspired by non-equilibrium statistical physics, is to systematically and slowly destroy structure in a data distribution through an iterative forward diffusion process. We then learn a reverse diffusion process that restores structure in data, yielding a highly flexible and tractable generative model of the data. This approach allows us to rapidly learn, sample from, and evaluate probabilities in deep generative models with thousands of layers or time steps, as well as to compute conditional and posterior probabilities under the learned model. We additionally release an open source reference implementation of the algorithm.
<<<
翻译
123.
张德祥
(2022-03-24 23:05):
#paper https://doi.org/10.48550/arXiv.2112.14045 Learning from What’s Right and Learning from What’s Wrong 最新的贝叶斯推理论文,详见推文:https://mp.weixin.qq.com/s/OEcXvyqxYNTCbTK7KUrEjw
arXiv,
2021.
DOI: 10.48550/arXiv.2112.14045
Abstract:
The concept of updating (or conditioning or revising) a probability distribution is fundamental in (machine) learning and in predictive coding theory. The two main approaches for doing so are called …
>>>
The concept of updating (or conditioning or revising) a probability distribution is fundamental in (machine) learning and in predictive coding theory. The two main approaches for doing so are called Pearl's rule and Jeffrey's rule. Here we make, for the first time, mathematically precise what distinguishes them: Pearl's rule increases validity (expected value) and Jeffrey's rule decreases (Kullback-Leibler) divergence. This forms an instance of a more general distinction between learning from what's right and learning from what's wrong. The difference between these two approaches is illustrated in a mock cognitive scenario.
<<<
翻译
124.
Vincent
(2022-02-28 15:50):
#paper What are the most important statistical ideas of the past 50 years?
#Link: https://arxiv.org/abs/2012.00174
导读:作者Andrew Gelman是哥伦比亚大学统计系的教授,也是经济学人等杂志的资深统计顾问,2020年当选美国科学院院士。2021年他在arxiv上发布了这篇备受统计学家关注的文章。文中总结了过去50年来统计学领域最为重要的八大思想(he thinks) 1. 因果推断;2. bootstrap和基于模拟的推断;3.超参数模型和正则化;4.层次结构模型;5.通用计算算法;6.自适应判定分析;7.鲁棒性推断;8.探索性数据分析。个人认为第一点和第三点尤其得当。第三点基本可以囊括很多machine leanring的算法。而第一点直接影响着人们的决策和认知,多数时候我们总把相关关系误认为因果(在社会科学领域尤甚),大家如果有幸观察到网上的各类争论,不妨从这点来审视他们在论证中有没有犯这种常识性的错误。
arXiv,
2020.
DOI: 10.48550/arXiv.2012.00174
Abstract:
No abstract available.
125.
物品师
(2022-02-21 05:03):
#paper doi.10.48550 [arxiv.2111.08575] 标题GRI: General Reinforced Imitation and its Application to Vision-Based Autonomous Driving作者Raphael Chekroun, Marin Toromanoff, Sascha Hornauer, Fabien Moutarde领域Robotics (cs.RO); Computer Vision and Pattern Recognition (cs.CV).链接https://arxiv.org/abs/2111.08575引用arXiv:2111.08575 [cos.RO](or arXiv:2111.08575v1 [cs.RO] for this version) https://doi.org/10.48550/arXiv.2111.08575摘要:深度强化学习 (DRL) 已被证明对自动驾驶和机器人等多种复杂决策应用程序有效。 然而,众所周知,DRL 因其高样本复杂性和缺乏稳定性而受到限制。 先验知识,例如 作为专家演示,通常可用,但难以利用来缓解这些问题。 在本文中,我们提出了通用强化模仿 (GRI),这是一种结合了探索和专家数据的好处的新方法,并且可以直接在任何非策略 RL 算法上实现。 我们做了一个简化的假设:专家演示可以被视为完美的数据,其基础策略会获得持续的高回报。 基于这个假设,GRI 引入了离线演示代理的概念。 该代理发送专家数据,这些数据与来自在线 RL 探索代理的经验同时处理且无法区分。 我们表明,我们的方法可以在城市环境中对基于视觉的自动驾驶进行重大改进。 我们进一步验证了具有不同离策略 RL 算法的 Mujoco 连续控制任务的 GRI 方法。 我们的方法在 CARLA 排行榜上排名第一,并且比之前最先进的 World on Rails 的性能高出 17%。
arXiv,
2021.
DOI: 10.48550/arXiv.2111.08575
Focus to learn more
Abstract:
No abstract available.
126.
刑无刀
(2022-02-20 22:57):
#paper arXiv:2010.06002 Thinking Fast and Slow in AI
这篇论文主要是为AI下一步发展提出了一个研究方向,灵感和思路来自认知科学领域著名的《思考,快与慢》,后者提出人的认知决策有两个系统,系统1是快速反应,下意识的感知层,系统2是需要经过理性计算、推理,综合更多信息后作出反应的慢系统。作者提出,AI应该是综合“快慢”两者才能更接近的通用智能,系统1对应感知算法,通过深度学习等方法,已经取得突破,而用于推理、计算、决策的慢系统,则需要借助符号系统等方法,有一定的时序性,两者结合,才能更接近真正能够“思考”的智能。基于上述设想,作者提出了10个可能的研究问题,简单列举几个如下:
1. 我们能够清晰地区分AI中的系统1和系统2的能力吗?他们各自的特征是什么?就只有这两类能力吗?还是会有更多能力?
2. 系统2的顺序性(表现为无法并行)是一个bug还是一个feature?我们
应该诉诸机器给系统2发展多线程推理能力吗?如果是这样,结合了机器强大的计算能力,是否能够补偿AI某些方面的缺陷?
3. 综合了系统1和系统2(机器学习和符号逻辑)的AI,用什么评价指标来度量其表现?这些指标应该因任务不同和组合方法不同而不同吗?
arXiv,
2020.
DOI: 10.48550/arXiv.2010.06002
Abstract:
No abstract available.
127.
数据简化社区(秦陇纪)
(2022-02-13 10:29):
#paper ArXiv:2202.02435v1 [cs.LG] On Neural Differential Equations. 牛津大学数学研究所帕特里克·基格尔(Patrick Kidger)的博士学位论文The webpage at https://arxiv.org/pdf/2202.02435v1.pdf,参考链接https://www.maths.ox.ac.uk/people/patrick.kidger,https://www.reddit.com/r/MachineLearning/comments/snmtzn/r_phd_thesis_on_neural_differential_equations/。
一、这篇231页的博士论文专门探讨神经微分方程(neural ODE),主要内容包括如下:①神经常微分方程(neural ordinary diffeqs):用于学习物理系统,作为离散架构的连续时间限制,包括对可表达性的理论结果;②神经受控微分方程(neural controlled diffeqs):用于建模时间序列函数、处理不规则数据;③神经随机微分方程(neural stochastic diffeqs):用于从复杂的高维随机动态中采样;④数值法(numerical methods):一类新的可逆微分方程求解器或布朗重建(Brownian reconstruction)问题。
二、论文中归纳神经微分方程(neural differential equation, NDEs)的 4 个主要应用为:①物理建模;②时间序列;③生成式建模;④一种开发深度学习模型的策略:取适当的微分方程并将其离散化。
三、用于神经微分方程的数值求解和训练的软件包目前已经进行了标准化,文中提供了几种选择供读者使用:1.在JAX生态系统 [Bra+18] 的Diffrax, https://github.com/patrick-kidger/diffrax;2.在PyTorch生态系统 [Pas+19] 中的torchdiffeq、torchcde 和 torchsde 系列库, https://github.com/rtqichen/torchdiffeq,https://github.com/patrick-kidger/torchcde ,https://github.com/google-research/torchsde ,https://github.com/DiffEqML/torchdyn ;3.在Julia [Bez+17] 生态系统中的 DifferentialEquations.jl, https://github.com/SciML/DifferentialEquations.jl 。
arXiv,
2022.
DOI: 10.48550/arXiv.2202.02435v1
Abstract:
No abstract available.