BOB电子竞技:上海交大团队发现频率原则开启理解神经网络的新方向

想象一下,当我们进入新环境时,短时间之内记住的大部分是粗糙的轮廓信息,而如果在该环境中停留更长的时间,我们会记住更多的细节信息。 根据以往研究经验发现,人工神经网络和生物神经网络共享着很多类似的规则,毕竟它们的名字里都有“神经网络”。频率原则(frequency principle 或者 spectral bias)也是这些规则中的一种,它提供了一种从频率角度研究深度学习的视角。 频率原则是指人工神经网络或者深度学习在学习新的信号时,总是倾向于先学习信号中的低频信息,而后



  想象一下,当我们进入新环境时,短时间之内记住的大部分是粗糙的轮廓信息,而如果在该环境中停留更长的时间,我们会记住更多的细节信息。

  根据以往研究经验发现,人工神经网络和生物神经网络共享着很多类似的规则,毕竟它们的名字里都有“神经网络”。频率原则(frequency principle 或者 spectral bias)也是这些规则中的一种,它提供了一种从频率角度研究深度学习的视角。

  频率原则是指人工神经网络或者深度学习在学习新的信号时,总是倾向于先学习信号中的低频信息,而后缓慢学习高频的普遍现象。因此,它是一个听起来非常自然和直观的现象。

  但事实上,从科学的角度来看,先学低频并不是显然的结论,比如在求解大规模线性方程问题中,常用到的迭代算法,如 Jacobi 迭代,它收敛低频的速度是极慢的,这也催生了一大批算法来提升迭代中低频的收敛。

  频率原则看似简单,但作为一个被清晰刻画的现象,它起到了重要的作用。在人工神经网络的研究现状中,研究人员观察到很多现象,但对其中很多现象发生的条件尚不清楚,有一部分只能是非常定性的描述,这一些因素限制了领域的发展。

  为了进一步探讨科学智能领域的发展的新趋势和前沿技术,络绎科学发起「科学智能 50 人」访谈计划,此次邀请到上海交通大学自然科学研究院/数学科学学院长聘教轨副教授许志钦,来分享他在该领域的最新进展。

  许志钦团队以 Science for AI 和 AI for Science 的研究相融合为主要研究方向,以现象驱动的理论研究,并从理论预测新的现象。这与许志钦的研究经历紧密关联。他本科毕业于上海交通大学致远学院理科班,在上海交通大学获应用数学博士学位,随后,在纽约大学阿布扎比分校和柯朗数学科学研究所从事博士后研究,研究方向为计算神经科学。

  做计算神经科学的相关理论时,许志钦几乎只可以通过数值模拟验证,但数值实验如何设置参数自由度又太大,往往和真实实验很难匹配。另外,在他从事博士后研究时,中美的脑计划研究把重心放在重建神经网络的连接,因此,他也很想了解,假如知道所有的连接,甚至所有的神经元的动力学,能够理解大脑到什么程度?正是这样一些问题使他开始转向深度学习的基础研究。

  人工神经网络所有的结构和动力学都是清楚的,人们也能随意地修改它,做各种控制变量的实验。同时,神经网络也展现出几乎不可理解的强大性能。人工神经网络的这些特点正好符合他的研究兴趣,因此,许志钦和组内的同学将计算神经科学和物理学的很多研究方式应用到深度学习。

  频率原则的第一个特点在于,它是一个被清晰描述和定量验证的实验。“这和我们所采取的研究策略有很大相关性。”许志钦说。

  在深度学习的研究中,MNIST 数据集(美国国家标准与技术研究所数据集的一个子集)几乎被认为是最简单的数据集之一,它是由一些手写数字图像组成的。因此,大量的实验从这样的数据集开始。但这个数据集即便看起来简单,在研究中也是极其复杂的,它的输入维度是 784 维,如此高维对于数学家来说很难想象。

  对于一个复杂的系统,在科学上,研究人员通常会构建一些简单可分析的例子。同时,这些例子又能揭示复杂系统中人们所关心的现象或者问题的本质。许志钦表示,“我们团队的背景是数学、物理和计算神经科学,所以当遇到人工神经网络的问题时,我们第一步想的是如何构造简单的例子。”

  在频率研究中,该团队通过神经网络拟合一维的函数后发现,神经网络似乎总是先学轮廓,再学细节。“我还让神经网络去记住我自己的照片,刚开始神经网络只能大概记住人像的位置,基本上没有什么细节。”许志钦说。

  描述轮廓和细节最直观的方法就是用频率,它的另一个好处是,频率在很多情况下,都可以被定量的理论分析,比如振动、水波、电磁波等。

  他指出,“频率这个切入点帮我们在深度学习中,找到一个明确且重要的现象。我们课题组通过一系列论文在现象、理论和算法改进上比较全面地研究深度学习的频率原则[1,2],这些研究也促进领域内很多相关进展。”

  频率原则在深度学习的发展中,起到很多积极的作用。首先,认识到神经网络擅长捕捉低频信息,包含两个方面。一方面,它在收敛频率低的信号时,速度很快;另一方面,它对于低频信号具有很好的泛化能力。

  其次,频率原则也指出神经网络不是万能的,它在高频问题中面临收敛慢和泛化差的问题。正如“没有免费的午餐”定理所指出的,任何算法都有它不擅长的问题类型。

  许志钦表示,频率原则的一些认识,让使用深度学习的人员理解了训练过程中的很多现象,比如为什么变化剧烈的区域很难学好,为什么提前停止训练可以使重构的图像更光滑等。虽然它不能直接指导该如何调参,但它可以指出一些调参的方向。

  第三,它激发了许多研究人员设计算法克服神经网络的高频困难。频率角度的研究某些特定的程度上是这几年深度学习理论比较成功的方向之一。第四,它向领域提供了频率研究的视角。

  该研究从频率角度指出哪一些问题容易学,哪一些问题很难学,使得神经网络离完全的“黑箱”状态更远一些,更容易理解和可信。

  从应用的角度来看,频率原则的系列研究产生了一定的影响。以两个应用场景为例,一是解微分方程。很多科学规律是通过微分方程描述的,因此,AI for Science 的很多问题的核心是解微分方程。在微分方程中,常常会有很多高频问题是需要求解,比如电磁场方程。

  当神经网络用来解这些方程时,高频困难就特别明显。许多课题组通过发展不同的多尺度神经网络,来缓解学习高频时的困难。许志钦表示,其基本的想法是把一个高频振荡的函数通过拉伸变成低频。“这类想法格外的简单,但能提高调参的效率,因此有一定的实用。比如,华为的 Mindspore 科学计算包就采用上这个多尺度神经网络的架构,用来解高频的电磁方程。”

  另一个场景是图像重构,最有一定的影响力的例子是神经网络渲染(比如 Nerf),其受到高频学习困难的启发,在输入层也设计了多尺度的结构,使渲染效果很好,并得到十分普遍的使用。

  同时,我们也必须看到,频率原则目前仍是相对粗糙的描述方式,未来还有很多问题是需要继续探索。举例来说,不同网络结构如何具体影响各个频率的收敛;频率原则和其他现象的联系如何刻画,比如,和参数的演化过程如何建立联系。

  该团队发现参数在演化过程会发生凝聚,使得有效参数很小,随着演化的进行,有效参数会逐步增加,这与频率原则在定性上类似,但如何在理论上建立它们的联系是困难的;如何设计更高效的算法提升高频的收敛并保证好的泛化能力等。

  什么样的理论可以被称为“好理论”呢?许志钦认为,好理论的基础要求是关注一个重要的现象或问题,并要满足“简单又复杂”——简单到可以分析,又能复杂到对所关心的现象或者问题提供理解,最重要的是可以被实验验证。更进一步的要求是,它可以引出更多有意思的现象或者对理论问题更深入地理解,最后还能指导算法设计。

  许志钦表示,频率原则研究就是这样一个例子,它对我们组设计神经网络算法解偏微分方程,以及解燃烧模拟中高维的刚性常微分方程,都起到很重要的作用。

  他认为,AI for Science 能够解决传统算法不能解决的问题,特别是高维问题。神经网络在拟合高维函数中表现出非常强的能力,如何在高维空间获得有代表性的采样训练神经网络是核心的问题之一。尽管面临挑战,深度学习带来了解决这一些难题的新方向。

  另一方面,正如鄂维南院士 2021 年在“The dawning of a new era in applied mathematics”中论述的,以深度学习为基础的 AI for Science 和 Science for AI 为数学学科,特别是应用数学带来了全新的研究方向。理解深度学习和设计更好的深度学习算法,将是应用数学未来重要的研究方向。“总体来说,深度学习带来的技术革新是快速和根本的,我非常期待。”许志钦最后说道。

  声明:本文仅供科研分享,助力科学传播,不做盈利使用,如有侵权,请联系后台删除。返回搜狐,查看更加多

上一篇:控制变量法 下一篇:国产工业 伺服电动机有什么长处