中心活动

中心活动

当前位置: 首页 > 中心活动 > 正文
数值分析与神经网络的融合--- 许进超与徐宗本院士的交流
日期:2025-04-26 点击:

2025年4月18日,应国家天元数学西北中心邀请,欧洲人文和自然科学院院士、沙特阿卜杜拉国王科技大学(KAUST)许进超教授在西安交通大学作了题为《有限神经元方法》的三小时专题学术讲座。本次讲座由西安交通大学王飞教授主持,作为“深度学习与算子学习在科学计算中的理论与应用讲习班”的开篇活动,同时也是西安交通大学“数学与人工智能”主题年的重要组成部分,吸引了众多师生积极参与,现场互动气氛热烈。中国科学院院士、西安数学与数学技术研究院院长、大数据算法与分析技术国家工程实验室主任、西安交通大学数学与统计学院徐宗本教授全程参与,并就讲座中涉及的多个理论与算法问题进行了深入的点评和交流。



从多重网格到大模型:模型结构与训练算法

许进超教授的报告以小中见大的方式开篇,通过一个简洁而富有启发性的三维线性方程组迭代求解问题,深入浅出展示了深度学习中最常用的优化算法——梯度下降法,以及科学计算中最为高效的数值算法——多重网格方法的收敛特性与核心思想。


在此基础上,许教授介绍了其团队提出的 MgNet 模型,这是一类通过对传统几何多重网格方法稍作调整而构建的卷积神经网络。通过展示 MgNet CIFAR-100 ImageNet 数据集上的实验结果,许教授进一步说明了该模型在网络结构设计、训练效率和参数控制等方面的优异表现,从而有力地展示了传统数值计算方法在理解与设计深度学习算法中的潜在价值。随后,许教授进一步讨论了其对大语言模型(LLM)结构的理解,并以 DeepSeek 模型为例,提出主流 LLM 模型中的“多层网格”结构:包括词元层,词嵌入层、以及上下文嵌入层,这种结构在多重网格方法的视角下呈现出独特的多尺度特征传递机制。

在此理论背景下,许教授介绍了其团队在阿拉伯语大模型方向的一项探索性工作,即开源模型 AceGPT。该模型作为当前少数公开的阿拉伯语大型语言模型之一,在多个基准评测中表现突出,曾是开源阿拉伯语大模型中的领先者之一。AceGPT 的开发不仅体现了其团队对跨语言模型设计的初步实践,更重要的是为探索新型数学技术提供了一个可操作的平台。许教授指出,该模型旨在作为进一步研究的基础,借此引入和测试创新的数学思想与算法方法。

徐宗本教授在报告中深入参与讨论,介绍了其团队在 Transformer 算子分析方面的重要理论进展。他提出,Transformer 的多层结构可以视为一种谱半径为 1 的不动点算子的迭代过程,其团队已建立了系统的收敛性理论框架,对该类结构在理论和实际应用中的稳定性与可控性提供了坚实支撑。许教授随即指出,该理论与他在报告中所探讨的从三维线性方程组推广至四维欠定问题所引出的谱结构问题在本质上密切相关,二者在数学机制上存在深刻的呼应关系。

两位教授一致认为,尽管当前大模型的训练依赖于海量数据和强大算力支撑,但从数学建模与算子分析的角度,仍可为模型结构设计与收敛性分析提供坚实理论基础,有待进一步深入探索与系统推进。



神经网络与有限元:从表达能力理论到应用指导

在讲座的第二部分,许进超教授系统阐述了深度神经网络的表达能力理论,重点分析其对有限元函数空间的刻画能力。他从线性有限元与 ReLU 神经网络之间的结构对应关系切入,介绍了其团队在该方向上的系列研究成果。特别指出,他与其学生、现任清华大学的何俊材助理教授合作,首次证明:在任意维度和任意单纯形网格上,任意阶的分片多项式函数均可通过结合 ReLU ReLU² 激活函数的神经网络精确表示。这一成果显著拓展了传统神经网络的表达能力,也为深度学习在科学计算中的理论基础注入了新的动力。


对此,徐宗本教授给予高度评价,认为该成果为神经网络用于微分方程求解提供了坚实的理论支持,特别是在揭示复杂函数结构表达能力方面具有独特价值。他进一步提出:若在实际应用中采用此类结构,是否能显著提升模型性能,值得深入研究。


这一问题也呼应了许教授在报告中提出的主张:数学家不仅应在事后提供解释,更应主动将理论成果前移至应用设计,服务于工程实践和算法开发。许教授指出,其团队正在这一方向积极推进研究。两位教授一致强调,应加强数学理论与应用实践的融合,推动理论创新与工程实现的双向互动。


固定参数下的线性化逼近:浅层神经网络的一种简单求解策略

在报告的第三部分,许进超教授首先介绍了其团队关于 Sobolev 空间与 Barron 空间的最优嵌入定理,随后展示了其团队在该方向上的一个具有重要的理论研究:对于可嵌入 Barron 空间的 Sobolev 函数类,通过预设神经网络中的内层参数,仅需求解一个线性问题,即可达到与 Barron 空间理论一致的最优逼近阶。这一结果显著增强了浅层神经网络在函数逼近中的可解释性与计算效率,体现出浅层网络逼近理论从非线性向“线性化”演进的理论基础与实践潜力,并指出其本质上有别于传统分片多项式逼近方法。


徐教授针对该理论进展提出了一个关键性问题:“在具体的偏微分方程求解中,神经网络方法相较于有限元方法的优势何在?”对此,许教授指出,神经网络方法对各类实际问题的应用更具普遍性和灵活性,尤其适用于缺乏结构信息或几何形状复杂的问题;而有限元方法在结构明确、精度要求高的情境中更具优势。许教授进一步解释道,尽管神经网络能迅速给出近似解,但在高精度需求下,其学习速度可能受限。根据文献中频率原理方面的研究,神经网络往往优先学习低频信息,这意味着在涉及高频成分的计算中,有限元方法更具优势。两位教授均认为,未来有必要探索这两类方法优势互补的混合算法路径。


许教授通过一个一维模型的理论分析严格证明:若使用梯度下降法求解两点边值问题,达到七位精度所需的迭代量即使在当今最快的计算机上也需耗时约二年。这一案例生动揭示了机器学习常用的梯度下降法在科学计算中的计算瓶颈,并凸显寻找更高效算法的重要性。他指出,其团队在贪婪算法和线性化神经网络方面的研究,正是为应对这一挑战而展开。徐教授补充道,理论的突破固然重要,但真正推动应用发展的关键在于将“固定参数下的线性化逼近”这类理论成果转化为实际可用、效率高、可推广的工程算法。他强调,唯有将理论工具转化为可验证、可部署的算法,才能在科学计算与工程实践中真正释放其潜力。


参数拟一致分布的确定性原则与随机采样: 本质与实现的两难选择

许进超教授进一步指出,其团队的研究以新的视角从理论上解释了极限学习机、随机特征方法和随机神经网络在实践中的有效性。他强调,随机性本身并非这些方法成功的核心,本质在于内层参数满足某种拟一致分布特性,而算法的收敛性来源于这种确定性的结构。

对此,徐宗本教授现场补充指出,尽管理论上只需构造满足拟一致分布的参数集合,但在高维空间或球面上显式构造这类分布极具挑战,因此实践中往往采用随机采样来近似实现。他指出,已有研究正在探索非随机构造方法,这一方向未来有望在理论研究与应用部署中发挥更大作用。徐教授还特别指出,在某些函数逼近任务中,使用的采样测度不应一概而论为均匀分布,而应结合目标函数的积分表达或傅里叶结构作定制设计。这一观点与许教授在报告中提出的 Barron 空间积分表示理论相互印证,进一步揭示了神经网络逼近理论与经典泛函分析之间的深刻对应关系。

在讨论中,王飞教授介绍了其团队基于傅里叶变换对偏微分方程解的频率特征分析,进而构造出更适配问题的参数概率分布,并利用后验误差信息构建自适应生长的随机神经网络,通过从“窄到宽”“浅到深”的结构调整,有效提升了 PDE 解法的精度与效率。徐教授建议进一步推动该方法的通用化与智能化发展,并探讨其在图像识别等任务中的拓展应用,认为这是一个值得深入探索的方向。


参数上界控制与复杂度:超越传统的新标尺

此外,许教授还系统讨论了神经网络在处理高维问题中的效率问题。他指出,神经网络“没有维数灾难”这一说法通常适用于非常光滑的目标函数,而对这类函数,传统方法如多项式逼近或傅里叶级数本身也具备类似能力。因此,要准确理解神经网络的高维优势,还需结合具体函数的复杂度进行评估。


许教授进一步通过构造一个仅含 3 个参数、却能够逼近一维紧集上任意连续函数的神经网络实例,指出神经网络的逼近效率并不取决于参数数量的渐近增长速率,而主要受到函数本身复杂度与参数幅度控制的影响。他强调:只有控制参数幅度的上界,才能真正限制所能逼近的函数类的复杂度。这一例证生动地说明,在许多实际问题中,模型拟合困难的根本原因并非维度高低,而是目标函数本身的结构复杂性。


徐宗本教授对此表示肯定,并结合工程实践指出,现实中许多模型在部署时会对参数幅度设定范围,以增强稳定性与泛化能力。他强调,理论研究应当服务于实际应用中的新需求,参数控制理论有望在模型稳健性与高精度实现方面发挥关键作用。


徐教授进一步指出,尽管复杂度才是根本原因,但在实际工程中,随着维度升高,复杂度往往呈指数级上升,从而在表现上呈现为“维数灾难”。他认为,许教授提出的关于参数上界控制的理论对工程实践极具指导意义,为高维问题中模型构建与算法设计提供了切实可行的参考。


结语:以数学为桥,连接神经网络与科学计算:

在本次报告中,许进超教授系统梳理了其“有限神经元方法”的理论框架与应用前景,涵盖神经网络与有限元方法之间的结构对应关系、表达能力与逼近理论、频率原理、Barron 与 Sobolev 空间的嵌入结构,以及参数控制与算法设计等核心议题,奠定了神经网络在科学计算中实现高效性与可解释性的数学基础。


徐宗本教授全程参与并深入点评,以数值分析视角贯穿讲座始终,将经典算法理论与现代学习机制相结合,拓展了学术交流的理论深度与应用广度。他从物理建模与工程计算出发,着重探讨数学模型如何有效指导复杂现实问题的求解路径。


作为“数学与人工智能”主题年系列活动的开篇之作,此次讲座不仅为后续学术探讨奠定了坚实基础,更生动展现了当代数学家如何以严谨深刻的理论回应人工智能时代的核心挑战。在讲座其间,许教授还热情回答了现场听众提出的诸多问题,进一步加深了交流的广度与深度。


两位教授的学术交锋,如同华山论剑,思想碰撞中智慧闪耀,深邃的洞察与前沿的观点相互辉映,激发出令人耳目一新的学术火花。这场知识盛宴内容丰富、视角多元,给予现场师生深刻启发,令人回味无穷。

         


版权所有:西安交通大学数学与数学技术研究院  设计与制作:西安交通大学数据与信息中心
地址:陕西省西安市碑林区咸宁西路28号  邮编:710049