国家天元数学西北中心定于2025年3月28日-4月1日在西安交通大学举办“揭示大模型机理的新一代机器学习数理基础讲习班”。该活动是中心2025“数学与人工智能”主题年活动之一。讲习班将针对现有以大模型为代表的机器学习方法底层数理机理不明、有效机制不清的问题,介绍能够揭示其有效性本质的底层数学、统计、物理及生物机理,从不同的角度、运用多样化的理论工具挖掘现代大模型运行的底层基础原理。
【课程简介】
课程一:揭示大模型“任务泛化能力”现象的机器学习新型泛化理论
课程简介:传统统计学习理论主要从理论上阐明了机器学习在“数据层次”的模型泛化能力本质,而当代大模型通过“大力出奇迹”的启发式手段,通过“上下文学习”、“提示学习”等较为工程化的方式,使所训练的模型体现出惊人的“任务层次”泛化特性,即模型在一组任务上(每组任务有其各自形式的训练数据集)进行训练,但却能够在从未见过的新任务上很好的泛化使用。面对这一已被普遍经验发现与广泛应用的机器学习(尤指大模型)技术能力,现代统计学习理论却无法提供对其有效的内涵解释与机理支撑。本课程将针对这一主题,尝试讨论具有本质“任务泛化能力”的“模拟学习方法论”的机器学习模式,并介绍其统计学习理论基础以及在机器学习自动化任务当中的有效应用。
主讲人:孟德宇 教授 西安交通大学
课程二:揭示大模型“智能涌现能力”现象的机器学习新型统计理论
课程简介:近年来,以ChatGPT和DeepSeek为代表的大模型技术取得显著发展。按照主流的认识,大模型的能力之所以强大源自它可能存在的智能涌现(Intelligent Emergence)。然而,什么是智能涌现? 是什么要素摧生了智能涌现?大模型在什么情况下才会出现智能涌现?本课程主要针对这些问题展开,介绍大模型的智能涌现及尺度率等基本知识,并提出一个数学框架和相应的数学理论来对智能涌现及尺度率加以解析,并揭示大模型完全不同于小模型的统计学习规律。
主讲人:郑术蓉 教授 东北师范大学、束俊 副教授 西安交通大学
课程三:揭示大模型“思维链”训练能力提升的理论机理
课程简介:在许多情况下,我们发现深度学习理论的发展远远落后于深度学习算法和模型的创新。理论究竟如何指导实践,已成为统计机器学习中的一个重要挑战。本课程将围绕神经网络的表达能力这一古老而经典的话题,探讨其如何帮助理解并正确指引现代模型和算法的设计。具体来说,本课程将聚焦于推理这一重要场景,研究生成式语言模型的表达能力上限。最近的研究发现,思维链(Chain-of-Thought,CoT)提示可以显著提高大型语言模型(LLMs)的性能,特别是在处理涉及数学或推理的复杂任务时。尽管在实践中取得了巨大成功,但COT背后的机制以及它如何发挥LLMs的潜力仍然难以捉摸。我们首次尝试从理论上回答这些问题,并证明有限深度的Transformer模型无法直接生成基本算术/方程仟务的正确答案,相反,我们通过构造证明了具有恒定大小的自回归Transformer足以通过使用常用数学语言格式生成CoT推导来解决这两个任务。此外,我们展示了具有CoT的LLMs能够解决一类被称为动态规划的通用决策问题,从而证明了它在应对复杂现实任务中的能力。最后,我们将这些结论推广到多种高效Transformer变体,展示这些变体模型在能力上限方面与标准模型的巨大差异,指明了可行的方向。
主讲人:王立威 教授 北京大学智能学院 、贺笛 助理教授 北京大学智能学院
课程四:揭示大模型“鲁棒-精确悖论”现象的机器学习新型物理理论
课程简介:本次课程将围绕“大模型的鲁棒-精确悖论现象”,从物理学原理角度(Physics for AI)出发,介绍深度神经网络的固有不确定原理、副本对称破缺机制、以及大模型的涌现现象。通过简要介绍物理学中的量子力学不确定原理、副本对称破缺、Ising模型相变,从现象学角度介绍上述三种现象/原理的数学本质;再通过数学等价原理,将相关原理映射至大模型领域,进而帮助理解大模型的鲁棒-精确悖论(高精度的神经网络通常更容易被攻击)、副本破缺机制(现代优化方法如dropout, batch normalization, equivariance的优化共性)以及智能涌现现象(随着神经网络参数逐渐增大,大模型会出现顿悟现象)。通过上面三个实例,课程期望展示将物理学原理应用于AI领域的特殊视角和学术价值。
主讲人:张俊杰 副研究员 西北核技术研究所
课程五:基于生物涌现现象的大模型生物机理
课程简介:课程聚焦生命系统与人工智能的深度融合,探索如何从生物智能的动态性、涌现性和超高效能中汲取灵感,突破传统模型的固有局限。课程通过对比物理规则驱动的人工智能模型与生命系统的本质差异,探讨现有大模型在生物分子互作预测、功能涌现解析及能量效率优化中的关键瓶颈,深入剖析蛋白质折叠、细胞信号网络等生命过程蕴含的自组织、多尺度协同机制。结合AlphaFold等生物计算突破案例,探讨如何将DNA编码逻辑、神经元可塑性、群体智能等生物原理转化为动态图神经网络、因果推理模型等新型算法范式,构建具有生物相容性的自适应学习系统。课程进一步探讨如何融合系统生物学、合成生物学与机器学习,开发可解释、低能耗、动态演化的智能模型,推动从基因调控解析到定向分子设计的跨尺度应用,探讨智能计算的生物学本质。
主讲人:叶凯 教授 西安交通大学、杨晓飞 教授 西安交通大学
课程六:面向大模型的高效优化机制
课程简介:本次课程将围绕大模型的高效优化机制展开,系统介绍大模型优化算法的核心技术与最新发展趋势。我们将从优化器Adam的基本原理出发,结合海塞矩阵(Hessian Matrix)的理论视角,深入探讨Adam在大模型训练中表现出的高效性及其背后的数学基础。同时,我们将介绍Adam的最新变体Adam-mini,分析其设计思路、计算优势,以及如何通过减少内存占用和计算开销来提升大模型训练的效率。此外,我们还将探讨其他前沿的高效优化器,如GaLoRE(Gradient Low-Rank Projection)和MUON(Memory-Efficient Optimization for Neural Networks)等。这些优化器通过低秩近似、正交逼近等技术,降低了大模型的计算复杂度和内存开销。
主讲人:孙若愚 副教授 香港中文大学(深圳)
【课程安排】
时间:2025年3月28日-4月1日
地点:西安交通大学兴庆校区数学与统计学院二楼2-1会议室



【学员待遇】
讲习班计划招生60人,不收取任何费用。活动全程在西安交通大学线下举行,不设线上环节。全国高等院校从事相关研究的青年教师及在校研究生均可报名参加,同单位不超过3人。讲习班每日签到,若无法全程参加请勿报名。根据中心促进西北地区学科发展,向西部地区倾斜的原则,活动将为新疆、青海、宁夏、甘肃、山西五省的学员提供住宿(两人一间),全体校外学员提供餐补,其他费用自理。
【报名方式】
请有意参加的学者通过二维码在线填写信息表:

同时下载附件报名表,将签字的报名表扫描件和个人简历发送到:xbty@xjtu.edu.cn,邮件标题请注明“申请人姓名+单位+3月讲习班报名”。报名截止日期3月9日。
国家天元数学西北中心组织委员会将对申请人材料进行审定,并于3月15日前邮件通知入选者本人。如未接到录取通知即为未入选,不再另行通知。
【联系方式】
联系人:白老师 国家天元数学西北中心
电话:029-82665627
邮箱:xbty@xjtu.edu.cn
地址:西安交通大学数学与统计学院111办公室