学术研究

技术成果

当前位置: 首页 > 学术研究 > 技术成果 > 正文
技术名称:基于视觉认知的数据挖掘技术
日期:2018-03-10 点击:

持有人:张讲社 徐宗本 彭济根

代表专利或成果:国家自然科学二等奖(2007-Z-107-2-02)


技术内容:

数据挖掘旨在从海量非结构化数据中获得有用信息,是数据驱动的信息处理技术之核心。长期以来,数据挖掘是以数据分布和产生数据的物理机制为基础的。徐宗本院士和张讲社教授团队基于“人一眼能看出空间图像的模式和结构”的观察,提出了“通过解释和模拟人为什么一眼能看得出的机理进行数据建模”的科学思想,系统发展了基于视觉认知的数据挖掘新原理与新方法。新原理的核心是将数据视为光点,将数据集看作图像,将图像模糊化所形成的光斑视为数据类,而通过模拟生物视觉信息处理的特征提取和尺度空间模型解决问题。依据这些创新想法,研究团队先后提出了聚类分析的视觉聚类器、判别分析的视觉分类机和基于复眼模型的快速物体轮廓识别等算法。

图1:基于视觉认知的尺度空间聚类示意图

视觉聚类器运用视觉前端系统的尺度空间理论模型作为图像模糊化的数学描述,并利用梯度法数据集的分层聚类。该算法通过引进“类的生存寿命”概念,结合视觉有效性原理解决了长期困惑人们的聚类有效性问题(即什么是类?有多少个类的问题)。同时首次运用神经系统识别模式的生物心理学实验定律—Weber定律,导出了有效的尺度离散化格式,使得算法在有限步内产生真实聚类,解决了离散化尺度的合理性问题。类似的思想也被我们用来成功解决支撑向量机的核参数选取问题

 

评价及应用情况:

相关结果的代表性论文发表于IEEE Trans PAMI和SMC上,被评价为“是原创性的研究”“有深刻的数学原理”“做出了多个不平凡的贡献”。世界神经网络协会主席Wunsch在IEEE Trans NN的综述中高度评价了这一“有趣的分层聚类”方法。视觉分类机通过模拟视皮层特征提取原理和视觉尺度自适应选择机制进行辨识, 解决了分类算法的模型选择问题, 被认为“解决了支撑向量机所面临的一个重要问题”。

视觉聚类器已被广泛用于地理数据分析(包括美国乔治亚大学Lan小组、路易斯桑那州立大学Wang小组等)、图像处理(美国马里兰大学DeMenthon小组)和蛋白质结构分析(比利时那慕尔大学Leherte小组)。特别是Leherte小组长期将我们的方法用于蛋白质电子密度估计、结构辨识和内硫胺胃蛋白酶配体匹配等。

图2:比利时那慕尔大学Leherte小组利用尺度空间聚类分析得到的的苯二氮平类化合物电子密度估计的等高线图

 

图3:相关成果获2007年国家科技进步二等奖

相关成果获国家自然科学二等奖,视觉分类机等算法已被山西太原钢铁集团公司用于硅钢纵条纹及热连轧钢板质量控制,带来1100万元/年的直接经济效益。

 

版权所有:西安交通大学数学与数学技术研究院  设计与制作:西安交通大学数据与信息中心
地址:陕西省西安市碑林区咸宁西路28号  邮编:710049