一、数据挖掘是什么?
人们在日常生活中经常会遇到这样的情况:超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征;医学研
究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助。
对于以上问题,现有信息管理系统中的数据分析工具无法给出答案。因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希望能够提供更高层次的数据分析功能,从而更好地对决策或科研工作提供支持。
正是为了满足这种要求,从大量数据中提取出隐藏在其中的有用信息,将机器学习应用于大型数据库的数据挖掘(Data Mining)技术得到了长足的发展。
数据挖掘,也可以称为数据库中的知识发现(Knowledge Discover Database,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。
数据库中的知识发现是一个多步骤的处理过程,一般分为:
问题定义了解相关领域的有关情况,熟悉背景知识,弄清用户要求。
数据提取根据要求从数据库中提取相关的数据。
数据预处理主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补。
数据挖掘运用选定的知识发现算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。
知识评估将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求。
由此可见,数据挖掘只是数据库中知识发现的一个步骤,但又是最重要的一步。因此,往往可以不加区别地使用KDD和数据挖掘。一般在研究领域被称作数据库中知识发现的,在工程领域则称之为数据挖掘。
二、数据挖掘能做什么?
数据挖掘所涉及的学科领域和方法很多,以下四种是非常重要的发现任务。
数据总结其目的是对数据进行浓缩,给出它的紧凑描述。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。
分类其目的是学会一个分类函数或分类模型(也称作分类器),该模型能把数据库的数据项映射到给定类别中的某一个。
聚类是把一组个体按照相似性归类,即"物以类聚"。它的目的是使属于同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大。
关联规则是形式如下的一种规则,"在购买面包和黄油的顾客中,有90%的人同时也买了牛奶"(面包+黄油+牛奶)。关联规则发现的思路还可以用于序列模式发现。用户在购买物品时,除了具有上述关联规律,还有时间或序列上的规律。
三、前途光明的数据挖掘技术
随着KDD在学术界和工业界的影响越来越大,国际KDD组委会于1995年把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第一届KDD国际学术会议,以后每年召开一次。近年来,KDD在研究和应用方面发展迅速,尤其是在商业和银行领域的应用比研究的发展速度还要快。
目前,国外数据挖掘的发展趋势其研究方面主要有:对知识发现方法的研究进一步发展,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高;传统的统计学回归法在KDD中的应用;KDD与数据库的紧密结合。在应用方面包括:KDD商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和销售业。国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开始在国内销售,如Platinum、BO以及IBM。
国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、"九五"计划等,但还没有关于国内数据挖掘产品的报道。
一份最近的Gartner报告中列举了在今后3~5年内对工业将产生重要影响的五项关键技术,其中KDD和人工智能排名第一。同时,这份报告将并行计算机体系结构研究和KDD列入今后5年内公司应该投资的10个新技术领域。
可以看出,数据挖掘的研究和应用受到了学术界和实业界越来越多的重视。进行数据挖掘的开发并不需要太多的积累,国内软件厂家如果进入该领域,将处于和国外公司实力相差不很多的起跑线上,并且,现在关于数据挖掘的一些研究成果可以在Internet上免费获取,这更是一个可以利用的条件。我们希望数据挖掘能够引起国内实业界更多的重视,同时也希望能够有更多的国内软件厂商进入该领域,一起促进数据挖掘技术在中国的应用。
分享到:
相关推荐
什么是数据挖掘 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取出蕴涵在其中的,人们事先不知道的,但是具有潜在有用性的信息和知识的过程。 用来进行数据挖掘的数据源必须是真实的和大量...
用java 写的数据挖掘系统,能够完美运行
本书是一个导论,介绍什么是数据挖掘,什么是数据库中知识发现。书中的材料从数据库角度 提供,特别强调发现隐藏在大型数据集中有趣数据模式的数据挖掘基本概念和技术。所讨论的实现 方法主要面向可规模化的、有效...
《数据仓库与数据挖掘》课程设计方案报告模板.pdf《数据仓库与数据挖掘》课程设计方案报告模板.pdf《数据仓库与数据挖掘》课程设计方案报告模板.pdf《数据仓库与数据挖掘》课程设计方案报告模板.pdf《数据仓库与数据...
数据挖掘在各行业的应用论文 数据仓库与数据挖掘.caj 空间数据挖掘技术.caj 数据仓库与数据挖掘技术及其在科技情报业的应用前景.caj 相关案件的数据挖掘.caj 数据挖掘技术.caj 一种实时过程控制中的数据挖掘算法研究...
数据挖掘是什么? 为什么要进行数据挖掘? 数据挖掘有哪些应用? 数据挖掘有哪些任务? 机器学习是什么? 数据挖掘与机器学习之间有什么关系? 数据挖掘实战举例 数据挖掘领域重要会议
尿不湿和啤酒很多人会问,究竟数据挖掘能够为企业做些什么?下面我们通过一个在数据挖掘中最经典的案例来解释这个问题——一个关于尿不湿与啤酒的故事。超级商业零售连锁巨无霸沃尔玛公司(wal mart)拥有世上最大...
数据挖掘课件数据挖掘课件数据挖掘课件数据挖掘课件
介绍什么是数据挖掘,数据挖掘可以做什么. 数据挖掘是一种高级数据分析技术,它从日常积累的、海量的信息库中提炼、抽取、发现隐藏的、间接的、有意义、有价值的、可以直观表达的规则、知识和信息,辅助管理人员制定...
图像数据挖掘图像数据挖掘图像数据挖掘图像 数据挖掘
本课程适合所有需要学习数据仓库与数据挖掘知识的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
本课程适合所有需要学习临床大数据挖掘知识的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
第2讲_MATLAB数据挖掘基础 共44页.pdf 第3讲_MATLAB数据挖掘算法(上) 共42页.pdf 第4讲_MATLAB数据挖掘算法(下) 共45页.pdf 第5讲_MATLAB高级数据挖掘技术 共23页.pdf 第6讲_MATLAB数据挖掘项目实例 共25页.pdf ...
数据挖掘 数据挖掘 PPT数据挖掘 PPT数据挖掘 PPT
介绍什么是数据挖掘,什么是数据库中知识发现。书中的材料从数据库角度 提供,特别强调发现隐藏在大型数据集中有趣数据模式的数据挖掘基本概念和技术。所讨论的实现 方法主要面向可规模化的、有效的数据挖掘工具开发...
数据挖掘ppt数据挖掘ppt数据挖掘ppt数据挖掘ppt
摘要近年来,伴随着空间信息获取技术的快速发展,不同类型的空间数据库以及数据库...该文在回顾已有空间数据挖掘规则的基础上,指出了空间数据挖掘过程中存在的主要问题,进而探讨了未 来空间数据挖掘的主要研究方向。
本课程适合所有需要学习临床大数据挖掘知识的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
数据挖掘通常被定义为搜索、分析和筛选大量的数据的过程,发现它们之间的关系、模式或者任何的显著统计相关性。空间数据挖掘(SDM)是从大型空间数据集中发现有趣的、有用的信息和知识模式的过程。由于空间数据类型、...