数学毕业论文

统计数据挖掘的方法及应用

时间:2021-01-29 14:27:53 数学毕业论文 我要投稿

统计数据挖掘的方法及应用

  统计数据挖掘的方法及应用

  摘要:在我国,经济统计工作的进行是为了有效地反映经济发展状况,为决策者提供有效决策的依据。

  因此,统计部门在进行经济统计时必须重视经济统计信息的准确性和可靠性。

  统计数据挖掘技术可以从混乱、纷繁的数据中提取关键的信息与知识,有利于过程控制、决策支持、查询优化、信息管理等工作的顺利开展,在信息爆炸的时代具有十分重要的应用价值。

  因此,分析统计数据挖掘的方法,探究统计数据挖掘技术的恰当应用是非常必要的。

  关键词:统计数据挖掘;聚类分析方法;统计基础方法

  数据挖掘是由数据采集、数据处理、数据规则知识表达和知识应用与服务等几个方面组成。

  其中,数据采集是基础,数据处理是关键,数据规则知识表达是形式,知识应用与服务是目的。

  现实世界中的大部分数据是有污染的,任何对数据的分析和挖掘都是建立在或多或少的病态数据基础上的,没有好的数据,就不可能提供可靠的规则和知识。

  规则往往是被大量复杂的数据项隐藏,有些数据是冗余的,有些数据是完全无关的,它们的存在有可能影响到有价值规则的发现,这必然要求我们在数据处理过程中把好数据关,即选择什么样的数据,如何进行数据清理,对选择好的数据如何处理、要进行哪些处理,只有过好数据关才能保证整个基于统计分析的数据挖掘工作的顺利完成。

  一、数据挖掘技术的概念及特征

  数据挖掘技术,简单地说就是从大量的数据信息中挖掘出有用的信息。

  这里大量的数据信息通常被认为是不完全的、模糊的、有噪音的、随机的,是完全没有加以处理的信息。

  而挖掘之后呈现的就是有效的、潜在有用的、新颖的信息。

  这样的一个变化过程,也常常被认为是数据挖掘。

  数据挖掘,可以是经济信息转换的一个过程,还可以是一门交叉的学科。

  数据挖掘是一门涉及面广的学科,包括机器学习、神经网络、数据库、数据统计等等,现在广泛应用于统计界。

  数据挖掘作为一个信息转换的过程,其大体的步骤是:数据准备――数据挖掘――结果分析总结。

  数据挖掘的主要功能是:分类、预测模型、数据聚类、数据总结等。

  数据挖掘的特点,同时又是数据挖掘的优点有以下几点:其一,处理的数据量巨大;其二,具有自动找寻信息的功能;其三,能够有效地描绘过去和预测未来;其四,信息反映快捷及时。

  数据挖掘常常采用的一些技术有:关联规则方法、聚集检测、记忆基础推理方法、链接分析等等。

  二、统计数据挖掘的内容

  随着统计信息化工程的进展,各地市统计系统的数据库建设正在紧锣密鼓地进行,有的已经开始,有的正在酝酿之中。

  一般小型数据库采用了FoxPro、Access等数据库软件,大型数据库采用了oracle系统,同时一些大型企业也都建立了自己的统计数据库。

  另外还有基于Web的统计数据库系统,这些不同数据源收集的统计信息,通过数据清理、数据变换、数据集成、数据装人和定期数据刷新就构成了一个大型的统计数据仓库,为统计数据的挖掘创造了条件。

  具体来讲统计数据挖掘的内容有:

  (一)时间序列数据序的挖掘

  时间序列数据库是存放随时间变化序列值的数据库,包括反映月度、季度变化的进度数据库以及年度数据库,由于这些数据是经过长期历史积累形成的,因此显得尤其珍贵。

  其中有些是反映国家或某一地区国家经济和社会发展的,出现在各种统计年鉴中的,有些是反映企业的`生产、销售、成本等状况的,有些是反映市场状况的,如交易状况。

  通过对时间序列数据库的挖掘,可以发现数据库中对象演变特征或对象的变化趋势,以及相互之间的长期均衡的各种关系,利用这些信息可以进行有关预测及决策和进一步的定量分析。

  (二)截面数据库的挖掘

  截面数据库是存放同一时间上不同个体数据指标的数据库,包括不同省市、城市、县镇区的宏观经济指标数据库,也包括不同企业、家庭及居民的各种行为指标数据库,反映了不同个体之间的差异性及特殊性。

  通过对截面数据库的挖掘,可以发现不同个体之间呈现出的各种规律及量化关系,以及通过统计中的聚类分析、判别分析,对不同个体进行分类,还可以进行孤立点分析,判别出那些数据与数据的一般行为或模型不一致,例如可以发现信用卡欺诈、为骗取保险金的伪保险、交易中的违规交易等。

  (三)统计信息数据库的挖掘

  统计信息涵盖了国家社会、经济、科技信息的主要方面,是国家重要的基本信息资源。

  统计工作信息化的建设一直是各级统计部门工作中的重点,已经初具规模,有FoxPro为系统的小型信息数据库,也有oracle大型数据库管理系统,此外,还开发引进了一些通用的和专用的报表处理、统计报表排版、统计分析等应用较件,各种统计信息资源应有尽有。

  同是大型企业也十分重视建立统计信息管理系统,主要用于企业内部的统计业务处理和向上级公司和政府机关上报报表。

  通过对统计信息数据库的挖掘,可以全方位掌握和了解最新的国民经济、社会发展、企业景气状况的动态,为政府和企业的决策服务。

  (四)统计普查数据库的挖掘

  普查是专门组织的一次性全面调查,是全面系统地掌握国情国力统计资料的重要途径。

  例如工业普查、农业普查、人口普查、物质库存普查、工作设备普查等等。

  由于进行普查的工作量大,需要动员较多的人力、物力,组织一次很不容易,因此普查的统计资料就显得尤为珍贵,需要对普查后的数据整理、保存,建立相关统计普查数据库,通过对统计普查数据库的挖掘,可以掌握相关的真实数据,从普查中提炼出有价值的信息。

  (五)抽样调查数据库的挖掘

  在社会经济现象中,有很多现象,是无法进行全面调查的,有些也不必要进行全面调查,这样抽样调查的方法就显得比较重要,它较全面调查有节省人力、财力,速度快等优点。

  由于抽样调查需要事先设计好抽样框,要体现出随机性原则,因此随机抽样,并不是简单地抽取,要完成一次好的随机抽样也并不是易事,抽样调查的结果也非常有价值,抽样调查的结果保存在计算机中,就形成了抽样调查数据库。

  通过抽样调查数据库的挖掘可以及时了解社会经济,特别是居民生活方面的现实状况,对企业来讲可全方位地了解市场信息及市场行情。

  三、统计数据挖掘的方法及应用探析

  (一)统计基础方法

  数据挖掘经常能够用到统计的基础方法,例如,用直方图和茎叶图对样本数据作描述;数据结构的基本特征可以用数据的集中频次和频率进行描述;数据中心可以用均值、中位数和众数进行描述;数据的离散特征可以用极值与百分位点等进行点状描述;数据的离散特征可以用极差和离差进行区间描述;数据特征的综合描述可以用样本方差或箱形图等。

  此外,数据挖掘中,还广泛的应用了回归分析,回归又包括线性回归和非线性回归。

  线性回归是最简单的回归形式。

  双变量回归是将一个随机变量看作另一个随机变量的线性函数。

  非线性回归用于描述变量间的曲线性式关系。

  回归分析表明了数据间的相关关系,为进一步的数据分析提供了依据。

  (二)聚类分析方法

  在模式类型无法得知的情况下,可以运用聚类分析法进行分类、识别。

  按照模式间的相似程度进行自动分类的聚类分析法,能够将相似度大的模式归为一类。

  聚类分析法有凝聚算法、分裂算法、增量聚类和划分聚类。

  例如,层次方法就是按照一定的层次分解给定的数据对象集合,可以分为分裂层次方法和凝聚层次方法。

  聚类分析法适用于分析样本之间的内部关系,合理的评价样本结构。

  此外,孤立点的检测也可以应用聚类分析。

  聚类是为了将某个对象从大量的数据中分离出来,不是简单地将数据集聚在一起。

  目前,聚类分析广泛应用于图像处理、模式识别、经济分析等多个领域。

  (三)粗集方法

  在缺少数据先验知识的情况下,例如隶属函数、隶属度和概率分布等,直接从给定的问题出发,问题的近似域确定可以运用不可分辨类与不可分辨关系,找出问题中存在的规律。

  粗集理论和证据理论、神经网络、模糊集等一样都是进行不确定性计算的重要理论方法,粗集方法在数据挖掘中有着广泛的应用,在残缺、模糊信息和知识的分类与获取上有着较大的应用优势,比较有代表性的方法有:统计检验方法;单规则离散器方法;信息嫡方法等。

  这些方法都各具特点,但又存在着一个共同的缺陷――每个属性的离散化过程是各自独立的,这忽视了不同属性之间的关联,进而导致离散的结果中包含了不合理或冗余的分割点。

  四、结束语

  可以确信,如果数学是统计方法的首要工具,那么以计算机和网络为代表的信息技术,正在成为统计应用的首要工具。

  随着统计学与现代信息技术的融合,在方法上不断进行新的探索,一定会为统计学和数据挖掘未来的发展开辟一片新的天地。

  参考文献:

  [1]陈凤兰.数据挖掘技术在经济统计中的应用[J].现代商业,2010,05

  [2]吴慧香.数据挖掘在财务风险警报系统中的应用[J].财会通讯,2008,02

  [3]丁卫平,王杰华,管致锦.基于数据挖掘技术的教学评估智能辅助决策平台的设计与实现[J].电化教育研究,2009,04

  [4]李占宣.数据库中面向复杂应用的查询方法[J].电脑学习,2009,04

【统计数据挖掘的方法及应用】相关文章:

物流运作的企业利润挖掘方法06-04

长尾关键词挖掘方法01-02

数据挖掘在电子商务的应用论文03-20

数据挖掘在电子商务中的应用论文10-29

数据挖掘在电子商务管理中的应用论文03-23

Web数据挖掘技术在电子商务中的应用论文03-22

数据挖掘对保险客户关系的应用的开题报告11-29

浅谈数据挖掘在电子商务中的应用经济论文04-06

网络经济数据挖掘在工商管理中的应用论文01-22

数字通信系统的应用方法02-07