400-685-0732 电话咨询定制营销方案
关注专业seo外包公司
SEO创新会
文军营销
大数据驱动  让营销不走弯路
首页  >   网站建设  >  数据挖掘技术 数据挖掘技术的流程是什么

数据挖掘技术 数据挖掘技术的流程是什么

在信息收集和采集的过程当中,数据挖掘技术是一个非常重要的凡事也是必不可少的方式,那么数据挖掘技术的流程是什么以及如何使用呢?接下来我们就一起来好好的了解一下吧。

  数据挖掘技术——数据挖掘技术的流程是什么

(1)信息收集:根据确定的数据分析对象抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。

(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。

(3)数据规约:执行多数的数据挖掘算法即使在少量数据上也需要很长的时间,而做商业运营数据挖掘时往往数据量非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。

(4)数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值),含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。

(5)数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。

(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集、甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。

(7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。

(8)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。

  数据挖掘技术如何操作

神经网络

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art模型、koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是”黑箱”性,人们难以理解网络的学习和决策过程。

遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

sunil已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方法之一[4]。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和bp算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。

决策树方法

决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是:id3是非递增学习算法;id3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如schlimmer和fisher设计了id4递增式学习算法;钟鸣,陈文伟等提出了ible算法等。

粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。

以上就是有关数据挖掘技术的所有相关介绍,做好网站优化,那么数据挖掘技术就一定要学会,所以各位站长们一定要注意了。如果大家还想了解更多与之有关的内容,欢迎关注我们文军营销的官网。

推荐阅读

网站备案流程及资料 网站备案流程是什么 | 文军营销因此网上备案是必不可少的一个过程,网站备案的流程是什么呢?接下来我们...代理服务器 代理服务器有哪些类型 数据挖掘技术 数据挖掘技术的流程是什么...json转字符串 json转字符串的方法是什么 | 文军营销3、要转换的对象必须是标准的javabean对象,什么是标准的javabean对象呢?就是属性...什么是代理服务器 代理服务器有哪些类型 数据挖掘技术 数据挖掘技术的流程是什么...什么是dns服务器 dns服务器如何查询 | 文军营销但是在服务器当中分类也非常的多,其中就有dns服务器,什么是dns服务器呢?dns...什么是代理服务器 代理服务器有哪些类型 数据挖掘技术 数据挖掘技术的流程是什么...wordpress安装教程 wordpress如何安装 | 文军营销的观点,因此对于一些博主来说是非常有用的,那么wordpress是如何安装的又有什么...什么是代理服务器 代理服务器有哪些类型 数据挖掘技术 数据挖掘技术的流程是什么...java线程 java多线程实现的三种方式 | 文军营销设计语言程序的过程当中,我们经常会接触到java线程,那么你知道java线程是什么?...什么是代理服务器 代理服务器有哪些类型 数据挖掘技术 数据挖掘技术的流程是什么...html标签大全 html标签属性是什么 | 文军营销html标签属性是什么 什么是二级域名 什么时候使用二级域名好 什么是代理服务器 代理服务器有哪些类型 数据挖掘技术 数据挖掘技术的流程是什么 数据库性能优化 数据库...