(2)应用
对一个企业而言,数据挖掘技术主要用于市场分析、客户关系管理、销售分析、供应链管理、电子商务等,将来还会用于动态联盟、网络制造、虚拟制造等方面。推动数据挖掘技术发展的力量在于以下几方面:
a.数据仓库已经存储了大量组织良好、优质的历史数据;
b.知识经济时代新型企业管理模式的出现和发展;
c.企业管理和决策人员的素质不断提高;
d.互联网的技术和规模不断发展;
e.硬件、数据库产品及工具的性能提高,价格降低;
f.不断成熟的数据挖掘技术和工具。
(3)技术
数据挖掘的技术和工具可以分为以下3大类:
a.统计分析或数据分析
统计分析主要是利用统计方法或数学模型来解释用户所占有的数据资源,寻找其中的规律。存在若干不同的建模方法和理论,例如随机过程论、模糊数学、灰色系统理论、拓扑学等,其中基于随机过程论的建模方法具有比较严密的体系,可以作为分析数据的主要技术。
参考文献[24]比较系统地介绍了利用数学模型分析数据的理论和方法,掌握了这些知识对研究和开发数据挖掘系统有极大帮助。
b.知识发现
知识发现是为了从数据仓库的大量数据中筛选信息,寻找经常出现的模式,检查趋势并发现事实。知识发现系统试图让分析员做最少的操作,在最短的时间内找到事实或知识。因此,在知识发现过程中,要查找数据仓库内的大量数据,找到事实或者知识后,再将其发回分析员,分析员根据对领域的了解和经验来判断事实或者知识是否有用。知识发现是一个人机交互的过程。
c.其他工具
其他工具在特定专业领域得到研究和应用,例如可视化系统、地理信息系统、图形分析工具、模式化算法等,这些工具往往缺乏通用性,使用范围受到较大限制。
6.4.3知识发现
知识发现(knowledge discovery)的概念源于人工智能和机器学习,它的含义是:
a.用一种简洁的方式从数据中抽取信息,这些信息是隐含的、未知的、潜在有用的;
b.知识发现可看成是一种数据搜索过程,它不必预先假定或者提出问题,但仍然能够找到令人关注的信息,这些信息表示数据的关系和模式,也可能反映了一定的规则;
c.意味着在数据仓库的几吉字节数据中找到以前未知的事实或规则。
不可能划一条界限来评判知识发现系统是否完成,如果有一位富有经验的决策者盯着一个新发现的事实说:“我不知道有这个事实,但是我认为它是正确的”,那么知识发现就成功了。
(1)知识发现系统的结构
知识发现系统用于发现预先并不具有的知识。知识是数据元素之间的关系或者模式,这些数据与特定的领域和任务相关。知识发现系统由一组构件组成,从dB接口构件开始,经由数据抽取、数据挖掘、知识评价到知识描述构件,形成了从数据到知识的完整过程。在这个过程中,数据与存储在知识库中的知识和存储在算法库中的算法,通过知识发现引擎产生交互作用。这个过程一般需要反复进行,直到发现新知识为止。分析员的介入有助于系统效率的提高。
(2)知识发现系统的关键技术
知识发现系统的关键技术有以下几种:
a.数据挖掘
有代表性的方法是统计分析、决策树、聚集、神经网络、概念树和案例学习。
b.知识发现引擎
采用多个代理协同工作,它们分为系统级和工具级两个级别。系统级代理负责管理、协调工作;工具级代理执行数据抽取、数据挖掘、知识评价和知识描述等构件提交的任务。
c.人机接口
可以采用多种人机交互技术,其中最理想的是语音接口,但是目前这种技术还不够成熟。
(3)知识发现的工作步骤
知识发现包括以下3个步骤:
a.数据准备;
b.发现值得关注的模式或关系;
c.将发现的结果送给分析员,以便评价和处理。
6.5决策支持系统
6.5.1计算机辅助决策
任何企业的管理都可以分为3个级别:战略层或者顶层、运筹层或者中层、操作层或者底层。一般说来,底层操作主要涉及现场信息和作业管理信息,而中层和上层所关心的分别为生产管理信息和经营决策信息。在这种3个层次的管理体系中,管理者的层次越高,对综合信息的要求越高。
计算机辅助决策主要满足顶层管理的需求,对一部分中层管理有时也能够提供帮助。决策支持系统(DSS)就是一种实现计算机辅助决策的信息系统,是在综合信息查询系统的基础上,增加了模型和推理分析的能力,使系统能对半结构化和非结构化问题的求解提供帮助。一个半结构化或者非结构化的任务所包含的决策过程,一部分是常规的,另一部分需要判断。常规部分包括信息查询、定量计算和逻辑推理,这些工作都可以依靠计算机来完成。判断部分则必须由决策者来完成。
DSS在人的判断和机器的能力之间提供了一个巧妙的平衡。它采用很有条理的策略,既超越了解决结构化问题的传统方法,又避免了目前对非结构化问题无法自动求解的困难。
计算机辅助决策系统或者决策支持系统应该具备如下特征:
(1)帮助企业在半结构化和非结构化任务中做出决策;
(2)支持而不是代替厂长或者经理的判断力;
(3)改进决策的效果(effectiveness),而不是提高决策的效率(efficiency);
(4)利用计算机把定量计算和推理分析结合在一起;
(5)使不熟悉计算机的人能够十分方便地使用计算机;
(6)能够跟踪决策者的决策方法和决策环境的变化;
(7)围绕决策问题具有数据生成和模型生成的能力;
(8)易于被用户启动和控制。
6.5.2决策支持系统的等级
根据Keen和ScottMorton的观点,DSS对决策者的支持存在4个等级。在一定程度上,支持的等级也决定于DSS的结构。
最基本的支持等级是给用户提供检索事实和抽取信息的能力,例如综合信息查询。这是DSS最基本的功能。但是,如果DSS只具备这个功能,往往很难把它与MIS(管理信息系统)区别开来。实际上,在MIS与DSS之间划一条分界线是比较困难的事情。从使用的角度看,也没有必要这样做。当系统具有综合信息服务的能力后,它就能够对决策做初步的支持了。
支持的第2个等级是给数据库增加筛选数据和识别模式的能力。这一类DSS有一定的数据处理和研究规律的能力。它们不仅能够完成数据的分类、统计、存储、检索等基本工作,而且还能进行作图、制表、汇总,甚至进行时间序列分析。经理利用这一级DSS,能有选择地索取信息并给数据赋予一定的意义。在这一等级的DSS中,数据已经跳出了数字的范畴,而是以经过组织的形式,在某一方面反映实体的特征或者运动形态。显然,它可以给决策者以较大的支持和帮助。有人认为这种DSS才算DSS,它与MIS已有明显的区别。
如果在前面两个等级的基础上增加一些更强有力的功能模块,就进入到DSS的第3个等级水平。首先考虑给它增加一个知识模块,或者说建立一个知识库,然后再考虑知识的利用和推理,最后把知识和模型的利用结合在一起。决策者可以要求第3个等级的DSS完成计算、比较、分析、推断等工作。如果能事先把决策者经常使用的计算方法和习以为常的推理方式安排在系统中,那么这种DSS会使他们感到非常得心应手,决策支持的作用能较好地发挥出来。前面讲到的数据仓库,其目标是第3个等级的DSS。
DSS的第4个等级,也是决策支持的最高水平,是较理想的系统,其追求的目标是人与机器的充分交互、取长补短、共同完成决策任务。目前还很难说这一等级的DSS究竟是什么样的。但是,以下发展方向是明确的:数据的组织应该具有最大的灵活性;模型不是预置在系统内而是在需要时根据用户的描述生成出来;专家系统和人工智能技术得到更深层的应用;人类语言成为人机交互的主要方式。即使在最高等级的DSS,实用性仍然是一个基本特点。不过,随着技术的发展,实用性的概念可能会发生变化,过去认为无法使用的技术或设想,将来可能成为现实。
6.5.3决策支持系统的结构
从概念上可以把DSS分为5个主要功能模块:人机接口、问题处理系统、数据库、模型库、知识库。由这5个模块可以组成上述各种等级的DSS。在实际的DSS系统中,设计人员可能按照自己的设计思想来划分模块,给模块起各种各样的名称,但是其功能仍然可以用这5个模块来概括。
(1)DD系统
DD系统表示由一个人机对话(dialogue)模块和一个数据库(database)模块组成的决策支持系统。最简单的综合信息查询系统就可以认为是DD系统。如果把相应的数据库管理系统(DBMS)也考虑在内。
(2)DDM系统
在DD系统的基础上,增加模型库(MB)和模型库管理系统,就构成了第2等级的DSS,即DDM系统。一些高级的综合信息查询系统已经增加了模型、报表、预测等功能,实际上就是DDM型决策支持系统。
(3)DDMK系统
在DDM系统的基础上增加知识库就构成了第3等级的DSS,即DDMK系统。
DDMK系统概念的提出已近20年,但是其实现手段一直没有得到强有力的技术支持,数据仓库技术使实现DDMK系统有了可靠的基础,相应的商品化软件也已经问世。
(4)3S系统
3S系统是实现最高等级DSS的一个概念框架。它由语言系统(LS)、问题处理系统(PPS)和知识系统(KS)等3个子系统组成。
3S系统又称为智能DSS,其关键技术是自然语言处理,这项工作由LS和PPS共同完成。
6.6小结
本章讨论了与信息分析和决策有关的一些问题。用于信息分析和决策的系统总称为决策支持系统(DSS)。按照对决策支持的范围和程度的不同,可以把DSS分为4个等级。最低等级的DSS只能对决策者的信息需求给予支持,例如综合信息查询系统,这类系统虽然简单,但是技术成熟,企业信息化的初级阶段即可以实现。最高等级的DSS是智能DSS,也就是3S系统,这类系统的实现还有一些技术难点,有待进一步研究。数据仓库的出现对于信息分析和决策支持将产生巨大的影响及推动作用,本章对该技术做了介绍,希望能够引起读者的关注。