计算机系统应用2007年第1期商务智能的理论和应用研究综述ReViewofBusinessInte|ligenceTheOryandPractice朱晓武(北京大学光华管理学院100871)摘要:本文从学术界和企业界对商务智能的研究和应用遇到的问题出发,对1990年以来的商务智能的研究和应用进行总结,分别对商务智能的概念、组成部分进行讨论,得出一个综合的商务智能理论框架,明确了商务智能理论与应用的发展方向。关键词j商务智能数据仓库数据挖掘1引言企业无论其以前是通过信件、电话还是传真与客能够把信息转换为知识,然后把知识转变成利润。户联系,现在正努力进行数据化、信息化,因为它需要对客户更快的响应,提高客户的服务水平并降低成本。2商务智能理论与应用研究BI是当前IT领域和企业界关注的热点问题,IT厂企业资源规划(ERP)、销售终端(POS)、市场调查、供应商、客户、网络、政府部门等都在不断地给企业添加数商不停地提出BI的解决方案,而企业用户对BI的认知度不足20%,业务人员对BI不熟悉的超过了90%,接近60%的企业,对Bl所能带来的价值以及对企业信息决策系统的支持表示怀疑。引是否是IT厂商在数据仓库之后炒作的一个卖点,仅仅是一个概念的包装?据,实际上平均每18个月企业的数据量就翻一番,图1是DataWarehouseIns卅ute2004年调查了796个使用数据库的企业用户,得到的关于用户更新其数据的速度分布图。产生以上问题的原因主要有以下几个:第一,BI是一个新的研究领域,它的理论发展还不够完善,没有明确的界定和理论支持。企业用户迫切的想知道BI,希望能够把BI应用到企业中提高绩效。很多IT厂商也对BI作了大量宣传,但是他们对BI的定义各不相同,有的说是商业绩效管理,有的说是数据挖掘,有的说是仪表盘等,这使企业用户产生了迷惑,到底什么是BI?企业应该采用什么样的BI解决方案?GanenerGroup对理想的BI和当前的实际情况做了一个比较图,见图2。图1第二,从BI的供应商的角度来说,他们由于没有一个完备的理论支持,缺乏统一的标准。在一个企业中存在几个不同的BI软件,造成了BI的信息孤岛,其后果是在部署、维护和培训上花费多余的开支;最终用但是能被分析和利用的数据究竟有多少呢?有些专家估计目前被利用的数据只有5%一10%。大量的数据是冗余、不相关、不完整或者质量很差的。怎样才能把大量的数据迅速转换成可靠的信息,发现数据户因其商业问题不能被及时解决而感到灰心;不能利用企业Bl而导致竞争优势的丧失;缺乏统一的标准使得难以整合数据。KarIVanden背后隐藏的信息和知识?因此,出现了商务智能(Bus—InessInteIligence,以下简称BI)。引的核心收益在于它Bergh,11moEI|lott(2003)指出,建立Bl的标准框架是非常必要的。114专论・综述SpedaI|ssue万方数据2007年第1期第三,BI在理论上的缺陷使得进行BI研究的研究者,常常赶到困惑,在国际好的学术刊物上到目前没有以BI为题目的论文,只是在一些应用型的产品介绍的刊物中出现BJ的论文。国内外的研究者对引进行研究大多是局限于对某一项技术如数据挖掘,数据仓库等等的研究,对BI的研究如同盲人摸象,缺乏一个整体的规划。计算机系统应用的网站以及论坛;关于BI的厂商资料来源于厂商的网站,产品说明文档,以及与一些BI厂商的交流。研究方法,主要对1990到2003年关于BI的书籍进行比较分析。一般来说刊物代表了研究的方向,而专著(书籍)则是这些研究理论的汇编。然后以英文单词BusinesSIntelIigence为关键词搜索,或者以中文商务智能(或者商业智能)为关键词进行搜索。把得到的商务智能厂商的应用方案和发表的论文进行综合归纳。2.2商务智能理论发展商务智能1989年由GartnerGroup的HowardD陀sner首次提出,它描述了一系列的概念和方法,通过应用基于事实的支持系统,来辅助商业决策的制定。Bl技术提供帮助企业迅速分析数据的技术和方法,包实际情况-引的实施很大程度上是部门化・引的地位很低,往往在预算中不考虑-企业拥有很多的引工具,但是工具之间无统一标准,造成引孤岛-企业没有掌握解释和运用数据的技术括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。Bl的出现经历了一个渐进的、复杂的演进过程,而且仍处于发展之中,它包括事务处理系统(TPS)、高级管理人员信息系统(EIS),管理信息系统(MlS)和决策图2BI的理想和实际情况比较支持系统(DSS)等阶段,最终演变成今天的企业BI。依据王茁(2004)给出的Bl英文原版数既号目,得到从1990年到2003年Bl的书籍数目的趋势见图3。BemardLlautaud指出BI这个研究领徽■引—引“且年份域有时候会出现一个转折点:技术比理论先行(通常是理论比技术先行)。1990年到1995年对于BI研究主要是基于数据库,数据建模,EdwardR.Tuffe于1990和图3BI专著数目趋势图1991年关于信息的著作,特别是信息定量可视化为引奠定了基础。lnmon于1994因此,有必要对BI的理论和实践进行研究。本文的主要目的是梳理BI的理论研究,消除对于BI的误解,避免盲目实施BI项目。通过对各个引应用方案的年提出数据仓库的概念,1996年Inmon的《ManagingtheDataWa陀house》是数据仓库的里程碑。1997年比较,重新对BI进行界定,提出一套引的衡量标准。2.1研究方法和数据来源本文查阅了从1989年Ga№ner第一次提出BI,一直到2005年的关于Bl的研究论文和著作,以及BI主流厂商的BI解决方案的白皮书。Inmon的《CorporateInformationFaCtory》为数据仓库和数据挖掘建立了一个信息工厂的框架。1998年以后BI的研究开始多起来,LarryKahaner提出竞争智能,还有一些学者对数据仓库和数据挖掘技术,数据质量、机器学习等不同方向进行研究。1999年,众多IT厂商纷纷给出相应的OLAP产品,如M.-cros甜、Oracle、SYBASE、lBM/DB2的OLAP、多维数据集市研究。2000年随着知识发现和智能决策以及在不同行业的数据挖掘的深入,对BI的研究开始转向战略SpecIaI|ssue专论・综述115主要的文献来源:中国期刊网,JSTOR,商业资源电子文献全文数据库(BusinessSourcePremier);主要的书籍来源,王茁(2004)给出了一个从1990到2003年的关于BI的理论书目257本;互联网搜索,一些关于引万方数据计算机系统应用性的数据库营销(Hughes,2000)。2001年以后,BI的研究的主题从技术层面上升到了企业的战略层面,平衡计分卡、战略竞争分析等。进行BI研究的涵盖了企业的各个层面,相应的研究的主题越来越广泛,著作也越来越多。从图3的趋势可以看出,1994—1997研究著作数目的增多是由于数据库技术的不断成熟。1997年In—mon的CJF(C00perateInfo丌竹ationFadory)的模型,整合了企业内部运营资料存储(ODs),为Bl的研究带来了新的理论支持。1998以后,研究BI的著作数量大幅增多。2003年有稍稍下降的趋势,其原因就在于BI涵盖的面很广,容易使得研究者产生困惑,因此需要新的理论来支持BI。目前关于BI的定义主要可以分为企业界和学术界两类定义,这里分别列举了几个比较全面的最新的定义:IBM(企业界)认为BI是一种能力:通过使用企业的数据资产来制订更好的商务决策。企业的决策人员以数据仓库为基础,经过各种查询分析工具、联机分析处理或者是数据挖掘加上决策人员的行业知识,从数据仓库中获得有利的信息,进而帮助企业提高利润,增加生产力和竞争力。BusinessObiec『s(企业界)公司对BI的定义:BI是一种基于大量信息基础上的提炼和重新整合的过程,这个过程与知识共享和知识创造密切结合,完成了从信息到知识的转变,最终为商家提供网络时代的竞争优势和实实在的利润。KameJRoujbah,samjaOuId—a¨(2002,学术界),BI是一种系统地依据战略决策,瞄准、跟踪、传达、转换企业的弱信号,成为可行信息的一种战略方法。Olszak(2002,学术界)BI是一系列的概念、方法和流程的集合,其目标不仅仅是帮助决策,而且支持企业的战略实施。它的主要任务是面向不同信息源的智能浏览、集中、综合以及多维分析。SaIMarCh(2004,学术界)对BI的研究按照时间的顺序进行了总结,他指出传统的B1只是被当作一种智能处理后台数据的方式,用以支持经理主管人员的商业决策。而今天的BI帮助企业管理者决策,预测未来的趋势,提高企业战略和流程的效率,从而使得企业获得竞争优势。以上这些定义从不同的角度对BI给出了解释,但116万方数据专论・综述SpedaI|ssUe2007年第1期这些定义都不够全面,没有从根本上阐述BI的本质。BI和知识管理之间也容易产生混淆,因此有必要把这二者之间的关系阐述清楚。Nonaka(1990)和Takeu—chi(1995)建立了显性知识和隐性知识的体系,并提出知识经济时代最大的挑战就是如何有效实现知识的共享。O’De¨和印yson(1998)认为知识管理是一种有意识的战略,它把恰当的知识在恰当的时间传递给恰当的人,并帮助人们把这些知识共享,把知识融入到提升组织的绩效的行动中。但是无论知识共享的技术如何发展,实现知识的共享还是存在较大的问题——人本身的问题。事实上这是管理理论中的集体、个体一致性问题。一方面要求知识必须共享,另一方面对于个人而言,他们面临巨大的竞争,所以缺乏知识共享的激励。对于知识共享中出现的两难的尴尬,有很多解决方案。Hansen和Nohira(1999)提出外部代理的方法,Osferloh和Fney(2000)提出直觉和协作公平的理论。还有很多知识管理学者提出大量的理论方法,但是却没有一个简单统一的理论让学者和企业界满意。因此需要跳出这个理论的框架,重新来看这个问题。BI采用与知识管理不同的另外一种方法来解决知识共享的问题。每一个决策的环节都因为得到了BI的支持,实现双赢或者多赢的结果,从而解决了知识管理中的问题。2.3商务智能的实践目前BI产品大致可划分为大型数据库厂商(如OracIe、Sybase、IBM等)、统计软件厂商(如SAS)的衍生产品和独立的软件产品(如COGNOS,Hypenon)两类。前者与数据库技术密切结合,有强大的后台数据库支持。后者则有些仅有前端展示工具,没有后端数据仓库的支持。从技术发展来看,今后的BI产品将把数据仓库建模及数据挖掘等技术实质性地应用进来。同时Bl技术也将和CRM、ERP等技术实现融合,在企业决策分析中发挥更大的作用,从而拓展出更大的市场发展空间。查询、报告和OLAP工具占主流通常认为,能够称得上BI产品的,一定要包含查询、报告和OLAP这些基本功能,否则不能称之为BI产品。但是目前的BI市场还没有形成统一的标准,有些数据仓库的供应商也称自己的产品为BI产品,因此市场上就会出现同被称为BI的两种产品却大相径庭的怪现象。在由数据仓库、查询、报告、OLAP、分析模型、数据挖掘这些不同的功能2007年第1期计算机系统应用构成的Bl软件里,查询、报告和O忪P工具占据了绝对据集市、运营数据存储和ETL几个部分,没有揭示在整主流地位为65%。而最能体现Bl价值的分析模型和个信息工厂中的价值链。M.KathrynBrohman(2000)数据挖掘工具目前还只有少数的几家专门做BI软件等人提出BI价值链,并对链上的活动进行了实证研的厂商,如8usinessObieds、Hyperion、COGNOS和SAS究,但是没有从组织、战略等方面的角度来分析。这样的专门做统计分析软件的厂商能够提供。其它像结合企业界和学术界,我们把对于BI的研究整合Oracle、微软、IBM、Sybase等这类数据库厂商对BI软件到一个框架下面。见图4。功能的侧重则各不相同,因此推出的BI产品各具特在战略层面,运用平衡计分卡,衡量财务指标和非色,往往是把BI打包在其它软件中推广。由于BI的分财务的指标,把战略推向执行。在组织层通过企业绩析型应用将在未来占主导地位,而对于每个行业又都效管理、企业活动监控、前后台信息部门分工,实现合需要不同的行业知识,很难找到一个适合各种行业的理的结构分布,达到管理与监控的目的。在功能层,BI分析模型来。所以在大的行业市场里,引将会与行业系统必须包括查询、报告、和OLAP工具,同时必须设定系统解决方案融合在一起。良好的模型库、知识库、关键绩效指标。在技术层,8I系战略层战略规划,平衡计分卡▲组织层商业绩效管理(BPM),商务活动监控(BAM),前后台信息部门分工▲BI应用:战略,运营,分析I模型库,知识库,关键绩效指标(KPI)功能层商l●业Bl平台:以用户为导向的Els,数据分析,数据挖掘,oLAP等智能▲价值数据仓库链技术层l实时数据存储(oDs)牟牟提取转换装载ETL数据集成服务●●▲业务层l’E啡习EcRM习EscM弓匿它系习图4商务智能理论框架图统必须包括盯L工具、数据仓库、数据挖掘、数据集成服3商务智能的理论框架务、实施数据存储。在业务层面,BI必须有较好的结构综合90年代到现在的研究者对BI的研究,我们和标准,符合企业各个部门的需求,确保ERP、CRM、SCM可以发现,BI是一系列的概念、方法和过程的综合,通等系统收集到真实的数据,防止信息的孤岛。过这些概念、方法和过程来获取和分析数据,提取有用BI涉及到企业战略、组织、功能、技术、业务五个层信息,帮助更好的决策,特别是战略决策。一个真正意面的整体解决方案,通过这五个层面,把企业整合成一义上的BI必须跟战略、组织、技术等密切配合,监控企个信息工厂。在BI的价值链中实现数据到信息、知业的关键绩效指标(KPI),包括企业外部环境,顾客,供识、智能、利润的价值增值,从而使企业取得竞争优势。应商,竞争者等,及时给各层决策者提供智能支持,帮同时在问题和决策之间,有信息的反馈,保证战略决策助企业构建更好的盈利模式。和执行对环境变化的适应性。Inmon(1996)提出信息工厂,但是仅仅是限于数(下转第54页)SpecIaII嚣ue专论・综述117万方数据计算机系统应用2007年第1期这样的不平衡问题时显示了明显的优势。但其Ts评2672—675.分结果还不是很理想,方法本身还有许多改进的地4R.Schapi伦,Y.Singer.Impr0VedbOOSfinga190-方:第一步用欧氏距离度量样本之间的距离(1),这实nthmsusingconfldence—ratedpredlCtiOns.』、^a・质上限制了样本空间为欧氏空间,可以进一步采用核chineLearning,1999,37(3):297—336.函数来表示样本间的距离,得到更灵活的距离定义,5L.B陀iman.Baggingpredicfo倦.MachlneLeam-并解除对样本空间为欧氏空间的限制;SadaBoost中ing,1996,24(2):123—140.反类到正类集的最小距离作为该反类到正类集的距6M.Kearns,L.G.VaIiant.Learningb00leanfO卜离(2),这两个距离也可以改进,比如使用到正类的muIaeorfactomg.Tech.Rep.TR14—88.Alken平均距离等。Computat.onLaboratory,HarVardUniVers计y.1988.7M.AnthOny.ProbabiIisticanaIysis0fleaminglnar-参考文献tificiaIneuraIne_h~OrI(s:thePACmodeIandltsvar.一1T.Die竹er.ch.MachineIeamingresearch:fOurcu卜ants.NeuraICOmputjngSunfeys,1997,1:1—47.rentdiredions.Arf饷ciaIInteII.gence,1997,18(4):8R.E.Schapire.TheSt陀ngth0fweakIeamabi¨ty.97—136.MaChineLeaming,1990,5(2):197—227.2罗雪晖、李霞、张基宏,支持向量机及其应用研究,9涂承胜、刀力力、鲁明羽等,Boo酬ng家族Ada-深圳大学学报(理工版),2003,20(3):40—46.Boost系列代表算法,计算机科学,2003.30(3).3D.M.J.Tax,R.P.W.Duin.DataDescr.pfionin30—34。145.subspaces.In:A.SanfeIiu,J.J.Vi¨anueva,M.10沈学华、周志华、吴建鑫等,BooS¨ng和Bagglng综Vanre¨,R.AJquezar,A.K.Jain,J.KjttIer述,计算机工程与应用,2000.36(12).31—32,40.(eds.)。Proc.15thInt.Confe伦nceonPa竹em11丁金才,天气预报评分方法评述,南京气象学院学RecognitionandNeuraINetworks(1CPRlS).Los报,1995(1).143—148.AIam计os:IEEEComputerSocietyPre懿,2000.V01.(上接第117页)cOm/4结论以及展望3Liautaud,Hammond.E—BusinessInte¨igence:本文对BI的理论与应用进行总结分析,整合了TumingInfOrmationintOKnOwIedgeintOPrOfit.企业界和学术界对于BI的研究成果,得出了一个BINeWY0rk:McGraw—HⅢ.2002.的理论框架,并且对BI进行了明确的界定,把战略、4Turban.E.,Aronson,andJ.E..DeclsionSupport组织、功能、技术和业务结合起来,使得学术界和企业Sys}emsandIntelIjgentSysfems.PrentjceHaII,1998。界能够在一个统一的框架下讨论BI。5KarIVandenBergh,TimOEIliO竹.Whystandard.-但是Bl面临不断变化的环境,数据仓库和数据zingBusinessInte¨igencelsCr.ticaI.BusinessOb—挖掘,知识发现一直是BI研究的热点问题。数据集iedsWhitepaper,2003.成、协同商务、工作流管理、BI战略和移动商务等问题6SfevenM.Shaker.MarkP.Gembick..TheWa卜是引最新的研究方向。roOmGU.deTOCOmpet计iVeIntemgenCe.NewYOrk:McGraw—H.1I.1999.参考文献7KameIRouIbah.SamiaOuId—ali.PuzzIe:acon—1王茁、顾洁。三位一体的商务智能管理、技术与应cepfandprototypeforIinI<ingbusinessIntemgence用[M],北京:电子工业出版社,2004.t0businessSfrategy.Joumal0fStrategicInforma—2商务智能(BI)白皮书,h竹p://wWw一900..bm.tiOnSy咖m2002,11:133—152.54应用技术App¨edTeChn’qUe万方数据