您的当前位置:首页正文

基于粗糙集方法的产业技术创新能力评价指标约简

来源:帮我找美食网
基于粗糙集方法的产业技术创新能力评价指标约简 张静耿弘王文婷 【摘要】粗糙集理论在对不精确、不确定和不完全的数据进行分类分析和知识获取中具有突出的优势,但标准粗 糙集的约简只适用于将系统连续属性值或描述性语言转化为离散属性值。针对目前产业技术创新能力评价指标冗余 繁杂且相关性较大的缺陷,以装备制造业为例.提出了一种无需将系统原始连续属性值离散化即可有效运用粗糙集进 行约简的方法。 【关键词】粗糙集 属性约简 技术创新能力 【中图分类号】F273【文献标识码】A【文章编号】1006—2023(2008)12—0034—03 【作者简介】张静,南京航空航天大学经济管理学院硕士研究生,主要研究方向为产业经济学;耿弘,东南大学经济 管理学院博士后,南京航空航天大学经济管理学院副教授,主要研究方向为产业组织与政府管制,产业组织与公司战略; 王文婷.南京航空航天大学经济管理学院硕士研究生,主要研究方向为复杂网络(江苏南京210016)。 一、引言 简剔除这7个二级指标中的冗余指标。本文的研究思路是 粗糙集(Rough Set,简称RS)理论是波兰Z.Pawlak教授 先将实值信息系统无量纲化,然后用定义的相似关系代替 在1982年提出的一种智能决策分析数学工具.是一种刻 标准粗糙集中的等价关系进行分类.最后根据分类结果进 画不完整和不确定性的数学工具.能有效地分析和处理不 行约简。 精确、不一致、不完整等各种不完备的信息,并从中发现隐 二、粗糙集约简模型 含的知识,揭示潜在的规律。在数据挖掘与知识发现中,粗 1.粗糙集模型 糙集理论与方法对于处理复杂系统已成为一个有效的方 设一个信息系统M=(H,X,V,F),该系统仅包含标准粗糙 法,它与概率方法、模糊集方法和证据理论方法等其它处 集中的条件属性,不包含决策属性,其中H={hl,h ,…,h }为 理不确定性问题理论的最显著区别是它无需提供问题所 非空的、本文感兴趣的对象组成的有限集合,又称为论域; 需处理的数据集合之外的任何先验信息。目前粗糙集理论 X={XbX …,x }为非空、有限的属性集;V为属性值,第i个 已经成功运用于人工智能、知识挖掘、决策分析、过程控 对象在第 个条件下的属性值为vii(i:1,2,…,n =1,2,…, 制、模式识别等多个领域,逐渐成为信息科学研究领域的 In); H x—+V是信息函数,表示对每一个hEH,xEX,f(h,x)EV 一大亮点。粗糙集理论强调的是信息系统中知识的不完全 本文将待评的六大装备制造业视为对象,产业技术创 性、不可分辨性,其处理方法通常是将连续定量数据或描 新投入能力7个评价指标视为属性.各制造业的7个评价 述性语言转化成离散属性数值。然而实际应用中定量数据 指标具体值视为属性值,建立了一个实值属性信息系统, 离散化后,会丢失有效信息影响约简结果,本文对此提出 但由于各个属性值的量纲不同.所以首先应进行无量纲 了系统原始定量无需离散化即可有效运用粗糙集进行约 化,使得所有值范围为【0,l】。无量纲化的方法很多,本文采 简的方法。 用极值处理法对数据进行无量纲化,具体如下: 由于本文研究重点不在于如何选取指标,而在于如何 对于V his-H(i=l,2,…,n),其某属性xj ̄X(j=l,2,…,m)无量 从选定的指标中剔除冗余而保留有效指标,因此只选取了 纲化后取值为v0(i=l,2,…,n;j=l,2,…,m),可分为成本型指标 目前较为公认的产业技术创新投入能力、技术创新管理能 和效益型指标: 力、技术创新产出能力、技术创新环境作为产业技术创新 效益型指标,评价值随指标增大而增大,指标最小值 能力评价的4个一级指标,又根据数据的可获性和科学 的评价值为零,指标最大值的评价值为1,表示如下: 性,对上述4个指标中的产业技术创新投入能力指标下设 , v 一minv.; 了7个二级指标。本文研究目的就是用粗集理论的属性约 而蒜 赢,higH, x (1) 成本型指标,评价值随指标值增大而减小,适合于对逆 指标进行无量纲化处理,即无量纲化和指标转化同时进行。 vij = 评价指标数据如表1。 表1 六大装备制造业技术创新投入能力指标数据 机构企 动人员 员占从 费占产 动经费 进消化 经费占 而 二 蒜,h, EH焉EH,】【jEx ,(2)2’ 极值法不适用于指标恒定的情况,本文产业技术创新 投入能力7个指标不恒定且均属于效益型指标.在无量纲 化时采用式(1)。 2.相似关系和相似类 \制造业 有科技 科技活 R&D人 R&D经 科技活 改造、引 新产品 业占全 占从业 业人员 品销售 占产品 占产品 科技活 企业比 人员比 比重 收入比 销售收 销售收 动经费 指标\ h1 重 36 8 重 7.8 3.5 重 x4 入比重 入比重 比重 xn 原始数据经过式(1)和式(2)处理后,得到了无量纲化 1 2 25 2'3 52 后的信息系统为M =『 v …v 1j i=1'2,…'n 定义1无量纲化后信息系统中某一对象的各个属性 值视为一个集合,用向量M6=(V。:,v ,… )(i=l,2,…,n;j=l,2,…,m】 表示.则两个集合各对应属性的距离绝对值之和的平均值 不大于某给定值时,则认为这两个集合代表的对象存在 相似关系。具体如下:M 一M =(( 一v ),( 一 ),…。 一V )) (1≤s,t≤n,s≠t'j=1,2,…,m)  ̄P面1鲁"I t一 l≤ (O≤ ≤1)时,则 对于任意对象h,h 有相似关系,即将对象hs,h 划分为一类; 定义2将与hi( 1,2,…,n)有相似关系的所有对象组成 的集合定义为相似类.用Y表示,即 Y={ 苫1 一 l≤仅;l≤s,t ̄n,s#t,j=l,2,---,m} 其中1一 定义为对象h。和对象h 的相似度,相似度的 设定决定了指标体系的约简程度:相似度越大.则分类精 度越高,约简后的指标比较多,反之,则较少。 3.属性约简 在标准粗糙集中.属性约简是其核心内容之一.由于知 识库中的诸多属性并不是同等重要,甚至某些知识是冗余 的,所以有必要对属性约简。所谓属性约简,就是在保持知 识库分类能力不变的情况下,删除其中不相关或不重要的 属性。它是指关系的最小不可省略子集。 文中定义的相似关系是相似类的基础,而相似类是指 标约简的依据,当按照所有指标属性计算得出的相似类与 去掉某一属性后计算得出的相似类完全一致时.我们说该 属性不必要,否则称该属性是必要的,即将某一属性X从X 中除去,看看它对由X所产生的正区域的影响程度,然后 依此类推,一一验证其他各属性,最终约简掉不必要的指 标。表示如下: 信息系统M=(H,X,V, ,h。EH(j=l,2,…,n),x ̄eX(j=1,2,…,m), 如果H/ind(X)=H/ind(x一{Xj})j=1,2,…,m (3) 则称Xj为X中不必要的,否则称x 为X中必要的。其 中H/ind )的含义是指依据所有属性x={ x:,…,x }计算 划分出的相似类,H/ind(X一{Xi})的含义是依据指标X一{x;】- jX1 5.X2,…,xj Xj …,x }计算而划分出的相似类。 综上所述.基于粗糙集约简理论的技术创新能力评价 指标筛选主要过程为:步骤l,收集数据并构造矩阵,根据 式(1)和式(2)得出无量纲化后的信息系统;步骤2,根据定 义1和定义2,计算出相似关系和相似类;步骤3,综合相似 类,并根据式(3)约简冗余指标。 三、算倒分析 选取《中国科技统计年鉴>>(2oo5)中的数据,并经过计 算和整理,六大装备制造业2004年技术创新投入能力7个 b2 41 2 71 3.0 1.2 27 23 52 Ib 38 8.0 4.2 l 2 3 2’5 48 hd 32.1 5.6 26 l4 2 l 7 52.9 246 6.4 3 8 l_1 1.8 1.0 55-4 Il6 31.8 54 3.2 0.9 1.5 1 1 474 max ̄'ij—mlnvl16.6 2.6 l_6 Q5 l-2 l 5 8 j (注:数据来源予《中国科技统计年鉴》(20o5),其中六大装备制造 业分别是普通机械制造业、专用设备制造业、交通运输设备制造业、 电气机械及器材制造业、电子及通信设备制造业、仪器仪表及文化 办公用机械制造业) 根据式(1)计算得出产业技术创新投入能力评价指标 无量纲化后的信息系统如表2。 表2 六大装备制造业技术创新投入能力指标无量纲化后信息系统 \\属性 X1 X2 X 3 X4 X X6 X’ 对 一 hl 0.7 O.9 O.6 0.6 O-8 0.9 0.6 h2 l O.65 O.25 O.6 1 O.9 O.6 h3 0.8 l 1 0.6 O.7 1 0.1 h4 0.45 0.1 0 l 0.9 O.5 0.7 bj O O.4 O.75 O.4 O.25 O l h6 0.4 O 0.4 0 0 0.1 O 令 =O.3,由定义1计算得到: (hl,h2)=0.16,(hl,h,)=0.19,(h-,h4)=0.38,(h。,h5)=O.49=(h一,h6)=0.6, (h2,h3)=0.31,(h2,h4)=0.34,(h2,h5)=O.57,(hz,h6)=0.63,(h3,t14)=0.56, (h3,h5)=0.6,(h3,h6)=O.61,(h ,h5)=O.51,(h ,h6)=O.51,(h5,h6)=O.41 因此,再由定义2,按7个指标属性划分得到相似类如下: H/ind(X)={H。,H2,HhH ,H5【一{{hl,h2}{h1'h3}{h4}{h5}{h6}} 再计算去除属性指标X,后得到: (}l-,h2)=0.13,(hl,h3)=0.2,(hhh )=0.4,(hI,h5)=O.45,(hi,h6)=0.65, ( ,h3)=0.33,(h2,h4)=0.3,(h2,h5)=0.5,(h2, =O.63,(h3,h4)=0.6, (hs,hs)=0.57,(h ,h6)=0.65,(h ,hs)=O.52,(h ,h )=0.58,(hs,h6)=0.42 因此,按除去x 后剩余6个指标划分的相似类如下: H/ind(X一{x })={fht,hz}{h ,h3{{hz,ll4f{hs}{t16}} 根据式(3)得出H/ind(X一{X.})≠H/ind(X) x。必要 同理得出H/ind(X一{x2})=H/ind(X一{x })≠H/ind()() x 必要 H/ind(X一{x3})={{h,,h2,h,}{h4}{h5}{h }}≠H/ind(X) x,必要 H/ind(X-{X })=H/ind(X一{X5})=H/ind(X一{xs t)=H/ind(x) 】(4,x5,x6不必要 H/ind(X一{x7})=H/ind(X一{x3})≠H/ind(X)X7必要 因此,剔除了三个冗余条件属性x4,x5,x6,而xl,x2'x3,X7 是所有必要关系组成的集合,即x。,x:,x ,X 这4个指标就 是衡量六大装备制造业技术创新投入能力约简后的指标。 这里特别需要说明的是,在做评价指标研究时,研发经费 占产品销售收入比重.即指标x4是较为公认且常被采用 的,但是在本文中却被约简掉了。原因如下:本文进行约简 (下转41页) 圈 商品商标和众多产品名称的多重矛盾。截至2007年底.浙 江省共有农产品注册商标5.658万件,农产品中国驰名商 标16件,地理标志证明商标46件,占全国1/5,均位居全国 前列。浙江省以农产品品牌为纽带,统一生产技术、统一销 售、统一服务、统一标准,“公司+基地+农户+品牌”的现代 中城市极具竞争力。 四、结论 农产品的品牌经营,多层次提升了农产品价值,将成为 我国农业经济发展的新引擎。由于农产品品牌的巨大商业 价值,为农产品的品牌经营发展带来巨大的空间。首先,随 着人们健康消费观念的增强.品牌农产品将以鲜明的形象 和绿色的品质越来越受到市场的欢迎。其次。品牌农产品 产业注重发展高附加值的深度开发.绿色食品加工业发展 迅速,经深加工的绿色食品比例增幅较大。第三,品牌农产 品的市场覆盖面正日益扩大。目前,北京、上海、天津、哈尔 滨、南京、西安、深圳等国内大中城市相继组建了品牌农产 农业生产经营方式成为主导,有力促进了该省农业产业 化、市场化、品牌化。 浙江台州是农产品的金牌大户,在2007年浙江省第七 届农博会上,有92个产品赢得省优质农产品金奖,73个产 品赢得优质奖,目前,全市农产品总注册商标数已达到 1200多个,其中24件商标被认定为浙江省著名商标,35件 被认定为台州市著名商标,23个农产品获浙江农业名牌称 品绿色食品专业营销网点和流通渠道。第四。品牌农产品 号,37个获台州名牌产品称号。台州兼得山海之利,农业资 还展示了广阔的出口前景。有相当一部分品牌经营农产品 源丰富,物产丰饶,素有“鱼米之乡”和“特产之乡”的美称。 已成功地进入了日本、美国、欧洲、中东等国家和地区市场。 柑橘、杨梅、茶叶、水产等农产品久负盛名,享誉国内外。优 第五.目前农产品消费已进入讲营养、讲安全的新阶段,若 质农产品基地规模不断扩大,区块更趋集中.形成多个特色 创不出消费者认可的品牌,产品和经营者生存发展的空间 产业链,目前全市已有柑橘、文旦、杨梅、西兰花、西瓜、果 将越来越小。 蔗、茶叶、优质鸡、青蟹等九大品种12个特色农业产业带, 其中仙居成为全国杨梅第一生产大县,种植面积达lO.5万 【参考文献】 亩;台州西兰花已有l0万亩,生产面积占浙江的7O%,占 [1]德鲁克著.德鲁克日记[M].上海:上海译文出版社, 全国的30%,出El量占全国出口量的近70%:海水养殖连 2006:62. 续18年位居浙江省第一,三门青蟹更是“横”行世界,养殖 [2]乔恩-米勒等著,叶华等译.强势品牌的商业价值 面积占全省的1/3,全国的1/9:畜牧业中的温岭草鸡、仙居 三黄鸡成为台州农业的拳头产品。常年饲养量达到l100万 [M].北京:中国人民大学出版社,2007:48. 只。双季茭白、高山蔬菜、葡萄等农业产业带建设后来居上. [3]浙江省供销社组织编写.农产品经济人[M].杭州:浙 生产面积达到14万亩,这些农产品品牌在上海、宁波等大 江大学出版社.2007. (上接35页) (m+1) (c ̄-cL-)次。笔者接下来的研究方向是探讨和改进 的基础是真实的数据,即使是同样的对象.同样的属性.但 算法,以期减少运算次数,优化运算过程,使此方法能更广 如果不同年份属性值不一样,那其约简结果可能就不一 泛的适用于较为复杂的系统。 样,比如说本文如果采用2005年或2006年的数据,可能x4 就不会被约简掉。这一例证也说明了即使是公认的指标也 【参考文献l 带有较大主观因素.采用本文这种基于客观数据的约简方 『11季赛,沈星,沈超.基于粗糙集的CBR检索在天气预测 法对指标筛选是有必要的。同理。对于其他三个一级指标 中的应用【J】.计算机工程与设计,2005,(11):2898—2901. 下设的二级指标也可用此方法约简,最终得到 【2]Jarvinen J.Knowledge representation and orugh setstD]. 产业技术创新能力的有效指标。 Finland:University of Turku,1999. 四、结论 [3]R.Slowinski,D.Vanderpooten.A generalized deifnition fo 本文去除了标准粗糙集中的决策属性.只保留了条件 rough approximations based on similarity[J].IEEE Transactions 属性,根据原始数据计算得出无量纲化后的信息系统,建 on Knowledge and Data Engineering,2000,12:331—336. 立相似关系,运用粗糙集理论的属性约简,进行最终有效 [4]ZHANG WenXiu,QIU GuoFang&WU WeiZhi.A general 筛选,丰富了遴选指标的方法。本文突破了标准粗糙集以 approach to attribute reduction in rough set theory[J].Sci China 往须将系统定量数据离散化后才能处理的局限,提出了原 Set F—Inf Sci.2007,( ̄:188-197. 始连续实数值无需离散化即可有效运用粗糙集约简的方 [5】汪杭军,张广群,方陆明.粗糙集属性约简算法的实现 法,保持了连续实数值数的客观真实性.因此可较为广泛 与应用【J】.计算机工程与设计,2007,(4):777—779. [6】郭亚军.综合评价理论、方法及应用【M】.北京:科学出 的应用于数据明确、充分的信息系统中,可以应用于物流 版社.2007:17-19. 服务供应链的绩效评价、企业绩效或风险评价等各领域。 【7】郭梅,朱金福.基于模糊粗糙集的物流服务供应链绩 此外,在运算中发现。即使是通常公认的指标也可能存在 效评价[J】.系统工程,2007,(7):48—52. 较大主观因素,因此基于客观数据的这套筛选方法有助于 (8】张文修,吴伟志.粗糙集理论与方法【MJ.北京:科学出 克服由于人为错误造成的误分类问题。但本文提出的方 版社,200l:12—14. 法可能不适用于处理对象过多的复杂系统。因为对象每增 [9】胡寿松,何亚群.粗糙决策理论与应用【M】.北京:北京 加一个,单次运算次数就会增加C 2 2 次,总运算次数增加 航空航天大学出版社。2006:ll—l2. 匝 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top