维普资讯 http://www.cqvip.com 第23卷第2期 2007年4月 大 学 数 学 COLLEGE MATHEMATICS Vo1.23,№.2 Apr.2007 多元统计在海南农业区域经济分析中的应用 韩汉鹏, 吴学品, 薛文珑 (华南热带农业大学基础学院,海南儋州571737) [摘要]利用多元统计中的主成分和聚类分析对海南各市县的农业产量进行研究,得出代表海南的传 统农业产量区及热带作物产量区,并对上述产量区进行分类.此外,还对各市县农业现状进行对应分析,得出 各市县农业产业结构特征和主导产业,结论较为合理. [关键词]主成分分析;聚类分析;对应分析;SAS/STAT [中图分类号]O212;C8;F3 [文献标识码]B [文章编号]1672—1454(2007)02—0033—05 1 方法概述 主成分分析提取的主成分之间互不相关,因此,可以根据各样本点主成分的得分进行排序、聚类和 回归分析.对应分析是在因子分析的基础上发展起来的一种多元统计分析方法,它能找出R型与Q型 分析间的内在联系,由R型分析的结果可以方便得出Q型分析的结果.同时,对应分析把R型与Q型 因子分析统一起来,把指标和样品反映到相同因子轴的同一张图形上,方便解释指标和样品之间的对应 关系. 2主成分分析 资料来源于2004年《海南省统计年鉴》,选取的九个指标是:X。一粮食作物、X =大豆、X。一甘蔗、 X 一油料、X 一蔬菜、X 一瓜类、X 一水果、X。一茶叶、X。一热带作物.借助SAS中的Princomp过程, 可进行主成分分析.限于篇幅,文中仅列出部分输出结果如下: Eigenvalue PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 3.99120713 1.98931950 1.27917256 0.71016184 0.50841779 Difference 2.00188763 0.71014694 0.56901072 0.20174405 0.26634132 Proportion 0.4435 0.2210 0.1421 0.0789 0.0565 Cumulative 0.4435 0.6645 0.8066 0.8855 0.9420 结果显示前四个特征向量的累计贡献率达到88.55 ,较好地反映了原始数据集的信息. Prinl X1 X2 X3 0.4497l4 0.321877 0.212752 Prin2 —0.13468 —0.3155 —0.5368 Prin3 —0.04163 —0.09657 0.284342 .Prin4 0101322 —056603 .Prin5 —0.38616 0.441872 —0.34312 0291525 .[收稿日期]2005—09—29 [基金项目]海南省教育厅高校科研项目(Hi2OO535);华南热带农业大学科技基金项目(Rnd0427) 维普资讯 http://www.cqvip.com 34 大 学 数 学 第23卷 X O.367494 ~0.32075 ~0.19122 0.147431 O.43663 X5 O.456134 0.121288 ~0.O9329 0.132776 —0.20487 X6 0.236232 0.365264 ~0.46302 0.516048 0.26049 X, 0.40697 0.245198 0.197528 ~0.32449 —0.10921 X8 O.1O1688 O.110229 O.754617 O.341707 0.464456 X9 0.272045 0.520466 O.199928 ~O.23797 —0.09886 第一主成分: Prinl—O.4497X1+0.3318X2+0.2127X3+0.3674X4+0.4561X5+0.2362X6 +0.4069X7+0.1O16X8+0.2720X9. 各变量的系数在0.2~O.42间,且分布较均匀,反映各市县农业生产的一般发展水平. 第二主成分: Prin2—0.1346X1--0.3154X2一O.5368X3—0.3207X4+0.1212X5+0.3652X6 +0.2451X7+0.1102X8+0.5204X。. X ,X ,X。,X 的系数为负,总和为一1.32;X ,X ,X ,X。,X。的系数为正,总和为1.36(非常接近),结 合各变量的含义,第二主成分表示传统作物与非传统作物的对比因子. 第三主成分: Prin3一一0.41631X1~0.96565X2+0.2843X3—0.1912X4—0.9328X5~0.4630X6+0.1975X7 +0.7546X8+0.1999X9. X。的系数最大为0.7546,因而第三主成分表示茶叶因子. 第四主成分: Prin4—0.1013X1—0.5660X2+0.2915X3+0.1474X4+0.1327X5+0.5160X6 0.3244X7+0.3417X8—0.2379X9. 第四主成分意义并不明显,没有很好的解释.各市县主成分得分排序见表1. 表1 各市县主成分得分排序表 各市县 按第一主成分 各市县 按第二主成分 各市县 按第三主成分 排序PRIN1 排序PRIN2 排序PRIN3 海口市 ~2.535O5 儋州市 一3.96682 文昌市 一1.78996 通什市 ~2.51913 定安县 —1.23132 东方市 —1.O9869 保亭县 ~2.38766 临高县 一O.98289 乐东县 —1.04742 琼中县 ~2.21671 澄迈县 —0.88576 三亚市 一O.797O5 白沙县 ~2.16236 琼山市 一O.66204 陵水县 —0.77875 昌江县 ~1.49845 昌江县 一O.64858 澄迈县 一O.37883 屯昌县 ~1.0499O 乐东县 一O.49694 定安县 一O.06078 临高县 ~0.95842 白沙县 —0.48996 屯昌县 —0.03436 定安县 ~0.80982 屯昌县 一O.44742 海口市 —0.02405 陵水县 ~O.65753 琼中县 一O.16820 临高县 0.04830 三亚市 0.08740 通什市 —0.12457 万宁市 0.05470 万宁市 O.47471 海口市 一O.O3197 琼中县 0.12429 东方市 O.67976 保亭县 O.25430 儋州市 0.12527 澄迈县 0.76582 东方市 O.59745 通什市 0.12707 文昌市 1.62388 陵水县 0.79150 琼山县 0.12775 琼山市 1.65956 农垦系统 O.93131 保亭县 0.17003 农垦系统 1.71510 万宁市 1.34118 白沙县 0.22570 琼海市 2.62831 文昌市 1.60437 昌江县 0.25325 儋州市 3.22052 三亚市 1.94762 琼海市 0.66004 乐东县 3.93978 琼海市 2.66875 农垦系统 4.09351 结果分析: 维普资讯 http://www.cqvip.com 第2期 韩汉鹏,等:多元统计在海南农业区域经济分析中的应用 35 (i)由第一主成分PRIN1的得分可以认为:农业生产整体发展水平最低的五个市县分别是海口市、 通什市、保亭县、琼中县和白沙县,因为海口作为省会城市,周边的农业生产规模相对较小;通什市、琼中 县、保亭县和白沙县地处五指山区而且又是少数民族集居地,发展农业生产较为困难.农业生产整体发 展水平最高的三个市县分别是乐东县、儋州市和琼海市.因为这三个沿海市县经济发达,地势平坦,易于 发展农业生产. (ii)第二主成分PRIN2得分值为负的市县是传统农业粮食生产占优势的市县,如儋州市、临高县、 澄迈县、琼山市、昌江县、乐东县,它们是海南水稻、花生、甘蔗等传统作物的生产基地;而得分值为正的 市县是非传统农业粮食生产占优势的市县,如保亭县、东方市、陵水县、农垦系统、三亚市、文昌市,它们 是海南重要的热带水果生产基地. (iii)第三主成分表示茶叶因子,由PRIN3的得分值可知,得分最高的是农垦系统.事实上,海南农 垦系统茶叶的产量为2179吨,远远高于各市县茶叶产量的总和. 3聚类分析 利用前四个主成分的得分进行聚类分析,调用SAS的Cluster过程,结果见表2.当阀值约为0.85 时,可分为六类.第一类为海口市、通什市、琼中县、保亭县、白沙县、昌江县、屯昌县、临高县、定安县、屯 昌县,结合PRIN1及PRIN2的得分值可知,第一类地区是农业生产综合水平较低的地区;第二类为陵 水县、三亚市、万宁市、东方市、澄迈县、文昌市、琼山市.结合PRIN1的得分值可知,这类地区农业生产 综合水平居中;第三类为琼海市;第四类为乐东县;第五类为农垦系统;第六类为儋州市.由PRIN1的得 分值可知,这是农业生产综合水平最高的四个地区,可将它们合并为第三类.聚类谱系图见图1. 表2主成分聚类结果表 第一类地区 第二类地区 第 娄地区 I海口市、通什市、琼中县、保亭县、白沙县、 陵水县、三亚市、万宁市、东方市、澄迈县、 琼海市、乐东县、 l昌江县、屯昌县、临高县、定安县、屯昌县 文昌市、琼山市 农垦系统、儋州市 08l OB3 o日l OB16OBlg∞l9 O窜8 OB11099 O92。Bl7OB13oB7 o日5 OB4 OBl0 OB6 OBl4OB20OBI2 N^m of∞● 0llw chlml 图1各市县主成分聚类谱系图 4对应分析 对应分析将含有 个样本P个变量的原始数据矩阵X一(n )柳变成另一个矩阵Z===(z ) ,使得变 量之间的协方差矩阵R— z与样本之间的协方差矩阵Q— z具有相同的非零特征根.对协方差矩阵 R和Q进行主成分或因子分析,分别提取重要的公因子R】,R。与Q】,Q。,且公因子R 与Q】,R。与Q 本 质上是相同的,分别用Diml和Dim2作为 与Q】,R。与Q。的统一标志,可在由Diml,Dim2组成的坐 标系中画出因子平面点聚图,从图中可直接分析变量与样本之间的关系. 对应分析可通过SAS的Corresp过程轻而易举地实现,各市县记号如下:A :海口市,A。一三亚 维普资讯 http://www.cqvip.com 36 大 学 数 学 第23卷 市,A。:通什市,A 一琼山市,A 一文昌市,A 一琼海市,A 一万宁市,B 一定安县,B。一屯昌县,B。=澄 迈县,B 一临高县,Bs:儋州市,Be一东方市,B =乐东县,C 一琼中县,C 一保亭县,c3一陵水县,C 一 白沙县,C5一昌江县,C6一农垦系统.对应分析结果如下: (i)变量对特征值的贡献和 。的分解 差.阳 一一一十一一一一十一一一一十一一一一十一一一一十一一一 0.54423 0.29619 76.67 76.67 ************************** 0.19481 0.03795 9.82 86.49 … 0.16306 0.O2659 O 0 7 2 0.12935 0.01673 25 3 4 O 8他 m ; 8 弱■丽** 97.71 * 0.07204 0.00493 98.98 0.04575 0.00209 99.53 0.03298 0.00109 一一一一一一4.33 1.28 0.54 0.28 一 99.81 0.02728 0.00074 0.19 100.00 结果显示前两个特征值的累积贡献率已达到86.49 ,说明前两个公因子已代表了变量与样品的 主要信息,其中第一公因子(Dim1)占76.67 ,第二公因子(Dim2)占9.82 . (ii)变量的概括统计量 .Ⅳ t Quality Mass Inertia X,0.5631 0.2233 0.0828 X2 0.0925 0.0013 0.0043 X3 0.9969 0.4022 0.4248 X 0—.0—904 碱 砸 X5 0.8596 0.2458 0.1826 X 0.0396 丽 X 0.8447 0.0731 0.1149 X8 0.0438 0.0002 0.0059 X9 0.7096 0.0052 0.0166 从Mass(边缘频率)、Quality(两个公因子贡献率之和)和Inertia(变量对特征值的贡献)来看,X。 (甘蔗),X (蔬菜),X (粮食作物)占有绝对优势,说明甘蔗、蔬菜、粮食作物在整个海南农业中占有重要 的地位,这与海南省当前的农业发展状况是一致的. (iii)变量与样品的因子平面点聚图 借助SAS的Plot过程可以容易画出变量与样品的因 子平面点聚图,见图2.在以两条零点线分成的四个象限 ∞ .^1 ・ 中,右下部有A (海口市),A。(三亚市),A (文昌市),C3 啦 (陵水县),X (蔬菜),X (瓜类).一方面说明这四个地区的 ・翻 ‘ 哪 。c. 农业结构类似,另一方面说明蔬菜和瓜类在这些地区的农 。 。H 业生产中占主要地位;右上部有A。(通什市),A (琼海市), A (万宁市),B (东方市),B (乐东县),C (琼中县),C2(保 , 亭县),X (粮食作物),X (大豆),X (油料),X (水果),X。 ^, (热带作物).表明这七个地区的农业结构类似,同时粮食作 。^1 物、大豆、油料、水果和热带作物在这些地区的农业生产中 占主要地位;左上部有A (琼山市),B (临高县),C4(白沙 图2变量与样品的因子平面点聚图 县),C5(昌江县),C6(农垦系统),Xs(茶叶).说明这五个地区的农业结构类似,而且茶叶在这些地区的 农业生产中占主要地位;B (定安县),B。(屯昌县),B。(澄迈县),B (儋州市),X。(甘蔗)位于同一象限. 一方面说明这四个地区的农业结构类似,另一方面说明甘蔗在这些地区的农业生产中占主要地位. 5 建 议 综上所述,海南省各市县农业发展水平极其不平衡,农业产业结构过于单一. 维普资讯 http://www.cqvip.com 第2期 韩汉鹏,等:多元统计在海南农业区域经济分析中的应用 37 (i)从聚类分析结果来看,第一类地区大多地处海南中部山区,发展传统农业较为困难,应优先发 展热带作物产业;第二类地区大多地处沿海地区,可发展传统及非传统的粮食生产;第三类地区应适当 调整产业结构,发展其它产业. (ii)海南省作为我国最大的热带作物生产基地,但只有通什市、琼海市、万宁市、东方市、乐东县、 琼中县、保亭县这七个市县农业结构相对较为平衡,同时与热带作物生产较为密切,这与海南省作为我 国最大的“热带农业省份”是不相称的. (iii)相当一部分市县农业结构过于单一.蔬菜和瓜类生产在海口市、三亚市、文昌市、陵水县这4 个市县占主要地位;茶叶生产在琼山市、临高县、白沙县、昌江县、农垦系统(除橡胶生产之外)这五个市 县占主要地位;甘蔗生产在定安县、屯昌县、澄迈县、儋州市这四个市县主要地位。建议这些地区应该适 当进行农业产业结构的调整. [参 考 文 献] [1]林德光.多变元统计分析[M].海南儋州:华南热带农业大学,1998. [2]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,1998. E3]高惠璇.SAS系统使用手册[M].北京:中国统计出版社,1997. E4]海南省统计局.海南统计年鉴[M].北京:中国统计出版社,2004. Application of Multivariate Statistical on Hainan Agricultural Regional Economy Analysis HAN Han—feng。 U Xue-pin,XUE Wen—long (Coliege of Fundamental Sciences,South China University of Tropic Agricultural,Danzhou,Hainan 571737,China) Abstract:We use the principal component analysis and cluster analysis tO research the agriculture yield of Hainan, and represent traditional agriculture yield region and tropical crops yield region and do cluster by these regions.In addition,we use correspondence analysis to research the agriculture yield of each city and the main crop regions are obtained,the conclusions iS more reasonable. Key words:principal component analysis;cluster analysis;correspondence analysis;SAS/STAT