您好,欢迎来到帮我找美食网。
搜索
您的当前位置:首页企业大数据分析平台设计与实现

企业大数据分析平台设计与实现

来源:帮我找美食网
信息与电脑2018年第12期China Computer&Communication软件开发与应用企业大数据分析平台设计与实现孙金生(中国铁路设计集团有限公司信息院,天津 300142)摘 要:随着数据规模的扩大以及集团公司对数据分析需求的不断提升,传统的单业务模式分析及对数据的串行处理模式已无法满足实际需求,而大数据技术在快速处理海量化、多样化的数据方面具有天然的优势。因此,笔者提出了一种大数据分析平台架构方案,涵盖了对数据的采集、处理、分析、展现等全生命周期的管理,并改进开源技术,较好提升了数据分析的性能,在集团公司实际应用中取得了良好的效果。关键词:企业;铁路;大数据;数据分析中图分类号:TP311.52  文献标识码:A  文章编号:1003-9767(2018)12-099-03Design and Implementation of Enterprise Data Analysis Platform Sun Jinsheng Abstract: The (Dept. of Information Technology, China Railway Design Corporation, Tianjin 300142, China)processing mode for data cannot satisfy the actual needs. In contrary, the technology of big data has natural advantages in rapidly demand for data analysis is continuously increasing. However, the traditional analysis mode and the serial processing for large amount quantifying data. Therefore, an architecture scheme of a big data analysis platform has been proposed, which covers the entire lifecycle management for data including data collection, data processing, data analysis and data presentation. Meanwhile, performance of data analysis and is widely used.based on open source technologies, the scheme is implemented in company’s data analysis, which improves the Key words: enterprise; railway; big data; data analysis1 概述应用已成为一个非常重要且紧迫的工作。集团公司信息化经过多年的发展,已形成了众多的信息基于集团公司实际需求、对现有大数据技术的研究以及系统和数据库系统,并积累了大量的基础数据。然而,数据资开源技术,本文提出了一种针对数据全生命周期的大数据分源由于建设时期的不同、技术发展阶段的不同以及能力水平的析平台整体架构方案,从数据采集、数据处理、数据分析、差异等,数据存储管理极为分散,一方面造成了过量的数据冗数据展现四个层面进行了介绍,并应用在实际中。余和数据不一致性,另一方面也导致了数据的完整性、准确性、2 大数据分析平台总体架构及时性等得不到保证,形成了众多信息孤岛,由此导致了数据如图1所示,大数据分析平台总体架构分为数据层、存共享达不到集团公司对信息资源整体开发利用的要求,信息资储层、分析层级展现层四个部分。以下将分别进行介绍。源的价值无法在管理决策过程中发挥充分的作用。数据层,即数据采集层,综合考虑集团公司的各业务系此外,随着企业业务的发展和信息化的推进,数据的规统的数据,既包括地形数据、BIM数据、设计数据、变更数据、模越来越大,重要性越来越高,应用频率越来越高,应用场资产数据、施工报表、运营信息等结构化数据,也包括各种规景越来越多,这就使得对于数据的可靠性、稳定性、安全性范、标准、收集的各类文档、纸质文档的扫描件等非结构化数以及处理大规模访问能力的要求越来越高,传统的存储方式、据,提供统一的标准数据采集接口,对数据进行集成整合。单业务分析模式以及对数据串行的处理模式已无法满足企业存储层是对通过标准接口从数据层采集的数据,根据集对数据价值利用的要求。既有的技术架构和方法,已无法高团公司数据标准,进行ETL抽取、数据清洗等处理并将处理效处理如此海量的数据。因此,对大数据分析平台的研究与完的数据根据需求存储到分布式数据库(MPP、HBASE)、作者简介:孙金生(1967-),男,河北阜城人,本科,高级工程师。研究领域:网络、软件开发与应用。 —   99   —软件开发与应用信息与电脑China Computer&Communication2018年第12期图1 大数据分析平台整体架构分布式文件系统(HDFS)及不同主题的数据仓库中,实现务数动态调整机制,任务执行前先选取小量的数据测试任务有效数据的大规模统一存储。了解CPU、内存的需求情况,并根据测试结果设定任务数,分析层包括离线分析与实时分析两大部分。基于分布式从而实现针对不同数据的动态任务数配置,提升了部分应用计算框架(Hadoop、Spark、SparkStreaming),采用已有的场景的性能。开源分析技术(MLib、GraphX、Kylin、Mahout)对存储层的数据进行分布式挖掘分析。由于采用基于X86平台的可扩4 大数据分析平台应用展分布式框架,平台具有较强的弹性伸缩能力。4.1 信息化运维数据分析展示层基于可视化BI报表(润乾报表、EChart图表)、消息提醒等中间件及分析层产生的分析结果实现可视化展对集团公司信息化系统的运维数据进行分析,其中运维示。业务包含24类业务、18类参与人员,数据包括9个属性,包括日期、工作起始时间、工作完成时间、所用时长、具体3 大数据分析分布式算法改进工作内容、业务分类、运维人员、备注等。通过大数据分析根据大数据分析平台整体架构,大数据分析分布式计算平台对数据进行预处理,去除重复、空值及错误数据并进行框架通过标准的MapReduce机制进行分布式计算。以下针对统计分析,完成了不同人员、不同业务的工作占比,人员与MapReduce机制进行改进。业务的关联性的统计分析,同时,也对单个任务的工作时间、3.1 数据预处理单个人员的工作效率、每天需要的工时进行了预测分析。MapReduce机制通常是根据Hadoop/Spark集群的DFS4.2 综合办公类数据分析块大小确定任务的数量,处理程序根据客户端提供的参数将集团公司办公类业务包括公文处理、行政审批、人力需要处理的数据进行分片,每个分片会有一个专门的Map任资源、薪酬管理、出差报销等各类业务,业务种类繁多且每务进行处理。由于该机制往往造成分片的大小不一,而且在天产生大量的数据,通过大数据分析平台的数据采集接口小文件较多的情况下会造成分片较多的情况,基于此,本文Flume完成了数据的实时提取,并基于Storm对数据进行实提出在分片前对数据进行预处理,合并小文件,从而优化处时处理,对使用综合办公类业务的员工的行为进行归类分析,理数据的性能。并根据结果为不同岗位、不同角色的员工提供动态变化的个3.2 任务数动态调整性化门户。由于处理不同类型的数据对CPU、内存等需求不同,固5 结 语定的任务分配机制并不适合所有的场景。因此,本文提出任基于集团公司目前在数据分析方面面临的问题及实际需(下转第103页)—   100   —信息与电脑2018年第12期China Computer&Communication软件开发与应用4 结 语[2]许建阳,袁红,吴剑浩.行为治疗与行为心理学[J].系统已初步设计完成,选用了两名恐高症患者,分别用医学与哲学,2008(4).传统方法和VR模拟两种方法对其进行治疗,传统方法中,[3]李大鲁.单胺类神经递质在成人牙科畏惧症患者血浆建立焦虑等级表,每日带患者进入不同场景中,反复刺激,中的表达[D].济南:山东大学,2011.反复练习,直至患者全身松弛,通过巩固治疗,一个月后患[4]戴红芬,肖骏,周小莉,等.虚拟现实技术在中医教者已消除对高的恐惧,达到心理健康水平。但首次进入焦虑学中的应用及其发展研究[J].当代医学,2018(3).场景之中,患者对场景十分焦虑难耐,并发出求救信号。而[5]伍毅强.虚拟现实技术在医学中的发展与应用研究[J].使用基于Unity 3D的患者,首次治疗时并未抵触焦虑场景,中国新通信,2016,22(9):191-192.不需每天构建环境,且患者在用此系统一周后,恐高症状就[6]李森,张力,卞亚红,等.虚拟现实技术在医学教育得到了很大缓解,两周之后,患者已完全消除对高的恐惧。应用中的新进展[J].中国医学教育技术,2012,26(3):302-306.由此得出结论,基于Unity 3D的恐高症治疗系统对于治疗恐[7]刘光然.虚拟现实技术基础与应用[M].北京:清华大高症有很明显的疗效,逼真而又温和的模拟环境,对于患者学出版社,2011:3-4.而言是安全而有效的。同时,对于该系统模型的图像分辨率,[8]陶维东,孙弘进,陶晓丽,等.浸入式虚拟现实技术在可以进行进一步改进,提高画面精确度和重构速度。心理学研究中的应用[J].现代生物医学进展,2006,6(3):58-62.[9]邹明扬,杨冕清,冯蕾,等.基于虚拟现实技术与VR参考文献设备的心理宣泄的应用[J].电脑迷,2017(7).[1]福柯.临床医学的诞生[M].刘北成,译.南京:译林[10]龙恺.基于WHDI的无线化头戴式显示器设计[D].出版社,2001:96-117.上海:东华大学,2015.(上接第100页)求,本文提出了一种针对数据全生命周期的大数据分析平台数据发展行动纲要[Z].2015.整体架构方案,从数据采集、数据处理、数据分析、数据展[2]作者不详.Apache Hadoop[EB/OL].[2018-06-10].https: 现四个层面进行了介绍,并基于开源技术对数据分析的分布//en.wikipedia.org/wiki/Apache_Hadoop.式算法进行了一些改进。最后,在信息化运维数据、综合办[3]作者不详.Big Data[EB/OL].[2018-06-10].https://en.wi- 公类数据及地形快速切断面等方面应用大数据分析平台,取kipedia.org/wiki/Big_data.得了良好的效果。[4]作者不详.Apache Spark[EB/OL].[2018-06-10].https://en.wikipedia.org/wiki/Apache_Spark.参考文献[5]中国铁道科学研究院.大数据技术在铁路行业中的应[1]中华人民共和国.国发(2015)50号促进大用研究[Z].2015.—   103   —

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- banwoyixia.com 版权所有 湘ICP备2023022004号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务