计算机工程应用技术信息与电脑China Computer & Communication2020年第19期油田大数据分析模式研究张云志(大庆油田有限责任公司储运销售分公司 信息中心,黑龙江 大庆 163453)摘 要:随着数字化油田的建设,围绕石油勘探、开采、储运、销售等业务,产生了大量的数据,且数据结构复杂,数据产生的速度极快,数据价值密度较低。传统的文本分析已经无法完全胜任,如果能将大数据分析引入数字化油田的开发过程,不仅可以有效管理数据,还能对海量数据进行深层次的挖掘和分析。基于此,本文针对生产中遇到的数据安全问题、数据存储问题、数据分析问题、分级工具匮乏等问题,进行有针对性分析,并提出相应的解决方案。关键词:大数据;数据分析;数据安全;Python中图分类号:TP311.13 文献标识码:A 文章编号:1003-9767(2020)19-004-03Research on Big Data Analysis of Digital OilfieldZhang Yunzhi(Information Center of Storage and Transportation Sales branch of Daqing Oilfield Co., Ltd., Daqing Heilongjiang 163453, China)exploration, exploitation, storage and transportation, sales and so on. The data structure is complex, the speed of data generation is Abstract: With the construction of digital oilfield, a large number of data have been generated around the business of oil extremely fast, and the data value density is low. Traditional text analysis is not fully competent. If big data analysis can be introduced into the development process of digital oilfield, it can not only effectively manage data, but also carry out deep-seated mining and lack of classification tools, and puts forward the corresponding solutions.analysis of massive data. Based on this, this paper analyzes the data security problems, data storage problems, data analysis problems, Key words: big data; data analysis; data security; Python1 大数据分析在油田生产中的现状且各种数据还会迭代产生,演变出新型的数据。第四,高维“数字油田”是大庆油田在1999年提出的,至今已有多数据增多,数据分析难度增大。由于信息技术发展迅猛,使年的历史。目前,油田企业的基础建设已经完成,即将纸质的得数据采集变得越来越方便,最终导致数据库的规模不断膨“历史数据”全部录入数据库,实现生产数据的采集和管理。胀,数据的复杂性越来越高,以往使用的最小二乘方法已经油田企业在处理这些数据的过程中还存在以下几个问题。无法应对高维数据分析。1.1 数据复杂性问题1.2 缺乏数据分析的工具和方法油田企业的生产领域和工程领域每天都会产生大量的数在计算机辅助分析的大背景下,不仅出现了信息大爆炸,据,这些数据的复杂性主要体现在以下几个方面。首先,数还涌现出软件工具大爆炸。针对数据分析的工具包括熟知的据具有多样性的特点。生产中的数据往往来自不同的领域,R语言、SAS、SPSS等,还有一些软件公司开发的收费分析不同领域的数据存在数据类型不同、规范不同、范围不同等软件。但是,经过多次实验证明,这些工具不能直接处理生状况。此外,油田建设中常常涉及跨学科研究,即使对于同产中产生的数据,而且还会面临数据泄露的风险。一数据,由于其获取方式和技术不同,得出的结论也不尽相同。其次,噪声数据对正常数据的干扰性较大,即非结构化2 数据分析在数字化油田建设中遇到的问题的数据和异常数据不能被常规的信息系统应用,但仍然会出油田数字化建设的主要研究对象是油田,将勘探开发、现在数据库里,对系统运行结果产生的偏差性影响不易被察中途运输和储运销售等环节作为生产过程的线索,最终建成觉。再次,数据生成速度快。每天都会产生大量的生产数据,一条龙的数据链条。同时,在实际工作中,必须把各个环节的信息点与总体目标融合到一起,从而才能为油田企业创造作者简介:张云志(1984—),女,黑龙江海伦人,硕士研究生,工程师。研究方向:数据库开发与管理。— 4 —信息与电脑2020年第19期China Computer & Communication计算机工程应用技术出新型信息化的大环境,提高企业生产效率,获得经济效益数据量的文件输入,本软件采取的是线程调用的方法,软件和社会效益。在生产运行过程中,因为各个节点每天都有大加密完成后立即弹出“成功加密”对话框。量来自不同地方、不同单位、多结构形式、多样化的数据信息。解密的工作原理为双击“解密钥匙”后,软件自动读取由此而来,产生了以下几个问题。密码和Huffman编码等,与“标准答案”进行比较,如果不同,2.1 数据安全问题弹出对话框并终止运行;如果相同,则在缓冲区读出加密文数据管理中最重要的问题就是安全问题。生产中产生的件,对其解密,最终输出用户的加密文件,软件解密结束。大量数据,目前存在网络传输危险、数据传输危险、备份文此外,Python和Linux系统具有开源性的特点,不仅可件泄露等多方面的安全问题。此外,保证生产数据的可利用以为研发节省大量的资金,而且可以保证软件研发中应用的性,还需要提高各个层面数据的使用价值,既要在公司内部开发软件是完全正版的,不仅可以最大程度保障软件的稳定实现数据共享,又要防止敏感数据被滥用。性,而且还能让电脑远离盗版软件带来的病毒及信息被盗等2.2 数据存储问题风险,更能确保其性能得以充分发挥。油田数字化的普及不仅使数据量变大,而且出现了数据3.2 针对数据存储问题的解决方案多样化、数据分散性日益明显等问题,说明传统单一的结构针对数据的传统存储方式和存储空间的局限性,利用云化数据库已经无法满足数据存储的需求。存储技术实现这一目标。公司员工不用考虑存储类型设备、此外,动态数据的出现,增加了数据存储和交互过程一存储地点等细节,只需要经过简单的培训,即可掌握相应的致性的难度。这要求数据仓库需要具备高度可扩展性、高性技术,进而获得无限大的存储空间。能、高度容错性、支持异构环境、较低的分析延迟、较低成3.3 针对数据分析问题的解决方案本和向下兼容性等特征[1]。针对本公司的数据分析问题,基于Python并嵌入C++2.3 数据分析问题研发了一个新型软件,本软件采取通过编写一个接口文件油田企业在生产中需要处理大量的生产数据和日常工作(Interface),再利用工具直接生成一个C++的封装文件,数据,这些数据组成了不同的台账、报表,员工不仅面临着直接把这个接口文件的内容放到C++的头文件中,编译成动处理这些数据时录入烦琐、整合费时、存贮困难的窘境,而态链接,再由Python主程序调用。这样能够充分发挥了两种且对非结构化数据的深层次分析往往束手无策,很难对数据语言的优势,也可以继承以前老软件、老系统的基础,给生进行格式化清洗,从而挖掘出大数据中潜藏的模式或规律。产软件的研制提供了新的思路。软件框架如图1所示。2.4 分析工具匮乏在计算机辅助分析的大背景下,不仅出现了信息大爆炸,而且涌现出软件工具大爆炸。用于数据分析的工具除了熟知的R语言、SAS、SPSS等,还有一些软件公司开发的收费分析软件。但是,经过多次实验证明,这些工具不能直接处理生产产生的大数据,而且还会面临数据泄露的风险。3 解决问题的对策图1 混合脚本的软件3.1 针对数据安全问题的解决对策在分析生产数据的过程中,发现很多数据用R语言针对数据安全问题,笔者所在单位使用了基于Huffman和其他分析软件很烦琐,甚至读不出来的,从而便引入了编码算法,应用Python语言在Linux系统上研发了数据保护Python。笔者所在单位采用pandas读取数据,首先对数据进软件,主要针对用户的存储数据安全提出解决方案,即源头行预处理——数据清洗、数据集成、数据变换和数据规约,加密。哈夫曼编码(Huffman Coding)是一种编码方式,是删除原始数据中重复数据、筛选与挖掘主题相关的数据,处可变字长编码(VLC)的一种。Huffman于1952年提出一种理异常值,并用matplotlib生成折线图、柱状图。编码方法,该方法完全依据字符出现概率来构造异字头的平pandas是Python的一个企业级且高效的数据分析和均长度最短的码字,有时称为最佳编码,一般称为Huffman挖掘工具,它收纳了大量的库、数据处理函数、数据模编码(有时也称为霍夫曼编码)[2]。型[3],能够灵活处理缺失值并实现可视化分析,其数据结构在启动本软件时,首先会弹出一个对话框,要求用户选DataFrame能够轻松实现汇总统计功能,最大程度简化分析择加密文件,并自定义密码。这时软件会根据用户输入的密过程中的烦琐操作,体现了超强的决策能力。码出现的次数自动结合其权值,构造并转换Huffman编码,4 大数据分析的应用和关键技术并将加密文件捆绑起来,存入缓存区,加密后其文件名、自单纯性的大数据分析的准确性或许会很高,但是其中分定义密码、Huffman结构、文件大小等都是加密的。针对大析出的规律未必是有价值的,必须结合相关领域知识才能形— 5 —计算机工程应用技术信息与电脑China Computer & Communication2020年第19期成精准的领域模型,形成更强的决策力。6 结 语因此,针对油田生产、管理数据复杂性,笔者所在单位目前,“大数据”时代已经来临。对于石油企业而言,设计并研发了油田大数据分析报表系统。本系统基于Python如何摆脱“老工业”的“帽子”,大踏步进入“新时代”已并嵌入C++,通过编写一个接口文件(Interface),再利用工经成为当务之急。目前,数字油田处在一个瓶颈阶段,各个具直接生成一个C++的封装文件,直接把这个接口文件的内油田已经完成了数据采集工作,并根据业务领域、专业技能、容放到C++的头文件中,编译成动态链接,再由Python主程生产部门等为油田数据建立数据库和多种信息系统,如勘探数序调用。这样能够充分发挥两种语言的优势,也可以继承以前据库、生产数据库、科技管理信息系统等。但是,这样的划分老软件、老系统的基础,给生产软件的研制提供了新思路。会在使用中出现新数据的多源性——数据格式不对接和查找此外,本系统采用一个企业级且高效的数据分析和挖掘困难。工具Pandas读取数据,它收纳了大量的库、数据处理函数、本文结合生产实际,基于Python语言设计出数据安全、数据模型,能够灵活处理缺失值并实现可视化分析,其数据数据分析方向的软件,保证了数据传输、保存的安全,提高结构DataFrame能够轻松实现汇总统计功能,最大程度简化了数据分析的准确度和可操作性。所以,应用本系统的分析分析过程中的烦琐操作,体现了超强的决策力。技术可以逐步实现“跨库”分析、解释、推断,将数字变成5 大数据分析的实施效果数据,将数据变成信息,将信息变成知识,最终实现对数据本系统的应用极大程度提高了公司生产报表数据的管资源的充分利用。此外,依据本文提供的设计思想,也可实理水平,依据报表原始数据的特点与上传数据的要求,通过现任何大数据的分析和可视化管理,具有极强的推广性。Python语言编制的软件,实现了对生产数据的批处理操作,无缝集成了系统程序语言和脚本语言的优点,使得软件研发参考文献成为可重复开发的编程平台。实践表明,该方法实现了跨平[1]王珊,王会举,覃雄派,等.架构大数据:挑战、现状台处理数据的功能,简化了烦琐而重复的工作,与传统处理与展望[J].计算机学报,2011,34(10):1741-1752.方法相比,该处理效率可提高20倍以上。[2]唐加拉.云计算与分布式系统:从并行处理到物联此外,依据本文提供的设计思想,也可实现任何文字编网[M].北京:机械工业出版社,2015.辑的自动化处理,为油田数据解析提供了技术手段,使其科[3][美]McKinney Wes.Python for data analysis[M].南京:学性、创新性、系统性、使用性和可推广性达到一个新高度。东南大学出版社,2013.— 6 —