地质调查大数据处理的技术问题与开发方法论文

时间:2020-07-24 11:22:01 其他类论文 我要投稿

地质调查大数据处理的技术问题与开发方法论文

  地质调查的过程同时是地质调查信息的处理过程。信息科技60年迅猛发展提升着地质信息处理能力,影响着地质调查面貌,渗透到地质调查思维。

地质调查大数据处理的技术问题与开发方法论文

  1 数据的产生

  地质调查是人们对地球表层有目的的探测与探索。从数据角度看,地质调查以多来源、多模态数据展现地球表层现状与发展过程。从系统角度看,地质调查是参与人、数据处理机、地球构成的“人-机-地”系统。地质调查数据的产生情况如表1所示。其中网络信息与管理信息来自人机交互系统,地球信息来自机地交互系统和人地交互系统。

  地质调查数据产生的位置与时间表现出整体的规律性和局部的随机性。地质调查不但产生地质观测与探测数据,还产生服务、管理及其参与人数据,表现出确定性与不确定性交织的复杂状态。

  2 基本认识

  地质调查大数据是地质调查工作和信息科学技术发展、融合到一定程度的结果。源动力来自于2个方面:①地质调查业务不断调整拓展,大量新型技术方法的应用,数据共识基本形成;②地质调查信息化服务需求日渐增强,亟需从独占走向共享、从粗放走向精细。

  地质调查大数据试图解决以下3类问题:

  (1)过去计划经济体制下,地质信息资料分割保存,形成信息孤岛,数据信息顺畅流动困难,信息与数据共享问题一直是制约地质调查发展的瓶颈。

  (2)在以往地质调查工作中,存在一些与数据和计算相关的地质问题,由于当时信息技术条件的限制,没有得到解决,或者解决效率、精度不能令人满意。这一类问题普遍存在于地质调查具体工作中。

  (3)地质调查信息化服务产品类型不足,生产周期偏长,需求响应欠准确、欠及时。这一类问题已经逐渐成为地质调查工作的焦点问题。

  地质调查大数据是一个三元组<ω,fω,rf>,Ω是一个巨数据集,fΩ是定义在Ω上的处理技术方法集,Rf是fΩ上的关联关系。通常,巨数据集Ω的计数测度只增不减,包含地质调查产生的数据。处理技术方法集fΩ的操作对象是地质调查产生的数据,操作基础是信息技术,尤其是新一代信息技术,是地质调查大数据处理技术的核心元素。关联关系Rf定义解决地质调查问题的思路逻辑,体现地质调查大数据的功用与质量。

  地质调查大数据是“用”出来的,应从地质调查大数据处理技术研究与开发起步,解决技术应用中的具体问题。当应用达到相当的广度、深度后,一些有关地质调查大数据的共性科学问题会浮现或抽象出来,这时就是在更高层面上解决问题的时刻了。

  3 地质调查大数据处理的技术问题

  结合地质调查数据处理一般流程和大数据处理技术的特殊性,把地质调查大数据处理主要技术问题分为采集与传输、存储与管理、计算模式与系统、分析与挖掘、可视分析、隐私与安全6个方面。

  (1)采集与传输对应地质调查数据的产生,地质调查大数据外延显然更大,采集对象更加全面地覆盖地质调查工作。同时,通过实时或准实时数据通信获取地质调查数据,为达到地质调查工作服务目标提供基础。

  地质调查大数据采集与传输的基本目标是应收、尽收、速收。

  地质调查大数据采集与传输技术多样,也相对成熟,主要问题在于技术集成与产品化设计生产方面。地质调查大数据采集与传输技术及主要问题如表2所示。

  (2)存储与管理地质调查工作中,不同类型的应用对存储系统的性能、可靠性等指标有不同的要求,这在存储与管理中并不是新问题,但地质调查大数据的大体量、高复杂度放大了达到这些技术指标的难度,导致“存储墙”问题越来越严重。

  地质调查数据处理应用中存在2个突出的问题:①数据体量增加到一定程度后,系统停止运转;②读写外部存储碎片数据时,系统效率极低。

  这2个问题首先与地质调查数据处理使用的计算机存储硬件有直接关系。当前,地质调查数据处理中使用的内部存储硬件主要是SRAM/ DRAM工艺的,外部存储硬件主要是磁盘。SRAM 工艺存储密度限制片上存储容量增长,SRAM/ DRAM工艺高静态功耗阻碍存储层次发展,SRAM/DRAM 工艺对粒子和射线撞击产生的软错误问题没有抵抗能力,纠错电路限制存储容量增加并引起功耗[1].磁盘是计算机体系结构中唯一还在使用的机械单元,与其他电子存储单元在访问效率、延迟等指标上存在量级上的差距,如表 3 所示[2].上述2个问题与地质调查数据处理使用的软件体系也有关系。地质调查应用主要的存储与管理软件是文件系统与数据库,当前,地质调查数据存储与管理整体设计不明确,绝大部分应用没有进行针对性较强的存储与管理设计优化,造成整体效率与具体应用效率都有待提高。地质调查大数据存储与管理的基本目标是软硬件优化升级,大幅提升效率。

  地质调查大数据的存储与管理技术与当前使用的技术有较大的区别,内容更丰富,结构也更复杂,但效率普遍提高,有些技术能够达到量级上的提高。地质调查大数据的存储与管理技术如表4所示。

  (3)计算模式与系统计算模式在以往地质调查数据处理中很少提及,但计算模式是地质调查大数据处理的核心问题之一。所谓地质调查大数据计算模式,就是根据地质调查大数据的数据特征和计算特征,从多样性的地质调查大数据计算问题和需求中提炼并建立抽象或模型。在地质调查工作中,与数据计算有关的业务非常多,业务目标不同,对数据计算响应的时限要求也不同,操作的数据不同,数据的计算方式就不同,因而需要甄别不同计算模式,分类分析地质调查大数据处理中的计算模式。地质调查大数据计算模式主要类型与特点如表5所示。

  地质调查大数据处理的大部分对象是空间数据,关联关系复杂,当前主流的批处理计算难以从根本上解决可行性与效率问题;内存计算[3]在计算机体系结构层面解决地质调查大数据处理的问题,具有广谱性,可以很容易地与其他计算模式结合,形成具有优异计算性能的应用系统;随着内存价格的不断下降和新型非易失性存储器的发明,服务器可配置的内存容量不断提高,采用内存计算完成高速的地质调查大数据处理有了现实的可能性。内存计算是地质调查大数据处理技术发展的重要趋势。

  总体上看,地质调查大数据处理需要面向实际工作,提供多种计算模式的服务。

  (4)分析与挖掘地质数据定量分析一直是地质调查重要的工作内容,但赵鹏大[4]认为,目前地球科学的分析和可视化方法已经远远落后于创造数据的能力。地质调查大数据分析与挖掘技术首先要解决的问题是地质调查工作区多来源、多模态、多时态数据的相关性和模式分析,这样的分析可以克服个体的波动性,发现更多可靠的、隐藏的模式和知识。地质调查大数据分析与挖掘的技术问题还表现在以下4个方面:

  第一,以往地质调查数据分析的一个重要方法是采样,当数据体量比较大时,可以通过采样技术把数据规模变小[5].很显然,在很多地质问题中,采样意味着信息的丢失。如果不运用采样技术,考虑对地质调查大数据全集进行分析,意味着需要分析的数据量急剧膨胀与增长,其面临的技术问题就是体量巨大的数据如何分析。

  第二,以往地质调查数据分析方法集中于线性空间中的统计方法,以及一些初级的非线性方法,在小样本上运用这些方法获取局域的地质特征。当在地质调查大数据上运用这些方法时,令人不安的结果往往是方法收敛早于数据规模波动,有必要针对地质调查大数据的一些方法进行改造,或者提出新的方法,这是地质调查大数据分析与挖掘面临的另一项技术问题,即深度分析。

  第三,集合了地质描述、地质数据、地质图表、地质认识的地质调查资料价值巨大,目前,地质调查资料处理技术主要集中在前处理和检索查询方面,而地质调查综合资料的深度分析与挖掘是地质调查大数据分析与挖掘面临的重要技术问题。

  第四,地质矿产资源评价、地质环境监测预警等重要业务在不断发展,对数据与计算技术的要求更精致、更敏捷,实现对这些重要业务的有效技术支撑是地质调查大数据分析与挖掘面临的基本技术问题。

  地质调查大数据分析与挖掘的另一类技术问题源于地质调查信息化服务。网络形式的公众服务必然产生公众访问数据,这些数据以某些特定形式存储,对这些数据的分析与挖掘有助于优化服务系统配置,提高服务质量与效率。在这方面,一些通用的分析与挖掘技术可以派得上用场,而具有地质调查特色的分析与挖掘技术是需要重点关注的,如地质调查空间数据热点技术、地质图块的快速检索技术、地质图块与地质资料快速匹配技术等。

  (5)可视分析有别于一般的数据处理工作,地质调查工作中很大一部分地质问题是地质专业技术人员在空间数据或图件基础上进行综合分析后解决的,这种解决问题的模式为地质调查大数据可视分析技术提供了可能。可视分析就是通过交互可视界面来进行分析、推理和决策的过程[6],本质也是知识发现。

  可视分析与一般分析与挖掘的不同在于,其不依赖于数学模型,而是一种探索式分析,这与很多地质问题的解决模式一致。

  地质调查大数据可视分析的技术基础是多年积累的地质体建模、地质过程建模、地质调查数据可视化及其交互的技术,可视分析就是在这些技术的基础上,克服高维性、不确定性和异构性,研究开发从复杂地质调查数据中抽取有效特征的方法,通过探索式分析完成地质调查大数据中知识发现,其基本技术流程如图1所示。

  当前的机器智能在复杂地质数据的视觉识别和理解方面远不及人脑智能,而超过50%的智能与视觉识别有关。因此,对地质特征模型可视化结果的修正和判断,体现出人脑智能和机器智能的差异,其中蕴含的.就是新知识。探索式可视分析以人脑智能向机器智能的转换、机器智能向人脑智能的展示为主线,实现地质认识的螺旋式进化,在这一方面,需要解决的技术难题包括:①对地质体和地质现象的数据或参数的输入常常存在谬误和不精确,因而人脑智能转换为机器智能是多人协同、反复修正的过程;②地质调查大数据环境下,各种可视分析方法需要具备可扩充性和容纳不同对象的能力,这样才能支持多来源、多时态的地质大数据处理。

  (6)隐私与安全隐私是不愿意被他人知道或他人不便知道的敏感信息[7].地质调查大数据以服务为重要目标,因此存在服务参与人的隐私问题。安全指不受威胁,没有危险、危害、损失[8].信息安全指采取技术和管理的安全保护手段,保护软硬件与数据不因偶然的或恶意的原因而遭到破坏、更改、显露[9].数据安全一直是地质调查信息化工作的重要内容。

  地质调查大数据隐私与安全面临的新情况和带来的威胁与挑战如表6所示。地质调查大数据隐私与安全需要法律、政策、管理与技术共同维护,从技术层面,当前主要隐私和安全保护方法包括:文件访问控制技术、基础设备加密、匿名化保护技术、加密保护技术、数据失真技术、可逆置换算法等。

  4 科学问题

  地质调查大数据的研究处于探索阶段,地质调查大数据处理技术开发也处于起步阶段,因而对地质调查大数据研究中的科学问题准确描述还十分困难,这里把科学问题讨论限制在地质大数据范畴,也就是地球信息的范畴,探索性地提出2个带有普遍性与根本性的问题。

  (1)地质大数据仅仅是地质世界的数据映象,还是具有反映地质世界规律能力的数据世界?地质科学一直以来以科学实验、知识归纳为主要研究手段,近几十年来数值模拟也有一些发展。赵鹏大[10]指出,当前已经进入大数据时代,大数据成为新的科学范式(数据密集型科学研究的“第四范式”[10]),是一场技术革命、颠覆性创新[11].那么,地质大数据的关联关系与地质世界的因果关系之间存在怎样的联系?或者表述为:地质大数据的相关性研究与地质科学研究功效一致,还是仅仅是地质科学研究的补充?在简单的、封闭的系统中,基于小数据的因果关系是很容易做到的,但对复杂的、开放的巨系统,传统的因果关系是不是奏效很难说。地质大数据进行的关联分析是“知其然而不知其所以然”的,相关性表达2个或多个地质变量取值之间的某种规律性,严格地说,统计相关性是无法检验逻辑上的因果关系的[12].不过一些支持者,如 Mayer-Schnberger[13]在《大数据时代》一书中指出了大数据时代处理数据理念的三大转变,即要全体不要抽样,要效率不要绝对精确,要相关不要因果。也就是“数据-信息-知识-智慧”要让位于“数据-价值”的研究思路。当前,面对地质大数据,地质科学研究人员有可能从中查找、分析或挖掘所需要的信息、知识和智慧,甚至无需直接接触所研究的对象。

  (2)地质大数据关系网络的本质特征是什么?地质数据之间复杂的网络关系是地质大数据的存在形式,深入分析地质大数据关系网络,才能把握地质大数据的本质。针对大型复杂的研究区域,地层、物探、化探、影像等数据之间的关系如何定量表达,这一系列表达关系的变量中是不是存在一些整体上有规律的部分,这是地质大数据背后的关系网络研究的重要内容。

  5 地质调查大数据处理技术开发方法

  地质调查大数据处理技术的开发既要继承以往地质数据处理技术开发的一些方法与技巧,更要考虑在开发思路上的不同之处。

  (1)为了降低成本,提高能效,地质调查大数据相关系统需要摆脱传统的通用体系,趋向专用化架构技术[14],适度抽象有利于整体把握地质调查大数据处理技术的一致性与协调。

  (2)以往地质调查数据处理技术和系统更多地是面向3S技术,一些系统是3S技术在地质调查工作中的应用,对地质调查服务与应用环境、性能等方面缺乏深入工作。地质调查大数据处理技术开发只关注3S技术已经不够,还要关注信息科学与技术的发展,尤其是计算机科学与技术的发展。

  (3)重视具体应用软件开发、忽视软硬件集成开发是以往地质调查数据处理系统开发时的缺陷。地质调查大数据处理技术开发不仅要关注软件,还要关注系统,尤其是信息系统与物理系统结合、信息技术与自动化技术结合。

  (4)以往地质调查数据处理系统开发偏重系统功能的实现,地质调查大数据处理技术开发只关注功能实现已经不可能了,还要关注性能与复杂度,开发难度提升。

  (5)地质调查大数据处理所涉及的数据与计算规模是空前的,必须有精准的需求分析,以及完整、可靠的技术设计,在严格的技术监督下逐步展开,否则可能造成经费和时间的浪费。

  6 结 语

  地质调查大数据处理技术是地质调查信息化服务的技术核心,以信息化服务产品体系推动资源共享是当前的重要目标。地质调查大数据研究,应从分析以往解决得不理想的地质问题入手,充分利用新一代信息技术,更新当前数据处理环境,在新环境下提出合理、有效的解决方案。另外,考虑在数据体量增大、类型复杂、响应时间有要求的情况下,针对以往解决得不理想的地质问题,着重进行地质数据的智能分析与深度挖掘,考虑合理、有效的解决方案。

  参考文献

  [1]孙广宇,王鹏,张超。基于新型非易失存储的存储结构[J].中国计算机学会通讯,2014,10(4):18-25.

  [2]Scott C. Latency Numbers Every Programmer [EB/OL](2015-01-28)[2015-02-03]2015.

  [3]哈索。亚历山大·蔡尔。内存数据管理[M]. 北京: 清华大学出版社,2012.

  [4]赵鹏大。 大数据时代需重视数字地质研究。中国国土资源报, 2013.

  [5]覃雄派,王会举, 杜小勇, 等。 大数据分析--RDBMS 与MapReduce 的竞争与共生[J]. 软件学报, 2012, 23(1): 32-45.

【地质调查大数据处理的技术问题与开发方法论文】相关文章:

1.硕士毕业论文研究方法调查与分析的论文

2.《软件开发方法与实践》课程教学内容与教学方论文

3.会计核算数据处理的几个阶段论文

4.中学体育与健康教育现状的调查与对策的论文

5.学术论文写作的思路与方法

6.市开展产业扶贫的调查与思考论文

7.亲子游产品市场的需求与开发策略论文

8.中学体育与健康教育现状的调查与对策论文

9.计算机数据处理软件技术论文