分享到:
电话:0371-61318821
助力企业快速实现 "互联网+" 计划

官方微信

郑州星云互联新闻中心,郑州星云互联资讯
首页 > 新闻中心 > 行业新闻

大数据当前研究现状及未来主要研究热点

随着数据量的飞速增长,对大数据进行获取、存储、组织、分析和决策的基本策略是把大数据的计算推向数据,而不是移动数据,因为在大数据处理过程中数据移动代价过高,在分布式环境中,传统的数据处理方法在不高于TB级别数据处理可能可以接受,但面对大数据,其执行时间和执行成本至少会增长几个数量级,特别是对大量实时数据分析,这种移动数据的计算模式是不可取的。小编带大家来了解一下当前研究现状及未来大数据主要研究热点。


一般情况下,大数据管理全生命周期过程包括大数据获取、存储、组织、分析和决策等五个阶段,围绕大数据管理生态系统的研究,可以围绕结构化数据管理及非结构化数据管理两个方面进行研究。围绕结构化数据管理,即传统的关系数据库管理系统,衍生出传统的大数据获取、存储、组织、分析和决策生态系统。而关系数据库作为大数据管理的核心数据引擎,各类结构化数据通过ETI工具按照其结构特征进行组织,存储到关系数据库中,再在客户端通过SQL语言进行例行性的数据分析,进而根据数据分析结构进行技术性决策分析,目前,处理结构化大数据的关系数据库管理技术已经非常成熟,如商业型Oracle、SqlServer、开源型MySql等,均具备了强大的结构化数据管理功能,并且均拥有较为强大的数据仓库功能,对于的数据挖掘技术也已经充分满足一般的结构化数据分析、决策需求。

但针对复杂的结构化和非结构化大数据处理需求,Sql语言表达能力就暴露出了一定局限性,在某些特殊大数据处理过程中,需要把数据从数据库中读取出来,导致大量数据的移动,将数据导入到前端分析工具(如SPSS、SAS等),借助于统计分析软件进行大数据深度分析和决策,这样产生的致命性问题就是大数据移动会造成性能急剧下降。因此,SPSS、SAS等数据分析企业正在致力于把计算过程封装在数据库系统中执行,但目前进展有限,并且大数据分析函数的分布化、并行化、数据处理系统的扩展性、灵活性、智能性等仍然是难以解决的问题。

随着Hadoop开源框架及其相关技术的迅速兴起和逐步完善,使其成为打开大数据之门的金钥匙,也成为解决传统的大数据处理方式所面临的两大难题的关键,从而推动大数据管理的新生态系统的浮现。从技术上看,Hadoop两项关键服务:采用Hadoop分布式文件系统的可靠大数据存储服务、及基于MapReduce编程模型的高性能并行大数据处理服务,能够提供对结构化和复杂数据、非结构数据的快速、可靠分析变为现实,并可与老的信息管理系统部署在一起,从而能够以有利新方式组装新旧数据集合,让图书馆可以根据自有信息和问题定制知识服务组合方式,更容易地分析和研究复杂数据,同时作为一个自愈系统,在出现系统变化或故障时,它仍可以运行大规模的高性能处理任务,并提供数据。其他诸如HadoopCommon、Chukwa、HBase、Hive、Pig、ZooKeeper等大数据处理添加件、交叉集成件和定制实现,均能为新生态系统提供强大的技术支持。

尽管如此,当前各个方面的相关研究都不能完美的解决大数据核心问题,仍然有许多极具挑战性的工作等待着我们去研究。

(1)关系数据库和MapReduce技术有机融合的研究。如前所述,MapReduce与关系数据库各有优缺点,如何依据不同的大数据处理业务需求,设计同时具备两种技术优势的技术架构(即有关系数据库的通用性、易操作性和MapReduce的可扩展性、开放性、灵活性、容错性和智能性),在对关系数据库更深层次了解的基础上,深入分析MapReduce编程模型内在的局限性和并行计算模型。如何有机融合关系数据库技术和MapReduce技术,使之能够有效地支持迭代式并行计算模型的执行,这也是大数据处理技术的核心问题之一。

(2)对结构化数据和非结构化数据更加复杂的或更大规模的分析。MapReduce计算模型在很大程度上,能够弥补关系数据库在这两个方面的缺憾,而在云计算环境中可以初步实现更加复杂和更大规模的大数据处理,比如大规模社会计算、大规模社交网络、时间序列分析、大规模图分析、及更细粒度的仿真等,这一类技术仍然不够成熟,需要花费更多的时间、精力去探讨。

(3)大数据获取、存储、组织、分析和决策操作的可视化接口。如何较好的实现大数据处理的各个阶段的可视化、智能化、及个性化的展示和操作,尤其是多维数据操作、及决策结果评估的可视化的智能展示。

(4)大数据管理系统的可靠性研究。当前大数据管理体系是基于大规模廉价计算机集群的云计算环境,采用的是主从结构,由此决定了主节点一旦失效,势必会造成整个大数据管理系统失效的局面。因此,如何在不影响全局的情况下,提高大数据管理系统的主节点的可靠性,将是未来需要解决的关键问题之一。

(5)大数据的网络传输和压缩问题。MapReduce编程模型的计算特征决定了其性能取决于I/O和网络传输质量和计算代价。而数据压缩技术不仅可节省存储空间、节省I/O及网络传输带价,还可利用云计算环境中存储能力和并行计算能力,大幅提升大数据管理系统的性能。HeYongqiang和AvriliaFloratou所带领的两个团队均成功的利用数据压缩技术提升了大数据管理系统的性能,但这些研究都是基于他们各自的大数据处理模型,而非默认的Hadoop数据处理模型。因此,基于MapReduce编程模型的通用型大数据压缩技术也是尚待研究的核心技术之一。

转载自网络 不用于商业宣传 版权归原作者所有,侵权删。

www.xyhlrj.com

作者: 时间:2018-11-29 阅读:1262 分享到: