在进军物联网时代的征途中,一个巨大的问题横亘在所有解决方案面前:数据量正在井喷式的增长。万物互联与互联网时代最直观的区别之一,就是数据的产生和处理量级上有了本质的飞跃。
如一台智能化新能源汽车,每秒钟产生的数据量可达到1GB,一台波音787 每秒钟产生的数据量高达5GB;在国家“信创”大背景下,更多国产智能设备注入各个领域,其产生的数据规模相当可观。
如若不能妥善地存储和处理这些数据,“万物互联”也只能是一句空谈。数据库自然是存储海量数据进行加工使用的最终壁垒。时下,针对数据库的革新与颠覆,对构建真正的物联网世界而言即夯实地基,这也是整个信创领域的主旋律。
“半壁江山”关系型数据库,或已不适配当前的时代
关系型 or NoSQL?对于正在加快物联网化进程的企业来说,这是一道火烧眉毛的问题。
在20 世纪70 年代初,为了减少数据冗余、降低存储费用,关系型数据库应运而生。关系型数据库最大的特征是遵循一定的范式,包括数据类型、数据间关系、ACID规范等。关系型数据库的一个典型特征,不同的关系表之间进行计算后,其结果也依旧是关系型!这些特性让关系型数据库对数据的标准化拥有支撑。关系型数据库从诞生之初到现在,走过了50 年的风雨,衍生出Oracle、MySQL、Db2、SQL Server等一系列庞大的家族谱系。目前,市面上占据绝大多数份额的数据库,都还是关系型数据库。
关系型数据库在数据标准化上有相当好的支持。随着信息技术的发展,进入21 世纪后,关系型数据库显示出那么一丝的力不从心,其不足也慢慢凸显。关系型数据库往往通过“强一致性”来避免数据库应用中出现的写入冲突和读取冲突,如限制多端读写。当然,这也严重影响了数据的读写和存储效率。进入21 世纪,数据量的爆发式增长,以及数据类型的多样化,对于仅支持垂直扩展(即只在硬件方面加强)的关系型数据库,是一份来自时代的严峻挑战。
在布局物联网的进程中,不少企业已经开始拥抱NoSQL类型数据库。
对数据读写性能的强需求,使NoSQL类型的数据库在进入21 世纪后,逐渐成为科技行业的新宠。NoSQL即Not Only SQL,泛指不使用关系模型、分布式的数据库,由于其不要求“强一致性”,仅需保证数据的“最终一致性”,可以轻松实现大量数据的存储和读取。同时,NoSQL类型的数据库通过分库分表的方式,可实现水平扩展,而非像关系型数据库仅支持垂直扩展,更适应多业务应用场景。
读写效率的提高,以及多场景的应用,让NoSQL类型的数据库看起来更像是为物联网时代量身定制的“利器”。
综合看来,关系型数据库和NoSQL类型数据库,在标准化和效率+扩展性方面各擅胜场。
物联网时代智能硬件的爆发式增长改变了一切,网络开始呈现出巨量数据、多种类数据的特征,这些都对数据的存储和读写能力提出远超当下水平的需求。对数据量、效率、扩展性等的多重高要求,甚至催生了“云计算”的优化算法“边缘计算”,即数据不全部上云,而是分布处理、仅将结果汇总。
这也折射出一个现象:当下互联网承载的数据量增速远远超出了网络的升级速度,将数据进行分布式存储与处理,减小信道拥堵和信息传递延时,是产业智能化的一种“因地制宜”。边缘计算是应对海量数据的一剂良药,然而边缘计算对数据的读写性有着更高的要求。
信息技术的飞速发展,让时代的天平慢慢倒向NoSQL类型的数据库,因为它实在太适合工业物联网这种海量数据的应用场景了。
“信创”大潮的掀起了硬件更新的革命;智能化设备蜂拥进入网络,让工业生产朝着低人工成本、智能化的方向迈进了一大步;边缘计算中数据分布式存储、运算的刚需,也让关系型数据库支持乏力的通病集中暴露。
所有工业生产领域,欲求实现真正意义上的互联网,就必须对当前占据主流份额的关系型数据库发起一场革命。
Big River超融合数据库:为工业物联网量身定制
无论在何种领域的工业生产中,设备巡检、监控的智能化,是自动化生产最迫切、最重要的一环。
生产过程异常不仅影响良品率,严重的甚至会损坏生产线,酿成巨大经济损失、重大安全事故。如何通过监控的构建完成一体化监管,也是构建工业物联网的核心问题。在工业生产中,对数据监控的稳定运行要求更高、容错率更低;不同设备产生的监控数据类型往往各异,在传统数据库中造成了读写困难,在“信创”浪潮下各种国产设备涌入工业网络,更加剧了这一现象。
传统关系型数据库在这样的场景下集中暴露的问题,最为凸出的有两个:
首先是效率,“强一致性”的要求导致在高频读写的时候性能出现瓶颈,造成信道堵塞;
其次是生态的横向扩展,仅支持垂直扩展的结构特征对不同开发语言、不同数据类型的应用兼容不友好,严重限制了拓展性。
为工业生产赋能,美信科技打造了针对工业物联网场景的杀手锏——Big River超融合数据库。
BigRiver数据库是一种基于key-value的高性能、分布式、易扩展的混合型数据库,其根据海量数据特点弥补了关系型数据库的不足,可较好地兼容多种数据库类型,支持k-v数据库,兼容关系型数据库。其不仅具有NoSQL对海量数据的存储管理、灵活扩展能力,还保持了传统关系型数据库支持事务等特性。
相较于市面上应用于工业场景的数据库,Big river数据库既拥有时序数据库的快速读写、存储优势,又具备相较于关系型数据库更为直观、简洁的特性。针对工业物联网应用场景的特性,Big River数据库在设计上,通过以下几个技术特点来对目前工业物联网的监控进行升级突破:
性能优化:
基于C语言优势,将轮询效率提到毫秒级:Big River数据库采用C语言自主设计研发,针对实时数据特点,被检测设备直接将数据发送到监控主机,并存储在缓存中。业界普遍的监测频率仅能达到分钟级,Big River数据库可以实现毫秒级快速轮询。工业物联网相较于IT领域,往往对轮询频率有更高的要求,这样的高灵敏度有助于设备异常的排查。工业领域能在单位时间产生海量数据,数据库的效率是第一要务。
可分布式集群部署,实现海量数据存储:Big River数据库支持分布式集群部署,其中每个节点拥有一个数据子集。数据查询被分成查询片段发送给自己所在的数据的节点上执行。这些数据库可以通过添加额外的节点来线性扩展。分布式架构+非结构化存储=水平扩张,分布式存储与高并发访问带来性能的飞跃。另外,BigRiver数据库基于闭树算法也可根据数据的实际长度自动调节数据存储占用的存储空间,减少不必要的存储空间的占用,达到优化数据存储空间的目的。
高频写入操作优化:BigRiver数据库相较于传统关系型数据库,基于其K-V特性可以更好地展现树形结构数据间的逻辑关系;应用双缓冲机制,实现高频写入优化,使其拥有了时序数据库一样的高频读写、大容量存储的特性。以监控应用为例,监控数据先写入缓存,再定时写入数据库磁盘,大幅减少写入压力。基于64 位缓存寻址,足以支撑单台服务器监测上万监测指标,记录行数可达到百亿级以上,访问时间秒级以内。
应用场景应用优化:
支持事务功能:Big River数据库保留了关系型数据库支持事务功能的优势,这是市场上同类型数据库所不具备的。事务功能的核心要求是数据一致性,Big River数据库在数据库操作失败或者系统出现崩溃时,系统能够以事务为边界进行恢复。当有多个用户同时操作数据库时,数据库能够以事务为单位进行并发控制,使多个用户对数据库的操作相互隔离。事务功能使系统能够更方便的进行故障恢复以及并发控制,从而保证数据库状态的一致性。BigRiver数据库支持事务的特性,保证了其应用于企事业单位中的可靠性。
灵活数据类型:不同于传统关系型数据库,BigRiver数据库不需要了解键值对中值的数据是什么数据类型,可以是二进制、文本、Json、XML等。非结构化的特性带来了极高的灵活性,保证了在数据库中增删数据的易用性和易操作性。
简化数据模型设计:传统的关系型数据库中,树形结构很难用表与表之间的关系来表示。而BigRiver数据库的K-V特性可很好的展现树形结构的数据之间的逻辑关系,可以很好的达到所见即所得的效果。
轻量级敏捷开发:BigRiver数据库体量小,对环境的依赖程度小,部署灵活,易于维护,且数据易备份、易转移。具有专用管理工具,通过所见即所得带来开发的敏捷,开发运维成本降低。
Big River数据库根据工业物联网的特点,针对高频读写和数据存储进行优化,更适用于大数据量、高并发的数据存储与处理工作;分布式部署的特性更是可以完美支持企业构建边缘计算体系。时下,工业领域动辄几千台设备在工业生产中只是常态。传统监控系统多应用关系型数据库,单点在监测几千台设备的情况下就会出现性能下降,而应用了Big River的监控易单台服务器可以轻松监控上万个监测点,实现秒级轮询的同时长时间保持稳定运行。
根据使用的侧重点不同,Big River数据库可为采集监控类应用(大数据量)、数据网关(高并发数据读写)、分布式检测(分布式部署)等应用场景赋能。
Big River数据库如何汇入信创时代大川
物联网时代的到来,对大数据的存储性和读写性要求达到了空前的高度;“信创”带来的国产替代热潮,也同时扩大了智能硬件进入的窗口。
这一切,都在倒逼数据库市场成长。根据艾瑞咨询发布的《中国数据库行业研究报告(2021)》,2020 年中国数据库市场总规模达247.1 亿元,同比增长16.2%;政策对国产数据库的扶植也达到空前规模,这使得国外数据库厂商的份额下降至52.4%。
由于数据库建设和企业基础设施的滞后性,目前关系型数据库占到市场份额的90%以上,寻求高性能的NoSQL类型的国产数据库替代仍然有很大空间,类似于Big River这样同时具备高频读写、海量存储、分布式部署等NoSQL特征和关系型数据库的事务管理特性的混合型NewSQL类型数据库,毫无意外地将会是新基建以及信创环境下国产替代的重要抓手。
目前,Big River数据库已经广泛应用于政府 、军工 、医疗 、能源 、金融 、园区 、交通 等领域。相关领域共同面临以下矛盾:
智能设备的大量接入、数字化运维的高要求,和数据库日益跟不上性能要求的矛盾;
基础设施的飞速扩张,和用地限制导致必须分布式部署的矛盾;
国产替代种类繁杂,和大规模运维生态难以兼容的矛盾。
Big River数据库在设计之初就致力于消除上述宏观矛盾。在长期的客户服务中,逐步验证了设计思路的成功。
如在某互联网集团智慧园区的建设过程中,园区分布于全国,规模已经达到62 万平房千米并且每年以30 万千米体量快速增长;设备丰富,运维人员少。美信科技通过在园区内部署Big River数据库,对园区内的网络设备、服务器、闸机、储物柜PAD、摄像头、车位检测器等终端设备采集数据,结合智能运维系统实现了五个园区的全部设备管理界面、视图、报表统一管理,并实现了良好的水平扩展和垂直扩展。
某国有电力企业进行一体化运维指挥中心建设的时候,美信科技应用一体化运维解决方案协助其完善了调度云建设,将分属市内三区的电力设施纳入一体化监管平台,协助其建立了视图化的网络和资产管理系统。该企业积极响应信创号召,引入大量国产替代设备,这些设备也在基于Big River数据库的一体化监控运维平台“监控易”中实现了整合。
纵观Big River的应用案例,高性能、分布式、扩展性是始终绕不开的3 个关键字。新基建和信创路线的提出,以及边缘计算已然成为物联网建设的必要解决方案,具备3 个重要特性的Big River数据库无疑将成为下一个时代重要基础设施,执数据库行业发展之牛耳。
信创蓝海的百舸争流,目前还处在各自为战的状态,各种技术标准和行业标准层出不穷,这是行业的生机蓬勃之相,却也为处在基础设施产业下游的生产企业建立工业物联网体系制造了门槛。美信科技反其道而行,如Big River数据库一般,产品打造遵循“被集成”思路,在做到比同类产品性能优越的基础上,大幅降低了客户企业进行基础设施升级的边际成本。这也是信创产业从最初的高速成长,逐渐步入标准化所催生的必然行业趋势。