大数据科普系列(一) 什么是大数据?
2019-10-30阅读 1563

“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”——马爸爸2016年CEO卸任演讲

那么,都“9102”年了,你了解大数据吗? 相信很多同学都不清楚,所以为大家带来了一系列大数据科普。

什么是数据

数据(data),就是对客观事实的描述或是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字,也可以是文字、图像、声音等。在计算机系统底层,数据以二进制信息单元0,1的形式表示。    

什么是大数据

数据(big data),指的是在一定时间范围内不能以常规软件工具处理(存储和计算)的大而复杂的数据集。说白了大数据就是使用单台计算机没法在规定时间内处理完,或者压根就没法处理的数据集。

那么,大数据有哪些特征呢?

我们通常会从容量(volume)、种类(variety)、价值(value)、速度(velocity)四个方面来描述:

第一、大量化:这也是所有同学最容易想到的。比如我们日常生活离不开的微信、支付宝,我们的任意的聊天或者支付都会有相应的记录,这样每天将会产生数十亿条、百亿条乃至更多条数据。这仅仅是一天的量,那一月呢,一年呢?与此类似的场景在各行各业均有涉及。

据英特尔预测,全球数据总量在2020年将达到44ZB,而中国产生的数据量将为8000EB,8000EB是什么概念?整个地球上所有沙粒总数的10倍!


1.png

第二、多样化:包括结构化数据、半结构化数据和非结构化数据,而这些数据可能来自于传统企业数据、社交数据及物联网数据。

    • 结构化数据:数据以行为单位,每一行就是一条记录,每行数据的属性是相同的,能够用统一的结构表示,说白了就是可以用关系型数据库(RDBMS)来进行管理的数据。

    • 非结构化数据:没有固定的数据结构,一般将其作为一个整体进行存储,比如各种图片、视频、音频等。

    • 半结构化数据:介于结构化数据和非结构化数据之间,比如HTML和XML文档,其内部用成对的标签记录对应的数据,但每个文档内部的标签又不是统一的,没有固定的规律。

    第三、价值密度低:单条记录基本无意义,无用数据多,但是整个数据集综合价值大、隐含价值大,所以需要对大数据进行分析和挖掘,从数据金矿中掘金。比如,我们拿到一个电商网站的售卖记录数据集,单看其中任意一条记录,不外乎知道了某个人买了什么东西,但是我们要是把这个人所有的购买记录拿在一起分析,就能得出这个人的购买偏好,从而对他进行精准商品推荐。

    第四、速度快:在这个万物互联的的时代,每时每刻都在产生数据,而这些数据需要被及时处理掉,因为存储价值密度较小的历史数据需要花费很大的存储成本,非常不划算,一般平台保存的历史数据只有几天或者一个月,再远的就要清理掉,所以数据处理的速度也必须跟上,谁家处理速度更快,谁家就更具竞争力。

    一句话总结大数据的4V特点:体量大种类多速度快价值密度低

 

头像
朱明虎
6
文章总数
9437
总阅读数