@东营人 只需“一顿饭” 带你读懂大数据

2020-08-21 10:05:22 来源: 东营网-黄河口晚刊 作者: 王向鹏 丁小伟 李垒垒

  “大数据”这个概念火了很久,给人感觉看似很清晰但又很不容易说得清楚。从字面上看,大数据就是很“大”的“数据”,或者说就是巨量数据集合。

/

  早在多年前,百度首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。“广西人最爱点赞,河北人最爱看段子,最关心时政的是山西人,最关注八卦的是天津。”这组有趣的数据,是今日头条根据用户阅读大数据得出的结论。而比这个更精准的数据,是三年前美国明尼苏达州的一则八卦新闻:一位气势汹汹的老爸冲进一家连锁超市,质问超市为什么把婴儿用品的广告发给他正在念高中的女儿。但是这位父亲跟他女儿沟通后发现自己的女儿真的怀孕了。在大数据的世界里,事情的原理很简单——这位姑娘搜寻商品的关键词,以及她在社交网站所显露的行为轨迹,使超市的营销系统捕捉到了她怀孕的信息。

/

  大数据来源于海量用户的一次次的行为数据,是一个数据集合,但大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。下面我们就通过“做一顿饭”的方式来了解大数据是如何应用的。

  通常做一顿饭都要包括“买菜、洗菜、配菜、炒菜”这几个必须环节。而这几个环节正好对应了数据的生产过程:买菜(数据采集)→洗菜(数据清洗)→配菜(数据建模)→炒菜(数据加工)。

/

  1、买菜(数据采集)

  正所谓“巧妇难为无米之炊”,做饭首先得有食材,大数据也一样,没有数据说什么都是白扯。因此第一步我们要考虑去哪里买菜,到地之后溜达溜达看看买什么食材,看中一个之后讨价、还价、交钱、回家,买菜的地方(菜市场、超市等)就是我们通常所说的数据源,购买的食材就是数据,而买菜的过程叫做数据采集。

  2、洗菜(数据清洗)

  菜买回来就要把菜先洗一下,无论哪里来的食材,买回来后都得洗干净、摘清楚才能吃,不然小则影响口感,大则损害健康。数据也是一样,采集回来之后需要检查一下,数据内容有没有缺斤少两,数据值里有没有烂菜叶,不然后面分析出来的结果就全是错误结论了,这个检查、纠正数据本身错误的过程叫做数据清洗。

  3、配菜(数据建模)

  配菜指的是根据要炒什么菜,将需要的各种食材事先搭配好放在一起,比如我们要炒木须肉,那就把猪肉、鸡蛋、黄瓜都洗净、切好放在一个碗里,这样在炒菜的时候可以手到擒来,无需到处找食材,能够很好的提升炒菜的效率。而在大数据技术里,也同样有个专业性很强的配菜流程,这就是传说中的数据建模。

  数据建模就是建立数据存放模型,把各个数据源过来的各种数据根据一定的业务规则或者应用需求对数据重新进行规划、设计和整理。

  4、炒菜(数据加工)

  炒菜相信大家都不陌生,如果配菜是个艺术活,那炒菜就绝对是个技术活了。各位大厨不但要有能力把各种食材组合起来炒熟,还得灵活运用油、盐、酱、醋等多种配料,保证菜品的色香味俱全。既然是开门迎客,各种消费者的需求都要能够响应,而且要又快又好。数据加工就是在炒菜,是个将各种数据进行计算、汇总、准备的流程,是为最后的数据应用和数据消费者服务的。

/

  大部分人看数据希望图文并茂、简单易懂,所以大厨们得事先把数据加工成可视化数据,让人对关键指标一目了然,并且采用各种技术手段保证数据应用的性能(上菜的速度),顾客饿了的时候能及时上菜。

  通过上面大数据应用的基本流程我们可以看到大数据本身不仅可以代表价值,而且大数据本身也可以创造价值。在此次新冠肺炎疫情期间,数家科技互联网公司陆续通过数据和技术能力,给全社会提供了大量数据支撑;例如百度的迁徙数据,精准计算出离开武汉和滞留武汉的人数,为政府防控提供了决策参考;再比如12306票务平台,利用实名制售票的大数据优势,及时配合地方政府及各级防控机构,第一时间提供了确诊病人车上密切接触者信息。

  此外,利用大数据技术实现信息共享、快速查询,很多媒体平台和互联网平台纷纷开辟了新冠肺炎动态更新、疫情展示和辟谣功能,使用者在鱼龙混杂的信息当中回归理性,让权威信息“跑”在谣言前面,及时安抚了公众情绪,从另一个层面“抑制”了病毒蔓延。

  大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门,其深度应用不仅有助于企业经营活动,还有利于推动国民经济发展。它对于推动信息产业创新、大数据存储管理挑战、改变经济社会管理面貌等方面也意义重大。

初审编辑:

责任编辑:丰丽莎

相关新闻
推荐阅读