第一节数据的时代

随着信息技术尤其是移动互联网的飞速发展,互联网上每天产生数以亿计的数据。根据IDC《数字宇宙》的研究报告,2020年全球新建和复制的信息将超过40ZB,是2012年的12倍;中国的数据量在2020年将超过8ZB,比2012年增长22倍。数据的爆炸式增长给人们带来了不可避免的信息过载问题,如何帮助人们从繁杂的信息中得到真正有用有效的信息成为各个互联网公司都在致力的工作。面对庞杂的数据,我们看到的不仅是困难和挑战,更多的是企业逐步数字化后带来的数据大规模应用的历史机遇。

从数据的采集来看,目前在工业界数据主要有三种应用数据应用方式:

1.报表统计;

2.数据分析;

3.机器学习。

三者之间各自解决相应的业务需求,且有层层递进的关系。

第一阶段,主要是对应用健康度的监控和对外秀肌肉的使用,例如UV、PV、跳失率、七日留存等。

第二阶段,是在数据采集的基础上对数据情况进行一系列的溯源和思考,从而得出能够指导业务发展的结论和意见。

第三阶段,则是在数据的基础上诞生了各种各样的人工智能的应用,数据真正的开始产生生产价值,是企业数字化后的下一步。这个阶段不同于前两个阶段的是,前两个阶段的数据主要是给人看,而第三阶段的所有的数据是用来给机器看,让机器理解,从而产生应用。这个阶段的数据是否能够用于分析,是否能够被人所理解,并不是核心关注点。

而从互联网发展以来,人们大致有三种方式解决信息过载问题:

(1门户网站——图书馆式分门别类的展示信息。

(2搜索引擎——通过搜索关键词获得所需信息。

(3智能推荐——根据用户行为被动获取信息。

具体的区别在之前已有阐述,故不赘述。本章聚焦的是推荐系统从庞杂的数据背后挖掘哪些有价值的数据用于处理信息过载,以及如何收集与挖掘。