读《大数据》

如果你想从技术方面了解下大数据是怎么回事,那么我可以明确的告诉你,这本书不适合你;如何你想了解下美国的信息社会建设历程,那么看这本书还算适合。这本书有点跟风大数据概念的的意思,书的内容是介绍的美国政府信息社会的建设历程,书的最后,作为中国人的作者也不忘鄙视下国内的体制及现状,站在技术的角度来看,这本书只能说和大数据沾点边。
5分满分的话,我给这本书打分3分,如果书名改成《美国民主社会信息化进程》的话可以上升的4分,综合其内容来看还算是本不错的书,鉴于此我将本文的题目定为:读《大数据》,看美国信息社会历程。我是比较反感这种跟风炒概念做法,有网友就直接断言,凡是国外热炒的概念,国人写的关于这类概念类的书都是基本都是垃圾。这个看法不无道理,一种理念的形成是在特定环境下酝酿而成的,或是在一定的基础上发展而来的。国外热炒的概念在国内没有形成环境和基础,国人写这类书大多数为了生计,没有什么深入的思考,所以也就谈不上什么价值。
本书的主题内容讲述的是美帝制度及其完善过程,如果要谈什么感想的话,肯定是犯忌讳的,这里就不发感慨了。从读本书的初衷出发,还是站在技术的角度,从书中挑点跟技术相关的聊聊我的感想。
数据可视化
数据可视化(Data Visualization)的定义是:指以图形、图像、地图、动画等更为生动、易为理解的方式来展示数据的大小,诠释数据之间的关系和发展的趋势,以期更好地理解、使用数据分析的结果。
之前我一直不太重视数据的可视化,认为图表一样能反映问题,图形只是一种展现形式,没有图表来的实际。看了书中关于可视化的介绍之后,算是真正理解了数据可视化的重要,这也是读这本书之后最大的收获。上面的图片是南丁格尔在1855年绘制的,这种图形一般叫做极区图,也叫南丁格尔图或玫瑰图。这张图描述了1854年4月~1856年3月期间士兵死亡情况,该图形用蓝、红、黑三种颜色表示三种不同的情况,蓝色代表可预防和可缓解的疾病治疗不及时造成的死亡、红色代表战场阵亡、黑色代表其他死亡原因。通过图形对比,很明显的看出非战斗减员的数量巨大。
南丁格尔的这张图表以及其他图表,生动有力的说明了在战地开展医疗救护和促进伤兵医疗工作的必要性,打动了当局者,随后就增加了战地医院,改善了军队医院的条件,减少了非战斗减员的数量。 可以说一张图催生了一个医院,改变了一个制度,南丁格尔也因此被后世称为“现代护理业之母”。通过这个例子也看出,让老板直接看到或感受到数据分析的成果的重要性。
数据的粒度
数据的粒度越小说明信息越精确,原始数据比经过加工过的数据价值要大得多。数据的粒度越小,整合的方式也就多种多样,整合之后的价值就越高。
书中的列举了两个例子:
一个是:美国海洋和大气管理局(NCAA)在网上免费提供实时的天气预报数据,还提供批量下载功能。天气管理相关行业也飞速发展,2001年,普华永道对此做了专门的调查,结果表明:受益于免费的数据发布,2000年美国的天气风险管理行业产值是整个欧洲的近60倍,整个亚洲的146倍。
另外一个是:美国交通部开放了全美航班起飞、到达、延误的数据,就有程序员利用这些数据开发了航班延误分析系统,帮助乘客选择合适的航班。这是大众创新的最好典范,这一切得益于信息发布的粒度和免费机制。
数据不会因使用而被消耗,相反,它可以为创新提供无穷的燃料。一小片合适的信息,可以促使创新迈进一大步。一组数据,可能会得到数据收集人难以想象的应用,因为这些创新型的应用,数据的能量将会层层放大。
本文作者:潘德成
本文链接:https://www.pandecheng.com/articles/201308/big-data-revolution.html
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 3.0 CN 许可协议。转载请注明出处!
如果你想和作者深入探讨一下,请添加作者个人微信,添加请备注“博客读者”