大家好,奇数学院接下来会长期推出数据百科问答系列篇,旨在为那些对数据感兴趣的朋友创造一个涵盖各数据领域的概念知识库。该系列我们鼓励任何人都可以参与撰写,只有你有奉献精神。我们会充分调动数据人的力量,汇聚各路英雄好汉的头脑智慧,积极的分享大家对任何相关数据知识的理解和洞察。开篇之作,由我们奇数学院的大师兄,为大家奉献一篇“什么是数据”,来进行抛砖引玉。

世间万物皆可量化

什么是数据?在很多人的印象中,数据就是数字,或者必须是由数字构成的,其实并不是这样的。给数据下个定义,凡是可以电子化记录的其实都是数据。根据这个定义,数据的范畴比数字要远远大的多。互联网上的任何内容,比如文字、图片和视频都是数据;医院里包括医学影像在内的所有档案也是数据;公司和工厂里的各种设计图纸也是数据。

虽然数据本身是客观存在的,但是它的范畴也是随着数据记录技术手段的进步而不断变化和扩大的。在计算机出现之前,一般书籍上的文字内容并不看成是数据,而今天,这种以语言和文字形式在内的内容是全世界各种信息处理中最重要的数据,也是全世界通信领域和信息科技产业的核心数据。

记录数据的技术手段,比如手机、数码相机、各种工程设备上的探头等,都是具有时代特征的,因此数据也是具备时代特征的。很久以前,图像是数据吗?并不是,因为记录不下来。大自然的美景,在以前只能用肉眼来欣赏。但今天就不一样了,数码成像技术让所有的图像都能够记录下来,而且分辨率非常高。只有数据被记录下来了,人们就可以在这些数据基础上做进一步的分析和建模,支撑很多有趣的应用。比如人脸识别、指纹识别、美图秀秀等。

图片

当文字变成数据

2004年,谷歌发布了一个野心勃勃的计划:它试图把所有版权条例允许的书本内容全部进行数字化,让世界上所有的人都能通过网络免费阅读这些书籍。刚开始,谷歌所做的是数字化文本,每一页都被扫描然后存入谷歌服务器的一个高分辨率数字图像文件中。然而,用户想要知道自己要找的内容在哪本书上,还是不好找。因为这些数字文本没有被数据化,所以它们不能通过搜索词被查找到,也不能被分析。

谷歌知道,这些信息只有被数据化,它的巨大潜在价值才会被释放出来。因此谷歌使用了能识别数字图像的光学字符识别软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本。当文字变成数据,人就可以阅读,机器也可以分析。谷歌精明地利用这些数据化了的文本来改进它的机器翻译服务。而亚马逊把几百万本书籍数据化了,并不像谷歌放在分析数据化文本上,而是聚焦于用来阅读的书籍内容上。

图片

当方位变成数据

地球本身构成了世界上最基础的信息,但是历史上它几乎从来没有被量化和数据化过。早期,有很多记录地理位置方位的方法,但由于缺乏广为认可的标记标准,使得信息共享一直难以实现。如今,GPS进行定位已经变得很流行,仅需要几秒钟的时间,就可以记录一个人或者事物的精准位置信息。GPS也只是众多定位系统中的一种,越来越多的新的卫星定位系统被开发,这些新的系统通过对电塔和无线路由器的信号强度进行三角测量来定位地理位置,从而弥补GPS无法在室内和高楼之间进行定位的缺陷。

除了人以外,我们也可以跟踪事物的地理位置信息。随着汽车装上了无线传感器,地理位置信息的数据化深刻变革了保险的概念。这些数据提供了关于时间、地点和实际行驶路程的详细信息,使得保险公司能更好地为车险定价。这样保险公司就可以根据车主的驾驶地点和时间评估车主风险,而不是他的年龄、性别和履历来购买车险。

多年来,运营商通过收集和分析这些地理位置信息来提升移动互联网的服务水平。很多智能手机的应用程序也不管它本身是否具有定位功能,就收集地理位置信息。毋庸置疑,收集用户地理位置数据的能力已经变得具有价值。

图片

当沟通变成数据

数据化的另一个前沿更加个人化,直接触摸到了我们的关系、经历和情感。数据化的构思是许多社交网络公司的脊梁。社交网络平台不仅给我们提供了寻找和维持朋友、同事关系的场所,也将我们日常生活的无形元素提取出来,再转化为可作新用途的数据。Twitter通过创新,让人们能够轻易记录以及分享他们零散的想法(这些在以前,都会成为遗忘在时光中的碎片),从而使得情绪数据化得以实现。Facebook的出现,正式将关系数据化,社交关系在过去一直被视作信息而存在,但从来没有被界定为数据,直到Facebook的社交图谱的出现。Linkedin将我们过去漫长的经历进行了数据化处理:我们可以认识谁,或者哪里存在一份心仪的工作。

然而,由于社交数据因其保密性,其数据的使用还远未成熟。就Facebook而言,因为知道泄露用户数据会让用户反应过激,所以它精明地选择了忍耐。但是公司从来没有停止数据收集的脚步,也在隐私问题上不断进行商业模式和政策上的调整。社交数据的价值非比寻常,一些消费者信贷领域的创业公司正在与Facebook社交图谱为依据的信用评分。同样,Twitter公司实现了人们想法、情绪和沟通的数据化,这些都是以前无法实现的。通过对这些数据做情感分析,可以获得顾客反馈意见的汇总或者营销活动效果的判断。

图片

通过这篇文章,我相信大家对数据的理解已经是更进一步了。今天,我们生活在一个时刻被记录的社会,因为我们相信世界可以通过数字和数学而获得解释。明天,我们的下一代,一群被大数据思维陶冶长大的家伙,会发自肺腑地认为”量化一切”并从中学习对于是至关重要的。把各种各样的人和事物转化为数据,对今天的我们来说也许是新奇而有趣的,但在不久的将来,这将变成如同吃饭睡觉一样与生俱来的能力。

点赞(2) 打赏

评论列表 共有 0 条评论

暂无评论
立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部