大数据时代的思考
时间:10-02
整理:3721RD
点击:
大数据面前,我们何等渺小,难得好文,一口气读完,会有种感觉,创新永无止境,科幻引导未来。
一、大数据的初步理解 似乎一夜之间,大数据(Big Data)变成 一个IT行业中最时髦的词汇。 首先,大数据不是什么完完全全的新生事 物,Google的搜索服务就是一个典型的 大数据运用,根据客户的需求,Google 实时从全球海量的数字资产(或数字垃 圾)中快速找出最可能的答案,呈现给 你,就是一个最典型的大数据服务。只不 过过去这样规模的数据量处理和有商业价 值的应用太少,在IT行业没有形成成型的 概念。现在随着全球数字化、网络宽带 化、互联网应用于各行各业,累积的数据 量越来越大,越来越多企业、行业和国家 发现,可以利用类似的技术更好地服务客 户、发现新商业机会、扩大新市场以及提 升效率,才逐步形成大数据这个概念。
有一个有趣的故事是关于奢侈品营销的。 PRADA在纽约的旗舰店中每件衣服上都 有RFID码。每当一个顾客拿起一件 PRADA进试衣间,RFID会被自动识别。 同时,数据会传至PRADA总部。每一件 衣服在哪个城市哪个旗舰店什么时间被拿 进试衣间停留多长时间,数据都被存储起 来加以分析。如果有一件衣服销量很低, 以往的作法是直接干掉。但如果RFID传 回的数据显示这件衣服虽然销量低,但进 试衣间的次数多。那就能另外说明一些问 题。也许这件衣服的下场就会截然不同, 也许在某个细节的微小改变就会重新创造 出一件非常流行的产品。
还有一个是关于中国粮食统计的故事。中 国的粮食统计是一个老大难的问题。中国 的统计,虽然有组织、有流程、有法律, 但中央的统计人员依靠省统计人员,省靠 市,市靠县,县靠镇,镇靠村,最后真正 干活或上报的是基层兼职的调查人员,由 于众所周知的KPI考核导向的原因,层层 加码,几乎没有人相信这个调查数据,而 其中国家统计局的人是最不信的。在前两 年北京的一个会议上,原国家统计局总经 济师姚景源向我们讲述了他们是如何做 的。他们采用遥感卫星,通过图像识别, 把中国所有的耕地标识、计算出来,然后 把中国的耕地网格化,对每个网格的耕地 抽样进行跟踪、调查和统计,然后按照统 计学的原理,计算(或者说估算)出中国 整体的整体粮食数据。这种做法是典型采 用大数据建模的方法,打破传统流程和组 织,直接获得最终的结果。
最后是一个炒股的故事。这个故事来自于 2011年好莱坞的一部高智商电影《永无 止境》,讲述一位落魄的作家库珀,服用 了一种可以迅速提升智力的神奇蓝色药 物,然后他将这种高智商用于炒股。库珀 是怎么炒股的呢?就是他能在短时间掌握 无数公司资料和背景,也就是将世界上已 经存在的海量数据(包括公司财报、电 视、几十年前的报纸、互联网、小道消息 等)挖掘出来,串联起来,甚至将Face Book、Twitter的海量社交数据挖掘得到 普通大众对某种股票的感情倾向,通过海 量信息的挖掘、分析,使一切内幕都不是 内幕,使一切趋势都在眼前,结果在10 天内他就赢得了200万美元,神奇的表现 让身边的职业投资者目瞪口呆。这部电影 简直是展现大数据魔力的教材性电影,推 荐没有看过的IT人士看一看。
从这些案例来看,大数据并不是很神奇的 事情。就如同电影《永无止境》提出的问 题:人类通常只使用了20%的大脑,如 果剩余80%大脑潜能被激发出来,世界 会变得怎样?在企业、行业和国家的管理 中,通常只有效使用了不到20%的数据 (甚至更少),如果剩余80%数据的价值 激发起来,世界会变得怎么样呢?特别是 随着海量数据的新摩尔定律,数据爆发式 增长,然后数据又得到更有效应用,世界 会怎么样呢?
单个的数据并没有价值,但越来越多的数 据累加,量变就会引起质变,就好像一个 人的意见并不重要,但1千人、1万人的 意见就比较重要,上百万人就足以掀起巨 大的波澜,上亿人足以改变一切。
数据再多,但如果被屏蔽或者没有被使 用,也是没有价值的。中国的航班晚点非 常多,相比之下美国航班准点情况好很 多。这其中,美国航空管制机构一个的好 做法发挥了积极的作用,说起来也非常简 单,就是美国会公布每个航空公司、每一 班航空过去一年的晚点率和平均晚点时 间,这样客户在购买机票的时候就很自然 会选择准点率高的航班,从而通过市场手 段牵引各航空公司努力提升准点率。这个 简单的方法比任何管理手段(如中国政府 的宏观调控手段)都直接和有效。这里多 说一两句,过去一个**国家对内的控制 主要是物理上的暴力,就是强力机构权力 无限大,搞国家KB主义;而现在一个报 政国家,主要是就靠垄断信息、封锁信 息,让民众难以获得广泛而真实的信息, 从而实现国家的控制。这个信息封锁,就 是对大数据的封锁。
没有整合和挖掘的数据,价值也呈现不出 来。《永无止境》中的库珀如果不能把海 量信息围绕某个公司的股价整合起来、串 联起来,这些信息就没有价值。
因此,海量数据的产生、获取、挖掘及整 合,使之展现出巨大的商业价值,这就是 我理解的大数据。在互联网对一切重构的 今天,这些问题都不是问题。因为,我认 为大数据是互联网深入发展的下一波应 用,是互联网发展的自然延伸。目前,可 以说大数据的发展到了一个临界点,因此 才成为IT行业中最热门的词汇之一。
二、大数据将重构很多行业的商业思维和 商业模式 我想以对未来汽车行业的狂野想象来展开 这个题目。 在人的一生中,汽车是一项巨大的投资。 以一部30万车、七年换车周期来算,每 年折旧费4万多(这里还不算资金成 本),加上停车、保险、油、维修、保养 等各项费用,每年耗费应在6万左右。汽 车产业也是一个很长产业链的龙头产业, 这个方面只有房地产可以媲美。 但同时,汽车产业链是一个低效率、变化 慢的产业。汽车一直以来就是四个轮子、 一个方向盘、两排沙发(李书福语)。这 么一个昂贵的东西,围绕车产生的数据却 少的可怜,行业产业链之间几无任何数据 传递。
我们在这里狂野地想象一番,如果将汽车 全面数字化,都大数据了,会产生什么结 果?
有些人说,汽车数字化,不就是加个 MBB模块吗?不,这太小儿科了。在我 理想中,数字化意味着汽车可以随时联上 互联网,意味着汽车是一个大型计算系统 加上传统的轮子、方向盘和沙发,意味着 可以数字化导航、自动驾驶,意味着你和 汽车相关的每一个行动都数字化,包括每 一次维修、每一次驾驶路线、每一次事故 的录像、每一天汽车关键部件的状态,甚 至你的每一个驾驶习惯(如每一次的刹车 和加速)都记录在案。这样,你的车每月 甚至每周都可能产生T比特的数据。
好了,我们假设这些数据都可以存储并分 享给相关的政府、行业和企业。这里不讨 论隐私问题带来的影响,假设在隐私保护 的前提下,数据可以自由分享。
那么,保险公司会怎么做呢?保险公司把 你的所有数据拿过去建模分析,发现几个 重要的事实:一是你开车主要只是上下 班,南山到坂田这条线路是非繁华路线, 红绿灯很少,这条路线过去一年统计的事 故率很低;你的车况(车的使用年限、车 型)好,此车型在全深圳也是车祸率较 低;甚至统计你的驾驶习惯,加油平均, 临时刹车少,超车少,和周围车保持了应 有的车距,驾驶习惯好。最后结论是你车 型好,车况好,驾驶习惯好,常走的线路 事故率低,过去一年也没有出过车祸,因 此可以给予更大幅度的优惠折扣。这样保 险公司就完全重构了它的商业模式了。在 没有大数据支撑之前,保险公司只把车险 客户做了简单的分类,一共分为四种客 户,第一种是连续两年没有出车祸的,第 二种过去一年没有出车祸,第三种过去一 年出了一次车祸,第四种是过去一年出了 两次及以上车祸的,就四种类型。这种简 单粗暴的分类,就好像女人找老公,仅把 男人分为没有结过婚的、结过一次婚的、 结过二次婚的、结过三次及以上婚的四种 男人,就敢嫁人一样。在大数据的支持 下,保险公司可以真正以客户为中心,把 客户分为成千上万种,每个客户都有个性 化的解决方案,这样保险公司经营就完全 不同,对于风险低的客户敢于大胆折扣, 对于风险高的客户报高价甚至拒绝,一般 的保险公司就完全难以和这样的保险公司 竞争了。拥有大数据并使用大数据的保险 公司比传统公司将拥有压倒性的竞争优 势,大数据将成为保险公司最核心的竞争 力,因为保险就是一个基于概率评估的生 意,大数据对于准确评估概率毫无疑问是 最有利的武器,而且简直是量身定做的武 器。
在大数据的支持下,4S店的服务也完全 不同了。车况信息会定期传递到4S店, 4S店会根据情况及时提醒车主及时保养 和维修,特别是对于可能危及安全的问 题,在客户同意下甚至会采取远程干预措 施,同时还可以提前备货,车主一到4S 店就可以维修而不用等待。
对于驾驶者来说,不想开车的时候,在大 数据和人工智能的支持下,车辆可以自动 驾驶,并且对于你经常开的线路可以自学 习自优化。谷歌的自动驾驶汽车,为了对 周围环境作出预测,每秒钟要收集差不多 1GB的数据,没有大数据的支持,自动驾 驶是不可想象的;在和周围车辆过近的时 候,会及时提醒车主避让;上下班的时 候,会根据实时大数据情况,对于你经常 开车的线路予以提醒,绕开拥堵点,帮你 选择最合适的线路;在出现紧急状况的时 候,比如爆胎,自动驾驶系统将自动接 管,提高安全性(人一辈子可以难以碰到 一次爆胎,人在紧急时的反应往往是灾难 性的,只会更糟);到城市中心,寻找车 位是一件很麻烦的事情,但未来你可以到 了商场门口后,让汽车自己去找停车位, 等想要回程的时候,提前通知让汽车自己 开过来接。
车辆是城市最大最活跃的移动物体,是拥 堵的来源,也是最大的污染来源之一。数 字化的车辆、大数据应用将带来很多的改 变。红绿灯可以自动优化,根据不同道路 的拥堵情况自动进行调整,甚至在很多地 方可以取消红绿灯;城市停车场也可以大 幅度优化,根据大数据的情况优化城市停 车位的设计,如果配合车辆的自动驾驶功 能,停车场可以革命性演变,可以设计专 门为自动驾驶车辆的停车楼,地下、地上 楼层可以高达几十层,停车楼层可以更 矮,只要能高于车高度即可(或者把车竖 起来停),这样将对城市规划产生巨大的 影响;在出现紧急情况,如前方塌方的时 候,可以第一时间通知周围车辆(尤其是 开往塌方道路的车辆);现在的燃油税也 可以发生革命性变化,可以真正根据车辆 的行驶路程,甚至根据汽车的排污量来收 费,排污量少的车甚至可以搞碳交易,卖 排放量卖给高油耗的车;政府还可以每年 公布各类车型的实际排污量、税款、安全 性等指标,鼓励民众买更节能、更安全的 车。
电子商务和快递业也可能发生巨大的变 化。运快递的车都可以自动驾驶,不用赶 白天的拥堵的道路,晚上半夜开,在你家 门口设计自动接收箱,通过密码开启自动 投递进去,就好像过去报童投报一样。
这么想象下来,我认为,汽车数字化、互 联网化、大数据应用、人工智能,将对汽 车业及相关的长长的产业链产生难以想象 的巨大变化和产业革命,具有无限的想象 空间,可能完全被重构。当然,要实现我 所描述的场景,估计至少50年、100年之 后的事情了,估计我这辈子是看不到的。
下面一个想象是围绕着人本身来展开的。 人的数字化生存也就是这几十年的事情。 我爷爷奶奶那辈子,是在人生末年的时候 有照片,算是初步在个人形象方面有了一 点数字化,让我们及后代还可以知道爷爷 奶奶的光辉形象。而我们从小就有照片, 这些年我们的数字化就越来越多了,身份 是数字的(就是身份证),银行存款是数 字的,照片是全数字,体检单也数字化, 购物数字化(淘宝上有我的几十个地址、 几百条购物信息、上万次搜索信息),沟 通数字化(微信上有新的朋友圈生态), 初步构建了一个数字化生存的状态。而我 们的下一辈或下下一辈将进入完全的数字 化生存,人从一出生就有基因图谱,到后 续的每一次体检、每一次化验,到每一 年、每一个月、每一个日子的活动,到相 关亲戚的轨迹,从每一个人,到每一代 人,到整个族谱,到整个国家,到整个全 球,这些海量数据的产生将从量变到质 变,这些数据的挖掘与使用将对人类本身 产生革命性的影响。这里,我们也想象一 下:
比如,在你找对象的时候,碰上一位心爱 的姑娘,大数据系统就像算命系统一样, 根据双方海量数据的挖掘,告诉你和姑娘 匹配指数是多少,告诉你全球类似情况的 夫妻日后离婚概率是多少,低于某个匹配 指数,大数据系统会慎重建议你认真考虑 不要这个姑娘继续交往下去。听起来是不 是特别像门当户对的数字化呢?当然,你 可能会说,这样的人生多没有意思啊,错 误本来就是人生最美丽的一部分。呵呵, 我只讨论科学问题,对你这种以“浪漫主 义”为名,事实上是不以结婚为目的的耍 流氓式的恋爱,不予以理睬。其实,我内 心也承认,偶尔耍耍流氓是很好的。呵 呵,开个玩笑。
又比如,在你找工作的时候,可能会有这 么一天,当你面试时,HR会淡定的告诉 你,对不起,经过我们的大数据分析,你 历来的网贴、微博、微信总体负面情绪过 多,不符合我们企业阳光乐观积极向上的 主题,出门左拐就有地铁站,慢走。
再比如,在你过生日的那天,朋友们生日 快乐祝福之后,大数据分析系统会告诉 你,你的生命将进入倒计时,根据过去几 年的身体数字化大数据,根据基因图谱, 根据你亲戚的相关情况统计,你有80%的 概率在20年内死去,有30%概率在60岁左 右因基因缺陷发生脑溢血,因此你要改善 生活习惯,并重点加强监控脑溢血发生的 可能性。这些事情如果都发生,会出现什 么情况?第一,估计人类的生命普遍将延 长10年以上,因为很多潜在的突发性恶 性疾病爆发的概率大幅度降低了。第二, 和上面的汽车故事一样,保险公司也可以 基于大数据重构商业模型,可以对每个人 的大数据进行分析,对每个人进行针对性 的保险业务设计。第三,药厂的商业模式 可能也改变了,药厂拥有你相关的大数 据,可以为你量身定做药品,西服都能量 身定做,药品为什么不能呢?定制的西服 更合身,定制的药品肯定针对性更强、副 作用更少。西服能量身定做,是因为有你 三围的数据,药品能量身定做也是因为有 你身体的数据,道理是一样的。第四,国 家的医保政策也可能重构,国家能根据大 数据系统,分析整体国民素质,分析老龄 化情况,分析养老金系统的承受能力,针 对性地增强某些区域的医疗资源,或者动 态调整养老保险费率,或者动态调整退休 年限等等。
对汽车产业和数字化人生的想象告一段 落。这里,我想系统回顾一下工业文明的 发展历程,首先是物理世界的工业文明, 典型是蒸汽机的发明,使汽车、轮船进入 生活;然后是数字世界的工业文明,就是 IT技术的使用,使PC及各种电子产品进 入生活,以及企业数字化系统的建立,使 沃尔玛这样的巨型企业产生成为可能;下 一步就是物理世界和数字世界的融合,这 也就是业界热炒的“工业互联网”、“IT 3.0”,而这里面除了数字技术在传统行业 的使用(这个事实上已经在广泛使用)、 电子商务在渠道的广泛推行,更重要的就 是大数据的产生及挖掘、使用,使企业在 管理方式、市场机会挖掘、产品设计、营 销、服务、商业模式等发生巨大的变化, 这种巨大的变化带来了很多行业的革命性 变局,也就是颠覆与改造。这种变化在所 谓的低效率的大行业将最为明显与直接。 这些所谓的的低效率大行业,就是垄断特 征明显、产业规模大、产业链长、历史悠 久但长时间变化少、IT应用水平低的行 业,如汽车、金融、保险、医疗等。
在这个章节的最后,我想总结一下自己对 大数据的看法。
第一,大数据使企业真正有能力从以自我 为中心改变为以客户为中心。企业是为客 户而生,目的是为股东获得利润。只有服 务好客户,才能获得利润。但过去,很多 企业是没有能力做到以客户为中心的,原 因就是相应客户的信息量不大,挖掘不 够,系统也不支持,目前的保险业就是一 个典型。大数据的使用能够使对企业的经 营对象从客户的粗略归纳(就是所谓提炼 归纳的“客户群”)还原成一个个活生生的 客户,这样经营就有针对性,对客户的服 务就更好,投资效率就更高。
第二,大数据一定程度上将颠覆了企业的 传统管理方式。现代企业的管理方式是来 源于对**的模仿,依赖于层层级级的组 织和严格的流程,依赖信息的层层汇集、 收敛来制定正确的决策,再通过决策在组 织的传递与分解,以及流程的规范,确保 决策得到贯彻,确保每一次经营活动都有 质量保证,也确保一定程度上对风险的规 避。过去这是一种有用而笨拙的方式。在 大数据时代,我们可能重构企业的管理方 式,通过大数据的分析与挖掘,大量的业 务本身就可以自决策,不必要依靠膨大的 组织和复杂的流程。大家都是基于大数据 来决策,都是依赖于既定的规则来决策, 是高高在上的CEO决策,还是一线人员决 策,本身并无大的区别,那么企业是否还 需要如此多层级的组织和复杂的流程呢?
第三,大数据另外一个重大的作用是改变 了商业逻辑,提供了从其他视角直达答案 的可能性。现在人的思考或者是企业的决 策,事实上都是一种逻辑的力量在主导起 作用。我们去调研,去收集数据,去进行 归纳总结,最后形成自己的推断和决策意 见,这是一个观察、思考、推理、决策的 商业逻辑过程。人和组织的逻辑形成是需 要大量的学习、培训与实践,代价是非常 巨大的。但是否这是唯一的道路呢?大数 据给了我们其他的选择,就是利用数据的 力量,直接获得答案。就好像我们学习数 学,小时候学九九乘法表,中学学几何, 大学还学微积分,碰到一道难题,我们是 利用了多年学习沉淀的经验来努力求解, 但我们还有一种方法,在网上直接搜索是 不是有这样的题目,如果有,直接抄答案 就好了。很多人就会批评说,这是抄袭, 是**。但我们为什么要学习啊?不就是 为了解决问题嘛。如果我任何时候都可以 搜索到答案,都可以用最省力的方法找到 最佳答案,这样的搜索难道不可以是一条 光明大道吗?换句话说,为了得到“是什 么”,我们不一定要理解“为什么”。我们 不是否定逻辑的力量,但是至少我们有一 种新的巨大力量可以依赖,这就是未来大 数据的力量。
第四,通过大数据,我们可能有全新的视 角来发现新的商业机会和重构新的商业模 式。我们现在看这个世界,比如分析家中 食品**,主要就是依赖于我们的眼睛再 加上我们的经验,但如果我们有一台显微 镜,我们一下就看到坏细菌,那么分析起 来完全就不一样了。大数据就是我们的显 微镜,它可以让我们从全新视角来发现新 的商业机会,并可能重构商业模型。我们 的产品设计可能不一样了,很多事情不用 猜了,客户的习惯和偏好一目了然,我们 的设计就能轻易命中客户的心窝;我们的 营销也完全不同了,我们知道客户喜欢什 么、讨厌什么,更有针对性。特别是显微 镜再加上广角镜,我们就有更多全新的视 野了。这个广角镜就是跨行业的数据流 动,使我们过去看不到的东西都能看到 了,比如前面所述的汽车案例,开车是开 车,保险是保险,本来不相关,但当我们 把开车的大数据传递到保险公司,那整个 保险公司的商业模式就全变了,完全重构 了。
最后一点,我想谈的是大数据发展对IT本 身技术架构的革命性影响。大数据的根基 是IT系统。我们现代企业的IT系统基本上 是建立在IOE(IBM小型机、Oracle数据 库、EMC存储)+Cisco模型基础上的,这 样的模型是Scale-UP型的架构,在解决 既定模型下一定数据量的业务流程是适配 的,但如果是大数据时代,很快会面临成 本、技术和商业模式的问题,大数据 对IT的需求很快就会超越了现有厂商架构 的技术顶点,超大数据增长将带来IT支出 增长之间的线性关系,使企业难以承受。 因此,目前在行业中提出的去IOE趋势, 利用Scale-out架构+开源软件对Scale-up架构+私有软件的取代,本质是大数据 业务模型所带来的,也就是说大数据将驱 动IT产业新一轮的架构性变革。去IOE潮 流中的所谓国家安全因素,完全是次要 的。
所以,美国人说,大数据是资源,和大油 田、大煤矿一样,可以源源不断挖出大财 富。而且和一般资源不一样,它是可再生 的,是越挖越多、越挖越值钱的,这是反 自然规律的。对企业如此,对行业、对国 家也是这样,对人同样如此。这样的东西 谁不喜欢呢?因此,大数据这么热门,是 完全有道理的。
三、新智慧生物的诞生? 下面的想象就更狂野了,真正要实现,估 计至少是我们十辈子或者一百辈子以后的 事情。那时候,我们已经是祖宗了哈。大 家就当科幻小说来看好了。
从最近一位微软副总裁的演讲说起。瑞克 ·拉希德(Rick Rashid)是微软研究院的 高级副总裁,有一天,他在中国的天津迈 上讲台,面对2000名研究者和学生,要 发表演讲,他非常非常紧张。这么紧张是 有原因的。问题在于,他不会讲中文,而 他的翻译水平以前非常糟糕,似乎注定了 这次的尴尬。
“我们希望,几年之内,我们能够打破人 们之间的语言障碍,”这位微软研究院的 高级副总裁对听众们说。令人紧张的两秒 钟停顿之后,翻译的声音从扩音器里传了 出来。拉希德继续说:“我个人相信,这 会让世界变得更加美好。”停顿,然后又 是中文翻译。
他笑了。听众对他的每一句话都报以掌 声。有些人甚至流下了眼泪。这种看上去 似乎过于热情的反应是可以理解的:拉希 德的翻译太不容易了。每句话都被理解, 并被翻译得天衣无缝。令人印象最深的一 点在于,这位翻译并非人类。
这就是自然语言的机器翻译,也是长期以 来人工智能研究的一个重要体现。人工智 能从过去到未来都有清晰而巨大的商业前 景,是以前IT业的热点,其热度一点不亚 于现在的“互联网”和“大数据”。但是,人 类过去在推进人工智能的研究遇到了巨大 的障碍,最后几乎绝望。
当时人工智能就是模拟人的智能思考方式 来构筑机器智能。以机器翻译来说,语言 学家和语言专家必须不辞劳苦地编撰大型 词典和与语法、句法、语义学有关的规 则,数十万词汇构成词库,语法规则高达 数万条,考虑各种情景、各种语境,模拟 人类翻译,计算机专家再构建复杂的程 序。最后发现人类语言实在是太复杂了, 穷举式的做法根本达不到最基本的翻译质 量。这条道路最后的结果是,1960年代 后人工智能的技术研发停滞不前数年后, 科学家痛苦地发现以“模拟人脑”、“重建 人脑”的方式来定义人工智能走入一条死 胡同,这导致后来几乎所有的人工智能项 目都进入了冷宫。
这里讲个小插曲。我读大学的时候,有个 老师是国内人工智能的顶级教授,还是国 内某个人工智能研究会的副会长。他评述 当时的人工智能,不是人工智能,而是人 工愚蠢,把人类简单的行为分解、分解再 分解,再去笨拙地模拟,不是人怎么聪明 怎么学,而是模拟学习最蠢的人的最简单 的动作。他说,对于当时人工智能的进 步,有些人沾沾自喜,说好像登月计划中 人类离月亮更进一步了,其实,就是站上 了一块石头对着月亮抒情,啊,我离你更 近了。他对自己事业的自我嘲讽,让我至 今记忆非常深刻。
后来有人就想,机器为什么要向人学习逻 辑呢,又难学又学不好,机器本身最强大 的是计算能力和数据处理能力,为什么不 扬长避短、另走一条道路呢?这条道路就 是IBM“深蓝”走过的道路。1997年5月11 日,国际象棋大师卡斯帕罗夫在和IBM公 司开发的计算机“深蓝”进行对弈时宣布失 败,计算机“深蓝”因此赢得了这场意义深 远的“人机对抗”。 “深蓝”不是靠逻辑、不 靠所谓的人工智能取胜的,就是靠超强的 计算能力取胜:思考不过你,但是算死 你。
类似的逻辑在后续也用到了机器翻译上。 谷歌、微软和IBM都走上了这条道路。就 是主要采用匹配法,同时结合机器学习, 依赖于海量的数据及其相关相关统计信 息,不管语法和规则,将原文与互联网上 的翻译数据对比,找到最相近、引用最频 繁的翻译结果做为输出。也就是利用大数 据以及机器学习技术来实现机器翻译。现 有的数据量越是庞大,那么这个系统就能 越好地运行,这也正是为何新的机器翻译 只有在互联网出现以后才有可能重新取得 突破性进展的原因所在。
因此,目前这些公司机器翻译团队中,有 不少计算机科学家,但却连一个纯粹的语 言学家也没有,只要擅长数学和统计学, 然后又会编程,那就可以了。
总而言之,利用这种技术,计算机教会自 己从大数据中建立模式。有了足够大的信 息量,你就能让机器学会做看上去有智能 的事情,别管是导航、理解话语、翻译语 言,还是识别人脸,或者模拟人类对话。 英国剑桥微软研究院的克里斯·毕肖普 (Chris Bishop)打了个比方:“你堆积足 够多的砖块,然后退上几步,就能看到一 座房子。”
这里我们假设这种技术能够持续进步,未 来基于大数据和机器学习基础上的人工智 能达到比较流畅地模拟人类对话,就是人 类可以和机器进行比较自如的对话。事实 上,IBM的“沃森”计划就是这样科技工 程,比如试图让计算机当医生,能够对大 部分病进行诊断,并和病人进行沟通。另 外,也假设目前刚刚兴起的穿戴式计算设 备取得巨大的进展。这种进展到什么程度 呢?就是你家的宠物小狗身上也装上了各 种传感器和穿戴式设备,比如有图像采 集,有声音采集,有嗅觉采集,有对小狗 的健康进行监控的小型医疗设备,甚至还 有电子药丸在小狗的胃中进行消化情况监 控。小狗当然也联上网,也一样产生了巨 大的数据量。这时,我们假设基于这些大 数据建模,能够模拟小狗的喜怒哀乐,然 后还能够通过拟人化的处理进行语音表 达,换句话说,就是模拟小狗说人话,比 如主人回家时,小狗摇尾巴,旺旺叫,那 么这个附着于小狗身上的人工智能系统就 会说,“主人,真高兴看到你回家”。不仅 如此,你还可以和小狗的人工智能系统进 行对话,因为这个人工智能系统能基本理 解你的意思,又能够代替小狗拟人化表 达。以下我们模拟一下可能的对话:
你:“小狗,今天过得好?” 小狗:“不错啊,主人你今天换的新** 味道很好,总觉得没有吃够。” 你:“那很好。我们以后继续买这种狗 liang。对了,今天有什么人来吗?” 小狗:“只有邮递员来投递报纸。另外, 邻居家的小狗玛丽也来串门,我们一起玩 了一下午。” 你:“那你们玩的怎么样?” 小狗:“很开心啊。我好像又进入了初恋 呢。” ……
我们可以把上面的模拟对话当成一个笑 话。但其实,我们这个时候就会发现一个 惊人的事实,就是你其实是面对了两只小 狗,一只是物理意义上的小狗,一只是基 于大数据和机器学习的人工智能虚拟小 狗,而且虚拟小狗比物理小狗还要聪明, 真正善解人意。那么,这个虚拟小狗是不 是新的智慧生物呢?
我们继续把这个故事来做延伸,把小狗换 成未来的人,人在一生中产生大量的数 据,根据这些数据建模可以直接推演出很 多的结论,比如喜欢看什么样的电影啊, 喜欢什么口味的菜啊,在遇到什么问题时 会怎么采取什么行动啊。
这样的数据一直累积下来,直到这个人去 世。我们有个大胆的想象,这些巨大的数 据能否让这个人以某种方式继续存在下去 呢?后代有什么问题需要寻求答案的时 候,比如在人生的关键抉择时,比如大学 要上什么专业、该不该和某个姑娘结婚, 可不可以问问这个虚拟的人(祖先)有什 么建议呢?答案是当然可以。在这种情况 下,数字化生存不仅在人生前存在,也可 以在人死后继续存在。人死了,可以在虚 拟空间中继续存在。一辈子、一辈子的人 故去,这些虚拟的智慧都可以继续存在, 假设很多年过去了,这些虚拟智慧的祖宗 们太多太多了,活着的子孙们甚至可以组 建一个“祖宗联席参谋委员会”,优选那些 考得好的(比如中过状元),当过国家高 级公务员(比如太守)、当过企业高管 (比如CEO)、当过教授、当过作家的等 等当过成功人士的祖宗,专门用于后代的 咨询、解惑。让这些祖宗死后还有竞争, 别死了就没有事情干了。这个场景是不是 很熟悉啊?就是迪斯尼动画片《花木兰》 中出现过的场景啊,花木兰在面临是否代 父参军的重大人生时刻,就向“祖宗联席 参谋委员会”倾诉过困惑,得到了指点。
再更大胆地想象一下,假设材料科学也取 得巨大的进展,那我们能不能把这些虚拟 的生命重新植入到模拟人类的生态体上 呢?当然也可以。这个新智慧体可非常像 真正的人啊。那这算不算人死后复生呢? 那这个新智慧体能不能继续拥有以前的身 份证呢?能不能继续拥有以前的财产呢? 能不能继续享受养老金呢?是不是也要有 强制规定一定的寿命限制呢?这种智慧体 会不会自学习、自进化?他们会不会爆发 和人类的战争?往深处多想想,感觉全乱 套了,现在的伦理、法律等都面临巨大的 挑战。
这些说明什么呢?就是随着大数据和机器 学习的进一步进展,这个世界出现了新的 智慧生物!大数据和机器学习在改变、重 构和颠覆很多企业、行业和国家以后,终 于到了改变人类自身的时候了!人类的演 进出现了新的分支!
有科学家画了下面一张图,来描述这两者 智慧生物。一种是基于生物性的,经过几 百万年的进化而来;一种是基于IT技术, 基于大数据和机器学习,通过自模拟、自 学习而来。前者更有逻辑性,更有丰富的 情感,有创造力,但生命有限;后者没有 很强的逻辑性,没有生物上的情感,但有 很强的计算、建模和搜索能力,理论上生 命是无限的。
当然,这些事情要发生都会非常非常遥 远。反正我们活着的时候是见不到了,死 了也见不到,因为我们死的时候,我相信 这种建立在大数据和机器学习之上的虚拟 生命还不会存在。
四、结束语
我最后想说的是,我们对未来的认知,主 要是基于常识和对未来的想象。根据统 计,现在《纽约时报》一周的信息量比 18世纪一个人一生所收到的资讯量更 大,现在18个月产生的信息比过去5000 年的总和更多,现在我家一台5000元电 脑的计算能力比我刚入大学时全校的计算 能力更强大。科技的进步在很多的时候总 会超出我们的想象,试想如果未来我们一 个人拥有的电脑设备超过现在全球现在计 算能力的总和,一个人产生的数据量超过 现在全球数据量的总和,甚至你的宠物小 狗产生的信息量都超过现在全球数据量的 总和,世界会发生什么呢?那就取决于你 的想象力了。
对于未来,你想象到什么了呢?
本文转自:http://www.baidu.com/link?url=SE ... BLOIhSGa6byKcEyiB6a
(原文转自华为内部,作者潘少)
一、大数据的初步理解 似乎一夜之间,大数据(Big Data)变成 一个IT行业中最时髦的词汇。 首先,大数据不是什么完完全全的新生事 物,Google的搜索服务就是一个典型的 大数据运用,根据客户的需求,Google 实时从全球海量的数字资产(或数字垃 圾)中快速找出最可能的答案,呈现给 你,就是一个最典型的大数据服务。只不 过过去这样规模的数据量处理和有商业价 值的应用太少,在IT行业没有形成成型的 概念。现在随着全球数字化、网络宽带 化、互联网应用于各行各业,累积的数据 量越来越大,越来越多企业、行业和国家 发现,可以利用类似的技术更好地服务客 户、发现新商业机会、扩大新市场以及提 升效率,才逐步形成大数据这个概念。
有一个有趣的故事是关于奢侈品营销的。 PRADA在纽约的旗舰店中每件衣服上都 有RFID码。每当一个顾客拿起一件 PRADA进试衣间,RFID会被自动识别。 同时,数据会传至PRADA总部。每一件 衣服在哪个城市哪个旗舰店什么时间被拿 进试衣间停留多长时间,数据都被存储起 来加以分析。如果有一件衣服销量很低, 以往的作法是直接干掉。但如果RFID传 回的数据显示这件衣服虽然销量低,但进 试衣间的次数多。那就能另外说明一些问 题。也许这件衣服的下场就会截然不同, 也许在某个细节的微小改变就会重新创造 出一件非常流行的产品。
还有一个是关于中国粮食统计的故事。中 国的粮食统计是一个老大难的问题。中国 的统计,虽然有组织、有流程、有法律, 但中央的统计人员依靠省统计人员,省靠 市,市靠县,县靠镇,镇靠村,最后真正 干活或上报的是基层兼职的调查人员,由 于众所周知的KPI考核导向的原因,层层 加码,几乎没有人相信这个调查数据,而 其中国家统计局的人是最不信的。在前两 年北京的一个会议上,原国家统计局总经 济师姚景源向我们讲述了他们是如何做 的。他们采用遥感卫星,通过图像识别, 把中国所有的耕地标识、计算出来,然后 把中国的耕地网格化,对每个网格的耕地 抽样进行跟踪、调查和统计,然后按照统 计学的原理,计算(或者说估算)出中国 整体的整体粮食数据。这种做法是典型采 用大数据建模的方法,打破传统流程和组 织,直接获得最终的结果。
最后是一个炒股的故事。这个故事来自于 2011年好莱坞的一部高智商电影《永无 止境》,讲述一位落魄的作家库珀,服用 了一种可以迅速提升智力的神奇蓝色药 物,然后他将这种高智商用于炒股。库珀 是怎么炒股的呢?就是他能在短时间掌握 无数公司资料和背景,也就是将世界上已 经存在的海量数据(包括公司财报、电 视、几十年前的报纸、互联网、小道消息 等)挖掘出来,串联起来,甚至将Face Book、Twitter的海量社交数据挖掘得到 普通大众对某种股票的感情倾向,通过海 量信息的挖掘、分析,使一切内幕都不是 内幕,使一切趋势都在眼前,结果在10 天内他就赢得了200万美元,神奇的表现 让身边的职业投资者目瞪口呆。这部电影 简直是展现大数据魔力的教材性电影,推 荐没有看过的IT人士看一看。
从这些案例来看,大数据并不是很神奇的 事情。就如同电影《永无止境》提出的问 题:人类通常只使用了20%的大脑,如 果剩余80%大脑潜能被激发出来,世界 会变得怎样?在企业、行业和国家的管理 中,通常只有效使用了不到20%的数据 (甚至更少),如果剩余80%数据的价值 激发起来,世界会变得怎么样呢?特别是 随着海量数据的新摩尔定律,数据爆发式 增长,然后数据又得到更有效应用,世界 会怎么样呢?
单个的数据并没有价值,但越来越多的数 据累加,量变就会引起质变,就好像一个 人的意见并不重要,但1千人、1万人的 意见就比较重要,上百万人就足以掀起巨 大的波澜,上亿人足以改变一切。
数据再多,但如果被屏蔽或者没有被使 用,也是没有价值的。中国的航班晚点非 常多,相比之下美国航班准点情况好很 多。这其中,美国航空管制机构一个的好 做法发挥了积极的作用,说起来也非常简 单,就是美国会公布每个航空公司、每一 班航空过去一年的晚点率和平均晚点时 间,这样客户在购买机票的时候就很自然 会选择准点率高的航班,从而通过市场手 段牵引各航空公司努力提升准点率。这个 简单的方法比任何管理手段(如中国政府 的宏观调控手段)都直接和有效。这里多 说一两句,过去一个**国家对内的控制 主要是物理上的暴力,就是强力机构权力 无限大,搞国家KB主义;而现在一个报 政国家,主要是就靠垄断信息、封锁信 息,让民众难以获得广泛而真实的信息, 从而实现国家的控制。这个信息封锁,就 是对大数据的封锁。
没有整合和挖掘的数据,价值也呈现不出 来。《永无止境》中的库珀如果不能把海 量信息围绕某个公司的股价整合起来、串 联起来,这些信息就没有价值。
因此,海量数据的产生、获取、挖掘及整 合,使之展现出巨大的商业价值,这就是 我理解的大数据。在互联网对一切重构的 今天,这些问题都不是问题。因为,我认 为大数据是互联网深入发展的下一波应 用,是互联网发展的自然延伸。目前,可 以说大数据的发展到了一个临界点,因此 才成为IT行业中最热门的词汇之一。
二、大数据将重构很多行业的商业思维和 商业模式 我想以对未来汽车行业的狂野想象来展开 这个题目。 在人的一生中,汽车是一项巨大的投资。 以一部30万车、七年换车周期来算,每 年折旧费4万多(这里还不算资金成 本),加上停车、保险、油、维修、保养 等各项费用,每年耗费应在6万左右。汽 车产业也是一个很长产业链的龙头产业, 这个方面只有房地产可以媲美。 但同时,汽车产业链是一个低效率、变化 慢的产业。汽车一直以来就是四个轮子、 一个方向盘、两排沙发(李书福语)。这 么一个昂贵的东西,围绕车产生的数据却 少的可怜,行业产业链之间几无任何数据 传递。
我们在这里狂野地想象一番,如果将汽车 全面数字化,都大数据了,会产生什么结 果?
有些人说,汽车数字化,不就是加个 MBB模块吗?不,这太小儿科了。在我 理想中,数字化意味着汽车可以随时联上 互联网,意味着汽车是一个大型计算系统 加上传统的轮子、方向盘和沙发,意味着 可以数字化导航、自动驾驶,意味着你和 汽车相关的每一个行动都数字化,包括每 一次维修、每一次驾驶路线、每一次事故 的录像、每一天汽车关键部件的状态,甚 至你的每一个驾驶习惯(如每一次的刹车 和加速)都记录在案。这样,你的车每月 甚至每周都可能产生T比特的数据。
好了,我们假设这些数据都可以存储并分 享给相关的政府、行业和企业。这里不讨 论隐私问题带来的影响,假设在隐私保护 的前提下,数据可以自由分享。
那么,保险公司会怎么做呢?保险公司把 你的所有数据拿过去建模分析,发现几个 重要的事实:一是你开车主要只是上下 班,南山到坂田这条线路是非繁华路线, 红绿灯很少,这条路线过去一年统计的事 故率很低;你的车况(车的使用年限、车 型)好,此车型在全深圳也是车祸率较 低;甚至统计你的驾驶习惯,加油平均, 临时刹车少,超车少,和周围车保持了应 有的车距,驾驶习惯好。最后结论是你车 型好,车况好,驾驶习惯好,常走的线路 事故率低,过去一年也没有出过车祸,因 此可以给予更大幅度的优惠折扣。这样保 险公司就完全重构了它的商业模式了。在 没有大数据支撑之前,保险公司只把车险 客户做了简单的分类,一共分为四种客 户,第一种是连续两年没有出车祸的,第 二种过去一年没有出车祸,第三种过去一 年出了一次车祸,第四种是过去一年出了 两次及以上车祸的,就四种类型。这种简 单粗暴的分类,就好像女人找老公,仅把 男人分为没有结过婚的、结过一次婚的、 结过二次婚的、结过三次及以上婚的四种 男人,就敢嫁人一样。在大数据的支持 下,保险公司可以真正以客户为中心,把 客户分为成千上万种,每个客户都有个性 化的解决方案,这样保险公司经营就完全 不同,对于风险低的客户敢于大胆折扣, 对于风险高的客户报高价甚至拒绝,一般 的保险公司就完全难以和这样的保险公司 竞争了。拥有大数据并使用大数据的保险 公司比传统公司将拥有压倒性的竞争优 势,大数据将成为保险公司最核心的竞争 力,因为保险就是一个基于概率评估的生 意,大数据对于准确评估概率毫无疑问是 最有利的武器,而且简直是量身定做的武 器。
在大数据的支持下,4S店的服务也完全 不同了。车况信息会定期传递到4S店, 4S店会根据情况及时提醒车主及时保养 和维修,特别是对于可能危及安全的问 题,在客户同意下甚至会采取远程干预措 施,同时还可以提前备货,车主一到4S 店就可以维修而不用等待。
对于驾驶者来说,不想开车的时候,在大 数据和人工智能的支持下,车辆可以自动 驾驶,并且对于你经常开的线路可以自学 习自优化。谷歌的自动驾驶汽车,为了对 周围环境作出预测,每秒钟要收集差不多 1GB的数据,没有大数据的支持,自动驾 驶是不可想象的;在和周围车辆过近的时 候,会及时提醒车主避让;上下班的时 候,会根据实时大数据情况,对于你经常 开车的线路予以提醒,绕开拥堵点,帮你 选择最合适的线路;在出现紧急状况的时 候,比如爆胎,自动驾驶系统将自动接 管,提高安全性(人一辈子可以难以碰到 一次爆胎,人在紧急时的反应往往是灾难 性的,只会更糟);到城市中心,寻找车 位是一件很麻烦的事情,但未来你可以到 了商场门口后,让汽车自己去找停车位, 等想要回程的时候,提前通知让汽车自己 开过来接。
车辆是城市最大最活跃的移动物体,是拥 堵的来源,也是最大的污染来源之一。数 字化的车辆、大数据应用将带来很多的改 变。红绿灯可以自动优化,根据不同道路 的拥堵情况自动进行调整,甚至在很多地 方可以取消红绿灯;城市停车场也可以大 幅度优化,根据大数据的情况优化城市停 车位的设计,如果配合车辆的自动驾驶功 能,停车场可以革命性演变,可以设计专 门为自动驾驶车辆的停车楼,地下、地上 楼层可以高达几十层,停车楼层可以更 矮,只要能高于车高度即可(或者把车竖 起来停),这样将对城市规划产生巨大的 影响;在出现紧急情况,如前方塌方的时 候,可以第一时间通知周围车辆(尤其是 开往塌方道路的车辆);现在的燃油税也 可以发生革命性变化,可以真正根据车辆 的行驶路程,甚至根据汽车的排污量来收 费,排污量少的车甚至可以搞碳交易,卖 排放量卖给高油耗的车;政府还可以每年 公布各类车型的实际排污量、税款、安全 性等指标,鼓励民众买更节能、更安全的 车。
电子商务和快递业也可能发生巨大的变 化。运快递的车都可以自动驾驶,不用赶 白天的拥堵的道路,晚上半夜开,在你家 门口设计自动接收箱,通过密码开启自动 投递进去,就好像过去报童投报一样。
这么想象下来,我认为,汽车数字化、互 联网化、大数据应用、人工智能,将对汽 车业及相关的长长的产业链产生难以想象 的巨大变化和产业革命,具有无限的想象 空间,可能完全被重构。当然,要实现我 所描述的场景,估计至少50年、100年之 后的事情了,估计我这辈子是看不到的。
下面一个想象是围绕着人本身来展开的。 人的数字化生存也就是这几十年的事情。 我爷爷奶奶那辈子,是在人生末年的时候 有照片,算是初步在个人形象方面有了一 点数字化,让我们及后代还可以知道爷爷 奶奶的光辉形象。而我们从小就有照片, 这些年我们的数字化就越来越多了,身份 是数字的(就是身份证),银行存款是数 字的,照片是全数字,体检单也数字化, 购物数字化(淘宝上有我的几十个地址、 几百条购物信息、上万次搜索信息),沟 通数字化(微信上有新的朋友圈生态), 初步构建了一个数字化生存的状态。而我 们的下一辈或下下一辈将进入完全的数字 化生存,人从一出生就有基因图谱,到后 续的每一次体检、每一次化验,到每一 年、每一个月、每一个日子的活动,到相 关亲戚的轨迹,从每一个人,到每一代 人,到整个族谱,到整个国家,到整个全 球,这些海量数据的产生将从量变到质 变,这些数据的挖掘与使用将对人类本身 产生革命性的影响。这里,我们也想象一 下:
比如,在你找对象的时候,碰上一位心爱 的姑娘,大数据系统就像算命系统一样, 根据双方海量数据的挖掘,告诉你和姑娘 匹配指数是多少,告诉你全球类似情况的 夫妻日后离婚概率是多少,低于某个匹配 指数,大数据系统会慎重建议你认真考虑 不要这个姑娘继续交往下去。听起来是不 是特别像门当户对的数字化呢?当然,你 可能会说,这样的人生多没有意思啊,错 误本来就是人生最美丽的一部分。呵呵, 我只讨论科学问题,对你这种以“浪漫主 义”为名,事实上是不以结婚为目的的耍 流氓式的恋爱,不予以理睬。其实,我内 心也承认,偶尔耍耍流氓是很好的。呵 呵,开个玩笑。
又比如,在你找工作的时候,可能会有这 么一天,当你面试时,HR会淡定的告诉 你,对不起,经过我们的大数据分析,你 历来的网贴、微博、微信总体负面情绪过 多,不符合我们企业阳光乐观积极向上的 主题,出门左拐就有地铁站,慢走。
再比如,在你过生日的那天,朋友们生日 快乐祝福之后,大数据分析系统会告诉 你,你的生命将进入倒计时,根据过去几 年的身体数字化大数据,根据基因图谱, 根据你亲戚的相关情况统计,你有80%的 概率在20年内死去,有30%概率在60岁左 右因基因缺陷发生脑溢血,因此你要改善 生活习惯,并重点加强监控脑溢血发生的 可能性。这些事情如果都发生,会出现什 么情况?第一,估计人类的生命普遍将延 长10年以上,因为很多潜在的突发性恶 性疾病爆发的概率大幅度降低了。第二, 和上面的汽车故事一样,保险公司也可以 基于大数据重构商业模型,可以对每个人 的大数据进行分析,对每个人进行针对性 的保险业务设计。第三,药厂的商业模式 可能也改变了,药厂拥有你相关的大数 据,可以为你量身定做药品,西服都能量 身定做,药品为什么不能呢?定制的西服 更合身,定制的药品肯定针对性更强、副 作用更少。西服能量身定做,是因为有你 三围的数据,药品能量身定做也是因为有 你身体的数据,道理是一样的。第四,国 家的医保政策也可能重构,国家能根据大 数据系统,分析整体国民素质,分析老龄 化情况,分析养老金系统的承受能力,针 对性地增强某些区域的医疗资源,或者动 态调整养老保险费率,或者动态调整退休 年限等等。
对汽车产业和数字化人生的想象告一段 落。这里,我想系统回顾一下工业文明的 发展历程,首先是物理世界的工业文明, 典型是蒸汽机的发明,使汽车、轮船进入 生活;然后是数字世界的工业文明,就是 IT技术的使用,使PC及各种电子产品进 入生活,以及企业数字化系统的建立,使 沃尔玛这样的巨型企业产生成为可能;下 一步就是物理世界和数字世界的融合,这 也就是业界热炒的“工业互联网”、“IT 3.0”,而这里面除了数字技术在传统行业 的使用(这个事实上已经在广泛使用)、 电子商务在渠道的广泛推行,更重要的就 是大数据的产生及挖掘、使用,使企业在 管理方式、市场机会挖掘、产品设计、营 销、服务、商业模式等发生巨大的变化, 这种巨大的变化带来了很多行业的革命性 变局,也就是颠覆与改造。这种变化在所 谓的低效率的大行业将最为明显与直接。 这些所谓的的低效率大行业,就是垄断特 征明显、产业规模大、产业链长、历史悠 久但长时间变化少、IT应用水平低的行 业,如汽车、金融、保险、医疗等。
在这个章节的最后,我想总结一下自己对 大数据的看法。
第一,大数据使企业真正有能力从以自我 为中心改变为以客户为中心。企业是为客 户而生,目的是为股东获得利润。只有服 务好客户,才能获得利润。但过去,很多 企业是没有能力做到以客户为中心的,原 因就是相应客户的信息量不大,挖掘不 够,系统也不支持,目前的保险业就是一 个典型。大数据的使用能够使对企业的经 营对象从客户的粗略归纳(就是所谓提炼 归纳的“客户群”)还原成一个个活生生的 客户,这样经营就有针对性,对客户的服 务就更好,投资效率就更高。
第二,大数据一定程度上将颠覆了企业的 传统管理方式。现代企业的管理方式是来 源于对**的模仿,依赖于层层级级的组 织和严格的流程,依赖信息的层层汇集、 收敛来制定正确的决策,再通过决策在组 织的传递与分解,以及流程的规范,确保 决策得到贯彻,确保每一次经营活动都有 质量保证,也确保一定程度上对风险的规 避。过去这是一种有用而笨拙的方式。在 大数据时代,我们可能重构企业的管理方 式,通过大数据的分析与挖掘,大量的业 务本身就可以自决策,不必要依靠膨大的 组织和复杂的流程。大家都是基于大数据 来决策,都是依赖于既定的规则来决策, 是高高在上的CEO决策,还是一线人员决 策,本身并无大的区别,那么企业是否还 需要如此多层级的组织和复杂的流程呢?
第三,大数据另外一个重大的作用是改变 了商业逻辑,提供了从其他视角直达答案 的可能性。现在人的思考或者是企业的决 策,事实上都是一种逻辑的力量在主导起 作用。我们去调研,去收集数据,去进行 归纳总结,最后形成自己的推断和决策意 见,这是一个观察、思考、推理、决策的 商业逻辑过程。人和组织的逻辑形成是需 要大量的学习、培训与实践,代价是非常 巨大的。但是否这是唯一的道路呢?大数 据给了我们其他的选择,就是利用数据的 力量,直接获得答案。就好像我们学习数 学,小时候学九九乘法表,中学学几何, 大学还学微积分,碰到一道难题,我们是 利用了多年学习沉淀的经验来努力求解, 但我们还有一种方法,在网上直接搜索是 不是有这样的题目,如果有,直接抄答案 就好了。很多人就会批评说,这是抄袭, 是**。但我们为什么要学习啊?不就是 为了解决问题嘛。如果我任何时候都可以 搜索到答案,都可以用最省力的方法找到 最佳答案,这样的搜索难道不可以是一条 光明大道吗?换句话说,为了得到“是什 么”,我们不一定要理解“为什么”。我们 不是否定逻辑的力量,但是至少我们有一 种新的巨大力量可以依赖,这就是未来大 数据的力量。
第四,通过大数据,我们可能有全新的视 角来发现新的商业机会和重构新的商业模 式。我们现在看这个世界,比如分析家中 食品**,主要就是依赖于我们的眼睛再 加上我们的经验,但如果我们有一台显微 镜,我们一下就看到坏细菌,那么分析起 来完全就不一样了。大数据就是我们的显 微镜,它可以让我们从全新视角来发现新 的商业机会,并可能重构商业模型。我们 的产品设计可能不一样了,很多事情不用 猜了,客户的习惯和偏好一目了然,我们 的设计就能轻易命中客户的心窝;我们的 营销也完全不同了,我们知道客户喜欢什 么、讨厌什么,更有针对性。特别是显微 镜再加上广角镜,我们就有更多全新的视 野了。这个广角镜就是跨行业的数据流 动,使我们过去看不到的东西都能看到 了,比如前面所述的汽车案例,开车是开 车,保险是保险,本来不相关,但当我们 把开车的大数据传递到保险公司,那整个 保险公司的商业模式就全变了,完全重构 了。
最后一点,我想谈的是大数据发展对IT本 身技术架构的革命性影响。大数据的根基 是IT系统。我们现代企业的IT系统基本上 是建立在IOE(IBM小型机、Oracle数据 库、EMC存储)+Cisco模型基础上的,这 样的模型是Scale-UP型的架构,在解决 既定模型下一定数据量的业务流程是适配 的,但如果是大数据时代,很快会面临成 本、技术和商业模式的问题,大数据 对IT的需求很快就会超越了现有厂商架构 的技术顶点,超大数据增长将带来IT支出 增长之间的线性关系,使企业难以承受。 因此,目前在行业中提出的去IOE趋势, 利用Scale-out架构+开源软件对Scale-up架构+私有软件的取代,本质是大数据 业务模型所带来的,也就是说大数据将驱 动IT产业新一轮的架构性变革。去IOE潮 流中的所谓国家安全因素,完全是次要 的。
所以,美国人说,大数据是资源,和大油 田、大煤矿一样,可以源源不断挖出大财 富。而且和一般资源不一样,它是可再生 的,是越挖越多、越挖越值钱的,这是反 自然规律的。对企业如此,对行业、对国 家也是这样,对人同样如此。这样的东西 谁不喜欢呢?因此,大数据这么热门,是 完全有道理的。
三、新智慧生物的诞生? 下面的想象就更狂野了,真正要实现,估 计至少是我们十辈子或者一百辈子以后的 事情。那时候,我们已经是祖宗了哈。大 家就当科幻小说来看好了。
从最近一位微软副总裁的演讲说起。瑞克 ·拉希德(Rick Rashid)是微软研究院的 高级副总裁,有一天,他在中国的天津迈 上讲台,面对2000名研究者和学生,要 发表演讲,他非常非常紧张。这么紧张是 有原因的。问题在于,他不会讲中文,而 他的翻译水平以前非常糟糕,似乎注定了 这次的尴尬。
“我们希望,几年之内,我们能够打破人 们之间的语言障碍,”这位微软研究院的 高级副总裁对听众们说。令人紧张的两秒 钟停顿之后,翻译的声音从扩音器里传了 出来。拉希德继续说:“我个人相信,这 会让世界变得更加美好。”停顿,然后又 是中文翻译。
他笑了。听众对他的每一句话都报以掌 声。有些人甚至流下了眼泪。这种看上去 似乎过于热情的反应是可以理解的:拉希 德的翻译太不容易了。每句话都被理解, 并被翻译得天衣无缝。令人印象最深的一 点在于,这位翻译并非人类。
这就是自然语言的机器翻译,也是长期以 来人工智能研究的一个重要体现。人工智 能从过去到未来都有清晰而巨大的商业前 景,是以前IT业的热点,其热度一点不亚 于现在的“互联网”和“大数据”。但是,人 类过去在推进人工智能的研究遇到了巨大 的障碍,最后几乎绝望。
当时人工智能就是模拟人的智能思考方式 来构筑机器智能。以机器翻译来说,语言 学家和语言专家必须不辞劳苦地编撰大型 词典和与语法、句法、语义学有关的规 则,数十万词汇构成词库,语法规则高达 数万条,考虑各种情景、各种语境,模拟 人类翻译,计算机专家再构建复杂的程 序。最后发现人类语言实在是太复杂了, 穷举式的做法根本达不到最基本的翻译质 量。这条道路最后的结果是,1960年代 后人工智能的技术研发停滞不前数年后, 科学家痛苦地发现以“模拟人脑”、“重建 人脑”的方式来定义人工智能走入一条死 胡同,这导致后来几乎所有的人工智能项 目都进入了冷宫。
这里讲个小插曲。我读大学的时候,有个 老师是国内人工智能的顶级教授,还是国 内某个人工智能研究会的副会长。他评述 当时的人工智能,不是人工智能,而是人 工愚蠢,把人类简单的行为分解、分解再 分解,再去笨拙地模拟,不是人怎么聪明 怎么学,而是模拟学习最蠢的人的最简单 的动作。他说,对于当时人工智能的进 步,有些人沾沾自喜,说好像登月计划中 人类离月亮更进一步了,其实,就是站上 了一块石头对着月亮抒情,啊,我离你更 近了。他对自己事业的自我嘲讽,让我至 今记忆非常深刻。
后来有人就想,机器为什么要向人学习逻 辑呢,又难学又学不好,机器本身最强大 的是计算能力和数据处理能力,为什么不 扬长避短、另走一条道路呢?这条道路就 是IBM“深蓝”走过的道路。1997年5月11 日,国际象棋大师卡斯帕罗夫在和IBM公 司开发的计算机“深蓝”进行对弈时宣布失 败,计算机“深蓝”因此赢得了这场意义深 远的“人机对抗”。 “深蓝”不是靠逻辑、不 靠所谓的人工智能取胜的,就是靠超强的 计算能力取胜:思考不过你,但是算死 你。
类似的逻辑在后续也用到了机器翻译上。 谷歌、微软和IBM都走上了这条道路。就 是主要采用匹配法,同时结合机器学习, 依赖于海量的数据及其相关相关统计信 息,不管语法和规则,将原文与互联网上 的翻译数据对比,找到最相近、引用最频 繁的翻译结果做为输出。也就是利用大数 据以及机器学习技术来实现机器翻译。现 有的数据量越是庞大,那么这个系统就能 越好地运行,这也正是为何新的机器翻译 只有在互联网出现以后才有可能重新取得 突破性进展的原因所在。
因此,目前这些公司机器翻译团队中,有 不少计算机科学家,但却连一个纯粹的语 言学家也没有,只要擅长数学和统计学, 然后又会编程,那就可以了。
总而言之,利用这种技术,计算机教会自 己从大数据中建立模式。有了足够大的信 息量,你就能让机器学会做看上去有智能 的事情,别管是导航、理解话语、翻译语 言,还是识别人脸,或者模拟人类对话。 英国剑桥微软研究院的克里斯·毕肖普 (Chris Bishop)打了个比方:“你堆积足 够多的砖块,然后退上几步,就能看到一 座房子。”
这里我们假设这种技术能够持续进步,未 来基于大数据和机器学习基础上的人工智 能达到比较流畅地模拟人类对话,就是人 类可以和机器进行比较自如的对话。事实 上,IBM的“沃森”计划就是这样科技工 程,比如试图让计算机当医生,能够对大 部分病进行诊断,并和病人进行沟通。另 外,也假设目前刚刚兴起的穿戴式计算设 备取得巨大的进展。这种进展到什么程度 呢?就是你家的宠物小狗身上也装上了各 种传感器和穿戴式设备,比如有图像采 集,有声音采集,有嗅觉采集,有对小狗 的健康进行监控的小型医疗设备,甚至还 有电子药丸在小狗的胃中进行消化情况监 控。小狗当然也联上网,也一样产生了巨 大的数据量。这时,我们假设基于这些大 数据建模,能够模拟小狗的喜怒哀乐,然 后还能够通过拟人化的处理进行语音表 达,换句话说,就是模拟小狗说人话,比 如主人回家时,小狗摇尾巴,旺旺叫,那 么这个附着于小狗身上的人工智能系统就 会说,“主人,真高兴看到你回家”。不仅 如此,你还可以和小狗的人工智能系统进 行对话,因为这个人工智能系统能基本理 解你的意思,又能够代替小狗拟人化表 达。以下我们模拟一下可能的对话:
你:“小狗,今天过得好?” 小狗:“不错啊,主人你今天换的新** 味道很好,总觉得没有吃够。” 你:“那很好。我们以后继续买这种狗 liang。对了,今天有什么人来吗?” 小狗:“只有邮递员来投递报纸。另外, 邻居家的小狗玛丽也来串门,我们一起玩 了一下午。” 你:“那你们玩的怎么样?” 小狗:“很开心啊。我好像又进入了初恋 呢。” ……
我们可以把上面的模拟对话当成一个笑 话。但其实,我们这个时候就会发现一个 惊人的事实,就是你其实是面对了两只小 狗,一只是物理意义上的小狗,一只是基 于大数据和机器学习的人工智能虚拟小 狗,而且虚拟小狗比物理小狗还要聪明, 真正善解人意。那么,这个虚拟小狗是不 是新的智慧生物呢?
我们继续把这个故事来做延伸,把小狗换 成未来的人,人在一生中产生大量的数 据,根据这些数据建模可以直接推演出很 多的结论,比如喜欢看什么样的电影啊, 喜欢什么口味的菜啊,在遇到什么问题时 会怎么采取什么行动啊。
这样的数据一直累积下来,直到这个人去 世。我们有个大胆的想象,这些巨大的数 据能否让这个人以某种方式继续存在下去 呢?后代有什么问题需要寻求答案的时 候,比如在人生的关键抉择时,比如大学 要上什么专业、该不该和某个姑娘结婚, 可不可以问问这个虚拟的人(祖先)有什 么建议呢?答案是当然可以。在这种情况 下,数字化生存不仅在人生前存在,也可 以在人死后继续存在。人死了,可以在虚 拟空间中继续存在。一辈子、一辈子的人 故去,这些虚拟的智慧都可以继续存在, 假设很多年过去了,这些虚拟智慧的祖宗 们太多太多了,活着的子孙们甚至可以组 建一个“祖宗联席参谋委员会”,优选那些 考得好的(比如中过状元),当过国家高 级公务员(比如太守)、当过企业高管 (比如CEO)、当过教授、当过作家的等 等当过成功人士的祖宗,专门用于后代的 咨询、解惑。让这些祖宗死后还有竞争, 别死了就没有事情干了。这个场景是不是 很熟悉啊?就是迪斯尼动画片《花木兰》 中出现过的场景啊,花木兰在面临是否代 父参军的重大人生时刻,就向“祖宗联席 参谋委员会”倾诉过困惑,得到了指点。
再更大胆地想象一下,假设材料科学也取 得巨大的进展,那我们能不能把这些虚拟 的生命重新植入到模拟人类的生态体上 呢?当然也可以。这个新智慧体可非常像 真正的人啊。那这算不算人死后复生呢? 那这个新智慧体能不能继续拥有以前的身 份证呢?能不能继续拥有以前的财产呢? 能不能继续享受养老金呢?是不是也要有 强制规定一定的寿命限制呢?这种智慧体 会不会自学习、自进化?他们会不会爆发 和人类的战争?往深处多想想,感觉全乱 套了,现在的伦理、法律等都面临巨大的 挑战。
这些说明什么呢?就是随着大数据和机器 学习的进一步进展,这个世界出现了新的 智慧生物!大数据和机器学习在改变、重 构和颠覆很多企业、行业和国家以后,终 于到了改变人类自身的时候了!人类的演 进出现了新的分支!
有科学家画了下面一张图,来描述这两者 智慧生物。一种是基于生物性的,经过几 百万年的进化而来;一种是基于IT技术, 基于大数据和机器学习,通过自模拟、自 学习而来。前者更有逻辑性,更有丰富的 情感,有创造力,但生命有限;后者没有 很强的逻辑性,没有生物上的情感,但有 很强的计算、建模和搜索能力,理论上生 命是无限的。
当然,这些事情要发生都会非常非常遥 远。反正我们活着的时候是见不到了,死 了也见不到,因为我们死的时候,我相信 这种建立在大数据和机器学习之上的虚拟 生命还不会存在。
四、结束语
我最后想说的是,我们对未来的认知,主 要是基于常识和对未来的想象。根据统 计,现在《纽约时报》一周的信息量比 18世纪一个人一生所收到的资讯量更 大,现在18个月产生的信息比过去5000 年的总和更多,现在我家一台5000元电 脑的计算能力比我刚入大学时全校的计算 能力更强大。科技的进步在很多的时候总 会超出我们的想象,试想如果未来我们一 个人拥有的电脑设备超过现在全球现在计 算能力的总和,一个人产生的数据量超过 现在全球数据量的总和,甚至你的宠物小 狗产生的信息量都超过现在全球数据量的 总和,世界会发生什么呢?那就取决于你 的想象力了。
对于未来,你想象到什么了呢?
本文转自:http://www.baidu.com/link?url=SE ... BLOIhSGa6byKcEyiB6a
(原文转自华为内部,作者潘少)
谢谢小编分享啊啊啊啊啊