科技新势力:机器视觉让人类看到的世界更精彩
何搏飞表示,我们大脑所接收80%的信息都源自视觉,同时大脑中接近一千亿个神经元,绝大多数只做一件事情,就是处理我们的视觉信息。
为什么我们是一步步地从文字,发展到声音,最后才到动态视频?何搏飞认为,就是因为动态的视觉信息是最丰富,但也是最复杂的。
那么机器有没有视觉?何搏飞表示,实际上在很多领域,机器视觉已经在改变我们的生活,他举了微软体感游戏的例子说,当我们做各种动作时,它会理解我们的行为,配合多媒体的体验,让我们有种互动和丰富的感受。
机器有了视觉之后会产生什么影响?何搏飞分享了几个案例来阐述,机器视觉可以给予我们一个更加互动、更加健康、更加便捷的世界。
格灵深瞳创立一年多就拿到了两轮融资,去年获得了红杉资本数千万美元的A轮融资。比尔·盖茨访华时还专门造访了格灵深瞳。何搏飞毕业于美国斯坦福大学,他和联合创始人赵勇的愿景是将格灵深瞳打造成一家千亿级的人工智能公司。
以下是整理的何搏飞的演讲实录:
大家好!“Vision”这个单词在任何一本英汉词典里,第一条解释就是视觉,视觉是什么?视觉是一种感知能力。我们人身上一共有五种感知能力,包括视觉、听觉、嗅觉、味觉和触觉。
余凯博士刚才讲到人工智能的本质就是自主学习的能力。我们人的大脑之所以这么聪明,这么复杂,这么高级,就是因为我们人可以自主地学习,而自主学习能力主要源自这五种感知能力。
这五种感知能力中,我们大脑所接收的80%的信息都来自视觉,我问大家一个问题,如果我们不得不放弃四种感知能力,只保留一种,你会保留哪一种?
我相信在座的很多人答案跟我一样,你会保留视觉信息。大家有没有想过为什么?我们都知道有这样一个数据,我们的大脑分成两半,左脑和右脑,左脑是理性,右脑是感性的,是有创造力的。
还有一个数据可能大家并不知道,我们大脑有接近一千亿个神经元,绝大多数只做一件事情,就是处理我们的视觉信息。大家想想当我们休息时,会做什么,通常会闭上我们的眼睛,所以每一天当我们的眼睛睁开时我们在主动或者被动地接受大量的复杂信息。
大家知道,我们人类主要是通过学习来成长,智慧也是在这样的过程中提高。那么分享知识就非常重要。从几千年前开始我们人类就把文字编辑成书。但文字承载的信息量是有限的,我们还希望它更加的丰富多彩。
所以到了100多年前有了电话,我们可以远距离的让听到我们的声音,后来我们就了广播,终于几十年前我们有了电视,到了十年前最近这段时间大家知道在网络带宽成为可能的情况下视频网站才成为可能。
为什么从文字,到声音,到视频,一步一步到几千年前,到最近几年,才能随时随地的分享动态的画面视频?没有其他原因,就是因为动态的视觉信息是最丰富的,也是最复杂的。
当我们讨论人工智能,讨论计算机、机器是否有学习能力时,我们首先要问自己一个问题,那就是机器有视觉吗?我必须要这样讲,在今天绝大多数场合下,对我们绝大多数人来说,机器是没有视觉的,机器是瞎子。
你们可能会反对我,会说我在用手机拍照,我的电脑上也有摄像头,大街小巷有这么多摄像头,难道它们不都是机器的眼睛吗?难道这不是视觉吗?但是大家想一想,当我们拍了这些照片视频,最终计算机看懂这些视频照片了吗?
我们把它存下来,不管是单反相机、摄像机,拍完以后,最终还是要人处理这些信息。为什么?因为在绝大多数情况下,电脑是无法处理这种复杂信息的。
机器视觉给予我们一个更加互动的世界
但今天我也要告诉大家,实际上在很多领域,机器视觉已经在改变我们的生活。当我说到这儿时,可能很多人马上会想到的第一件事情是微软的体感游戏,当你做各种动作时它会理解你的行为,配合多媒体的体验,你会感受到互动和丰富的感受。
所以,当机器有视觉的时候,首先带给我们的就是一个更加互动的世界。在这儿我给大家看一段特别有意思的视频,我的朋友黄沙,就用微软的这个传感器拍了一段动感的视频。
我们知道,好莱坞电影和美剧在制作过程中会有一个绿色的背景,它就是做一件事情,就是把人和背景区分开,这样后期制作时,就可以把绿色背景换成任何的场景,但有了三维计算机视觉,任何在座的每个人都能超越好莱坞特效师,更好地完成精彩的动画,这只是个简单的例子。
机器视觉带给我们一个更加健康的世界
当机器有了视觉以后,还会给我们带来一个更加健康的世界。
机器视觉人工智能智能硬件自动驾驶格灵深 相关文章:
- Windows CE 进程、线程和内存管理(11-09)
- RedHatLinux新手入门教程(5)(11-12)
- uClinux介绍(11-09)
- openwebmailV1.60安装教学(11-12)
- Linux嵌入式系统开发平台选型探讨(11-09)
- Windows CE 进程、线程和内存管理(二)(11-09)