深度学习】深度学习的核心内容是什么?

2020-06-17 09:25发布

1条回答
卡卡
1楼 · 2020-06-23 10:53.采纳回答

深度学习三大核心要素 


在2017CCF青年精英大会,香港中文大学教授汤晓鸥做了主题为《人工智能的明天,中国去哪?》的特邀报告。汤晓鸥在演讲中,讲述了人工智能和深度学习的发展,并指出,深度学习的三大核心要素,就是算法设计、高性能的计算能力以及大数据

汤晓鸥表示:“无论人工智能怎么样发展,年轻人选择创业还是做研究,其实我们要做的就是三件事情:第一,我们需要花时间把基础打好。刚才赵沁平院士讲得很好,就是要坚持,真正花时间把人工智能的基础打好。第二,我们要创新,要做新的东西,不要老是跟在别人后面走。第三,我们要把 ‘漂在上面的东西’落地,最终实现产业化。

以下根据汤晓鸥演讲实录整理的报告,一起来听听汤教授如何解读人工智能:

不管是中国人工智能接下来如何发展,还是年轻人如何创业或者做研究,我们要做的事情也就是这三件:

第一,要坚持,要花时间把基础打好。

第二,要做创新。要做新的东西,不要老是跟在别人后面走。

第三,要把飘在上面的东西落地,要产业化。

今天从我们实验室的研究成果和公司做的产品,来讲讲我对这三个方面的理解。

人工智能和深度学习的突破

什么是人工智能?

这个概念现在已经非常难定义了,大家几乎把所有的事情都往人工智能上靠。从我的理解来讲,人工智能真正落地的部分就是深度学习。因为之前的人工智能确实是在很多情况下用不起来,人手设计的智能还是比较难超越人来做某一件事情。而有了深度学习之后,我们可以把这个过程变成一个数据驱动的过程——当做某一件特定事情时数据量及参数量大到一定程度时,机器就可能在做这件事情上超过人类。很多现实中落地的产品化的东西,大部分是深度学习做出来的。深度学习做的东西,成功的案例比较多,一方面是在语音识别领域,另外可能更多的是视觉这方面,所以大家可以看到很多计算机视觉方面新的成果。我今天给在座讲的人工智能其实也就是计算机视觉,是用深度学习去做计算机视觉,就变得更窄了。

大家可以看到“深度学习“”这个词在谷歌上的搜索情况:从2006年才开始有人搜索这个词,是Hinton(深度学习的开山鼻祖Geoffrey Hinton)和Yann LeCun(Facebook人工智能研究院院长、卷积神经网络之父)们那个时候发明了这个算法。这中间很长一段时间,2006-2011年曲线是很平稳的,只有学术界才会去搜索这个词语,才知道这个事情。2011年突然之间搜索量开始呈现指数型增长,各行各业都在讨论深度学习,现在搜索量已经非常的巨大。这条曲线形象的演示了深度学习的爆发过程。

深度学习到底在做什么事情?

实际上,他所做的事情抽象出来是比较简单的,就是在做一个从X到Y的回归、或者说从A到B的Mapping(对应)——你给它一个输入,我怎么样给出一个对应的输出?特殊的地方就是深度学习把这件事情做得非常非常好。以前也有其他算法可以做,只不过一直做不过人,现在深度学习做到了极致。比如说给了一张人脸照片,它就可以给你对应出这个人的名字;给你一个物体的形状,它就可以告诉你是什么物体;给一个车的行驶场景,我就可以给你输出这个车应该往哪儿拐;给一个棋局,它能算出下一步怎么走;给一个医疗的图像,能帮你判断这是什么病……实际上就是这样的一个过程。不要把人工智能想象成可以超越人类,可以控制人类,这些都是所谓的“好莱坞的人工智能”或者想象中的人工智能,真正人工智能在现在这个阶段其实就是做这么简单个事。当然做成这个简单的事情其实已经很不简单了。

最近这几年深度学习确实在学术界、工业界取得了重大的突破。第一个突破是在语音识别上Hinton和微软的邓力老师,在2011年用深度学习在语音识别上取得了巨大的成功。昨天可能大家在微信也刷屏了,我们中国科大毕业的师兄邓力老师从微软出来到顶级对冲基金工作。我的理解这也是一个A to B的mapping 的过程:把邓老师的深度学习的经验等内容都输入到对冲基金的算法里,这个对冲基金的钱就自动Map到了邓老师口袋里。

语音识别取得了巨大成功以后,紧接着在视觉方面又取得了重大突破。2012年时,Hinton在ImageNet上将图像识别一下子提高了十几个点,以前我们都一年一个点在推,他一年就推了十年的进步,在学术界引起了很大的轰动。2014年我们团队做人脸识别,通过深度学习,做到算法首次超过人眼的成绩。

最后,在2016年,还是谷歌最厉害,每年120亿美金的研发投入没有白投,下了一盘棋叫AlphaGo,这盘棋下完之后人工智能就不需要我们解释了,大家忽然都明白了,人工智能原来是这么回事儿,就是下棋。

接着人工智能在自动驾驶领域也取得了一些重大的突破。现在比较热门的是医疗影像方面,借助人工智能进行诊断。

深度学习的三个核心要素

深度学习有三个核心的要素:

学习算法的设计,你设计的大脑到底够不够聪明;

要有高性能的计算能力,训练一个大的网络;

必须要有大数据。

接下来分享我们在深度学习方面做的一些工作。我们从2011年开始做这项工作,一开始没有开源的框架,所以要自己做很多的工作。做的时间长了,我们就做了一套Parrots系统,这个系统目前还不是开源的。

我们用这套系统训练的网络可以做到非常深,原来AlexNet是8层,后来GoogleNet在2014年做到了22层,后来Resnet做到了150多层,去年我们的PolyNet做到了1000多层。大家可以看到这个网络发展趋势,越来越深。这是我们设计的1000多层的网络,比较细的线就是整个网,中间一个格往下走,放大出来的部分就是网络的细节结构,这个网叫做Polynet,Dahua团队的这个网络设计和Facebook的Kaiming团队的Resnet,在图像分类上做了目前为止全球最好的结果,最后基本上成了我们实验室出来的两个学生之间的竞赛。这个网络的最后形状有点像 DNA 的双螺旋。

在物体检测上大家也可以看到这个进步速度,2013年一开始的时候,200类物体的平均检测准确率是22%,但是很快谷歌可以做到43.9%,我们做到50.3%,紧接着微软是62%,现在我们做到最好结果是66%。这个速度是几年之内翻了三倍,也是深度学习的力量,我们这方面的工作是Xiaogang和Wangli团队做的。

我们训练出来这样一个大脑,可以把它应用到各个方向,做出很多不同领域的不同技术。在人脸方面我们做了人脸检测、人脸关键点定位、身份证对比、聚类以及人脸属性、活体检测等等。智能监控方面,做了人,机动车,非机动车视频结构化研究,人体的属性,我们定义了大约70种。人群定义了90多种属性。下面这些是衣服的搜索、物体的检测、场景的分类和车型的检测,车型检测我们标注了几千种车型的分类。在文字方面,小票的识别、信用卡的识别、车牌的识别,这些都是由深度学习的算法来做的。同时在图像的处理方面,在去雾、超分辨率、去抖动、去模糊,HDR、各种智能滤镜的设计都是用深度学习的算法,我们基本上用一套大脑做很多的任务。

深度学习另外一个门槛就是高性能计算,以前高性能计算大家都是讲的CPU集群,现在做深度学习都是GPU,把数百块GPU连接起来做成集群目前是一个比较大的门槛。我们在北京做了三个GPU的集群,在香港做了一个大的集群,用这些集群,原来一个月才能训练出来的网络,加速到几个小时就能训练完,因此我们训练了大量的网络。

深度学习第三个门槛就是大数据,如果把人工智能比喻成一个火箭的话,大数据就是这个火箭的原料。

我们与300多家工业界的厂商客户进行合作,积累了大量的数据,数亿的图片,我们有300多人的团队专门做这个数据标注。包括几千类车型的数据、人群的大数据以及衣服的搜索和分类的数据库,这些对于学术界以及工业界都是很有益的。实际上谷歌所做的数据体量更大,他们和National Institutes of Health (NIH)合作很快会开放一个非常大的医疗图像的数据库。在医疗方面我相信大家很快会有大量的数据进行处理,这个时候对于我们的高性能计算又提出了一些新的要求。

实验室有幸对深度学习研究较早。在计算机视觉包括人脸检测等各个方面起步较早,这里列了18项计算机视觉领域由我们在全球最早提出来深度学习解决方案的问题,也相当于对创新的一些贡献。我们被评为全亚洲唯一的人工智能研究十大先驱实验室,非常荣幸跟MIT、斯坦福、伯克利这样的名校,以及深度学习的顶级工业实验室脸书、谷歌的深度学习负责人团队等等在一起获选。我们也在研究一些现在没有的技术,比如说,大家可能以前见过很多依赖深度摄像头才能做的人体跟踪算法(比如Kinect)。目前我们团队做的算法,用很便宜的单个RGB摄像头就可以做到同样效果,这是非常不容易的,尤其要做到实时,在智能家居,自动驾驶等方面都有很大的应用前景。

下面这个工作是去年做的,根据一张照片里两个人的姿势,可以自动判断两个人之间的情感,是友好的还是敌对的。同时可以根据两个人的表情也可以判断两个人的关系。所以以后如果你把你的照片上载到互联网上,实际上我们可以判断出来跟你一起照相的这个人和你具体是什么关系。

这有什么用途呢?大家经常会把照片放到网上,我们用这些照片分析这些人,如果你跟一个非常有名的人,或者跟一个非常有钱的人照了一张合照,那你这个人可信度可能就增加。或者你和一个罪犯、或者信誉不好的人拍了一张照片,你的可信度就下降。我们用这项技术可以做金融的征信,把不同人的关系网建立起来,把信用度传递出去。这个关系问题还可以做得更多,把一张图片任何物体之间,哪个在上面,哪个在后面,互相是什么关系,可以由一张照片判断出来。

下面这是最新的工作,我们以前定义了70种人的特性,根据这个特性进行视频搜索。现在定义一个新的搜索模式,是用自然语言来搜索,即我说一段话来描述这个人,把这个人描述出来以后用这段话去搜索我要找的这样一个人。实际上,其中涉及的信息量是很大的,寻找也更加精准,我们已经建立了一个大的开源的数据库来帮助大家做这个研究。

在这些数据中,从这些自然语言里面我们可以抽出不同的词,用词来描述不同的人,其信息量巨大,搜索准确率也大幅度提高。这是具体的监控方面应用的结果。用自然语言做人的搜索。大家可以想像一下在医疗上的应用,如在多模态的医疗诊断上。一个是医疗的图像,一个是医生的文字诊断,可以实时的识别出来,进行自然语言的分析,把两个进行结合再进行诊断。

下面这个也是一项新的研究工作,根据这个Video,识别内容,判断剧情属性。以泰坦尼克号电影为例,你可以看到那两个曲线,现在是浪漫的场景,代表浪漫的线就上来了,如果是灾难,那个灾难的绿线就上来了,实时根据这个内容判断剧情,这也是去年的工作。

今年目前团队又做了一个新的工作,可以根据电影的实时计算分析,来理解判断这里面的剧情,可以把一个演员,在整个电影里面,在什么地方出现,在那段时间是什么剧情,用自然语言描述出来,把整个电影的内容分析,用计算机视觉和自然语言自动可以分析出来了。将来可以用来分析和插播广告,还可以直接用自然语言搜索各种不同的片段。

我们还有一项工作是超分辨率,就是把很小的图像放大,最大化还原细节。这是好莱坞电影的图像,视频抓到一个很模糊的嫌疑罪犯的图像,然后把它实时的放大变得很清晰。这只是谍影重重电影上演的效果,还是很震撼的。

2016年的时候,推特跟谷歌密集发表了几篇关于超分辨率的文章,其核心就是深度学习。而我们早于他们,就已经做了大量先期研究。我们在2014年发表了全球第一个用深度学习研究超分辨率的论文,在2015年又发表了一篇相关文章,2016年发表了两篇,取得了更大的突破,而在2017年紧接着发表了三篇。我们的Cavan教授团队是第一个做的,也是目前做的最好的。目前超分辨率已经走向实时以及效果实用化的阶段,利用这项技术在某些实时监控,公安监控摄像头可以把人看的比较清晰了。

而在自动驾驶上,我们也做了大量研究,六大类别的技术,有30多个细分核心技术。我在这里面就简单举几个例子做演示。比如车的检测、行人检测、路道线的检测、实时的场景分割……我们也做到前端,用前端的芯片做实时的效果。

人脸的布控系统,目前已在很多城市实时布控了。还有百米之外抓人,百米之外看到一个目标拉近然后进行人脸识别。

视频结构化是把视频里面的人,机动车,非机动车及其特性都检测出来了,自动标注出来了,这样把整个视频变成了文档,就可以进行文档性的搜索。

下面这些也都是我们所做的技术的落地产品:在中国移动的实名认证系统,去年给中国移动做了三亿人的实名认证;小米的宝宝相册;华为Mat8的智能相册;FaceU、SNOW等做的特效;微博相机;这绝大部分是基于我们的人脸识别、人脸跟踪等技术做出来的。实际上在人工智能落地方面我们做了许多的落地产品,去年的双创活动中几百家企业里面选了两家代表中国人工智能,右边是百度,左边是商汤科技。


相关问题推荐

  • 回答 1
    已采纳

    就业面广不广主要看深度学习的应用程度:其实咱们的实际生活中已经有很多应用深度学习技术的案例了。比如电商行业,在浏览淘宝时,页面中有很多都是符合你的爱好并且最近有意向购买的商品,这种个性化推荐中就涉及到深度学习技术,还有就是在购物界面能和你进...

  • 回答 2

    深度学习是相对比较专业的一种描述,在生活中更多的场景下被直接称为了人工智能(当然在技术领域人工智能和深度学习的范畴是有差异的),从国家政策到产业驱动,已经凸显了它的一个发展趋势政策加码支持撬动万亿蓝海  2018世界人工智能大会将以人工智能赋能新...

  • 回答 2

    以后都是智能化社会,学好这些技术,找工作高薪就业没问题的

  • 回答 2

    人们的生活变得越来越便利,未来都是人工智能的天下了~

  • 回答 2

      作为一种人工智能的AlphaGo,和IBM在上个世纪打败国际象棋大师卡斯帕罗夫的深蓝超级计算机,以及当代的苹果Siri、GoogleNow有着显著的区别。  要了解AlphaGo,首先我们需要了解AlphaGo背后到底是一个什么东西。  它背后是一套神经网络系统,由Google2...

  • 回答 2

    深度学习主要应用于图像识别、语音识别、自然语言处理等领域。学完可以从事深度学习工程师、机器学习工程师、人工智能工程师、高级算法工程师、高级算法工程师 AI研发工程师、AI架构师等,课程是与中科院合作的,整个行业发展前景还是不错的。...

  • 回答 4

    目前,深度学习在图像、语音、自然语言处理都取得了重大突破。深度学习(卷积神经网络)最初是为解决图像识别问题而提出的。目前深度学习在图像识别中的应用主要集中于图像分类、目标检测、图像分割等领域。图像分类图片分类的任务是对于一个给定的图片,预测...

  • 回答 2

        生成对抗网络(Generative Adversarial Nets)是Ian Goodfellow 等人2014年的论文《Generative Adversarial Nets》中提出,它是非监督学习的一种方法,通过让两个神经网络相互博弈的方式进行学习。    CANs都是在机器创造性思维方面在艺术方面的...

  • 回答 2

    深度学习(Deep Learning)源于人工神经网络的研究,是机器学习的一个分支。深度学习主要依赖于深度神经元网络,这种神经网络类似于人类的大脑,其学习过程也与人类十分相似。基本上,你输入海量的数据给它以后,它就会通过训练,学习到海量数据的特征。举例来...

  • 回答 2

    python。python是人工智能的首选语言,功能强大,可以实先快速开发,在大数据和人工智能领域都可以运用,并且python是深度学习课程的基础。

  • 回答 3

    建议先学下高级编程语言语言比如Python作为编程基础,然后再学习深度学习相关知识。

  • 回答 1

  • 回答 1

    现在已经有很多人作了关于深度学习以及其如何重要的讲座,我非常同意他们的看法。工作在深度学习这个领域是让我觉得最接近魔法师的事,我觉得未来三年内很多软件的重要部分都会由深度学习推动前行。不过,现在好像深度学习还非主流,因此我想分享些优秀的开发...

  • 回答 1

    深度学习新星:GAN的基本原理、应用和走向 https://www.cnblogs.com/DicksonJYL/p/9617443.html 相关参考:【OpenAI】GenerativeModels    【搜狐科技】GAN之父NIPS2016演讲现场直击:全方位解读生成对抗网络的原理及未来    【pdf】:http://www.ia...

  • 回答 1

    主要做了基于深度学习的图像识别与检测的研究,下面是一些整理内容1、深度学习的优势(1)从统计,计算的角度看,DL特别适合处理大数据      a、用较为复杂的模型降低模型偏差      b、用大数据提升统计估计的准确度      c、用可扩展的梯度下降算法...

  • 回答 3

    深度学习技术在电商行业、交通领域、工业、金融行业、教育行业、医疗行业应用都比较成熟了。金融行业,银行通过深度学习技术能对数以百万的消费者数据(年龄,职业,婚姻状况等)、金融借款和保险情况(是否有违约记录,还款时间,车辆事故记录等)进行分析进...

没有解决我的问题,去提问