深度学习】深度学习如何提升图像的识别准确率?

2020-08-17 15:26发布

4条回答
卡卡
2楼 · 2020-08-24 14:53






目前,深度学习在图像、语音、自然语言处理都取得了重大突破。深度学习(卷积神经网络)最初是为解决图像识别问题而提出的。目前深度学习在图像识别中的应用主要集中于图像分类、目标检测、图像分割等领域。


图像分类


图片分类的任务是对于一个给定的图片,预测其类别标签。


深度学习在图像分类上的应用可追溯到最初银行支票上的手写数字自动识别,现在的人工智能三巨头之一YanLeCun在1994年提出了LeNet,使用卷积来提取空间特征,进行手写字符的识别与分类,准确率达到了98%,并在美国的银行中投入了使用,被用于读取北美约10%的支票,LeNet将卷积、池化和非线性激活函数相结合,奠定了现代卷积神经网络的基础。


之后随着每年ImageNet比赛的成功举办,深度学习在图像分类中的精度逐渐提升。2012年Hinton的学生AlexKrizhevsky提出了AlexNet,并获得当年Imagenet比赛冠军,AlexNet可以算是LeNet的一种更深更宽的版本,证明了卷积神经网络在复杂模型下的有效性,算是神经网络在低谷期的第一次发声,确立了深度学习,或者说卷积神经网络在计算机视觉中的统治地位。


2014年,牛津大学计算机视觉组和GoogleDeepMind公司一起研发了深度卷积神经网络VGGNet,并取得了当年Imagenet比赛定位项目第一名和分类项目第二名。该网络主要是泛化性能很好,容易迁移到其他的图像识别项目上,可以下载VGGNet训练好的参数进行很好的初始化权重操作,现在很多卷积神经网络都是以该网络为基础,比如FCN,UNet,SegNet等。vgg版本很多,常用的是VGG16,VGG19网络。


2015年,ResNet(残差神经网络)由微软研究院的何凯明等4名华人提出,成功训练了152层超级深的卷积神经网络,效果非常突出,而且容易结合到其他网络结构中。在五个主要任务轨迹中都获得了第一名的成绩(ImageNet分类任务,ImageNet检测任务,ImageNet定位任务,COCO检测任务,COCO分割任务)。


2015年Szegedy等人提出了GoogLeNet,在卷积神经网络中搭建多个inception模块,以增加卷积神经网络的深度和宽度。由于inception模块中卷积核的尺寸较小,GoogLeNet的训练参数大约50万个,只有AlexNet参数数量的1/12,但是在ImageNet数据集上图像识别的准确度提高了10%左右。


2016,2017年的ImageNet比赛,来自中国的团队大放异彩,商汤科技,公安部三所,HikVision(海康威视),NUIST(南京信息工程大学)都拿到过各个项目的冠军,网络结构多采用多个网络做集合。




目标检测


目标检测是指从一幅场景(图片)中找出目标,并用矩形框确定目标的位置。多应用于人脸识别、自动驾驶、遥感影像识别等领域。


目前基于深度学习的目标检测算法大致分为两类:



基于区域建议的目标检测与识别算法,如R-CNN,Fast-R-CNN,Faster-R-CNN

基于回归的目标检测与识别算法,如YOLO,SSD



2014年,Girshick(RGB大神)等人提出了R-CNN模型。该模型利用selectivesearch方法从待检测图像中提取若干个候选区;然后将候选区转换为统一的大小,使用卷积神经网络对其进行特征提取;最后运用多个SVM对特征进行分类,完成多目标检测。由于选择了较好的候选区以及使用了AlexNet判定候选区所属的类别,识别效果非常好,极大地提高了PascalVOC数据集上的检测效果。


2015年,Girshick为了提高R-CNN模型的检测速度,提出了fast-R-CNN模型。该模型仍然利用selectivesearch方法从待检测图像中提取若干个候选区。相比于R-CNN模型对每个候选区都提取特征,fast-R-CNN只对待检测图像提取特征;然后将候选区对应的特征图通过空间金字塔池化层映射为固定长度的特征向量;最后特征经过全连接的神经网络进行分类,并且预测边界框的坐标,对候选区进行修正,大幅提升了目标检测的速度。


2015年,继R-CNN,fast-R-CNN之后,目标检测界的领军人物RossGirshick团队(包括华人科学家任少卿,何凯明大神,孙剑)又推出faster-R-CNN模型,该模型由用于提取候选区的卷积神经网络(RPN)和用于目标检测的卷积神经网络fast-R-CNN构成。RPN对待检测图像中的每个位置都预测是否存在目标,并给出可能性最大的候选区。Fast-R-CNN判别所有候选区的类别并预测目标的边界框,对候选区进行修正。由于RPN和fast-R-CNN共享了卷积神经网络特征提取的部分,只需提取一次待检测图像的特征,加快了目标检测的速度。


2015年,JosephRedmon等人(RossGirshick挂名)提出YOLO模型,即youonlylookonce,用来实现实时目标检测的一种神经网络,将一个物体检测作为一个回归问题求解,输出图像只需经过一次inference,便可直接获取到图像中物体位置,物体对应的类别及其置信度。由于YOLO没有显示求解regionproposal,而是将该过程直接融合在网络中,所以避免了很多麻烦。


2015年WeiLiu等人提出了SSD,结合了YOLO中的回归思想和Faster-RCNN中的Anchor机制,使用全图各个位置的多尺度区域特征进行回归,既保持了YOLO速度快的特性,也保证了窗口预测的跟Faster-RCNN一样比较精准。SSD的核心是在特征图上采用卷积核来预测一系列DefaultBoundingBoxes的类别、坐标偏移。为了提高检测准确率,SSD在不同尺度的特征图上进行预测。




语义分割


语义分割也就是像素级别的分类,让计算机根据图像的语义来进行分割,确定边缘位置。目前应用有自动驾驶、医疗影像识别、遥感影像识别等领域。


传统的语义分割主要依赖使用人工提取特征和概率图模型,2015年JonathanLong等提出了全卷积网络(FCN),将深度学习引入了语义分割领域,FCN这篇论文(FullyConvolutionalNetworksforSemanticSegmentation)的发表,成为了语义分割的一个重要转折点。FCN主要使用了卷积化(Convolutional)、上采样(Upsample)、跳跃结构(SkipLayer)三种技术。


2015年VijayBadrinarayanan等人提出SegNet,主要贡献:将最大池化指数转移至解码器中,改善了分割分辨率。SegNet没有复制FCN中的编码器特征,而是复制了最大池化索引,这使得SegNet比FCN更节省内存。


2016年Liang-ChiehChen等提出了DeepLab网络,DeepLabv1:结合深度卷积神经网络,使用空洞卷积(atrousconvolution)进行语义分割。DeepLabv2:基于DeepLabv1的优化,使用空洞空间金字塔池化(atrousspatialpyramidpooling,ASPP)对物体进行有效的分割。DeepLabv3:采用多比例的带孔卷积级联或并行来捕获多尺度背景,基于图像特征优化ASPP。DeepLabv3+:对DeepLabv3的扩展,包括一个简单而高效的改善分割结果的解码器模块目前,DeepLabv3+版本已经开源。


2016年HengshuangZhao等提出了PSPNet网络,提出的金字塔池化模块(pyramidpoolingmodule)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。


2017年何凯明等人提出了MaskR-CNN,在原有FasterR-CNN的基础上添加了一个分支网络把目标像素分割出来,对每个实例生成一个高质量的分割掩码。该论文(MaskR-CNN)获得了ICCV2017的bestpaper,作为大神级人物,这也是他第三次斩获顶会最佳论文,另外,他参与的另一篇论文:FocalLossforDenseObjectDetection,也被大会评为最佳学生论文。

Naughty
3楼 · 2020-09-09 10:26






作者:丰晓霞

学校:太原理工大学

时间:2015

类型:硕士学位论文


思想

深度学习和支持向量机结合–>构建图像识别的模型

利用卷积限制性玻尔兹曼机–>构建深度网络、改进训练过程


摘要

本文研究的主要工作包括:

(1)认真分析了图像识别的方法及存在的问题,对现有的图像识别算法进行了对比研究,详细叙述了深度学习的发展和进展,对比了深度学习结构相比浅层结构的优势所在,总结了深度学习的常用方法,详细介绍了限制性玻尔兹曼机和卷积限制性玻尔兹曼机的原理和训练过程。

(2)将深度学习和支持向量机相结合,将多个限制性玻尔兹曼机与支持向量机连接构建多层分类模型,用深度学习的方法提取样本特征,然后用支持向量机方法进行分类,并将其应用到图像识别任务中。通过实验验证,在样本较少的情况下,与支持向量机和深度信念网络进行比较效果良好,并且通过不同样本数、层数、节点数与正确率的比较,讨论了隐含层节点数与支持向量数的关系,并且讨论了相关参数对结果的影响。

(3)对由卷积限制性玻尔兹曼机构成的卷积深度信念网络的训练过程进行改进,通过交替进行无监督和有监督学习来训练网络,最后将该网络用于图像识别中,通过实验验证了可行性和有效性,讨论了卷积核大小对结果的影响。


关键词

深度学习,图像识别,限制性玻尔兹曼机,卷积限制性玻尔兹曼机,支持向量机


创新点

(1)将深度学习和支持向量机相结合,构建了用于图像分类的模型,详述了训练过程,通过实验,在样本较少的情况下,与支持向量机和深度信念网络进行比较,效果均优于二者,并对不同样本数、层数、节点数与正确率进行了比较,讨论了隐含层节点数与支持向量数的关系,另外,讨论了相关参数对结果的影响。

(2)对用卷积限制性玻尔兹曼机构建深度网络训练过程进行改进,通过交替进行无监督和有监督学习来训练网络的方法,将该网络用于图像识别任务中,取得了良好的效果。


问题

(1)深度学习的理论研究还不够充分,深度学习的有效性还缺乏严格的证明,如对比散度算法,并没有获得充分的研究,其收敛性等问题并不明确。

(2)在数据量比较大的情况下,深度学习算法虽然有准确率的优势,但相比传统算法速度比较慢。如何提高算法的效率,需要编程人员较高的编程水平,并且模型的质量受限于编程人员的经验。

(3)如何降低相关参数调整的难度,降低深度学习算法的难度,也是亟需解决的问题。


改进思路

(1)从深度学习方法同其他方法相结合的思路完善网络,从而提高准确率或者训练速度。

(2)进一步优化相关参数的选取方法,训练方法以及适用范围。

(3)预先通过其他较优的特征提取方法来提取特征,以及使用特征的融合技术,再用深度学习方法来进行识别。

是开心果呀 - 热爱生活
4楼 · 2021-11-05 12:12

你说的人工智能 应该指的是深度学习框架
而且是相对过去的技术
深度学习如何提高图像识别率,主要是因为特征选择已经不需要做了,以前图像处理都是用某个算法先抽取图片里的特征, 然后再用算法分析,现在深度学习是一体了,自动抽取,所以有时候 识别的角度未必是图片上的某些元素,而是你想象不到的地方

征戰撩四汸
5楼 · 2021-12-02 16:16

1、得到更多的数据

  这无疑是最简单的解决办法,深度学习模型的强大程度取决于你带来的数据。增加验证准确性的最简单方法之一是添加更多数据。如果您没有很多训练实例,这将特别有用。

如果您正在处理图像识别模型,您可以考虑通过使用数据增强来增加可用数据集的多样性。这些技术包括从将图像翻转到轴上、添加噪声到放大图像。如果您是一个强大的机器学习工程师,您还可以尝试使用GANs进行数据扩充。

2、添加更多的层

  向模型中添加更多层可以增强它更深入地学习数据集特性的能力,因此它将能够识别出作为人类可能没有注意到的细微差异。

3、更改图像大小

  当你对图像进行预处理以进行训练和评估时,需要做很多关于图像大小的实验。

  如果您选择的图像尺寸太小,您的模型将无法识别有助于图像识别的显著特征。

  相反,如果您的图像太大,则会增加计算机所需的计算资源,并且/或者您的模型可能不够复杂,无法处理它们。

4、增加训练轮

  epoch基本上就是你将整个数据集通过神经网络传递的次数。以+25、+100的间隔逐步训练您的模型。

  只有当您的数据集中有很多数据时,才有必要增加epoch。然而,你的模型最终将到达一个点,即增加的epoch将不能提高精度。

  此时,您应该考虑调整模型的学习速度。这个小超参数决定了你的模型是达到全局最小值(神经网络的最终目标)还是陷入局部最小值。

5、减少颜色通道

  颜色通道反映图像数组的维数。大多数彩色(RGB)图像由三个彩色通道组成,而灰度图像只有一个通道。

  颜色通道越复杂,数据集就越复杂,训练模型所需的时间也就越长。

  如果颜色在你的模型中不是那么重要的因素,你可以继续将你的彩色图像转换为灰度。

  你甚至可以考虑其他颜色空间,比如HSV和Lab。







相关问题推荐

  • 回答 1
    已采纳

    就业面广不广主要看深度学习的应用程度:其实咱们的实际生活中已经有很多应用深度学习技术的案例了。比如电商行业,在浏览淘宝时,页面中有很多都是符合你的爱好并且最近有意向购买的商品,这种个性化推荐中就涉及到深度学习技术,还有就是在购物界面能和你进...

  • 回答 2

    深度学习是相对比较专业的一种描述,在生活中更多的场景下被直接称为了人工智能(当然在技术领域人工智能和深度学习的范畴是有差异的),从国家政策到产业驱动,已经凸显了它的一个发展趋势政策加码支持撬动万亿蓝海  2018世界人工智能大会将以人工智能赋能新...

  • 回答 2

    以后都是智能化社会,学好这些技术,找工作高薪就业没问题的

  • 回答 2

    人们的生活变得越来越便利,未来都是人工智能的天下了~

  • 回答 2

      作为一种人工智能的AlphaGo,和IBM在上个世纪打败国际象棋大师卡斯帕罗夫的深蓝超级计算机,以及当代的苹果Siri、GoogleNow有着显著的区别。  要了解AlphaGo,首先我们需要了解AlphaGo背后到底是一个什么东西。  它背后是一套神经网络系统,由Google2...

  • 回答 2

    深度学习主要应用于图像识别、语音识别、自然语言处理等领域。学完可以从事深度学习工程师、机器学习工程师、人工智能工程师、高级算法工程师、高级算法工程师 AI研发工程师、AI架构师等,课程是与中科院合作的,整个行业发展前景还是不错的。...

  • 回答 2

        生成对抗网络(Generative Adversarial Nets)是Ian Goodfellow 等人2014年的论文《Generative Adversarial Nets》中提出,它是非监督学习的一种方法,通过让两个神经网络相互博弈的方式进行学习。    CANs都是在机器创造性思维方面在艺术方面的...

  • 回答 2

    深度学习(Deep Learning)源于人工神经网络的研究,是机器学习的一个分支。深度学习主要依赖于深度神经元网络,这种神经网络类似于人类的大脑,其学习过程也与人类十分相似。基本上,你输入海量的数据给它以后,它就会通过训练,学习到海量数据的特征。举例来...

  • 回答 2

    python。python是人工智能的首选语言,功能强大,可以实先快速开发,在大数据和人工智能领域都可以运用,并且python是深度学习课程的基础。

  • 回答 3

    建议先学下高级编程语言语言比如Python作为编程基础,然后再学习深度学习相关知识。

  • 回答 1

  • 回答 1

    现在已经有很多人作了关于深度学习以及其如何重要的讲座,我非常同意他们的看法。工作在深度学习这个领域是让我觉得最接近魔法师的事,我觉得未来三年内很多软件的重要部分都会由深度学习推动前行。不过,现在好像深度学习还非主流,因此我想分享些优秀的开发...

  • 回答 1

    深度学习新星:GAN的基本原理、应用和走向 https://www.cnblogs.com/DicksonJYL/p/9617443.html 相关参考:【OpenAI】GenerativeModels    【搜狐科技】GAN之父NIPS2016演讲现场直击:全方位解读生成对抗网络的原理及未来    【pdf】:http://www.ia...

  • 回答 1

    主要做了基于深度学习的图像识别与检测的研究,下面是一些整理内容1、深度学习的优势(1)从统计,计算的角度看,DL特别适合处理大数据      a、用较为复杂的模型降低模型偏差      b、用大数据提升统计估计的准确度      c、用可扩展的梯度下降算法...

  • 回答 3

    深度学习技术在电商行业、交通领域、工业、金融行业、教育行业、医疗行业应用都比较成熟了。金融行业,银行通过深度学习技术能对数以百万的消费者数据(年龄,职业,婚姻状况等)、金融借款和保险情况(是否有违约记录,还款时间,车辆事故记录等)进行分析进...

没有解决我的问题,去提问