Big Data】如何理解有监督学习和无监督学习?

2020-05-18 09:01发布

3条回答
那些年很冒险的梦。
1楼 · 2020-05-18 10:02.采纳回答

监督学习(supervised learning)

从给定的训练数据集中学习出一个函数(模型参数),当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入输出,也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类(注意和聚类区分)问题,通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优表示某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统(模型)。

监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息,对于神经网络,分类系统利用信息判断网络的错误,然后不断调整网络参数。对于决策树,分类系统用它来判断哪些属性提供了最多的信息。

常见的有监督学习算法:回归分析和统计分类。最典型的算法是KNN和SVM。

无监督学习(unsupervised learning)

输入数据没有被标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)试图使类内差距最小化,类间差距最大化。通俗点将就是实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始学习分类器设计。

非监督学习目标不是告诉计算机怎么做,而是让它(计算机)自己去学习怎样做事情。非监督学习有两种思路。第一种思路是在指导Agent时不为其指定明确分类,而是在成功时,采用某种形式的激励制度。需要注意的是,这类训练通常会置于决策问题的框架里,因为它的目标不是为了产生一个分类系统,而是做出最大回报的决定,这种思路很好的概括了现实世界,agent可以对正确的行为做出激励,而对错误行为做出惩罚。

无监督学习的方法分为两大类:

(1)一类为基于概率密度函数估计的直接方法:指设法找到各类别在特征空间的分布参数,再进行分类。

(2)另一类是称为基于样本间相似性度量的简洁聚类方法:其原理是设法定出不同类别的核心或初始内核,然后依据样本与核心之间的相似性度量将样本聚集成不同的类别。

利用聚类结果,可以提取数据集中隐藏信息,对未来数据进行分类和预测。应用于数据挖掘,模式识别,图像处理等。

PCA和很多deep learning算法都属于无监督学习。 


白首有我共你
2楼 · 2022-08-19 18:17
谢邀。内容比较多,我的回答篇幅会较长些,我尽量浓缩每个知识点,把经常用的聚类算法给解释清楚,欢迎各位讨论指点。基于划分聚类算法(partition clustering)K-means:是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据。优点:计算时间短,速度快。结果容易解释,一般聚类效果还算不错;缺点:对异常值非常敏感,需要提前确定好k值其他划分聚类算法如下:基于层次聚类算法CURE:采用抽样技术先对数据集D随机抽取样本,再采用分区技术对样本进行分区,然后对每个分区局部聚类,最后对局部聚类进行全局聚类。优点:采用随机抽样与分割相结合的办法来提高算法的空间和时间效率,并且在算法中用了堆和K-d树结构来提高了算法效率,使其可以高效的处理大量数据。缺点:对异常数据比较脆弱。其他基于层次聚类算法如下:基于密度聚类算法DBSCAN:DBSCAN算法是一种典型的基于密度的聚类算法,该算法采用空间索引技术来搜索对象的邻域,引入了“核心对象”和“密度可达”等概念,从核心对象出发,把所有密度可达的对象组成一个簇。优点:聚类簇的形状没有偏倚,不需要输入要划分的聚类个数。缺点:DBSCAN算法对参数Eps及Minpts非常敏感,且这两个参数很难确定。其他基于密度聚类算法如下:从以下几个方面对几种常用的聚类算法进行综合性能评价
屋顶上的小猫咪
3楼 · 2022-08-19 18:17
无监督学习是深度学习的圣杯,其目的是希望能够用极少量且不需要标注的数据训练通用系统。现今很多的深度学习技术面临并正尝试解决的一个问题,即为了达到良好的全局表现,训练要在视频上进行,而不是静态的图片上。这是将学习到的表征应用在实际任务中的唯一途径。下面对深度学习的主要基础算法的优缺点做一个简明扼要的介绍:自编码器自编码器主要源于 1996 年 Bruno Olshausen 和 David Field(参见论文:Sparse Coding with an Overcomplete Basis Set:A Strategy Employed by V1)发表的文章。此文表明,编码理论可应用于视觉皮层感受野。优点:简单的技术:重建输入多层可堆叠直观和基于神经科学的研究缺点:每一层都被贪婪地(greedily)训练没有全局优化比不上监督学习地性能多层失效对通用目标地表征而言,重建输入可能不是理想的指标聚类学习它是用 k-means 聚类在多层中学习滤波器的一种技术。聚类学习的优缺点:优点:简单的技术:得到相似群集的输出多层可堆叠直观和基于神经科学的研究缺点:每一层都被贪婪地训练没有全局优化在某些情况下可以和监督学习的性能媲美多层递增式失效==性能回报递减生成对抗网络模型生成对抗网络尝试通过鉴别器和生成器的对抗而得来一个优良的生成模型,该网络希望能够生成足以骗过鉴别器的逼真图像。优点:对整个网络的全局训练易于编程和实现缺点:难以训练和转换问题在某些情况下可以比得上监督学习的性能需要提升可用性(这是所有无监督学习算法面临的问题)可以从数据中学习的模型通过设计不需要标签的无监督学习任务和旨在解决这些任务的学习算法,这些模型直接从无标签的数据中学习。在视觉表征中通过解决拼图问题来进行无监督学习确实是一个聪明的技巧。这项技术的一个问题就是:一个训练在静态图像帧上的神经网络被用来解释视频输入。PredNetPredNet 是被设计来预测视频中未来帧的网络。这是一个非常聪明的神经网络型,在我们看来,它将在将来的神经网络中起着重要的作用。PredNet 学习到了超越监督式 CNN 中的单帧图片的神经表征。这个模型有以下这几个优点:可使用无标签的数据来训练在每一层嵌入了损失函数来计算误差具有执行在线学习的能力,通过监控错误信号,当模型不能预测输出的时候,它会知道需要学习误差信号PredNet 存在的一个问题是,对第一层的一些简单的基于运动的滤波器而言,预测未来输入的帧是相对容易的。未来需要你们来创造。无监督训练仍然还是一个有待发展的主题,你可以通过以下方式做出较大的贡献:创建一个新的无监督任务去训练网络,例如:解决拼图问题、对比图像补丁、生成图像等......想出能够创造很棒的无监督功能的任务,例如:像我们人类视觉系统的工作方式一样,理解立体图像和视频中什么是物体、什么是背景

相关问题推荐

  • 回答 2

    在互联网逐渐步入大数据时代后,不可避免的为企业及消费者行为带来一系列改变与重塑。其中最大的变化莫过于,消费者的一切行为在企业面前似乎都将是可视化的。随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深...

  • 回答 1

    这跟年限关系并不代表,主要看技术能力,工作10年技术不行,薪资一样相对较低,毕业一年技术很牛,工资也没有上限,技术可以的话,一线城市薪资能达到5位数

  • 回答 1

    在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。可能的原因:突然磁盘使用率变高而文件块数并没...

  • 回答 1

    其实属于一个领域,先用大数据技术将数据进行采集、存储、计算,然后根据结果利用机器学习搞一些模型、算法进行预测,人工智能建立在这之上

  • 回答 1

      PageRank,即网页排名,又称网页级别、Google左側排名或佩奇排名。        是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十...

  • 回答 1

    是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合

  • 回答 1

    分类:是已知类别时,对数据进行按标签进行划分到不同类别中,属于有监督的学习。聚类:是在没有标签的情况下,将相似的数据划分到一个类中,属于无监督的学习。

  • 回答 1

    使用已经建立好的数学模型,进行数据的挖掘机器学习是利用已知的算法来进行模型的训练

  • 回答 1

    很成熟的一个推荐算法使用在推荐些用户喜欢的产品,视屏等方便

  • 回答 2

    机器学习——实现人工智能的一种方式深度学习——一种实现机器学习的技术

  • 回答 3

    机器学习中的神经网络分支包括深度学习。深度学习相对于普通的神经网络的优势在于,可以自动提取特征。将人从以前的手动提取特征的繁琐中解放出来,只需要会一套流程,就可以达到很好的效果。...

  • 回答 3

    机器学习可能会广泛应用到日常生活,但是普及开来学习还有一定的时间,课程难度会有一方面,学习成本也比较大,所以短时间内很普及可能性还是不太大的。

  • 回答 1

    其实这个是两个词的组合,可以拆分为TF和IDF。TF(Term Frequency,缩写为TF)也就是词频啦,即一个词在文中出现的次数,统计出来就是词频TF,显而易见,一个词在文章中出现很多次,那么这个词肯定有着很大的作用,但是我们自己实践的话,肯定会看到你统计出...

没有解决我的问题,去提问