监督学习（supervised learning）

从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类（注意和聚类区分）问题，通过已有的训练样本（即已知数据及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统（模型）。

监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息，对于神经网络，分类系统利用信息判断网络的错误，然后不断调整网络参数。对于决策树，分类系统用它来判断哪些属性提供了最多的信息。

常见的有监督学习算法：回归分析和统计分类。最典型的算法是KNN和SVM。

无监督学习（unsupervised learning）

输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。通俗点将就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。

非监督学习目标不是告诉计算机怎么做，而是让它（计算机）自己去学习怎样做事情。非监督学习有两种思路。第一种思路是在指导Agent时不为其指定明确分类，而是在成功时，采用某种形式的激励制度。需要注意的是，这类训练通常会置于决策问题的框架里，因为它的目标不是为了产生一个分类系统，而是做出最大回报的决定，这种思路很好的概括了现实世界，agent可以对正确的行为做出激励，而对错误行为做出惩罚。

无监督学习的方法分为两大类：

(1)一类为基于概率密度函数估计的直接方法：指设法找到各类别在特征空间的分布参数，再进行分类。

(2)另一类是称为基于样本间相似性度量的简洁聚类方法：其原理是设法定出不同类别的核心或初始内核，然后依据样本与核心之间的相似性度量将样本聚集成不同的类别。

利用聚类结果，可以提取数据集中隐藏信息，对未来数据进行分类和预测。应用于数据挖掘，模式识别，图像处理等。

PCA和很多deep learning算法都属于无监督学习。

白首有我共你

2楼 · 2022-08-19 18:17

谢邀。内容比较多，我的回答篇幅会较长些，我尽量浓缩每个知识点，把经常用的聚类算法给解释清楚，欢迎各位讨论指点。基于划分聚类算法（partition clustering)K-means：是一种典型的划分聚类算法，它用一个聚类的中心来代表一个簇，即在迭代过程中选择的聚点不一定是聚类中的一个点，该算法只能处理数值型数据。优点：计算时间短，速度快。结果容易解释，一般聚类效果还算不错；缺点：对异常值非常敏感，需要提前确定好k值其他划分聚类算法如下：基于层次聚类算法CURE：采用抽样技术先对数据集D随机抽取样本，再采用分区技术对样本进行分区，然后对每个分区局部聚类，最后对局部聚类进行全局聚类。优点：采用随机抽样与分割相结合的办法来提高算法的空间和时间效率，并且在算法中用了堆和K-d树结构来提高了算法效率，使其可以高效的处理大量数据。缺点：对异常数据比较脆弱。其他基于层次聚类算法如下：基于密度聚类算法DBSCAN：DBSCAN算法是一种典型的基于密度的聚类算法，该算法采用空间索引技术来搜索对象的邻域，引入了“核心对象”和“密度可达”等概念，从核心对象出发，把所有密度可达的对象组成一个簇。优点：聚类簇的形状没有偏倚，不需要输入要划分的聚类个数。缺点：DBSCAN算法对参数Eps及Minpts非常敏感，且这两个参数很难确定。其他基于密度聚类算法如下：从以下几个方面对几种常用的聚类算法进行综合性能评价

屋顶上的小猫咪

3楼 · 2022-08-19 18:17

无监督学习是深度学习的圣杯，其目的是希望能够用极少量且不需要标注的数据训练通用系统。现今很多的深度学习技术面临并正尝试解决的一个问题，即为了达到良好的全局表现，训练要在视频上进行，而不是静态的图片上。这是将学习到的表征应用在实际任务中的唯一途径。下面对深度学习的主要基础算法的优缺点做一个简明扼要的介绍：自编码器自编码器主要源于 1996 年 Bruno Olshausen 和 David Field（参见论文：Sparse Coding with an Overcomplete Basis Set：A Strategy Employed by V1）发表的文章。此文表明，编码理论可应用于视觉皮层感受野。优点：简单的技术：重建输入多层可堆叠直观和基于神经科学的研究缺点：每一层都被贪婪地（greedily）训练没有全局优化比不上监督学习地性能多层失效对通用目标地表征而言，重建输入可能不是理想的指标聚类学习它是用 k-means 聚类在多层中学习滤波器的一种技术。聚类学习的优缺点：优点：简单的技术：得到相似群集的输出多层可堆叠直观和基于神经科学的研究缺点：每一层都被贪婪地训练没有全局优化在某些情况下可以和监督学习的性能媲美多层递增式失效==性能回报递减生成对抗网络模型生成对抗网络尝试通过鉴别器和生成器的对抗而得来一个优良的生成模型，该网络希望能够生成足以骗过鉴别器的逼真图像。优点：对整个网络的全局训练易于编程和实现缺点：难以训练和转换问题在某些情况下可以比得上监督学习的性能需要提升可用性（这是所有无监督学习算法面临的问题）可以从数据中学习的模型通过设计不需要标签的无监督学习任务和旨在解决这些任务的学习算法，这些模型直接从无标签的数据中学习。在视觉表征中通过解决拼图问题来进行无监督学习确实是一个聪明的技巧。这项技术的一个问题就是：一个训练在静态图像帧上的神经网络被用来解释视频输入。PredNetPredNet 是被设计来预测视频中未来帧的网络。这是一个非常聪明的神经网络型，在我们看来，它将在将来的神经网络中起着重要的作用。PredNet 学习到了超越监督式 CNN 中的单帧图片的神经表征。这个模型有以下这几个优点：可使用无标签的数据来训练在每一层嵌入了损失函数来计算误差具有执行在线学习的能力，通过监控错误信号，当模型不能预测输出的时候，它会知道需要学习误差信号PredNet 存在的一个问题是，对第一层的一些简单的基于运动的滤波器而言，预测未来输入的帧是相对容易的。未来需要你们来创造。无监督训练仍然还是一个有待发展的主题，你可以通过以下方式做出较大的贡献：创建一个新的无监督任务去训练网络，例如：解决拼图问题、对比图像补丁、生成图像等......想出能够创造很棒的无监督功能的任务，例如：像我们人类视觉系统的工作方式一样，理解立体图像和视频中什么是物体、什么是背景

【Big Data】如何理解有监督学习和无监督学习？

监督学习（supervised learning）

相关问题推荐

等你来答

热门问答

相关文章

【Big Data】如何理解有监督学习和无监督学习？

监督学习（supervised learning）

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间