什么是聚类，聚类的应用场景？_Python

7条回答

2楼 · 2020-06-04 08:50

1 基于用户位置信息的商业选址

随着信息技术的快速发展，移动设备和移动互联网已经普及到千家万户。在用户使用移动网络时，会自然的留下用户的位置信息。随着近年来GIS地理信息技术的不断完善普及，结合用户位置和GIS地理信息将带来创新应用。如百度与万达进行合作，通过定位用户的位置，结合万达的商户信息，向用户推送位置营销服务，提升商户效益。

希望通过大量移动设备用户的位置信息，为某连锁餐饮机构提供新店选址。

2 中文地址标准化处理

地址是一个涵盖丰富信息的变量，但长期以来由于中文处理的复杂性、国内中文地址命名的不规范性，使地址中蕴含的丰富信息不能被深度分析挖掘。通过对地址进行标准化的处理，使基于地址的多维度量化挖掘分析成为可能，为不同场景模式下的电子商务应用挖掘提供了更加丰富的方法和手段，因此具有重要的现实意义。

3 国家电网用户画像

随着电力体制改革向纵深推进，售电侧逐步向社会资本放开，当下的粗放式经营和统一式客户服务内容及模式，难以应对日益增长的个性化、精准化客户服务体验要求。如何充分利用现有数据资源，深入挖掘客户潜在需求，改善供电服务质量，增强客户黏性，对公司未来发展至关重要。

对电力服务具有较强敏感度的客户对于电费计量、供电质量、电力营销等各方面服务的质量及方式上往往具备更高的要求，成为各级电力公司关注的重点客户。经过多年的发展与沉淀，目前国家电网积累了全网4亿多客户档案数据和海量供电服务信息，以及公司营销、电网生产等数据，可以有效的支撑海量电力数据分析。

因此，国家电网公司希望通过大数据分析技术，科学的开展电力敏感客户分析，以准确地识别敏感客户，并量化敏感程度，进而支撑有针对性的精细化客户服务策略，控制电力服务人工成本、提升企业公众形象。

4 非人恶意流量识别

2016年第一季度Facebook发文称，其Atlas DSP平台半年的流量质量测试结果显示，由机器人模拟和黑IP等手段导致的非人恶意流量高达75% . 仅2016上半年，AdMaster反作弊解决方案认定平均每天能有高达 28% 的作弊流量。低质量虚假流量的问题一直存在，这也是过去十年间数字营销行业一直在博弈的问题。基于AdMaster海量监测数据，50%以上的项目均存在作弊嫌疑；不同项目中，作弊流量占广告投放5%到95%不等；其中垂直类和网盟类媒体的作弊流量占比最高；PC端作弊流量比例显著高于移动端和智能电视平台。广告监测行为数据被越来越多地用于建模和做决策，例如绘制用户画像，跨设备识别对应用户等。作弊行为，恶意曝光，网络爬虫，误导点击，甚至是在用户完全无感知的情况下被控制访问等产生的不由用户主观发出的行为给数据带来了巨大的噪声，给模型训练造成了很大影响。

希望基于给定的数据，建立一个模型来识别和标记作弊流量，去除数据的噪声，从而更好的使用数据，使得广告主的利益最大化。

5 求职信息完善

有大约10万分优质简历，其中部分简历包含完整的字段，部分简历在学历、公司规模、薪水、职位名称等字段有些置空项。希望对数据进行学习、编码与测试，挖掘出职位路径的走向与规律，形成算法模型，再对数据中置空的信息进行预测。

6 搜索引擎查询聚类以进行流量推荐

在搜索引擎中，很多网民的查询意图的比较类似的，对这些查询进行聚类，一方面可以使用类内部的词进行关键词推荐；另一方面，如果聚类过程实现自动化，则也有助于新话题的发现；同时还有助于减少存储空间等。

7 生物种群固有结构认知

对动植物分类和对基因进行分类，获取对种群固有结构的认识。

8 保险投保者分组

通过一个高的平均消费来鉴定汽车保险单持有者的分组，同时根据住宅类型，价值，地理位置来鉴定一个城市的房产分组。

9 网站关键词来源聚类整和

以领域特征明显的词和短语作为聚类对象，在分类系统的大规模层级分类语料库中，利用文本分类的特征提取算法进行词语的领域聚类，通过控制词语频率的影响，分别获取领域通用词和领域专类词。

10 图像分割

图像分割广泛应用于医学、交通、军事等领域。图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。聚类算法先将图像空间中的像素用对应的特征空间点表示，根据它们在特征空间的聚集对特征空间进行分割，然后将它们映射回原图像空间，得到分割结果。

py大白

3楼 · 2020-06-04 09:04

将一群物理对象或者抽象对象的划分成相似的对象类的过程。其中类簇是数据对象的集合，在类簇中所有的对象都彼此相似，而类簇与类簇之间的对象是彼此相异。
聚类除了可以用于数据分割（data segmentation）,也可以用于离群点检测（outlier detection）,所谓的离群点指的是与“普通”点相对应的“异常”点，而这些“异常”点往往值的注意。
很多人在学习聚类之初，容易将聚类和分类搞混淆。其实聚类属于无监督学习范畴（unsupervised learning），也可称作观察式学习过程，与分类不同，聚类并不依赖已有既定的先验知识。举个例子，我们成年后，很清楚世界是由男人和女人组成的，所以我们在建厕所的时候，会把厕所分为男厕所和女厕所，这就是“分类”；而当我们刚生下来，我们并不知道什么是男人，什么是女人，通过后天对生活的观察，我们发现有一类人他们有胡子，而有一类人她们头发比较长（当然，我的这个举例已经显然不符合当今世界的发展了，你们明白就行），于是我们就把有胡子的人分为一类人，把长头发的分为另一类人，然后“研究”发现，原来有胡子的叫男人，有长头发的叫女人，这个过程就是“聚类”。

爱梦 - 拿来吧你

4楼 · 2021-11-18 09:42

什么是聚类：

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

聚类的应用场景：

1 基于用户位置信息的商业选址

希望通过大量移动设备用户的位置信息，为某连锁餐饮机构提供新店选址。

2 中文地址标准化处理

3 国家电网用户画像

4 非人恶意流量识别

2016年第一季度Facebook发文称，其Atlas DSP平台半年的流量质量测试结果显示，由机器人模拟和黑IP等手段导致的非人恶意流量高达75% . 仅2016上半年，AdMaster反作弊解决方案认定平均每天能有高达 28% 的作弊流量。低质量虚假流量的问题一直存在，这也是过去十年间数字营销行业一直在博弈的问题。基于AdMaster海量监测数据，50%以上的项目均存在作弊嫌疑;不同项目中，作弊流量占广告投放5%到95%不等;其中垂直类和网盟类媒体的作弊流量占比最高;PC端作弊流量比例显著高于移动端和智能电视平台。广告监测行为数据被越来越多地用于建模和做决策，例如绘制用户画像，跨设备识别对应用户等。作弊行为，恶意曝光，网络爬虫，误导点击，甚至是在用户完全无感知的情况下被控制访问等产生的不由用户主观发出的行为给数据带来了巨大的噪声，给模型训练造成了很大影响。

希望基于给定的数据，建立一个模型来识别和标记作弊流量，去除数据的噪声，从而更好的使用数据，使得广告主的利益最大化。

5 求职信息完善

6 搜索引擎查询聚类以进行流量推荐

在搜索引擎中，很多网民的查询意图的比较类似的，对这些查询进行聚类，一方面可以使用类内部的词进行关键词推荐;另一方面，如果聚类过程实现自动化，则也有助于新话题的发现;同时还有助于减少存储空间等。

7 生物种群固有结构认知

对动植物分类和对基因进行分类，获取对种群固有结构的认识。

8 保险投保者分组

通过一个高的平均消费来鉴定汽车保险单持有者的分组，同时根据住宅类型，价值，地理位置来鉴定一个城市的房产分组。

9 网站关键词来源聚类整和

10 图像分割

超甜的布丁

5楼 · 2021-11-19 13:42

聚类是指根据一定的准则，把一份事物按照这个准则归纳成互不重合的几份，机器学习中，聚类指按照一个标准，这个标准通常是相似性，把样本分成几份，是得相似程度高的聚在一起，相似程度低的互相分开。

聚类的应用场景，求职信息完善(有大约10万份优质简历，其中部分简历包含完整的字段，部分简历在学历，公司规模，薪水，等字段有些置空顶。希望对数据进行学习，编码与测试，挖掘出职位路径的走向与规律，形成算法模型，在对数据中置空的信息进行预测。)

慢半拍

6楼 · 2021-11-22 11:14

用户分类运营。一般情况下，运营给的分类标准比较多，比如RFM模型中就有三个变量，如果穷举所有变量为0，1也有8种。在一些线下或者个性化要求不高的场景中，聚类就是一个很好的策略，可以根据运营能接受的运营数目，给定聚类数来使用聚类。完成后为每个结果标注变量的大小，告诉运营每个类别的属性，然后分别制定不同的运营策略。
异常检测。这个往往在数据清洗中，可以排除掉一些典型有问题的数据；另外，此原理也可以用来发现异常用户（反盗刷、反爬虫）。
部分程度上说，聚类可以用来降维。这个没实践过，但理论上是一个可以实现的降维策略。

征戰撩四汸

7楼 · 2021-11-30 14:46

聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。

应用：

1 基于用户位置信息的商业选址

希望通过大量移动设备用户的位置信息，为某连锁餐饮机构提供新店选址。

2 中文地址标准化处理

3、网站关键词来源聚类整和

老易

8楼 · 2021-12-03 09:28

聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。是无监督的分类方式。

用个大白话说就是你要把一堆的数据给他聚成一团团的，所谓物以类聚，人以群分，聚类就是要把一些臭味相投的给它聚在一起。

下面介绍我工作中会遇到的一些实际聚类场景：

寻找优质客户

推荐系统

孤立点检测

图像压缩

什么是聚类，聚类的应用场景？

相关问题推荐

等你来答

热门问答

相关文章

什么是聚类，聚类的应用场景？

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间