聚类和分类的区别(分类与聚类的本质区别)

  分类(Classification)与聚类(Clustering)在数据处理圈中算是出现频率较高的两类算法。但对不了解数据处理的人来说,当把二者放到一起时,很容易“傻傻分不清楚”。下面,看点哥在不涉及具体、复杂、高深的算法步骤和说明的前提下,来对两个算法进行一下浅显易懂、入门级的介绍和对比。

  对受众的标签类别是已知还是未知

  具体解释就是,分类对受众标签类别是已知的。即事先定义的类别,类别数量,甚至类别间的层级关系都是已知的。然后利用训练和学习完的模型把数据库中的未分类数据项,根据特征或属性映射到给定类别中的某一类中;而聚类则对受众标签类别是未知的。即没有事先预定的类别,类别数也不确定。只是根据“物以类聚”的原理,通过对算法判断规则的调整将具有相似特征的数据聚成一类。

  分类与聚类的应用思路

  可能从概念上理解分类与聚类的本质区别比较晦涩难懂。下面列举二者在互联网广告中的应用实例,从而来做进一步区分。其中,电商是同时利用这两种算法的典型领域。

  分类算法应用思路

  效果类广告投放的开始阶段我们称之为冷启动阶段。可能对大多数非HERO级别电商广告主而言,自身没有第一方数据或者数据量稀疏。这导致依靠历史数据积累才能发挥作用的算法无法派上用场。那么,在冷启动阶段如何进行广告投放?使用分类算法对广告平台预先分类出的人群做投放是明智之选。这里要强调:并不是说分类算法不需要数据积累,而是人群分类本身就是基于全局的、利用历史上受众行为得出的,已经完成了前期的数据积累、分析过程。

  使用分类算法,就是借助强大的大数据技术,预先将广告平台人群数据按照标签属性做好分类,然后运营人员利用经验和对客户产品的深刻理解,可以从归类好的平台数据库中筛选出目标受众类来做定向投放。分类算法就相当于区分受众的工具,是电商广告主或投放平台搞清楚“对谁投广告”的过程。受众分类做得好、分得准,能大大缩短冷启动周期,减少预算浪费。

  聚类算法应用思路

  当投放开始后,随着运营人员根据实时的投放反馈数据及时优化调整投放策略,会积累越来越多的有效用户数据。这时候,聚类算法开始出场了。在电商领域,这里所说的“有效用户数据”,就是用户的电商行为数据,如商品浏览、点击、加入购物车、购买等行为数据。利用这些行为数据加上聚类算法的判断规则,协助电商广告主进行客户分群,即用不同划分标准将相似行为的用户聚到一起,比如分为:高价值用户、一般价值用户和潜在用户;或者是追求品质型用户、追求实用型用户、追求个性型用户等。然后进一步深入挖掘、刻画不同客户群的特征,从而为不同价值或不同“喜好”的客户群提供不同的营销推广方案和预算配比方案,将能最大化提升转化率和客单值。

  聚类算法是电商广告主细分市场、细分消费者的有效工具;同时也可通过研究消费者行为,进一步高效化开拓新的潜在市场、挖掘潜在客户,最大化提高自身盈利水平。

  说在最后

  大数据的真正含义不在于“大”,而在于从海量的数据库中挖掘出隐含在其中的“有用信息”。而今天所讲的分类、聚类算法,就是把数据变得更有价值的两种常见数据挖掘算法。对于这两种算法,你不一定要“会”,但一定要“懂”!只有了解了二者的应用思路,才能通过大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的价值信息,帮助企业调整自身市场策略、减少风险、理性面对市场,从而保持核心竞争力,立于不败之地!
版权声明:本文《聚类和分类的区别(分类与聚类的本质区别)》内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权或者违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

这篇文章对您有帮助吗?

已有人觉得有帮助!

相关推荐