1.3.2 描述性——无监督学习
描述性分析指的是分析具有多个属性的数据集,找出潜在的模式并进行分类。描述性分析是一种无监督的学习过程。区别于有监督的学习,无监督学习算法没有参照指标,需要结合业务经验来判断数据分类是否正确。无监督学习比较耗时,而且对建模人员的业务素质要求较高。
描述性分析主要应用于以下两种场景:第一种是观察个体之间的相似程度,如根据年龄、性别、收入等进行客户细分;第二种是根据客户购买的多个产品发现产品之间的相关性,主要算法包括样本聚类、关联规则等。
(1)样本聚类
根据个体之间的相似性对个体进行分类,即样本聚类算法。这种算法被大量使用在客户细分场景中。如图1-14所示,根据信用卡客户6个月内的循环信用次数和交易次数,将客户分为6个细分群体,并对其规模进行描述。
图1-14 信用卡客户细分模型描述
以往企业的客户分析往往是单维度的。例如,电信企业VIP用户等级是根据消费金额划分的。上述信用卡例子只是二维的聚类情况。这种情况其实并不需要聚类算法,只要将客户分布情况展现在二维平面图上就可以。当维度增加时,我们难以使用图像的方式形象地描述客户类型,只能使用聚类算法。
(2)关联规则
根据客户对商品的购买发现商品之间的相关性。例如关联规则,这类分析方法可以方便地展现产品与产品之间的相关关系。“啤酒与尿布”是最著名的使用关联规则的案例之一。零售超市通过分析客户购买清单发现,啤酒和尿布这两个产品经常同时销售,于是超市通过改变物品码放的位置提高了销售业绩。这类算法在电商中运用十分广泛,如京东商城和淘宝,它们根据客户浏览及购买历史来推荐商品。同样,金融领域也常用此类算法向客户推荐不同的理财产品。如下面的示例,在购买基金的客户中,有大约22%的客户购买了集合资产管理计划教程。而全体客户中购买了集合资产管理计划教程的只有9.7%。因此,其提升度约为2.26(22/9.7)。这个提升度是很有意义的,表明向基金用户营销集合资产管理计划将有更高的响应率。同理,在购买基金的客户中营销黄金理财方案也会有较高的响应率。
购买了基金的客户还购买下列产品的可能性为28%,如图1-15所示。
图1-15 购买基金的客户同时购买其他理财产品的情况
虽然根据该算法可以得到很多有价值的知识,但是该算法并不能给出因果关系。因此,在“啤酒与尿布”案例中,零售超市使用关联规则得到某些推定结果就会有一些困难。零售超市可能有两个诉求:一个是提高客户购物的便捷性,另一个就是提高客户的即兴购物量。这就需要搞清楚啤酒和尿布之间的关系。如果两者是强互补品,而且当地只有一家超市,那么超市完全可以把两个商品摆放在较远的距离。如果两者并不是强互补品,只不过是一定条件下出现的结果,例如,啤酒不过是年轻父亲出门买尿布时方便获取的一种遮羞物品,那么将两者摆放在一起更好。而关联规则显然没有办法说明零售超市提供啤酒和尿布之间是否具有因果关系,无法为超市决策提供更明显的指向性。