五、其他更多算法在推荐系统中的尝试

1. RFM模型的应用

RFM是Rencency(最近一次消费)、Frequency(消费频率)、Monetary(消费金额)的三个指标首字母的组合。RFM模型是传统CRM(客户关系管理)中常用到的模型,属于用户客群分析的范畴。

从20世纪90年代以来,RFM模型广泛应用于成熟的CRM系统中,并被认为是CRM系统应用最成熟也最有效的经典客户管理模型。近年来,随着“用户画像”概念的火爆,有一些推荐系统提供商开始将该模型重新拿出来,进行用户画像的构建,甚至尝试将其投入推荐系统当中。

各种数据也表明,该方法对推荐系统的帮助是非常有限的。本质上来说RFM模型是一种离线模型,重在分析,它可以用来反映用户的消费特征,但对消费了什么并不关注。作为一种用于客户营销的离线模型,它更多的用于重复购买率的提升,沉默用户唤醒等场景上。推荐系统对实时性的要求,用户实际需求的挖掘上粒度更细,销售分群的特征对这种挖掘的影响微乎其微。

2.知识图谱在推荐系统中的应用

随着知识图谱在不同行业中的成功应用,也有一些推荐引擎宣称采用了知识图谱来进行推荐。在笔者看来,这种应用本身的噱头大于实用性。我们先来看看知识图谱是什么。

知识图谱的本质是通过文本中实体对象和行为的识别,来探讨理论文本内在的涵义,在自然语义领域里有着非常重要的地位和作用。是人类理解文字信息本身的一种尝试。它希望通过一系列的定义定量,建立起一套规则来破解文字背后的真实意图。

例如:刘小华祖籍在湖南长沙。通过命名实体识别的技术识别:刘小华是人名,湖南长沙是地名,祖籍是一种关系。于是当我们识别出这些信息之后,文字本身便有了意义,任何一段文本我们都可以知道它表达了什么,背后代表的意义是什么。当然这是理想状态。事实上是,既使我们可以做到极精确的实体和关系识别,我们也无法穷举所有的人类表达。例如祖籍是指祖父的出生地,刚才那句话表达成:刘小华的爷爷出生在湖南长沙。你如果要了解刘小华的祖籍,就需要建立一个关系:祖籍=祖父的出生地。试问一个系统需要预先定义好多少这种关系才可以表述清楚整个人类知识?

事实上,在封闭知识领域里,知识图谱的应用非常广泛,作用很大,我们可以穷举可能出现的所有表达关系。这在部分商业场景中是可行的,特别是一些具备简单知识域的领域里,例如指定行业的指定场景下。如:登报申明的识别、协查通报的识别。到目前为止在商业领域里最具雄心的知识图谱尝试,是IBM在法律和医疗领域的知识图谱。IBM希望构建一套知识图谱体系去自动阅读医疗论文、法律条款,辅助医生和律师的决策。虽然这两个项目的推进都算不上成功实施,但我们可以看到,这是具备可行性的,因为这两个行业各自业内的知识表达方式是可以被穷举的。如图7–6所示。

图7–6 知识图谱简单示意图

回到我们在本书中讨论的,知识图谱在推荐系统中的应用。最大的问题有两点:

第一,知识图谱技术是用来理解文本信息自身的含义,而推荐系统采用的是可计算的概率模型,并不关心语义本身代表的究竟是什么。也许有些人会拿苹果来举例,一个用户的行为里出现了苹果,我们要去识别他说的苹果是水果中的苹果,还是手机中的苹果。这是典型的以偏盖全了,基于概率的语义模型并不以单个词语来作为语义表达,而是结合上下文的。一篇讲了很多摄像头的与苹果有关的文本,在概率模型中与讲了很多产地、阳光、土壤的与苹果有关的文本,在表达上是天差地别的。虽然他们都不理解到底什么是苹果。

第二,大多数推荐系统所处的商业场景中,知识域都不是封闭的,要做出一个可用的知识图谱其成本远超商业价值。IBM花费10年时间、数十亿美金才打造出法律和医疗两个封闭度较高领域的知识图谱,在商用上仍然遇到了诸多阻力。以此为鉴,从投入的产出比来看,很难理解一个推荐系统具备完善的全知识领域的知识图谱。