一种融合社会化标签的协同过滤推荐算法
推荐系统是为解决信息过载和发掘长尾物品而提出的一种有效的工具,它与搜索引擎相互配合,共同为用户提 供可靠便捷的服务。推荐系统可以应用在很多场合,比如电 影、音乐、图书、文章、新闻、网页和广告等领域。代表性 网站有亚马逊、Netflix、豆瓣、LastFM、YouTube、Facebook 以及淘宝等。推荐系统可以提供个性化的推荐,满足用户随 时变化和差异化的需求
社会化标签作为Web2.0发展的产物,是一种非常有效 的网络资源组织工具。社会化标签有两方面的含义:第一, 表示用户的兴趣;第二,表示物品的语义。通过标签用户和 物品可以联系起来。利用社会化标签可以组织网站内容,推 荐物品以及标签。社会化标签除了这些功用外,还可以与现 有的推荐系统配合,产生更加有效的推荐,这是本文所要研 究的内容,利用社会化标签信息,在经典的基于评分的推荐 系统上产生更好的推荐效果。将社会化标签和评分相融合的算法也是推荐系统领域 研究的一个热门方向。Tso-Sutter提出了
一种可以将标签融合 于标准的协同过滤算法,他直接将标签当作二值化数据,作 为用户的特征向量或物品的特征向量。Bogers和Van Den Bosh 通过计算标签的重合度,来表示用户或物品之间的相似度。Gemmel提出了加权的混合推荐算法,他将基于图的标签推
荐算法和基于用户和物品的协同过滤算法相结合,通过加权计算二者的流行度产生推荐。
Gedikli和Jannach利用标签来表示用户喜欢或不喜欢的物品具有的特征,通过对标签的评分可以得到用户最终对物品的评分。Yi zhen在评分矩阵上使用了PMF产生推荐,将 标 签 信 息 加 入 到PMF的正则化项 中,在模型生成的 过 程 中 融 入 了 标
图1 标签扩展评分矩阵
签的信息。此外,还有更加复杂的方法。Yueshen Xu和JianweiYin提出了一种可以把UGC(User Generated Content)信息和 评分结合的方法,UGC包括标签和评论,所使用的方法是 CTR(Collaborative Topic Regression),该方法于2011年被Wang 和Blei提出,是结合PMF和LDA的一种混合模型,CTR不仅可 以被用来做评分预测,还可以获取物品描述中的隐变量。
本文结合现有的基于内存的推荐算法,提出了一种整 合隐语义向量的标签融合算法,下面将重点介绍该算法以及 相关的一些内容,最后对算法的有效性进行验证。
1 相关推荐算法
1.1 基于内存的算法
1.1.1 基于用户的协同过滤算法
基于用户的协同过滤算法的思想是:具有相同爱好的 用户会选择相同的物品。该算法包括两个步骤:a.找到和目 标用户兴趣相似的用户集合;b.找出这个集合中用户喜欢但 是目标用户没有购买的物品。每一个用户可以看作是n维向量,每一个物品的评分作 为向量的元素,这样用户的相似度就可以转换为计算向量的 相似度。下面是三种常见的相似度计算的方法。
其中(1)是欧式距离,(2)是余弦夹角,(3)是Pearson相关系数。ru,i 为用户u对物品i的评分, 和 分别是用户u和用 户v在各自所评物品集上的均值。在计算获得目标用户的相似用户集后,便可根据相似用户预测待推荐物品的评分。评分的计算公式为式(4)。
其中 S (u , K ) 表示目标用户u的K个相似用户, 表示对物品 i评过分的用户集合,最终的相似用户是这两个集合的交集。 ru 和 rn 分别表示用户u和用户n在各自评分集上的均值。该公式 的含义是对所有相似用户对物品i的评分作加权平均。
1.1.2 基于物品的协同过滤算法
基于物品的协同过滤算法分为两个步骤:a. 根据用户已 评分过的物品分别找出每个物品的K个相似度最高的物品。 b.找出用户未做评价的物品预测其分数。计算目标物品的相似物品是将每个物品看作是一个m维 向量,每个用户的评分是向量中的项。计算相似度公式和基于用户的推荐算法类似,这里要补充的是一种修正的余弦相似度(Adjust Cosine Similarity),如公式(5)所示。该公式被Sarwar在MovieLens上证明是最佳的相似度计算方法,然而在其他的数据集中,该公式不一定是最优的。
利用公式(6)可以预测待推荐物品的评分,该公式的含 义是对相似物品的评分作加权平均。其中, S (u , K ) 表示和物 品i相似的K个物品的集合, N (u ) 表示用户u评过分的物品。 ri 表示物品i的平均分。
1.2 隐因子模型
隐因子模型(LFM)的核心思想是通过隐含的特征将用户 和物品联系起来。对于分析用户行为背后的含义以及物品的 分类有很好的效果。
LFM的思想很简单,将评分矩阵R分解为两个低维的矩 阵P和Q,如式(7)所示,针对每一个
- 射频识别(RFID)系统中的电子标签天线(11-05)
- Sirit RFID解决方案追踪代阿布洛峡谷核电站重要资产(04-07)
- 有机RFID:未来RFID技术发展的新希望?(03-24)
- 电子标签(RFID)技术在计量仓储管理中的应用前景分析(05-20)
- 微波频段有源RFID系统(12-03)
- 金属表面UHFRFID标签天线设计(04-26)