一种融合社会化标签的协同过滤推荐算法
评分,引入隐变量l。然 后通过最小化均方误差学习P、Q矩阵,如式(8)所示,为了下降算法优化参数。
2 融合标签的协同推荐算法
2.1 标签扩展评分矩阵
传统的评分矩阵是<用户,物品,评分>这是一个二维 的关系,而标签矩阵<用户,物品,标签>是一个三维的关 系,因为用户可以给一个物品打多个标签,而评分只有一 个。要使用基于评分的方法,必须将三维的标签矩阵转化为 二维矩阵。图1为转化的关系图,可以将其转化为两个二维 矩阵。其中水平方向将用户打过的标签作为用户向量的一部 分,垂直方向将标记过物品的标签作为物品向量的一部分。 对于UserTag和ItemTag向量中的值,使用TF-IDF(Term Frequency-Inverse Document Frequency)表示,如公式(9),这里将UserTag和ItemTag看作是文档。
其中TFij 为词频,描述的是第i个标签在文档j中所占的比例, IDFi 为逆文档频率, ni 为第i个关键词在N篇文档中出 现的次数,所以 ni 越大 IDFi 越小。二者的乘积 wij 定义为第i个标签在文档j中的权值。一个标签在一篇文档中出现的频率越高对权值的贡献越大,在所有文档中出现的频率越高对 权值的贡献越小。这样有了权值的定义,就可以把一个文档表示为向量 d j = (w1 j , w 2 j ,..., w kj ) 。
2.2 提取隐语义
接下来提取标签的隐语义,所使用的模型是LMF,需 要式(10)来提取用户和物品中的隐语义。
最终得到 Pu = ( pu1 , ..., puK ) 和 Pi = ( pi1 , ..., piK ) 向量,它们分别表示了用户的偏好隐语义和物品的特征隐语义。
2.3 评分和隐语义整合
将标签信息的格式转换为评分的格式,然后可以利用 评分的协同推荐算法,将用户或物品的评分向量和标签向,物品向量表示为 i = (r i ,..., r i , pi ,..., pi ) ,p是隐变量,它的个数为K。整合 后,可以使用新的用户向量计算用户的相似度,或使用新物
品向量计算物品的相似度。这里将这两个方法称为usertagCF和itemtagCF。
2.4 模型学习和推荐
所提的算法利用了协同过滤中基于内存和基于模型的 算法, L MF需要训练, 具体的训练过程在1.2节中已有介 绍,这里需要说明的是影响推荐的两个参数,一个是用户或 物品的邻居个数K,另一个是用户或物品的隐变量个数F。
3 实验设计与实验结果
3.1 评测指标
本文选择均方根误差(RMSE)和平均绝对误差(MAE)作 为评价的主要标准。
RMSE和MAE是评分预测问题的两个常用指标。其中T为测试集, rui 是实际的评分, r?ui 是预测的评分。
3.2 实验设计
(1)实验数据
实验采用的数据集是MovieLens 最新的100k数据集,
该数据集包含706名用户对8570部电影的100023 个评分以及
2488 个标签,时间范围为1996年4月2日到2015年3月30日。 (2)算法实现 根据标签数据集统计UserTag和ItemTag中的TF-IDF值,
利用该标签数据训练LFM模型,参数设置为学习率0.15,步 长0.04,通过多次迭代后获取用户或物品的特征向量p,将p 与用户或物品的评分向量融合,本算法使用的相似度公式为 Pearson相似度。
算法的实现过程中涉及到两个重要的参数,一个是用 户或物品的邻居数目K,另一个是LFM模型中的隐变量个数 F。这两个变量的取值不同,对最终的RMSE和MAE会造成 不同的影响。
3.3 实验结果 (1)userCF和usertagCF的结果比较 基于用户的协同过滤和将标签和评分融合后的协同过
滤比较结果如表1所示,可以发现,随着K的变化RMSE和
MAE都在减小, user tag CF在K=40时性能就已经开始改善 了,随着K值的增大,可以看到提升逐步增加。表2为不同F 值下usertagCF的结果对比,可以发现F=5左右时,RMSE和 MAE的值都是最小的,说明隐变量不是越多越好。
(2) itemCF和itemtagCF的比较 表3为基于物品的协同过滤算法在融合标签前后的结果
比较,可以发现,随着K的增大,RMSE和MAE都在减小,也 是在K=40的时候性能开始改善。表4为不同F值对itemtagCF的 影响。随F值的增大,性能在逐步改善。与usertagCF不同,F 值在较大的情况下仍能提升性能,这是因为测试的数据集中 物品的数目约为用户数目的12倍,如果要对物品向量产生影 响,物品的隐语义数目应高于用户隐语义数目。
4 结束语
本文提出了一种将社会化标签和评分相融合的方法,该算法相较于基于模型的方法,具有实现简单、运行较快的优点。通过实验证明,该算法可以有效地较少预测误差。
- 射频识别(RFID)系统中的电子标签天线(11-05)
- Sirit RFID解决方案追踪代阿布洛峡谷核电站重要资产(04-07)
- 有机RFID:未来RFID技术发展的新希望?(03-24)
- 电子标签(RFID)技术在计量仓储管理中的应用前景分析(05-20)
- 微波频段有源RFID系统(12-03)
- 金属表面UHFRFID标签天线设计(04-26)