Item2Vec负采样优化基础上专题地图产品个性化推荐

摘要:建立适用于专题地图产品检索的用户偏好推荐模型是提高专题地图质量的有效方式之一,在专题地图产品推荐场景中,存在严重的内容冷启动和评论数据稀疏问题,现有的推荐算法无法为特定类用户推荐不同特征的专题地图产品,导致用户从专题地图中获取偏好信息受到限制。因此,本文构建基于负采样的连续词袋模型和基于Word2Vec的Item2Vec相结合的用户偏好推荐方法,用于专题地图产品推荐。①计算用户行为日志文件中交互行为数据的隐性评分,以代替专题地图推荐信息流场景中稀疏的用户评论数据;②基于负采样的连续词袋模型提取目标专题地图的前后地图序列感知特征信息,通过控制正负样本比例为1:2,提升目标专题地图潜在评分的预测精度;③通过Item2Vec将带有用户行为特征信息的专题地图映射到向量空间,计算用户对专题地图的相似度矩阵,根据用户偏好程度完成推荐。在构建的专题地图评分实验数据集ThematicCMaps和4个公开验证数据集MovieLens上的测试结果表明:与LFM、PersonalRank、ContentBased和SVD4种传统推荐算法相比,本文所提方法可有效提高潜在评分的预测精度,推荐性能最高达到27.85%;与以霍夫曼采样方式的Item2Vec基础方法和YouTubeNet2种神经网络推荐算法相比,评分预测精度有一定提高,且推荐性能不断提升,最高达到2.97%和5.78%。以经典算法奇异值分解(SVD)为例,将MovieLens-20M数据集切分后,在数据量不断增大的数据子集中,本文所用方法的评分预测精度和性能均优于SVD方法。


关键词: 专题地图产品检索 地图个性化推荐 深度学习 用户事件行为 负采样


1、引言




针对严重的“信息过载”问题,推荐算法通过用户基础画像(年龄、性别等)、用户评论数据及物品(商品、APP等)评分信息等进行数据建模,提取语义特征信息,抽象用户个性化需求的偏好程度,为用户推荐满足个性化需求的物品,实现用户偏好推荐。目前,推荐算法已应用到许多领域,如:电商场景中用户购买物品(Amazon、Alibaba等)、信息流场景中用户浏览信息(iGoogle、AMiner等)、位置服务中的用户评分系统(FourSquare、大众点评等)[1]。




将推荐算法引入专题地图产品推荐场景是为了快速有效地获得特定类用户的偏好信息,以提升专题地图质量。一些学者采用地学眼动实验方法探求用户对地图的认知机理,通过Web日志获取用户对地图的感兴趣度信息,利用问卷调查法筛选地图相关的情境因素,以设计的推荐案例库和推荐规则为准,为用户推荐满足偏好需求的地图[2,3]。也有学者对相关应急场景构建本体知识库,通过相似度计算工具训练知识库,根据用户检索条目,匹配知识库中相似度较高的内容项,为用户推荐偏好专题地图[4]。相关场景的规则库和知识库需人工前期编制,耗时长且主观性较强,面对专题地图推荐场景中多变的情境信息,这些推荐方法无法真实体现不同类用户的偏好程度且时效性不强。传统推荐算法通过表征用户、物品之间的相似偏好模型挖掘用户对物品的潜在评分,对用户偏好的物品进行召回或排序,如:协同过滤算法[5]、基于内容的推荐算法[6,7]和基于图的推荐算法[8]等,以上方法采用的浅层模型需人工设计用户和物品的偏好关系特征,面对严重的冷启动和数据稀疏问题,算法推荐性能和评分预测精度下降。深度学习有效推动了推荐算法研究,神经网络中输入层与隐层、隐层与输出层之间均是全连接的网络,且激活函数的去线性化,利于从多源异构数据中自动学习用户和物品的潜在特征,有效缓解冷启动和数据稀疏问题,特征抽象能力优于传统推荐算法,推荐准确率较高[9,10]。OrenBarkan等[11]首次将Word2Vec方法中基于负采样的Skip-Gram模型(SGNS)迁移到基于物品的协同过滤(Item-basedCF)算法中,使用神经项嵌入算法学习物品的潜在特征,通过计算物品相似度完成个性化推荐;陈晋音等[12]提出一种基于图过滤的快速密度聚类双层网络推荐算法,利用基于图的过滤器快速确定节点执行度阈值,对数据内虚假信息进行过滤,再通过快速密度聚类双层网络完成推荐;黄金超等[13]提出一种基于偏好度特征构造的个性化推荐算法,使用改进的基于内容的推荐算法计算偏好分,构造物品偏好度特征矩阵,最后通过XGBoost非线性分类器对线上旅游业的子房型进行个性化推荐;张敏等[14]提出层叠降噪自动编码器(StackedDenoisingAuto-Encoder,SDAE)与隐含因子模型(LatentFactorModel,LFM)相结合的混合推荐方法,SDAE通过引入商品评论文本,增强了LFM模型分解用户评分矩阵后商品特征矩阵的一般性,有效提升了模型的评分预测精度。该类算法均涉及用户基础画像、用户订单、用户评论等多特征提取、多任务学习的特性,对于富含专题地图产品的信息流场景,相关的统计类特征信息稀少,适用性不强。




以上推荐方法对专题地图产品个性化推荐提供了案例参考,针对专题地图推荐场景中本体规则库编制耗时较长,受用户类型局限性较强,专题地图特征利用不充分等问题,鉴于此,本文提出了面向专题地图产品推荐场景的用户偏好推荐方法。首先,通过Web用户日志数据对特定类用户的偏好兴趣进行建模,计算用户交互行为下每幅专题地图的隐性评分,以减弱真实场景中出现的内容冷启动和稀疏的评论数据问题;基于负采样(NegativeSampling)的连续词袋(ContinuousBagofWords,CBOW)模型对用户行为序列进行建模,提取含用户行为序列特征的地图特征向量,其充分考虑前后地图序列感知特征信息,可有效提高目标地图的预测评分精度;基于CBOW模型优化的Item2Vec方法根据提取的地图特征向量构建相似度矩阵,通过Cosine相似度函数计算专题地图间的相似度,完成特定类用户的个性化推荐。




2、面向专题地图产品推荐场景的用户偏好推荐方法




面向专题地图产品推荐场景的用户偏好推荐方法框架如图1所示,主要包括:基于用户交互行为数据的隐性评分计算、基于负采样的CBOW模型优化和基于CBOW模型优化的Item2Vec方法3个部分。




基于用户交互行为数据的隐性评分计算,在PC/Web端采集用户访问专题地图网站的用户日志文件,文件中包含用户ID、专题地图ID及用户对专题地图的具体事件行为(具体专题地图的点击量、收藏、下载等)等隐式反馈数据。按用户点击链接的浏览路径,对各事件行为分类,通过定义用户事件行为隐性评分函数,计算特定类用户对各类专题地图的事件行为评分,获得评分的专题地图为用户感兴趣的专题地图;通过定义时间衰减函数,计算特定类用户对各类感兴趣专题地图的偏好程度[15],另提取各专题地图的描述信息“专题地图名称/分类”,以上提取数据和计算结果构成了专题地图产品推荐场景中用户偏好推荐方法所需的训练样本。




图1专题地图检索的用户偏好推荐方法框架




基于负采样的CBOW模型优化将高维的用户行为序列转化为低维的专题地图特征向量,并带有用户行为特征的语义信息[16]。CBOW模型根据前后地图序列预测目标专题地图,相比于Word2Vec中另一种模型Skip-Gram,CBOW模型更新目标专题地图及其前后地图序列的初始化向量,作为正样本;对样本库中前后地图序列的邻近地图序列进行一次负采样,构成负样本。通过控制正负样本比例,提升目标专题地图的预测概率。此外,训练样本中出现较多生僻词时,采样模式为负采样,效率高于原有的霍夫曼方法,有助于提升Item2Vec方法的召回性能。




基于CBOW模型优化的Item2Vec方法从用户日志文件中抽取用户行为序列,按用户点击专题地图链接的最新行为记录构建专题地图特征序列,通过基于负采样的CBOW模型得到专题地图特征向量,用于训练模型参数。借助Word2Vec方法中词向量之间距离远近表示词语义之间距离远近的思想,专题地图特征向量之间距离远近可表征专题地图之间隐语义的距离远近[17],利用Cosine相似度函数构建专题地图语义距离矩阵,根据矩阵预测每幅专题地图的评分,完成特定类用户的专题地图个性化推荐。




2.1基于用户交互行为数据的隐性评分




计算特定类用户对专题地图的隐性评分,从用户日志文件中检索用户对专题地图的事件行为数据,隐性评分通过不同类型事件行为的交互次数进行计量,MEij为构建的专题地图-事件行为矩阵(式(1))。专题地图产品有多个主题,每个主题下包含多个专题要素集合,用户定位感兴趣专题地图通过一系列点击专题地图链接的事件行为完成。按用户在线浏览路径,用户对各类专题地图的事件行为分为4类:(1)网站主页用户对各主题的浏览行为(以下简称“浏览行为”);(2)用户对感兴趣主题描述信息的行为(以下简称“描述性行为”);(3)用户对感兴趣专题要素属性信息的行为(以下简称“属性行为”);(4)用户对感兴趣专题地图进行收藏、下载等行为(以下简称“决定性行为”)。通过SQLScript从用户日志文件中检索的包含特定用户ID和内容ID的数据条目格式(表1)。




式中:i为用户;j为含用户事件行为的专题地图;1表示用户对感兴趣专题地图执行了所有事件行为;0表示用户执行决定性行为之前的其他事件行为。




特定类用户对专题地图的隐性评分计算流程如图2所示,包括2个方面:(1)用户对感兴趣专题地图执行各事件行为,通过权重系数和衰减系数对特定类用户的偏好兴趣进行建模。不同类型的事件行为分配不同的权重系数,依据各事件行为的权重系数,通过隐性评分函数,计算用户对各专题地图的事件行为评分,对评分数据进行标准化处理,SQL查询返回特定类用户的事件行为评分数据,按各数据项的事件行为时间节点,计算该数据项的衰减系数,基于用户事件行为评分和衰减系数,计算特定类用户对感兴趣专题地图的隐性评分;(2)用户对一定量的感兴趣专题地图均执行“决定性行为”,其它各类型事件行为次数不同,则偏好程度存在一定差别。TF-IDF根据用户查询对文档价值进行排序,引入逆用户频率IUF,对(1)中感兴趣专题地图的隐性评分进行过滤,确定特殊项专题地图的重要性排序,通过逆用户频率IUF值,计算特定类用户对特殊项专题地图的事件行为评分,对评分数据进行标准化处理,获得特定类用户对特殊项专题地图的隐性评分。




(1)特定类用户对感兴趣专题地图的隐性评分




特定类用户对专题地图的事件行为评分高低取决于各类型事件行为的权重系数和所占比例[18]。依据带权重系数的专题地图事件行为隐性评分函数(式(2)),对专题地图产品推荐场景中的用户事件行为进行表示:“#event1”表示“决定性行为”、“#event2”表示“属性行为”、“#event3”表示“描述性行为”。对用户事件行为进行权重分配(表2),加权值的确定符合权重分配规则,其中,w1为“决定性行为”的加权值,w2为“属性行为”的加权值,w3为“描述性行为”的加权值。确定各类型事件行为的加权值和交互次数后,计算用户对各专题地图的事件行为评分,利用最高评分对各评分数据进行标准化处理,获得评分范围在(1,10)的同比例评分数据(式(3))。




表1用于计算专题地图隐性评分的数据格式




图2特定类用户对感兴趣专题地图隐性评分的计算流程




表2用户事件行为权重分配




式中:u为用户;i为专题地图;w1…wn为各类型事件行为的权重系数;#event1…#eventn为各类型事件行为发生的次数;RI′u,i表示用户关于专题地图的事件行为评分。m为专题地图数量;max(RI′u,i)表示各专题地图事件行为评分的最大值;SRI′u,i表示标准化后各专题地图的事件行为评分。




SQL查询返回特定类用户的事件行为评分数据,通过时间衰减函数(式(4)),计算用户行为过的专题地图的衰减系数,用于测度一定时段内用户对专题地图的偏好程度,衰减系数是对用户长短期行为序列的综合优化,它弱化用户的短期意图,强化用户的长期偏好兴趣,反映用户近期行为与长期行为的相关性,用户期望评分呈缓慢下降趋势,以提升用户对感兴趣专题地图的隐性评分。式(5)是计算特定类用户对感兴趣专题地图的隐性评分。




式中:dt为用户当前时间;dc#eventi为用户对第i幅专题地图开始事件行为的时间;timedelta()表示2个时间节点之间的时间差;days为用户规定时段;dfi表示第i幅专题地图的衰减系数。wi为第i幅专题地图的事件行为权重系数;SRIu,i表示特定类用户对感兴趣专题地图的隐性评分。




(2)特定类用户对特殊项专题地图的隐性评分




计算特定类用户对特殊项专题地图的隐性评分,确定用户对具有“决定性行为”的感兴趣专题地图的偏好程度。计算逆用户频率IUF值(式(6)),确定用户感兴趣的专题地图中存在的特殊项专题地图,以对数函数方式计算是确保较少的感兴趣专题地图之间存在较大差别,用户对特殊项专题地图的事件行为次数越多,重要性就越大,IUF值可确定特定类用户对特殊项专题地图的偏好程度[19]。逆用户频率IUF值作为特殊项专题地图的加权值,计算特殊项专题地图的事件行为评分(式(7)),利用最高评分对各评分数据进行标准化处理,获得评分范围在(1,10)的同比例特殊项专题地图的隐性评分数据(式(8))。




式中:n为用户u对特殊项专题地图i执行各类型事件行为的次数;N为数据条目中用户数量;“+1”表示对IUF进行平滑处理,使数据条目中未具有“决定性行为”的特殊项专题地图得到一个合适的IUF值。RIu,i表示特殊项专题地图的加权隐性评分;SRIu,i表示标准化后特定类用户对特殊项专题地图的隐性评分。




至此,专题地图产品推荐场景中(1,10)范围内特定类用户对各专题地图的隐性评分计算完毕,使用其代替显性评分,用户ID、项目ID、专题地图名称/分类和专题地图的隐性评分作为Item2Vec方法训练的语料个体,将由训练语料个体构成的评分实验数据集命名为“ThematicCMaps”。




2.2基于负采样的CBOW模型优化




CBOW是根据上下文信息预测目标词出现概率的神经网络模型,CBOW神经网络结构分为3层,输入层将用户行为序列构成的item句子中某个中心词的上下文信息初始化,获得相关词对应的词向量,投影层将上下文信息各对应的初始化向量求和,输出层输出目标词的词向量[20]。负采样优化以选定的中心词和设置窗口长度后中心词的上下文信息作为正样本,输入层映射到投影层生成训练样本的词汇表,负采样选取词汇表中其他词作为负样本,通过二元逻辑回归求解每个词对应的待训练参数θ和中心词对应上下文中每个词的词向量[21,22],基于负采样的CBOW模型优化训练流程如图3所示。




从专题地图评分实验数据集“ThematicCMaps”中抽取一个用户行为序列样本,经CBOW模型读取生成专题地图词汇表D,以中心专题地图wt及其前后地图序列Context(wt)为正样本,通过负采样在D中选取neg个特征专题地图作为负样本NEG(wt)。每一个Context(wt)经权重矩阵W初始化,在投影层求和作为语境向量,并与输出权重矩阵W′相乘得到前后地图序列的输出向量,经激活函数处理,得到描述目标专题地图向量的V-dim概率分布,最大概率索引的专题地图为预测的目标专题地图,最大化目标专题地图输出向量v′(wt)拟合语境向量x的目标函数为:




式中:c为上下文窗口长度;K为负样本数;P(wt|Context(wt))P(wt|Context(wt))表示最大化条件概率函数(Softmax),定义如下:




式中:v(wt)为输入的专题地图向量;v′(wt)为输出的专题地图向量;v(wt)为逐次输入的专题地图;|v|为专题地图向量的维度;|C|为专题地图词汇表大小;2*|v|*|C|表示模型参数个数;x为语境向量。P(wt|Context(wt))P(wt|Context(wt))的梯度复杂度与|C|值有关,此时,式(10)无法计算目标专题地图的最大化概率,按照正负样本数比例1:2,通过负采样采集负样本,将原来的|C|分类优化为|K|分类,优化后最大化正样本的似然函数为:




式中:Xw为正样本中各专题地图的向量和;θu∈Rmθu为待训练参数,指投影层与输出层的向量为待预测目标专题地图u时,二者之间的全连接;Lw(u)为用于分类的判别阈值,判别为中心专题地图时值为1,判别为负样本时值为0。式(11)由2部分组成:σ(XwΤθu)Lw(u)表示前后地图序列时,正样本中预测目标专题地图wt的概率;(1-σ(XwΤθu))(1-Lw(u))表示前后地图序列时,负样本中预测目标专题地图wt的概率,优化似然函数增大正样本的预测概率同时降低负样本的的预测概率。为计算方便,损失函数采用对数损失函数,最终的优化目标函数为:




图3CBOW模型优化训练流程




通过随机梯度上升法迭代更新neg个模型所需的参数Xw和θu,继而迭代训练样本中每幅专题地图对应的向量,优化目标函数在梯度推导中记为:L(wt,u),分别计算损失函数对参数Xw和θu的梯度,Xw为投影层中心专题地图对应的前后地图序列中所有向量的加和,θu共享于正负样本对中每幅专题地图对应的向量。损失函数中Xw和θu对偶,损失函数对Xw的偏导数与θu有关系,首先对参数θu求导,根据式(13)和式(14),参数Xw和θu的偏导数为:




激活函数(Sigmoid)求导后,借助链导法则对参数Xw和θu进行梯度推导(式(15)):




式中:XwΤθu表示模型输出,激活函数处理后值为(0,1)。参数θu的初始值贡献到e后,完成θu的下一次更新,根据模型学习率计算e值(e初值为0),由式(16)定义:




待预测目标专题地图u可能来自正样本,也有可能来自负样本。专题地图词汇表D的词权值α设置为3/4,便于负采样通过二元逻辑回归求解模型参数,训练完正负样本对后,得到关于Xw的总梯度,依据总梯度值Xw完成自身更新,Xw和θu的更新公式为:




式中:v(wContext)为Xw对正负样本对的梯度加和。前后地图序列中每幅专题地图对应的向量都共享该梯度值,同样地,θu的梯度加和贡献到前后地图序列中每幅专题地图对应的向量上,前后地图序列中每幅专题地图对应的向量根据Xw、θu的梯度和完成自身更新,得到的专题地图向量既是用户行为过的内容项的向量,也是用户的事件行为向量。注意的是,Xw依赖于θu存在,正负样本对的梯度加和构成Xw的梯度后,更新每幅专题地图对应的参数Xw和θu的时候,先更新Xw自身所占的比例梯度。




2.3基于CBOW模型优化的Item2Vec方法




借助Word2Vec方法计算词语义距离的思想,从用户日志文件中抽取用户行为序列转化为专题地图特征序列,每个专题地图特征序列表示一次完整的用户行为,将带有用户行为特征的专题地图特征序列放入Word2Vec进行训练,得到专题地图特征序列的隐语义向量,通过Cosine相似度函数计算专题地图特征序列的语义距离矩阵,离线写入KV存储,计算每幅特征专题地图相似度较高的Topk个邻居特征专题地图,完成特定类用户的专题地图个性化推荐[23],Item2Vec方法的训练主流程如图4所示。




通过Cosine相似度函数计算特征专题地图两两之间的隐语义相关度(式(19)),获得特征专题地图相似度矩阵(Item-Sim)。其中,专题地图的隐性评分被视作n维空间向量,根据向量之间的角度计算特征专题地图之间的相似性(式(20))。专题地图产品协同过滤进行专题地图评分预测时,不需要校正用户的平均评分,预测评分由用户本身对专题地图的事件行为决定。




式中:n为专题地图评分实验数据集中专题地图数目;xu,1k,xu,2k为含用户行为特征的专题地图向量的分量;Iu,1k,Iu,2k为专题地图特征向量。




3、实验数据及结果分析




3.1实验数据




专题地图评分实验数据集“ThematicCMaps”的数据来源是PC端采集的WebService记录(http://www.onegreen.net/),用户日志文件中详细记录了用户的浏览行为、文件下载等信息。数据预处理后,计算其隐性评分,实验数据集包含1179幅地图的分类描述数据(maps.txt)和个人用户的872条隐性评分数据(ratings.txt),数据示例格式如下:




图4Item2Vec训练主流程




分类描述数据maps.txt中数据条目格式:




隐性评分数据ratings.txt中数据条目格式:




本文选取MovieLens(http://movielens.org)收集的电影评分数据集作为验证数据集,目的是为了验证本文构建的面向专题地图产品推荐场景的用户偏好推荐方法和专题地图实验数据集的有效性、可行性[24]。MovieLens-100K、MovieLens-1M、MovieL-ens-10M和MovieLens-20M4个数据集的详细信息见表3所示。MovieLens基准数据集是推荐系统中常用的高质量实验数据集,由GroupLens研究组在UniversityofMinnesot中组织,用户对自己看过的电影进行评分,分值范围:0~5。




3.2评测指标




采用均方根误差(RMSE)评价模型的预测评分性能(式(21)),RMSE是推荐系统中最受欢迎的用来度量预测评分准确性的指标,RMSE反映预测评分偏离真实评分的程度,值越小,评分预测精度越高[25]。存在数据集D={(uk,ik,SRIuk,ik)},计算RMSE:




表3验证数据集信息




式中:uk为第k个行为用户ID;ik为第k个含用户行为特征的物品ID;SRIuk,ik,和SR͂Iuk,ik为第k个用户对物品的真实评分和预测评分;N为数据集评分量。




3.3参数设置和模型对比




根据实验数据集和验证数据集大小,本文所提面向专题地图产品推荐场景的用户偏好推荐方法Item2Vec中,基于负采样的CBOW模型训练相关的参数设置见表4所示。




本文选取LFM、PersonalRank、ContentBased3种传统的非神经网络模型与本文提出的用户偏好推荐方法进行比较;选取SVD和CBOW(负采样)作为Item-Item协同过滤的代表模型,比较在信息流场景中数据量不同,生僻词出现次数不同时的评分预测区别;选取以霍夫曼采样方式的Item2Vec基础方法、YouTubeNet模型作为个性化推荐召回算法的深度学习比较模型。




表4模型训练参数设置




(1)LFM:通过隐含特征构建用户兴趣和物品关系的潜在因子矩阵,对矩阵分解和评分偏移量模型进行正则化处理,减弱模型的泛化能力。




(2)PersonalRank:基于图的推荐算法将用户行为转化为二分图,依据顶点相关度对用户、物品进行排序,相关度越高的物品在用户推荐列表中越靠前。




(3)ContentBased:基于内容的推荐算法分别刻画用户和项目画像,通过多种分类器对不同权重的项目结果进行线性加权,结合用户分类结果进行推荐。




(4)SVD:奇异值分解(SingularValueDecomposition)方法将高维度用户评分矩阵分解为隐藏特性空间中的用户特性矩阵和产品特性矩阵,SVD矩阵分解模型在NetflixPrize比赛中可生成产品建议[26]。




(5)YouTubeNet:YouTubeNet推荐模型首先引入了用户的个性化信息(用户点击记录,用户年龄、性别等),在此基础下学习用户特征向量和物品序列特征向量,直接使用内积结果选出用户最感兴趣的物品列表[27]。




3.4结果分析




本文在用于专题地图产品偏好推荐的评分实验数据集“ThematicCMaps”和4种不同数据量的验证数据集MovieLens中运行4种传统推荐模型:LFM、PersonalRank、ContentBased和SVD,以及本文提出的推荐方法,以多次实验的预测评分和真实评分的RMSE指标平均值来衡量各模型推荐效果,表5给出了各模型在测试集上的评分预测性能对比结果。从表5可知,本文所提用于专题地图产品推荐场景的用户偏好推荐方法,在专题地图评分实验数据集和验证数据集上的评分预测精度均优于4种传统推荐模型,且推荐性能均有所提升,说明本文所提方法,相比于LFM和SVD,对用户和项目的潜在特征有较好的学习能力;相比于PersonalRank和ContentBased,具有有效的特征提取能力,能对用户行为的情景信息进行有效建模。其中,在实验数据集中,基于CBOW模型优化的Item2Vec方法比4种传统推荐模型在预测准确率上提升:16.44%、15.33%、13.80%和1.49%。在4个验证数据集中,总体上本文所提方法的预测准确率优于4种传统推荐模型,相比于LFM模型,本文所提方法预测准确率整体提升27.85%;相比于PersonalRank模型,本文所提方法预测准确率整体提升27.45%;相比于ContentBased模型,本文所提方法预测准确率整体提升18.63%;相比于SVD模型,本文所提方法预测准确率整体提升4.95%。按模型在数据集中的实验结果,除ContentBased模型外,本文所提方法相比于其余3种模型在提升预测准确率上均为正相关,随数据集中数据量的不断变大,评分预测性能提升越明显。在基于神经网络的推荐模型中,本文所提方法相比于以霍夫曼采样方式的Item2Vec基础方法,实验数据集中提升0.45%,验证数据集中提升0.55%、0.68%、1.88%和2.97%,说明评分预测精度上优于后者,评分预测性能也有了一定的提升;本文对YouTubeNet模型作了改动,在不引入用户个性化信息的情况下,只对具有用户行为特征的物品序列进行建模,结果表明,实验数据集中预测准确率提升0.97%,验证数据集中预测准确率提升1.19%、1.13%、4.24%和5.78%,说明本文所提方法在评分预测精度上优于后者,且评分预测性能有了大幅度提升。为验证本文所提方法在不同比例训练集下的评分预测性能变化差异,本文对MovieL-ens-20M数据集进行不同大小的切分,实验结果见表6所示。




表5各模型预测评分性能对比




从MovieLens-20M数据集中随机抽取5种不同比例的数据子集用于模型训练,由表6可知,本文所提方法在10%、30%和50%的数据子集上的预测准确率,相比于SVD提升了4.09%、4.47%和5.75%,预测准确率提升较低,但在70%和90%的数据子集中,相比于SVD,本文所提方法的预测准确率提升了7.28%和9.50%,预测准确率提升较高,说明随训练量的增多,本文所提方法的评分预测准确率上升,评分预测性能优于SVD模型。




表6模型在MovieLens-20M数据集切分下的实验结果




表5、表6给出了本文所提方法与其他推荐模型在评分预测性能上的定量比较,针对构建的面向专题地图推荐场景中专题地图检索的实验数据集,进行离线测试,定性比较两种推荐模型的推荐结果(表7)。表7显示获得特定类用户最高预测评分的种子专题地图和相似度排名前5的邻居专题地图,相似度较高的专题地图则是为特定类用户进行推荐的项目。由表7可知,基于CBOW模型优化的Item2Vec方法推荐的专题地图列表相似度较高,基本属于同一地图主题下的各专题指标,推荐效果优于SVD模型,“ThematicCMaps”数据量较少,但仍能很好地推断各专题地图之间的相似关系。




表72种模型的推荐结果对比




4、结论




面对现有专题地图推荐场景中用户偏好建模案例研究相对较少,专题地图评分实验数据集缺少,通过编制本体规则等传统方法进行地图推荐的时效性不强等问题,本文提出面向专题地图产品推荐场景的用户偏好推荐方法,基于WebService记录构造专题地图序列的统计类特征,如专题地图的点击量、收藏率等,通过计算专题地图隐性评分,完成用户偏好兴趣建模;基于负采样优化的CBOW模型,可有效提升目标专题地图的评分预测精度;基于CBOW模型优化的Item2Vec方法,充分考虑专题地图序列之间的局部共现关系,根据专题地图预测评分,完成个性化推荐,推荐效果优于传统方法,形成了较为合理的专题地图向量检索式召回策略。主要结论如下:




(1)首先使用特定类用户对感兴趣专题地图隐性评分的计算方法,构建用于专题地图检索的实验数据集“ThematicCMaps”。针对不同类用户形成不同专题地图分类粒度的评分,弥补了用户行为序列中特征专题地图强度无区分性的不足,解决了专题地图产品推荐场景中无专题地图评分实验数据集的不足,根据用户行为日志计算的隐性评分能客观反映检索用户的真实偏好程度。CBOW模型对专题地图的“专题地图名称/分类”标签的多次迭代更新,获得的专题地图的文本特征,可有效避免内容冷启动问题。




(2)基于负采样的CBOW模型优化,控制负样本个数是正样本个数的2倍,可过滤点击序列长度小于5的样本,过滤之后,用户点击序列能覆盖99%的预测专题地图。CBOW模型经负采样改进,降低了梯度下降过程中的计算量,参数Xw和θu的迭代更新,可有效提高对大型数据集的训练效率和评分预测性能。




(3)基于CBOW模型优化的Item2Vec方法是将神经项嵌入物品的协同过滤,在类似于专题地图推荐的信息流场景中,数据量较大,生僻词出现次数较多,CBOW模型预测目标专题地图会受到前后地图序列的影响,地图特征向量的跳帧随中心专题地图的前后地图序列对应的地图向量一起调整,多次的前后地图序列对应的向量调整使得预测目标专题地图的向量更加准确,且这种训练方式适用于分类明确、生僻词较多的信息流场景。Item2Vec方法学习出来的专题地图序列向量含用户实时的偏好行为特征,具有较好的相似性,可覆盖10%以上的曝光占比,在专题地图个性化推荐召回层,专题地图点击率提升了1.83%,用户时长提升了1.11%,所以与传统推荐模型相比,基于CBOW模型优化的Item2Vec方法在专题地图推荐场景中能取得较好的推荐效果。




本文所提方法为语义环境下专题地图的Web上下文感知特征提取与建模提供了新的思路,专题地图向不同情境的特定用户传递偏好信息,个性化推荐基于用户认知语义为特定用户快速匹配合理有效的专题地图,量化专题地图推荐场景中不同类用户的知识构成和偏好程度,可促进专题地图服务中专题制图技术的发展,提高适应于不同类用户的专题地图质量,满足专题地图推荐场景中的个性化推荐效率。