基于协同推荐的WEB日志预处理过程
By  master 发表于 2006-10-19 13:16:00 [出自: 王听忠,王辉,武新梅

【摘要】 个性化推荐技术是电子商务系统中重要的技术, 但对一般的非商务型网站如何向用户提供推荐服务成为当前研究的热点。Web 日志记录了用户访问网站的详细信息, 这为推荐技术提供了新的研究领域。本文提出了针对协同推荐算法的 web 日志预处理全过程。并对预处理过程的用户识别、会话识别、路径补充、用户兴趣评估进行了详细的探讨并提出了自己的见解。
碧森尤信 

 引言

  随着互联网以惊人的速度增长, 网站的结构和内容变得越来越复杂, 网上用户很难找到他们所需要的东西。如何使网站方便用户、使用户在较短时间内找到他所需要的资源, 成为当前网站服务应用重点考虑的问题之一。一个有效的解决办法是预测用户未来的请求, 给用户提供个性化推荐服务。

  目前存在着许多个性化技术, 在电子商务网站应用的比较广泛, 其中比较成功的是协同过滤推荐技术。传统的协同过滤推荐技术是针对注册用户, 许多非注册用户不能得到个性化服务。大部分用户访问网站并不希望进行麻烦的注册, 如何使非注册用户得到个性化服务成为人们关注的一个新的问题。

  用户访问网站时, 用户的详细浏览行为记录在了Web 服务器上。本文论述了如何分析利用 web 日志,使其能够成为协同推荐算法的源数据, 从而为非注册用户提供个性化服务。由于 web 本身的开放性、动态性以及 HTTP 协议的不确定性, 使得丰富的 WEB 日志信息在运用到特定的挖掘算法之前必须经过数据预处理, 才能保证挖掘结果的有效性和准确性。

  1 相关知识

  协同过滤推荐算法根据其他用户的浏览兴趣产生对目标用户的推荐, 它是基于这样一个假设: 如果王听忠:硕士研究生河南教育厅提供的基金: 河南青年骨干教师基金[134]用户对一些项的评分比较相似, 则他们对其他项的评分也比较相似。协同过滤推荐技术使用统计技术搜索目标用户的最近邻居, 然后根据最近邻居对资源的兴趣预测目标用户对未访问资源的兴趣, 选择预测兴趣最高的前若干个资源作为推荐结果反馈给用户。有关协同过滤推荐技术详细介绍请参考文献协同过滤推荐算法用到的数据结构是一个用户对资源的兴趣矩阵, 可以用一个 I m× 的矩阵 A(m,n)n表示, m 行代表 m 个不同的用户, n 列代表 n 个 url, A(i,j) 代表用户 i 对资源 j 的兴趣, 用户兴趣矩阵如表 1所示。

2 日志数据预处理

   数据预处理的目的是把 Web 日志转化成特定算法所需要的数据结构。Web 服务器的日志文件详细地记录了用户的浏览行为。

  最常用的日志文件有 CLF(Common Log Format)和ECLF (Extended Common Log Format),ECLF 的文件结构如下:

 

  Web日志数据虽然记录了用户的浏览行为, 但其数据是不完整的, 又由于其它一些因素的影响, 它记录的数据也是不准确的, 所以必须对其进行预处理才能得到我们所需要的结构化数据。由于代理服务器和防火墙的存在, Web 服务器记录的用户 IP 可能是代理服务器或防火墙的 IP 地址, 这给识别用户带来了很大难度。为了提高浏览速度, 减少传输量大部分浏览器采用了缓存技术, 用户浏览过的页面, 可以使用“后退”按钮重新浏览页面, 而不必再向 Web 服务器发送请求, 使用户的浏览历史没有完全记录到日志中, 这给用户兴趣的评估带来一定的困难。基于以上的原因, 又由于特定算法的需求,必须对 Web 日志进行预处理。

  针对协同过滤算法的数据预处理, 作者认为预处理过程应当包括数据清洗、获取 URL集、用户识别、兴趣评估、会话识别、事务识别、数据格式化等, 如图 1所示。

 

2.1、数据清洗

  数据清洗主要是删除与挖掘算法无关的项, 对发生错误的记录进行适当的处理等。在进行 Web 日志清洗时, 要根据网站的类型和算法的需要确定哪些记录要删除, 哪些记录要保存。

  如果网站是以文本内容为主的网站, 就要把伴随页面一块下载下来的图片、音频等与内容无关的信息从日志文件中删除掉, 因为针对以内容服务无主的网站这些信息对用户的浏览兴趣显然不大, 也就是说可以把日志文件中后缀为.gif、.jpg、.jpeg 等记录删除掉。但对以图片为主的网站把后缀为.jpg、.jpeg 的文件删除掉显然不合适了。

  再一个要删除过渡性页面, 因为过渡性页面只是用户通过该页面访问其他的页面并不代表用户对该资源感兴趣。判断过渡性页面要根据不同的网站、根据用户在该页面滞留的时间长短来判断, 用户在该页面停留时间过短, 就认定该页面是过渡性页面。最后要清除访问出错的页面, 因为访问出错的页面用户并没有看到, 或者 Web 服务器并不存在该页面, 所以要把其清除掉。根据上面所说的协议状态, 也就是清除协议状态为 400—599 的日志纪录。 在实际编程的过程中, 可以建立一个规则库, 也就是说要把删除的记录的特征写到规则库中, 以后再处理不同类型的网站日志时不需要再修改程序, 直接把规则库修改一下就行了。

   2.2、获取 URL集

  URL集是说有用户访问的 URL集合, 这是建立用户兴趣矩阵所需要的。经过数据清洗以后遍历 Web日志记录, 把日志中的参照写入 URL集。因为网站经常变化, 有可能一些页面已经不存在, 要把用户访问出错的 URL及用户长时间不再访问的 URL及时地从URL集中删除掉。

   2.3、用户识别

  用户识别就是从日志中的每一条记录中识别出相应的用户。由于代理服务器和防火墙的存在, 用户不能仅靠 IP 地址来识别。

  在用户识别方面采用启发式规则, 不同的 IP 代表不同的用户; 当 IP 相同, 不同的操作系统或浏览器代表不同的用户; 当 IP、浏览器、操作系统都相同的情况下, 根据网站的拓扑结构对用户进行识别, 当用户浏览的某个页面不能从已访问的历史页面到达, 则判断为一个新用户。例如, 图 3 代表一个网站的拓扑结构,该网站的部分日志如表 2 所示, 在这个日志中所有的记录具有相同的 IP。表中第 5、6、8、10 条记录的代理与其他的不同, 说明至少有 2 个用户。第 3 条记录, 页面 L 不能从 A 或 B 页面到达, 而 R 可以从 L 到达, 但除 R 外其他页面不能到达 R 说明还有一个新的用户。依据启发式规则分析共有 3 个用户, 它们的浏览路径分别是: A- B- F- O- G- A- D, A- B- C- J, L- R。

 

2.4、会话识别

  会话识别是为了方便下面路径补充环节, 把用户的访问记录分为以会话为单位的单元。会话识别最简单的方法就是利用用户页面请求的时间差, 如果两个页面请求超过一定的值, 就认为用户又开始了一个新的会话。在通常情况下以 30 分钟为界限。

 2.5、路径补充

  路径补充就是将用户浏览了而在日志文件中没有记录的页面补充上去。路径方法和用户识别相似,如果一个页面不能从用户浏览历史记录中到达, 我们就假定这个用户使用了浏览器的“后退”按钮。这样就可以用网站的拓扑结构把没有记录的页面添加上, 如果有多个页面可以链接到当前页面, 则选择时间最近的页面。用这种方法可以把没记录的页面添加到用户会话中去。另外一个问题是用户在该页面的滞留时间如何解决, 我们采用如果该用户以前浏览过该页面,就取以前在该页面滞留时间的平均值, 若没有浏览过就把它当作过渡性页面, 给一个较短的滞留时间。

  我们再看表 2、图 2, 页面 G 不能由页面 O 直接链接, 日志表中表明对 G 页请求是通过 B 页引用的, 这就可能使用户使用“后退”按钮回到 B 页, 然后通过 B页请求 G 页。所以页面 F 和 B 应该添加到用户会话中去, 该用户的完整的访问路径为: A- B- F- O- F- B- G。也有另外一种情况, 可能用户知道页面 G 的 URL地址, 他直接输入地址进行访问, 这种情况是很少发生的, 可以忽略不计。

 2.6、用户兴趣度量

  在用户的访问兴趣度量上, 一般都是只考虑页面的访问次数。笔者认为页面的访问时间和页面的大小有一定关系, 页面越大访问时间自然越长; 相反, 页面越小访问时间越短。所以应当综合考虑页面浏览时间和页面大小的关系, 准确地讲应该是浏览时间和页面大小的比值越大, 越能说明用户的兴趣度; 浏览时间和页面大小的比值越小, 说明用户只是把该页面当成过渡性页面, 对该页面的兴趣度不高。但如果用户经常浏览该页面, 即使是过渡性页面也有必要向用户推荐。综合以上两个方面的原因, 用户i 对 URLj 的兴趣度Uij可以表示为:

 

  式中: URLj,time是指用户在 URL j的浏览时间, URL j,size

  是指URL j所指的页面大写, N 表示用户浏览 URL j的次数。

 2.7、数据格式化

  数据格式化就是把预处理过的数据转化成算法所需要的格式。针对协同过滤算法, 它需要的是用户兴趣矩阵, 首先, 建立一个用户兴趣矩阵, 把用户集合、 URL集合和一个连续的整数值一一对应起来, 然后遍历预处理过的 web 日志, 把得到的用户对资源的兴趣添加到矩阵中, 这样我们就得到了协同过滤算法所需要的数据, 3 结束语

  由于 web 日志记录和 http 自身的原因, 日志数据是复杂的, 还有的信息可能包含错误的信息, 对日志预处理的好坏直接关系到协同过滤算法的效果, 因此web 日志预处理具有重要的研究意义。本文提出了针对协同推荐的 web 日志预处理过程, 并在用户兴趣评估方面提出了自己的见解, 但在用户识别方面有待进一步研究。

 

参考文献:

[1]邓爱林。电子商务推荐系统关键技术研究, 复旦大学博士论文, 2003.4

[2]杨武剑, 王泽兵, 冯雁, 武新玲。网站个性化服务研究, 浙江大学学报,2003, 5, 37- 3

[3]R.Cooley,B.Mobasher,J.Srivastava.Web Mining:Information and Pattern Discovery on the World Wide Web [J],Proceedings of the IEEE Inaternational Cofference on Tools with Artifical Intelligence ,1997,11

[4]C.Aggarwal,P.Yu。Data Mining Techniques for Personalization[J],IEEE Data Engineering Bulletin,23(1),2000,4

[5]Bamshad Mobasher,Robert Cooley,Jaideep Srivastava。 Automatic Personalization Based on Web Usage Mining.

[6]Wu, Y.H., Chen, Y.C., Chen, A.L.P. Enabling personalized recommendation on the Web based on user interests and behaviors. In:

Klas, W., ed. Proceedings of the 11th International Workshop on Research Issues in Data Engineering. Los Alamitos, CA: IEEE CS Press, 2001. 17-24.

[7]Cooley,J.Srivastava.Data preparation formining world wide Web browsing patter〔J〕.JournalofKnowledgeandInforma- tionSystems,1999.1(1):5~31

[8]张利萍, 李宏光. 灰色神经网络预测算法在 DMF 回收过程中的应用[J].微计算机信息, 2005,1:183- 185

本站搜索: WEB日志 用户识别 用户兴趣评估
[在Google上搜索相关文章] [在百度上搜索相关文章]

【郑重声明】 本站所有文章除注有来源网址外均为互联网首发,按照创造共用方式授权,允许相关网站转载,但必须标明作者名称并在明显位置作好原文网址链接(复制以上链接),且不能运用于任何商业目的。
——建筑知识引擎小组 创造共用方式
 
阅读全文 | 回复(0) | 引用通告 | 编辑

本站已经关闭回复功能,如需联系本站,请发送email至CKETeam[at]gmail.com(请将email地址中的[at]改为@)。

发表评论:

    昵称:
    密码: (游客无须输入密码)
    主页:
    标题:
    数据载入中...

 
 站长公告

  碧森尤信,聚集最优秀的建筑网络资源,中文建筑知识引擎的发起者和推动者!
  本博客作为碧森尤信网站用户的官方在线服务通道;同时也作为站长交流和学习空间。

联系站长
pipcn.com[at]gmail.com

联系[建筑知识引擎小组]
CKETeam AT Gmail.com

站点日历
<< < 2006 - 10 > >>
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
最新日志
最新评论
最新留言
 站长链接
站点统计
日志搜索
用户登陆

 
© 2005-2006 碧森尤信.