2018聚类挖掘在电子商务中的应用

8051840 · 发表于 2018-8-20 16:18:11

　　　[摘要] 阐述了在电子商务系统中的研究和应用中，利用基于关联规则的多层次、超图分割聚类方法，对Web网页和用户进行有效聚类。该方法借助网站层次图，可以根据实际需要，在各个层次上进行聚类分析，仅将高度相关的网页和用户聚在同一类，而将关联性较小的网页排除在聚类外。
　　[关键词] 聚类挖掘电子商务关联规则超图
　　
　　由于Web具有方便、易用、高效的特点，电子商务显示出越来越强大的生命力，同时各种商业Web站点也面临越来越激烈的竞争。
　　有效聚类Web用户和网页对改进网站质量、完善电子商务中产品销售策略具有十分重要的意义。在电子商务中，浏览模式相似的用户具有相似的购买习惯，通过聚类挖掘，将这些用户聚集在同一类，可以制定相似的销售策略。根据浏览模式聚集在同一类中的网页，是大多数用户共同访问的网页，在这些网页之间建立超链接，以方便用户使用。
　　现有的基于浏览模式的Web聚类挖掘研究方法中，只要用户请求了一个网页，便认为用户阅读了该网页，事实上有些被请求的网页用户并不关心，不会认真阅读的。通常一个实用网站包含大量的网页，现有的Web聚类方法将每个网页当作一个被聚项，无论用户访问的频繁与否，总是归入一个类中，结果造成有些类中的网页之间几乎没有相关性。
　　鉴于以上考虑，本文提出了基于关联规则和超图分割的聚类Web网页及用户的方法，不仅考虑了用户浏览网页的时间长短，还考虑了聚类层次（级别），将不相关网页项排除在聚类之外，使每个类中的网页具有较高的相关性。采用这种方法，可以优化Web站点拓扑结构，指导企业调整营销策略，给客户提供动态的个性化的高效率服务。
　　
　　一、建立电子商务网站的层次模型
　　
　　建立电子商务网站的层次模型出于三点考虑。第一，网站中网页内容组织呈现树状结构。第二，在进行关联规则挖掘过程中，可能最下一级挖掘不出达到指定Support的强规则，但是能从上级层次挖掘出达到指定Support的强规则，或根据实际需要在某一个层次进行聚类分析。第三，对于电子商务网站，有些用户虽然访问了某网页，但是对其内容并不感兴趣，可能只是扫一眼就放弃。在此情况下，不应该认为用户认真阅读了该网页，所以应该记录网页的长度，通过计算用户的浏览时间和网页长度的比值来判断用户是否真正认真阅读了该页内容。
　　层次模型采用树状结构来描述，节点的数据域包含对应网页的层次名称（编号）和网页长度。树根应该取所研究的网站根目录（研究整个网站）或所研究的网站分支的最上层目录。在建立层次模型时，应根据网站的具体情况决定采用的方法。通常情况下，网页文件名能完全反映网页所在的层次，可以采用完全自动方法进行转换。
　　
　　二、基于关联规则的聚类挖掘
　　
　　1.预处理
　　在Web站点中，服务器日志文件记录用户的访问方式、所访问的页面、访问时间、用户IP地址等信息，通过收集Web日志所记录的用户浏览信息可以对网页和用户聚类。首先要对收集到的数据进行预处理，获得每个用户所访问的网页序列。将一个用户对某个特定网站的一次连续浏览（从登录该网站一直到离开该网站）所访问的网页序列称为一个用户浏览事务。如果用户中途访问了另一网站，而后又返回该网站，返回后所浏览的网页序列将组成另一个用户浏览事务。处理后的事务序列将具有如下的形式：
　　u_id（用户标志编号），p_id(页面编号)序列
　　2.挖掘关联规则并计算关联规则可信度的平均值
　　对经过预处理的浏览事务进行关联规则挖掘，挖掘出满足一定支持度的关联规则。关联规则是在挖掘出频繁网页集的基础上发现的，由于频繁网页集是大多数用户在一个事务，即一次网站访问中所共同浏览的页面，所以频繁网页集反映了这些网页或共同访问这些网页的用户之间存在一定的联系，如网页内容高度相关。在进行聚类时，应该首先考虑将频繁网页集中的网页聚合在一个类中。
　　通常挖掘频繁网页集的方法是在给定某一支持度的基础上进行的，满足该给定支持度的一个频繁网页集中的网页可能是另一个或另几个频繁网页集中的元素，那么将这些网页应该聚合到前一项目集还是后面的某一项目集？正确的选择应该是看这些网页和哪一项目集联系更为密切，可采用的方案有两种：提高支持度继续挖掘频繁网页集直到每一网页仅处于一个项目集或利用各频繁网页集中网页之间关联规则的可信度。进一步仔细分析，前一方案不可取，首先可能不存在一个支持度使每个网页仅位于一个频繁网页集中；其次即使存在这样一个支持度，再进行多次的频繁网页集挖掘代价也太高，实际中是不可行的。
　　相比之下，后一方案可行度高，在挖掘出满足指定支持度的频繁网页集的基础上，可以较为方便地计算出每一个频繁网页集中的每个关联规则的可信度。可信度的大小也反映了网页之间关联的密切程度。为此，计算每个频繁网页集中所有的关联规则的可信度，在此基础上计算其所有关联规则可信度的平均值，用可信度的平均值反映网页与不同的频繁网页集之间联系的密切程度。
　　3.利用超图进行网页聚类
　　超图是对图的扩充，允许一条边连接三个或三个以上的点。每条边带有权的超图称为加权超图，在挖掘出频繁网页集和关联规则的基础上，可以得到网站的加权超图。超图中的一个顶点代表一个网页，超图的边称为超边，超边连接的顶点是频繁网页集中的网页。每个超边的权取该边所对应的频繁网页集中所有关联规则可信度的平均值。

		自动登录	找回密码
密码			立即注册

2018聚类挖掘在电子商务中的应用

浏览过的版块