|
[摘 要] 本文讨论了Web数据挖掘的一个重要分支—Web用法挖掘在电子商务客户行为特征挖掘中的应用。介绍了客户行为特征挖掘的主要方法,并详细描述了一个基于粗糙集的电子商务客户行为特征挖掘模型。
[关键词] 电子商务 客户行为特征 Web 用法挖掘 粗糙集
一、Web用法挖掘的概念
Web使用记录实际上是一种用户浏览网站的操作流水记录,它详实地记录着使用者对Web服务器访问的细节情况。Web用法挖掘即Web使用记录挖掘是指通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,来识别用户的忠实度、喜好、满意度,并发现潜在用户,增强站点的服务竞争力。
Web使用记录除了指服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。
利用Web用法挖掘来对客户的行为特征进行挖掘是指从Web用户的使用记录集合C中发现隐含的模式P。如果将C看作输入,P看作输出,那么客户行为特征挖掘的过程就是从输入到输出的一个映射:ε∶C→P
二、客户行为特征挖掘的必要性
客户行为类信息是指客户的消费行为、客户偏好和生活方式,客户满意度、客户忠诚度及与企业的联络记录等相关信息。但这些信息并不等同于客户行为特征信息。通过对上述信息进行客户行为模型与数据挖掘处理,才能提炼出客户的行为特征信息,从而为企业的决策提供精确的数据支持。客户行为特征挖掘的重要性体现在以下几个方面:
1.发现潜在客户,提高现有客户忠诚度及满意度。
2.对系统改进提供决策依据。如通过分析网络的非法入侵数据找到系统弱点,从而改进系统以提高站点安全性。
3.对改进站点结构与内容提供决策依据,使站点的结构和内容更加优化与合理以方便用户使用。
4.帮助销售商合理安排销售策略。聚类客户,对不同类别客户提供个性化服务。
5.识别竞争对手,保护企业敏感信息,有效地发现并阻止商业情报活动。
三、客户行为特征挖掘的方法
利用Web用法挖掘技术来对客户行为特征进行挖掘是一个有效的方法。基于Web的数据挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。信息获得(IR)的目的在于找到相关Web文档;而信息抽取(IE)的目的是对数据进行浓缩并给出它的紧凑描述。
客户行为特征挖掘大致可以分为数据采集、数据清洗、数据挖掘、和模式分析几个主要步骤。
1.数据采集
数据采集是客户行为特征挖掘流程中的重要部分。在数据采集时要尽可能地搜索所有与客户行为特征有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
(1)服务器端采集。服务器端的Web日志是客户行为特征挖掘的的重要数据来源。在服务器端,客户的行为可以被TCP/IP包监测器跟踪,以提取客户的请求信息。服务器主要以Web日志的形式记录客户每一次的网页请求信息。主要包括:客户标识、远程IP、请求日期和时间等,并且可以记录COOKIES和查询参数来描述各个不同客户的行为。这些日志文件能够以常用日志格式或扩展日志格式存在。为了做好下一步数据清洗,可以根据客户行为特征挖掘的具体目的来调整Web日志的记录字段,这样既可以将不必要的数据去掉,也可以增加一些在后面分析时可能用到的字段,这样采集的数据更加便于后面的数据清洗。
使用服务器端数据采集可以实时采集数据,并能把来自不同服务器的数据整合到一个日志中。但同时也存在获取客户信息失真及信息量不足等问题。
(2)客户端采集。客户端数据采集方法需要用户的合作如自觉使用修改过的浏览器,或者实现javascript 和java applets的功能。在使用客户端数据采集时可能会遇到客户不配合及涉及客户隐私等问题。
(3)代理器端采集。在代理器端可以采集多用户甚至多网站的行为。代理器端数据采集适合有大量静态页面的网站。但使用代理器端数据采集时遇到的问题是不能区分代理器后端的不同的顾客(群)。
2.数据清洗
采集到的信息通常是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接对采集到的数据进行数据挖掘,而必须经过必要的数据处理。数据清洗目的是从取得的原始数据中剔除无用信息和将信息进行必要的整理。经过数据净化,数据可以十分集中。
在进行客户行为特征挖掘时,应该根据分析需要,首先确定需要的行为,再确定这些行为出现的一些条件和特征,从而确立一些分析规则,将这些行为特征挖掘出来,对于不需要的行为数据应该尽量过滤。
3.数据挖掘
客户行为特征挖掘常用的分析规则有:遍历路径,关联规则,聚集发现和分类发现。
(1)遍历路径。遍历路径分析的侧重点在于分析用户访问路径间的前后序列关系。通常,一个会话(Si)是一个以时间为顺序的页视图(Vi)(单个用户在某次访问一个站点时所产生)的集合。而每个页视图Vi又具有标志符vi,页文件hj,首先访问时间tf,最后访问时间tl,视图结束时间te的属性。如下表示:
对单用户,可以将上述集合用一个有向图来表示,Gi=(Si,Ei),
其中:Si是页面的集合,Ei是页面之间的超连接集合, 定义页面为图中的顶点,而页面间的链接定义为图中的有向边。顶点Si的入边表示对Si的引用,出边表示Si引用了其他的页面。
对于多用户在某时间段访问站点时产生的会话则可以用单用户会话的集合Gi来表示, 即
G={G1, G2, … Gn}, 也即:
G={{S1,E1},{S2,E2} … {Sn,En}}。
从上式可以得到:
G={{S1,S2, … Sn}, {E1,E2, … En}}, 也即是 G={S, E}。
在遍历路径时,首先在每个用户会话Gi中找出该用户的所有最大向前路径Ei, 然后在所有用户会话G中的子集合--最大向前路径E中,找出频繁出现的连续子序列。要寻找这些频繁遍历路径,必须定义这些连续子序列的长度和支持度,所谓支持度就是包含频繁遍历的用户会话数目。
(2)关联规则。关联规则分析主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,也就是用户的访问页面之间的潜在联系,而这些页面之间可能并不存在直接的参引(Reference)关系。
在客户行为特征挖掘中,关联规则指:只要页面的支持度大于某个被给定的阀值,那么这些页面就都被访问。即只要访问页面A就有可能访问B(和C...)。从Web日志中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。最常用的方法是用APRIOR算法。关联规则能够有助于Web设计者重新组织站点的内容编排。
(3)聚集发现。聚集发现是把整个原数据分成不同的群组。它的目的是要在群与群之间差别很明显,而同一个群内的数据要尽量相似。在WEB方法挖掘中,主要涉及两种聚类:用户聚类和页聚类。用户聚类将具有相似访问特性的用户归在一起,在站点的个性化服务中,这种技术尤其有用。页聚类将内容相关的页面归在一起,在搜索引擎和WEB结构设计领域中,这种技术发挥着巨大作用。 |
|