|
[摘要] 本文对电子商务Web页数据挖掘技术做了全面分析,对于个性化电子商务网站中难以发现用户兴趣行为特征问题,给出了Web页面关联算法。利用数据仓库技术可有效挖掘用户兴趣特征,从而指导电子商务网站资源的组织和分配,为商务型网站的投资者和建立者提供正确的盈利导向。
[关键词] 电子商务数据挖掘兴趣特征
数据挖掘技术是随着数据库技术和人工智能技术发展起来的一种新型的交叉信息技术。无论是B2B、B2C还是B2G电子商务模式,商品的采购者都需要通过Web方式与商品的供应商及其合作者之间建立信息流的交互,面向电子商务的数据挖掘的特点就是从Web数据库中,运用关联、分类、聚类等技术手段,从中提取出可以指导市场策略的有用数据。它基于“消费者过去的行为预示着其今后的消费倾向”的原理,通过收集、分析和处理从网上获取的有关消费者消费行为的数据,从潜在的、隐含的、事先不知的状态,经过提取、洗涤、加工变为潜力巨大的价值信息,从而实现网络营销的目的,确定特定消费群体或个体的消费习惯、爱好、倾向,进而预示出消费者下一步的消费行为,有针对性地提供服务。
一、电子商务Web数据挖掘技术
1.电子商务Web数据挖掘技术的分类
电子商务Web数据挖掘一般可分为三个部分:内容挖掘、结构挖掘、用法挖掘。Web内容挖掘有两种策略:直接挖掘文档内容和在其他检索工具搜索的基础上进行改进。Web结构挖掘是从WWW上的组织结构和链接关系中推导知识。Web用法挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式。大多数基于数据库的数据挖掘方法均可作用于电子商务Web数据挖掘。
在研究以电子商务网上购物为应用背景的工作时发现。商家在Web上建立自己的在线商品目录,顾客(即用户)通过浏览器可以浏览商品目录、实现网上订购甚至网上支付等。用户与商家的Web服务器间交互的过程信息(包括用户的登录信息、用户的浏览记录)以及用户的个人简要信息等,都能以日志文件或顾客数据库的形式存在,从中找出规律性,对商家的市场销售是至关重要的;从大量顾客数据及日志数据中,应用到计算机并行处理、神经元网络、模型化算法和其他信息处理技术手段,挖掘出有意义的用户访问模式及相关的潜在顾客群,从中可得到商家用于向特定消费群体或个体进行定向营销的决策信息。同时有效地对这些Web日志进行定量分析,揭示其中的关联关系、时序关系、页面类属关系、客户类属关系和频繁访问路径、频繁访问页面等,不但可为优化Web站点拓扑结构提供参考,而且还可为企业更有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。
2.电子商务Web数据挖掘模型构建和基本流程
电子商务Web服务器自动收集客户浏览信息并保存在访问日志、引用日志和代理日志中。典型的电子商务Web服务器日志文件包括以下信息:IP地址,请求时间,方法(如get),被请求文件的URL,HTTP版本号,返回码,传输字节数,引用页的URL和代理。
电子商务Web挖掘,首先对日志文件进行预处理,预处理主要由两部分构成:数据清洗(data cleaning)和事务识别(transaction identification)。包括对Web日志进行清洗、过滤和转换以及无关记录的剔除,判断是否有重要的访问没有被记录,并从中抽取感兴趣的数据;并将URL、资源的类型、大小、请求的时间、在资源上停留的时间、请求者的Internet域名、用户、服务器状态作为数据cube的维数变量;再将对模块、页面和文件请求次数,来自不同Internet域请求次数、事件、会话、带宽、错误次数、不同浏览器种类、用户所在组织作为度量变量建立data cube;而将文件、图像脚本及多媒体等其他文件转换成可用于Web使用挖掘的数据格式,从而可将数据挖掘技术用于Web流量分析、典型的事件序列分析和用户行为模式分析及事务分析。
定义函数log={ip,uid,url,time}表示电子商务Web服务器日志。其中,ip,uid,url,time分别标识客户ip、客户id、客户请求的url和浏览时间。
在经过数据预处理阶段后,即可针对电子商务中不同的挖掘目标可以采用不同的数据挖掘方法,选择数据挖掘模式,如统计分析、关联规则、时序模式、路径分析(path analysis)及聚类、分类技术。
进行实际的挖掘操作的要点有:首先决定如何产生假设;选择合适的工具;发掘知识的操作;证实发现的知识。 |
|