|
[摘要] 本文阐述了在电子商务应用中,利用Web挖掘技术,有效地将用户访问过程中的数据记录到日志文件中,并对日志文件进行有效地分析和挖掘;利用Apriori改进算法FT-树增长算法,找出对电子商务系统有指导作用的关联规律。
[关键词] 电子商务 数据挖掘 日志挖掘 知识发现 人工智能
随着电子商务的发展,企业的数据越来越多,而当其数据积累到一定程度时,必然会反映出一定规律性的东西,也就是说,企业的海量、分布、动态、复杂、非结构化的数据中蕴含有可以为其利用的规律。因此,人们迫切希望使用一种技术,从中挖掘出具有价值的规律来,形成对企业的技术和经营的指导。数据挖掘技术是可以用来挖掘这些规律的一种有效工具。
Web中包含的丰富和动态的超链接信息,以及Web页面的访问和使用信息,为数据挖掘提供了丰富的资源。如何对Web中的数据进行有效的资源和知识发现,是Web挖掘需要解决的问题。
一、Web信息数据的特征
传统数据挖掘的信息局限于数据库中的结构化数据,而Web信息数据是半结构化或非结构化的,具有如下特征: 一是大规模海量数据信息。二是信息分布广泛。三是异质、动态的信息源。Web及其数据的更新、增长速度极快, Web上的信息几乎都是隐藏的、未知的。四是信息具有丰富的内涵。既有涉及各方面丰富的信息内容,又蕴涵着访问页面、路径、时间、用户IP地址等这些潜在的访问信息。
二、数据挖掘及Web挖掘技术
1.数据挖掘
数据挖掘,又称数据库中的知识发现,近几年来已被数据库界所广泛研究。它是在数据仓库或大型数据库的基础上,从大量的、模糊的、随机的数据中提取出数据间重要的但容易被人工分析忽略的知识和信息。数据挖掘技术涉及数据库、人工智能、神经网络、预测理论、机器学习和统计学等多种相关技术。数据库中的知识发现(KDD)是从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式的高级处理过程。模式可以看作是我们所说的知识,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述。
2.Web挖掘
Web挖掘是对数据挖掘的一种新的发展和应用,但不同于传统的数据挖掘,其主要区别在于传统的数据挖掘的对象局限于数据库中的结构化数据,并利用关系表等存储结构来挖掘知识,而Web挖掘的对象是半结构化或非结构化特征。
Web挖掘就是从大量的Web文档和Web活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。它以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、信息提取、机器学习、统计学、概率理论、可视化、计算机语言学、自然语言理解等多个领域的技术,并将传统的数据挖掘技术与Web结合起来。Web挖掘分为:Web内容挖掘、Web结构挖掘和Web使用记录挖掘,如下图所示。
;
图 Web挖掘的分类
三、基于Web日志挖掘的算法
Web日志记录了用户访问的信息,包括用户的访问方式、访问时间、访问人数、用户IP地址、被请求文件的URL HTTP版本号、传输字节数、引用页的URL等。
1.符号与定义
Web日志文件是由一条记录组成的,一条记录实际上记录的是用户对Web页面的一次访问。
定义1关联规则:设I是Web日志的一条记录,即I={i1,i2,…,im},其中ij(1≤j≤m)是某用户访问一种商品的数据,每次访问一种商品都包含有如商品编号、访问时间、访问次数、客户号、客户IP地址等数据,称此类数据为数据项。Ti∈I为I的一个子集。D={T1,T2,…,Tn}是关于Ti的集合,且X∈I,Y∈I,X∩Y =Ф,则记录X=Y为在集合D中X与Y相互关联的规则。 |
|