|
[摘要]本文简述了XML语言的特点,并对电子商务Web数据采掘技术的方法进行了分析,探讨了基于XML的电子商务Web数据采掘技术的应用,为企业有效地确认目标市场、改进决策获得更大的竞争优势提供帮助。
[关键词]XML电子商务数据采掘
一、引言
家用计算机的普及、互联网及网络通信的迅猛发展已经将人类社会带入了网络经济时代。电子商务以其具有的成本、效率和创新优势,在商务活动中占据了一席之地,并不断地为越来越多的企业及个人所接受和采用。
在电子商务活动中,每个客户都会有自己的消费习惯,并对信得过的商品有一定的忠诚度,分析客户的需求信息和购物行为特征就成了商家必做的功课。基于网络技术的电子商务的发展,使得商家Web服务器上积累了大量的客户信息数据,这些数据为从事电子商务的商家提供了深入了解客户需求,改进经营现状和提供更好的服务的可能性。从网络上得到的大量信息数据中提取有用的信息和知识,为商家创造更多潜在的利润,在这样的商业背景下出现了电子商务Web环境中的数据采掘技术。目前,数字采掘技术作为电子商务领域的重要应用技术之一,为商业决策提供着强有力的支持和保证,已经逐渐成为电子商务的重要工具。
二、XML与数据采掘
XML是TheExtensibleMarkupLanguage(可扩展标识语言)的简写。XML是一套用来标记文档的语法,它是由SGML发展而来,由W3C(WorldWideWebConsortium万维网联盟)制定标准。其目标是统一未来跨平台数据交换的格式,并取代现有的HTML成为下一代Web页的标准。
XML是一种跨平台的语言,因规范简单、良好的可扩展性、传输内容与传输方式相隔离、具有自我描述能力等优异特性而在全世界范围内得到了越来越多的认可,成为众多商家与用户争相开发及采用的技术。
数据采掘又称数据挖掘,就是从大量的、不完全的未知数据中提取隐含在其中的对使用者的分析有用的信息和规律。数据采掘的主要任务是对数据进行描述和预测,描述数据的特性,对数据进行合并分组,并进行推断预测。
数据采掘应用于商业中,它是一种新的商业信息处理技术,主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。
三、电子商务Web数据采掘技术
客户在互联网上漫游时,其浏览信息会被网站服务器自动收集并保存在访问日志、引用日志、代理日志中。通过对这些信息的有针对性的分析,可以揭示其中的关联关系、时序关系、被频繁访问的页面和路径等等。
1.数据动态采集与预处理
在开发Web使用记录采掘技术中,首先要对日志文件进行预处理数据,预处理的方法包括:数据清理、数据集成和转换、数据归约。数据清理可以去掉数据中的噪音,纠正不一致。数据集成将数据由多个源合并成一致的数据存储,如数据仓库或数据方。数据转换(如规范化)可以改进涉及距离度量的挖掘算法的精度和有效性。数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据。数据预处理在数据采掘之前使用,以便改进数据的质量,提高其后的采掘过程的精度和性能,降低实际采掘所需要的时间。
2.Web数据采掘的基本方法
Web数据采掘(WebDataMining),是数据采掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的模式或信息。对应于不同的Web数据,Web采掘分成三类:Web内容采掘、Web结构采掘和Web使用模式采掘。
Web内容采掘是指从Web上的文件内容及其描述信息中获取潜在的、有价值的知识或模式的过程。Web结构采掘就是对Web文档的结构进行采掘。对于给定的Web文档集合,应该能够通过算法发现他们之间连接情况的有用信息,文档之间的超连接反映文档之间的包含、引用或者从属关系。
Web使用模式采掘(WebUsageMining)是对用户访问Web时在服务器方留下的访问记录进行采掘,通过采掘Web日志记录,分析和探究Web日志记录中的规律,可以识别电子商务的潜在客户,增强对最终用户的网上信息服务的质量和交付,改进Web服务器系统的性能。其主要特点是对用户信息数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
数据采掘通过数据采掘器进行,其主要功能是进行实际的采掘操作,从经过预处理的数据中发现模式和规则,借助OLAP引擎和相关算法实现动态更新。
在Web日志记录上可以进行数据采掘,用于找出关联模式,序列模式,和Web访问趋势等。
3.Web数据采掘的主要技术
适用于电子商务数据采掘的主要技术有关联分析、序列模式分析、分类分析和聚类分析等。数据采掘器按照数据采掘的技术方法进行设计,每种采掘技术包含一些不同的具体实现算法,构成在功能上相互独立的子模块,存放在采掘算法库中。采掘算法库包括:
关联分析:应用已有关联规则算法侧重进行兴趣关联规则分析,找出或判断出客户对网站进行访问的相关关系,揭示数据间的内在联系,可据此调整站点的结构。
序列模式分析:采掘出数据的前后时间顺序关系,分析其是否存在一定的趋势,以预测未来的行为(访问,浏览等)。
分类分析:通过对数据的分析,给出数据间类的公共属性描述,为每个类别做出准确的描述或建立分析模型或采掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。
聚类分析:分类分析的逆过程,按照“类内相似性最大,类间相似性最小”的原则,对数据进行类的聚集。通过分组聚类找出具有相似行为的客户,分析其共同特点,据此可向客户提供更为合适的服务。
路径分析:通过对日志文件中的数据进行分析,寻找到被访问最频繁的路径。
借助图形学和图像处理技术,将通过数据采掘获得的数据模式,以图表或可视性文本的形式呈现给使用者,以利于具有不同知识背景的使用者能够快速地从采掘结果中得到有效信息,从而尽快做出决策。 |
|