9134648 发表于 2018-8-20 16:51:54

2018基于电子商务网站的WEB内容挖掘

  [摘要] 随着网络技术的迅速发展,电子商务行业正处以一个高速发展的时期,各类商务网站也应运而生。如何从繁多的商务网站数据中获得有用的信息就成了一件亟需解决的问题。本文分析了Web内容挖掘在电子商务网站中的应用以及如何获得数据源。
  [关键词] 电子商务网站 Web内容挖掘 数据源
  
  一、引言
  对于电子商务网站来说,Internet上储存了大量的文档、图像、声音等非结构化的数据及信息,并且用户群体也显示出多样性,也就是说每个浏览网站的人,他们的需求、兴趣以及浏览目的各不相同。一个稍具规模的电子商务网站每天处理的业务成千上万,那么如何从这些数据中找到有用的信息,帮助电子商务的经营者和研究者从海量的Web数据中得到真正有价值的信息,以指导他们做出管理上的决策。就是一个非常重要而有意义的事情。
  二、爬虫和Web内容挖掘
  1.Web挖掘的典型分类
  在目前的研究中, Web数据挖掘分为:Web内容挖掘(Web content mining)、Web使用(访问信息)挖掘(Web usage mining)、Web结构挖掘(Web structure mining)三种典型的类型。
  (1)Web内容挖掘主要是对站点的Web页面内容进行挖掘。目前,大多数研究主要集中在如何对网站上的文本以及多媒体数据进行分类以提高数据挖掘的有效性,很少涉及到如何从网站上进行数据的采集以及分析。
  (2)Web结构挖掘主要是对Web文档的结构进行挖掘,通过一定的算法来发现给定的Web文档之间的链接情况,从而得到比较重要的页面,以向浏览网站的用户提供权威页面。
  (3)Web使用(访问信息)挖掘主要是对用户访问Web时在服务器方留下的访问记录,也就是用户访问Web站点的存取方式进行挖掘。它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式。目前流行的挖掘手段主要包括:路径分析、关联规则和序列模式的发现、聚类和分类等。
  2.Web挖掘的数据源
  在Web数据挖掘中存在几种代表性的数据源:
  (1)服务器日志数据。个人浏览Web服务器时,在服务器那方就会产生3种类型的日志文件:Server logs,Error logs和Cookie logs,这些日志文件主要是用来保存用户访问的基本情况。所以就成为开展Web使用(访问信息)挖掘的主要数据源。但有一点需要注意的是,这些数据是在服务器方生成的,因此有一定的不可获取性,因为这会涉及到商业机密。
  (2)在线市场数据。这类数据主要是跟市场活动有关的信息。在线市场数据是业务数据,是进行业务相关分析的主要数据源。
  (3)Web页面。目前的Web页面大多满足HTML标准。HTML页面中包含文本和多媒体信息,例如图片、图像、语言等,因此涉及到数据挖掘领域中的文本挖掘和多媒体挖掘,目前很多研究都在致力于如何对文本和多媒体信息进行挖掘的算法分析。
  (4)Web页面超链接关系。Web页面之间的超链接关系是一种重要的资源,网站的设计者总是把他们认为重要的页面添加到自己的页面上来。
  (5)其他数据。除了上述几种重要的数据源外,还有一些其他方面的数据,比如用户注册信息等一系列信息。
  当然,在实际的Web数据挖掘中这些数据源并不是孤立使用的,而是几种数据源的综合使用和分析,例如我们要对访问某个电子商务网站的用户购买商品的路径分析的同时还需要知道这些客户群的一些基本信息。
页: [1]
查看完整版本: 2018基于电子商务网站的WEB内容挖掘