答案家

 找回密码
 立即注册
查看: 420|回复: 0

2018决策树技术在网上书店系统中的应用

[复制链接]

1

主题

1

帖子

41

积分

幼儿园

Rank: 1

积分
41
发表于 2018-8-20 14:26:10 | 显示全部楼层 |阅读模式
  [摘要] 数据挖掘技术是在大量的数据中发现未知知识的数据分析技术,利用数据挖掘技术分析客户数据,发现其中的规律,从而为商务决策提供依据。本文对决策树技术进行了相关分析,并应用于网上书店系统,实现对客户数据的挖掘。
  [关键词] ID3算法 决策树 数据挖掘 网上书店
  
  目前,据《电脑商情报》通过最近的调查研究得出的结果显示,截至去年6月,我国的网上书店数量已经达到300家以上,比前年同期增长25.8%。同行之间的竞争日益激烈,特别是客户是商家争夺的焦点。
  网上书店的业务系统每天都要产生大量的业务数据,这些业务数据记录了各类客户在网上书店相关业务的信息和客户的基本信息,这些数据用数据库保存起来。在竞争日益激烈的知识经济环境下,数据库不再只是用于查询、输出报表等一般的用途,还要在众多的数据中挖掘出有用的知识以便作为决策支持。这些数据中的一部分是需要经过一番分析形成知识后才能被决策所利用。数据挖掘技术在网上购书系统中起着重要作用,使用数据挖掘技术进行订单数据的挖掘, 通过决策树技术得到客户进行分析,发现客户所处的生命周期,针对处于不同客户生命周期的客户,采取个性化的策略,实现向其推荐书籍和客户保持,提高客户满意度,进而建立忠诚度。从而实现客户的保持,防止客户流失。
  一、决策树技术基本概述
  决策树基本思想是:选取一个最能区分不同类别样本的属性,让其作为树根,并把训练样本集分为相应的几块,接下来再依次在每一块样本集中选出区分度最大的属性,作为树的第二层结点。依此类推,直到所有的叶结点都只包含一类样本时终止,这样构建起来的一棵树就称作决策树。然后进行验证,就可得出结果。因此在分析客户流失情况时,将己有的客户信息的统计作为基础数据,选择好的属性,构造决策树,决策树技术可以清晰的显示哪些字段比较重要,对挽留客户指明了方向。
  决策树是应用非常广泛的分类方法,目前有多种决策树方法,如ID3、CN2、SLIQ、SPRINT等。
  二、ID3算法及其在网上书店中的应用
  ID3算法是Quinlan提出的一个著名决策树生成方法。它的基本概念是决策树中每一个非结点对应着一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。采用信息增益来选择能够最好地将样本分类的属性。
  ID3选择具有最高信息增益的属性作为当前结点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。这种信息理论方法使得对一个对象分类所需的期望测试数目达到最小,并尽量确保找到一棵简单的树来刻画相关的信息。
  设S是s个数据样本的集合,假定类标号属性具有m个不同值,定义m个不同类Ci(i =1,2,…,m)设si是Ci类中的样本数,对一个给定的样本分类所需的期望信息由下式给出:
  
  其中,Pi是任意样本属于Ci的概率,并用si/s估计。
  设属性A具有v个不同值{a1,a2,…,av},可以用属性A将S划分为v个子{Si,…,Sv},其中,Sj包含 S中这样一些样本,它们对应的属性A的值为aj。如果A选作测试属性(即最好的划分属性),则这些子集对应于由包含集合S的结点生长出来的分支。设sij是子集Sj中类Ci的样本数。根据A划分的子集的嫡或期望信息由下式给出:
  
  充当第j个子集的权,并且等于子集(即A值为ai)中的样本个数除以S中的样本总数。
  这次分类之后,还需要的分类信息量为:

  Pij是Sj中的样本属于类Ci的概率。
  对描述属性的元素计算信息增益值:
  
  选择最高信息增益的创建一个结点,并以该属性标记,对该属性的每个值创建一个分支,并据此进行划分。
  网上书店分析客户流失情况,决策树技术中的是解决这一问题的有效途径。ID3算法是一个著名决策树生成方法。具体的过程如下:
  1.构造训练集
  根据各种渠道收集的用户信息以及日志文件创建了网上书店的数据仓库,从中提取客户活动信息。如下表:
  
  2.信息增益计算
  将决策树的算法应用在客户保持中,生成决策树算法的执行过程描述如下:
  计算IfLost的期望信息:
  类标号属性IfLost有两个不同值{yes,no},因此有两个不同的类(m=2)。设类C1对应于yes,而C2对应于no,类yes有6个样本,类no有4个样本。
  根据公式,可得给定样本分类所需的期望信息:
  
  计算每个属性的期望信息。从属性业务种类(Online-time)开始,观察Online-time的每个样本的yes和no分布,可算出Online-time的期望信息:

  对于Online_time=“<3小时”s11=2,s21=2
  Online_time=“≥3小时”s12=4,s22=2
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

CopyRight(c)2016 www.daanjia.com All Rights Reserved. 本站部份资源由网友发布上传提供,如果侵犯了您的版权,请来信告知,我们将在5个工作日内处理。
快速回复 返回顶部 返回列表