移动决策 数据挖掘 决策树
Technology/Application
技术/
应用
GSM用户
其他
入网6个月以上12个月以下用户
其他通话交往半径趋向萎缩
其他总通话时长下降趋势
其他主号通话时长下降趋势
连续两个月消费额度小于150元
其他
连续两个月主叫客服次数小于1其他
短消息主叫次数上升趋势
其他
其他有更换服务套餐历史记录
其他
流失概率81.5%
图3判断GSM用户流失的决策树模型
构建决策树的算法有很多,其中最具代表性的是ID3和C4.5算法,鉴于本文构造的训练样本数据中所拥有的属性大多是连续值,所以采用的具体算法为Quinlan的C4.5,它的思想大致如下:将给定训练集作为决策树的根节点,训练集中的记录具有标识类别的字段;利用增益比例来寻找节点上具有最大信息量的字段或分割属性,根据分割属性不同取值建立该节点的若干分支,并为所有分支子集建立对应的节点;在每个分支子集中重复建立下层分支和节点,直到节点中所有记录的类别都相同为止。这样便生成一棵完整的决策树,然后把决策树的节点的规则,利用这分裂过程转化为“如果?那么?”些规则就可以对新数据进行分类。
图3是一个判断GSM流失用户的决策树,用来对GSM用户流失进行分类,它指出一个GSM用户是否会流失。每个内部节点(方形框)代表对某个属性的一次检测。输入新的被决策记录,可以预测该记录隶属于哪个类。
似逼近,所以必须要使用生产系统的已发生离网认定的用户历史数据做样本数据进行训练学习;在训练学习过程中选择能产生最大信息增益的属性因子对输入域(属性因子集合)进行分割,得到各个决策边界的数值,这就是通过训练学习所获得的用户分类规则经验值集合。
5.模型树剪枝
构造过程得到的并不是最简单、紧凑的决策树,因为许多分枝反映的可能是训练数据中的噪声或孤立点。树剪枝过程试图检测和去掉这种分枝,以提高对未知数据集进行分类时的准确性。树剪枝方法主要有先剪枝和后剪枝。树剪枝方法的剪枝标准有最小描述长度(MDL)和最小期望错误率等。前者对决策树进行二进位编码,最佳剪枝树就是编码所需二进位最少的树;后者计算某节点上的子树被剪枝后出现的期望错误率,由此判断是否剪枝。
6.模型测试
LOCAL_RECS<=16
RAT_TOT_RECS<=2.3699999LOCAL_RECS>4
RAT_TOT_RECS<=0.28
RAT_LOCTOTREC>0.86000001
4.模型训练
决策树与其他机械学习算法一样都需要预先进行样本数据的训练学习,要保证训练后的决策树应用于真实数据处理时有最佳的工作效果和输出更具代表性的用户分类,必须要求所使用的训练样本数据要与真实数据尽可能地相
CHINANEWTELECOMMUNICATIONS
81
中国新通信
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库基于决策树的数据挖掘技术在电信用户流失预测的应用与研究(3)在线全文阅读。
相关推荐: