基于特征选择改进LR-Bagging算法的电力欠费风险居民客户预测
作者 吴漾 朱州 贵州电网有限责任公司信息中心(贵州 贵阳 550003)
吴漾(1984-),男,硕士,工程师,研究方向:电网信息化数据管理与数据分析管理;朱州,男,高级工程师,博士,研究方向:电网信息化建设与数据分析管理。
摘要:本文从电力欠费风险预测的角度出发,提出了一种基于特征选择改进的LR-Bagging(即以逻辑回归为基分类器的Bagging集成学习)算法,其精髓在于每一个训练的LR基分类器的记录和字段均通过随机抽样得到。且算法的终止迭代准则由AUC统计量的变化率决定。该改进算法充分考虑了LR的强泛化能力、Bagging的高精确度,以及特征选择带来的LR基分类器的多样性、弱化的多重共线性与“过拟合”度,效果优于单一LR模型。且最终的实验表明,该改进算法得到的电力欠费居民客户风险预测模型的准确性与有效性得到提升。
引言
我国电力体制的深化改革为电力行业引入了市场机制[1],在有效实现电力资源优化配置,提高电力资源生产和传输效率的同时,也带给电力企业更大的市场风险,风险的切实防范和规避对电力企业的重要性不言而喻。由于客户欠费而产生的电费回收风险一直是电力营销中存在的重大风险之一。
首先,国内学术界专业人士对于该问题的研究起步较晚[3],主要集中于对电费回收风险的现状、影响因素、评价、有效性措施等内容的理论研究,缺乏以现实数据为基础量化模型支撑[3-4];虽然也有许多文献通过对电力客户信用等级建模对其欠费风险进行预测[5],但模型不够直接;随着大数据挖掘行业的蓬勃发展,近几年出现了基于逻辑回归、决策树的数据挖掘算法的电力客户欠费违约概率预测模型[6-7],但前者选取特征均为二分类变量,适用性较低;后者选择的模型变量虽较为多样性,但模型的预测结果差强人意。而本文将借助电力客户属性数据和行为特征数据,尽可能挖掘每一个变量与欠费风险的相关信息,建立一个更为准确、使用范围更广的客户欠费风险预测模型。
其次,如今关于LR的文章或者关于Bagging集成学习的文章有很多,但是基于LR分类器的Bagging算法的应用相对较少,通过特征选择对基于LR分类器Bagging算法做出改进的相关文献基本没有。简单来说,本文算法为多个不同的LR分类器的集合,其核心在于每一个训练的LR基分类器的样本和特征均通过bootstrap技术得到。充分考虑了LR的强泛化能力、Bagging的高精确度,以及特征选择带来的LR基分类器的多样性,使得该算法在精度、实用性上优于单一算法,后文的应用恰好证明了这一点。鉴于该算法的这一优越性,可尝试将其应用于其他领域的分类挖掘问题。
本研究的意义体现在两个方面:一是对于电力欠费客户风险预测这一模块的进一步研究;二是基于特征选择的以LR为基分类器的Bagging算法的改进的借鉴和推广价值。
1 基于LR分类器的Bagging算法的改进
1.1 LR模型及其基本理论
逻辑回归(LogisticRegression,LR)模型是一种分类评定模型,是离散选择法模型之一。它主要是用于对受多因素影响的定性变量的概率预测,并根据预测的概率对目标变量进行分类。逻辑回归可分为二项逻辑回归和多项逻辑回归,类别的差异取决于目标变量类别个数的多少。目前,LR模型已经广泛应用于社会学、生物统计学、临床、数量心理学、市场营销等统计实证分析中,且以目标变量为二分类变量为主。
1.1.1 Logistic函数
假设因变量只有1-0(例如“是”和“否”,“发生”和“不发生”)两种取值,记为1和0。假设在p个独立自变量作用下,y取1的概率是,取0的概率是1-P,则取1和取0的概率之比为,称为事件的优势比(odds),表示事件发生的概率相对于不发生的概率的强度。对odds取自然对数可得Logistic函数为:
(1)
Logistic函数曲线如图1所示。
1.1.2 LR模型
LR模型可以探究由于自变量的变化所能导致的因变量决策(选择)的变化,因变量决策(选择)的变化意味着Logistic函数的变化。LR的基本形式为:
因此有:
1.1.4 LR模型的优势与不足
LR模型具有很强的实用性,对比其他的分类判别模型,LR具有以下两点优势:
(1)泛化能力较好,精度较高
所谓泛化能力,是指机器学习算法对新鲜样本的适应能力。由于LR模型的自变量多为取值范围不设限的连续变量,该模型不仅可以在样本内进行预测,还可以对样本外的数据进行预测,泛化能力较好,而且精度较高。
(2)能精确控制阈值,调整分类类别
LR模型的求解结果是一个介于0和1间的概率值。这使分类结果的多样性成为了可能。正常情况下,每一次阈值的调整都会产生不同的分类结果,便于对预测结果进行比较和检验,克服了其他分类算法分类数量无法改变的局限
LR分类器 Bagging集成学习 特征选择 AUC 201704 相关文章:
- 电源设计小贴士 1:为您的电源选择正确的工作频率(12-25)
- 用于电压或电流调节的新调节器架构(07-19)
- 超低静态电流电源管理IC延长便携应用工作时间(04-14)
- 电源设计小贴士 2:驾驭噪声电源(01-01)
- 负载点降压稳压器及其稳定性检查方法(07-19)
- 电源设计小贴士 3:阻尼输入滤波器(第一部分)(01-16)