从零开始带你了解商业数据剖析模型——2.逻辑回归模型

  1. 摘要
    在上一篇文章里,咱们侧重解说了线性回归。既怎么探求不同的影响要素(或自变量)与一个接连型变量的的线性联系。但在现实生活中,咱们关怀的往往是分类型的问题。比方生物学家会去探求不同的生活习惯和遗传基因是否会导致相应的癌症,比方轿车厂商会去探求不同的驾驭行为和行进路况是否会导致轿车的部件提早损坏,再比方银行信贷部会去探求不同的客户布景和前史还款状况是否会导致假贷人下次逾期还款。相似的分类决议计划型问题在企业运作中举目皆是。

本章的内容旨在为咱们介绍最常见的分类型猜测模型 – 逻辑回归。当然,能做分类型猜测的模型还有许多,比方决议计划树,随机森林,支撑向量机,深度学习等等。咱们也会在接下来的章节里为咱们逐个介绍。
从零开始带你了解商业数据剖析模型——2.逻辑回归模型

  1. 逻辑回归
    2.1. 逻辑回归和线性回归

作为最常见的两种回归猜测模型,逻辑回归和线性回归其实存在着许多共性。比方他们都有很相似的问题结构和很相似的剖析流程。但他们最大的区别在:
• 线性回归的猜测成果一般是一个接连型变量;
• 逻辑回归的猜测成果一般是一个类别型变量,其间又以二元变量的猜测为主。既“是”或“否”型的决议计划判别问题。
理论上来说,任何的线性回归都可以视为逻辑回归。比方,咱们想要树立一个线性回归模型来猜测不同人的寿数长短。线性回归模型的成果或许是会返还一个规模在65岁到110岁间的猜测数值。从逻辑回归的视点来看,咱们可以将65岁到110岁视为46个不同的猜测类别。关于每一个待猜测的样本,逻辑回归的猜测成果是该样本别离落在这46个不同的猜测类别里的不同概率,一般咱们会挑选概率最好的那个类别来作为该样本的猜测年纪。不过这样的转化会使得咱们的猜测模型过于杂乱,因而逻辑回归最常见的用处仍是用来评论二元变量的猜测问题。
从零开始带你了解商业数据剖析模型——2.逻辑回归模型

2.2. 逻辑回归的界说
已然逻辑回归和线性回归有如此多的共性,咱们有没有去试着考虑,咱们怎么用线性回归的思想去处理逻辑回归的问题?咱们知道逻辑回归是在重视一个取值为“1”或“0”的变量,而线性回归则是在重视一个取值为实数域的变量。套用相同办法的要害,就在于咱们能否将一个0与1的二元变量映射到一个从负无量到正无量的接连型变量的取值区间?
咱们可以经过一下操作完成这个转化:
• 界说 p(x) : 固定自变量的取值状况,因变量得“1”的概率。本来因变量只能取值0或许1,可是经过这一步转化,p(x) 的取值规模拓宽到了0到1这个接连区间;
• 界说 从零开始带你了解商业数据剖析模型——2.逻辑回归模型
p(x) 代表了因变量取 “1” 的概率,1-p(x)则代表了因变量取 “0” 的概率。他两相除则代表的是:给定自变量取值的状况下,因变量取值为1的几率。经过这一步转化,咱们成功将odds的取值规模拓宽到了0到正无量这个接连区间;
• 界说 从零开始带你了解商业数据剖析模型——2.逻辑回归模型 : 终究一步的转化是咱们将odds取对数。总算,咱们成功的将取值规模拓宽到了负无量到正无量的这个实数域区间。
做完了上述的转化,咱们终究得到了下面的公式:
从零开始带你了解商业数据剖析模型——2.逻辑回归模型
假如将公式左面的式子看作一个全体 y, 是不是就变成了上一章节解说到的线性回归的姿态。之后咱们经过练习数据顺次求出β0, β1, β2,…, βn.
随后咱们化简上述上述公式,即可求得:
从零开始带你了解商业数据剖析模型——2.逻辑回归模型
当然算出的p(x)依然会是一个0到1的接连型变量。一般来说,当p(x)>=0.5时,咱们视猜测成果为1;当p(x)<0.5时,咱们则会视猜测成果为0.
从零开始带你了解商业数据剖析模型——2.逻辑回归模型

2.3. 逻辑回归的简略事例
上面的公式或许会把咱们看的头晕。下面,咱们会凭借一个简略的比方解说这些转化进程。
比方说,咱们现在想要探求的是篮球爱好者的身高和他们罚球射中率的联系。咱们搜集到了以下的10个数据点。
从零开始带你了解商业数据剖析模型——2.逻辑回归模型

依据上个小结中的转化公式,咱们可以求出以下数值:
• P(罚球射中|身高为170cm):身高170cm的爱好者,他们罚球射中的概率是 2/5= 40%
• Odds:身高170cm的爱好者,他们罚球射中的几率40%/(1-40%)= 0.66
• Logit Transformation: log (odds) = -0.18。这是针关于身高170cm的爱好者
• 相同的针对与身高180cm的爱好者,咱们可以算出他们的log(odds)为0.176
当依据不同的身高,得出了它们相对应log(odds)的转化值后,咱们可以套用下面的公式得出β0 与β1的参数值:
从零开始带你了解商业数据剖析模型——2.逻辑回归模型
终究咱们只需套用下面的公式,即可得出不同身高的爱好者,罚球射中的概率:
从零开始带你了解商业数据剖析模型——2.逻辑回归模型
假如这个概率值 >= 0.5, 咱们则断定这位爱好者可以射中罚球。反之不可。
期望经过这个比方,咱们可以更明晰的了解到逻辑回归的核算进程。当然咱们所举的这个比方过于简略。一般一个逻辑回归问题,它的自变量远远不止一个,且自变量取值的组合状况极为杂乱。
2.4. 逻辑回归的好坏剖析
总算到了终究的好坏剖析。跟着越来越多的猜测模型,先进技术的呈现,了解清楚他们的好坏状况,适用事例和数据类型也变得极为重要。
作为一种传统的,适用规模最广的分类型猜测模型。挑选运用逻辑回归首要有以下几个原因:
• 模型理论简略,相对通明,模型成果易于解说
• 模型核算简略高效,可扩展到大数据处理
• 多重共线性问题易于处理,处理过拟合的办法也有许多
• 在工作实践运用中体现杰出,且施行难度很低
与这些长处相对的,便是一些咱们需求考虑的逻辑回归的缺陷:
• 当自变量数目过大时,逻辑回归的核算功用,成果体现不是太好
• 简略欠拟合,终究导致成果精度不太高
• 逻辑回归实质仍是一个线性分类器,很难处理线性不可分的样本

  1. 怎么在Altair KnowledgeStudio渠道运用线性回归
    3.1. 演示数据简介

在接下来的软件操作环节,咱们会运用到下面这个名为“Census“的数据集。
该数据集记录了16000位不同客户针对某金融公司营销广告的反应状况。咱们想要经过逻辑回归这个模型,协助这家公司找到他们的方针客群,然后到达精准营销的作用。
在这个数据会集,咱们首要关怀的变量有:
• “Response“ – 因变量: 该客户是否对此条营销广告做出了正面积极响应;
• 客户的基本信息 – 自变量:比方年纪,工种工作,家庭联系,婚姻状况,性别等;
• 客户的前史理财状况 – 自变量:比方理财收益或理财丢失。
从零开始带你了解商业数据剖析模型——2.逻辑回归模型

3.2. 软件操作演示
3.2.1. 数据预处理
任何一个数据剖析项目都躲不掉深重的数据预处理作业,比方数据画像,数据清洗,数据集成,数据改换等等。一般从业人员会花费70%的时刻在这一项作业中。
由于在上一篇文章中,咱们现已大略介绍了Altair KnowledgeStudio的数据预处理功用。这儿咱们便不再做过多的赘述。期望了解更多的读者可以私信咱们,或翻阅往期文章。
咱们现已事前处理好了该数据,并将之分成了练习集“census3_train2“和测验集”census3_test“。随后咱们会在练习集上树立逻辑回归模型。
从零开始带你了解商业数据剖析模型——2.逻辑回归模型
3.2.2. 逻辑回归节点运用
双击点开逻辑回归节点,咱们可以在第一个操作界面中设置成果模型称号以及承认建模运用的数据。随后点击下一步进行深化的参数设置。
从零开始带你了解商业数据剖析模型——2.逻辑回归模型
第二个界面首要包含了变量挑选的相关参数。比方:
• 界面的最上方,咱们需求设定清楚咱们的因变量是什么;
• 界面的中心,咱们可以设定不同的变量挑选算法和相应的算法中止条件;
• 界面的最下方,咱们可以进一步束缚自变量挑选。比方哪些自变量应该被模型考虑,哪些自变量一定要包含在终究的模型之中。

从零开始带你了解商业数据剖析模型——2.逻辑回归模型

在终究一个界面中,咱们可以设置迭代次数、优势比的置信水平、优化办法等等。
当承认结束全部相关参数后,咱们可以挑选运转模型。
从零开始带你了解商业数据剖析模型——2.逻辑回归模型

3.2.3. 模型成果解读
等候模型树立结束后,咱们可以双击模型节点,得到模型的成果陈述。
在Model Overview的选项卡中,可以看到终究模型选中的变量及其模型的练习作用。如下图所示:为猜测客户对营销计划的反应状况,模型中的自变量首要涵盖了年纪,教育,婚姻状况,工作,性别等信息,而练习模型的正确猜测约为84.4%。

从零开始带你了解商业数据剖析模型——2.逻辑回归模型

更多的模型拟合参数,咱们需求跳转进下一张选项卡中。如下图所示,咱们可以找到:
• 点评收拾模型有效性的度量值: 如p-value,Chi-square等;
• 点评模型准确度的测量值:如Entropy Explained, Generalized R^2等;
• 点评模型杂乱度的测量值:如AIC,BIC等;
• 更多的相关参数解说可以在软件内置的协助手册中找到。

从零开始带你了解商业数据剖析模型——2.逻辑回归模型

除了模型的全体参数表,下图所示的模型系数表也至关重要。
比方可以经过p-value来判别各自变量的系数是否明显,比方咱们可以经过odds的值来断定自变量的影响几率,比方咱们还可以找到相应参数的置信区间等等。
从零开始带你了解商业数据剖析模型——2.逻辑回归模型
终究咱们可以用下面的式子来表达该逻辑回归模型的终究表达式:
从零开始带你了解商业数据剖析模型——2.逻辑回归模型

3.2.4. 建模之后
当上述模型树立完之后,咱们还有许多作业需求做。
• 比方咱们需求去运用测验数据集来验证模型是否存在过拟合;
• 比方咱们需求去从头调整练习数据集,模型参数来提高模型精准度;
• 比方咱们需求树立其他并行模型,来探求不同处理计划的可行性;
• 比方咱们需求比照一切并行模型,再结合事务条件来确认终究的施行落地计划。
总而言之,猜测模型的树立是一个杂乱而绵长的进程。为找到一个合适当下事务,当下市场环境的模型计划,企业一定会消耗不少的时刻与精力。

  1. 结语
    期望经过这篇文章,咱们可以对逻辑回归有更进一步的了解。

咱们下一篇文章预备为咱们简略介绍一下深度学习。假如咱们对数据剖析或许猜测模型感兴趣,欢迎在文后留言与咱们沟通,也欢迎咱们提出宝贵意见或主张。