Update Day 3_Multiple_Linear_Regression.ipynb

修改 躲避虚拟变量陷阱 的第一段描述,掉了一个数字0
This commit is contained in:
tengzi-will
2019-04-25 15:24:57 +08:00
committed by GitHub
parent 51ed38c602
commit 242db28263

View File

@ -145,7 +145,7 @@
"source": [ "source": [
"**躲避虚拟变量陷阱**\n", "**躲避虚拟变量陷阱**\n",
"\n", "\n",
"在回归预测中我们需要所有的数据都是numeric的但是会有一些非numeric的数据比如国家部门性别。这时候我们需要设置虚拟变量Dummy variable。做法是将此变量中的每一个值衍生成为新的变量是设为1否设为0.举个例子,“性别”这个变量,我们可以虚拟出“男”和”女”两虚拟变量男性的话“男”值为1”女”值为,女性的话“男”值为0”女”值为1。\n", "在回归预测中我们需要所有的数据都是numeric的但是会有一些非numeric的数据比如国家部门性别。这时候我们需要设置虚拟变量Dummy variable。做法是将此变量中的每一个值衍生成为新的变量是设为1否设为0.举个例子,“性别”这个变量,我们可以虚拟出“男”和”女”两虚拟变量男性的话“男”值为1”女”值为0女性的话“男”值为0”女”值为1。\n",
"\n", "\n",
"但是要注意,这时候虚拟变量陷阱就出现了。就拿性别来说,其实一个虚拟变量就够了,比如 1 的时候是“男”, 0 的时候是”非男”,即为女。如果设置两个虚拟变量“男”和“女”,语义上来说没有问题,可以理解,但是在回归预测中会多出一个变量,多出的这个变量将会对回归预测结果产生影响。一般来说,如果虚拟变量要比实际变量的种类少一个。 \n", "但是要注意,这时候虚拟变量陷阱就出现了。就拿性别来说,其实一个虚拟变量就够了,比如 1 的时候是“男”, 0 的时候是”非男”,即为女。如果设置两个虚拟变量“男”和“女”,语义上来说没有问题,可以理解,但是在回归预测中会多出一个变量,多出的这个变量将会对回归预测结果产生影响。一般来说,如果虚拟变量要比实际变量的种类少一个。 \n",
"\n", "\n",