模型

线性回归

线性回归
岭回归和lasso回归

概览

回归分析:研究X和Y之间相关性的分析。
回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
回归分析的使命:
1、识别重要变量;回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
2、判断相关性的方向;去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关关系是正的呢,还是负的?
3、要估计权重(回归系数);在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。

分类

常见的回归分析有五类:线性回归、0‐1回归、定序回归、计数回归和生存回归,其划分的依据是因变量Y的类型。
(1)经济学家研究经济增长的决定因素,那么Y可以选取GDP增长率(连续数值型变量)。
(2)P2P公司要研究借款人是否能按时还款,那么Y可以设计成一个二值变量,Y=0时代表可以还款,Y=1时代表不能还款(0‐1型变量)。
(3)消费者调查得到的数据(1表示非常不喜欢,2表示有点不喜欢,3表示一般般,4表示有点喜欢,5表示非常喜欢)(定序变量)。
(4)管理学中RFM模型:F代表一定时间内,客户到访的次数,次数其实就是一个非负的整数。(计数变量)
(5)研究产品寿命、企业寿命甚至是人的寿命(这种数据往往不能精确的观测,例如现在要研究吸烟对于寿命的影响,如果选取的样本中老王60岁,现在还活的非常好,我们不可能等到他去世了再做研究,那怎么办呢?直接记他的寿命为60+,那这种数据就是截断的数据)(生存变量)
notion image

数据

数据的分类

横截面数据在某一时点收集的不同对象的数据。
例如: (1)我们自己发放问卷得到的数据 (2)全国各省份2018年GDP的数据 (3)大一新生今年体测的得到的数据
时间序列数据:对同一对象在不同时间连续观察所取得的数据。
例如: (1)从出生到现在,你的体重的数据(每年生日称一次)。 (2)中国历年来GDP的数据。 (3)在某地方每隔一小时测得的温度数据。
面板数据:横截面数据与时间序列数据综合起来的一种数据资源。
例如: 2008‐2018年,我国各省份GDP的数据。

不同数据类型的处理方法

notion image
建模比赛中,前两种数据类型最常考到;面板数据较为复杂,是经管类学生在中级计量经济学中才会学到的模型。 横截面数据往往可以使用回归来进行建模,我们通过回归可以得到自变 量与因变量之间的相关关系以及自变量的重要程度。 时间序列数据往往需要进行我们进行预测,时间序列模型的选择也很多,大家需要选择合适的模型对数据进行建模。

数据的收集

数据的收集
 

Loading...
公告
🎉大学生科技协会(2024)网站试运行🎉
-- 感谢您的支持 --- 科协获:
小平科技创新团队 (青少年科技创新领域国家级最高荣誉,全校唯一)
全国高校百强社团 中国大学生ican物联网创新创业实践教育基地 校十佳社团 “一院一品”智能空间 科技竞赛优秀组织单位
阅读科协简介了解更多吧!