博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
分类、回归
阅读量:7175 次
发布时间:2019-06-29

本文共 2149 字,大约阅读时间需要 7 分钟。

hot3.png

说明:本博文在浏览较多web资源,参考诸多书籍文献基础上总结而来,如有侵权请联系博主删除!

分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须直到预测什么,即目标变量的分类信息。回归问题和分类问题的本质一样,都是针对一个输入做出一个输出预测。简单总结:    **1输出的数据**    分类的是离散的    回归的是连续的,**2通过机器学习想得到什么**    分类是得到一个边界用来划分类别归属    回归是最优拟合曲线,用来预测在曲线上的值**3评价指标**    分类中主要用正确率,精度,混淆矩阵    回归中用决定系数R平方,SSE,拟合优度**4损失函数**    分类常见的是log loss ,hinge loss     回归是 square loss**关于离散和连续:**分类的是离散的:将实例数据划分到合适的分类中,是一种定性输出,也叫离散变量预测;分类问题是用于将事物打上一个标签,通常结果为离散值。分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。至于错误时是将Class 5分到Class 6,还是Class 7,并没有区别,都是在error counter上+1。最常见的分类方法是逻辑回归,或者叫逻辑分类。回归的是连续的,预测数值型数据,典型的回归例子:数据拟合曲线。输出空间是一个度量空间,即所谓“定量”。也叫连续变量预测。回归问题的输出空间定义了一个度量 去衡量输出值与真实值之间的“误差大小”。回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等预测一瓶700毫升的可乐的价格(真实价格为5元)为6元时,误差为1;预测其为7元时,误差为2。这两个预测结果是不一样的,是有度量定义来衡量这种“不一样”的。(于是有了均方误差这类误差函数)。一个比较常见的回归算法是线性回归算法(LR)。另外,回归分析用在神经网络上,其最上层是不需要加上softmax函数的,而是直接对前一层累加即可。回归是对真实值的一种逼近预测。分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。1. Logistic Regression 和 Linear Regression:    Linear Regression: 输出一个标量 wx+b,这个值是连续值,所以可以用来处理回归问题。    Logistic Regression:把上面的 wx+b 通过 sigmoid函数映射到(0,1)上,并划分一个阈值,                        大于阈值的分为一类,小于等于分为另一类,可以用来处理二分类问题。    对于N分类问题,则是先得到N组w值不同的 wx+b,然后归一化,比如用 softmax函数,                        最后变成N个类上的概率,可以处理多分类问题。2. Support Vector Regression 和 Support Vector Machine:    SVR:输出 wx+b,即某个样本点到分类面的距离,是连续值,所以是回归模型。    SVM:把这个距离用 sign(·) 函数作用,距离为正(在超平面一侧)的样本点是一类,为负的是另一类,所以是分类模型。3.Naive Bayes 用于分类和回归:    1、分类:y是离散的类别,得到离散的P(y|x),给定x,输出每个类上的概率    2、回归:对离散的P(y|x)求期望EyP(y|x),就得到连续值,也可以得到连续的概率密度函数P(y|x),然后对y求期望4. 神经网络用于 分类 和 回归:    用于回归:最后一层有m个神经元,每个神经元输出一个标量,m个神经元的输出可以看做向量 v,现全部连到一个神经元上,             则这个神经元输出wv+b,是一个连续值,可以处理回归问题,跟上面 Linear Regression 思想一样。    用于N分类:现在这m个神经元最后连接到 N 个神经元,就有 N 组w值不同的 wv+b,同理可以归一化(比如用 softmax )             变成 N个类上的概率           (如果不用softmax,而是每个wx+b用一个sigmoid,就变成多标签问题,跟多分类的区别在于,样本可以被打上多个标签)   ** 注意:**logistic回归只是用到了回归算法,但是其输出的结果是决策边界,是不连续的。很多人认为Logistic回归过程和线性回归雷同,在二分类问题中,仅仅只是多了一个“阈值判断”,所以应该是回归。但是,Logistc回归仅仅只是过程和线性回归一样,可我们所要讨论的回归和分类,是仅仅对于输出而言的,所以是回归算法。李航统计学习原文:输入变量与输出变量均为连续变量的预测问题是回归问题;输出变量为有限个离散变量的预测问题成为分类问题;输入变量与输出变量均为变量序列的预测问题成为标注问题

转载于:https://my.oschina.net/u/3726752/blog/1649406

你可能感兴趣的文章
JDBC简单介绍一
查看>>
关于对象的自我赋值行为
查看>>
6.5版 Samba服务器搭建
查看>>
分享27个谷歌(Google)镜像
查看>>
读<王垠:一种新的操作系统设计>
查看>>
Eclipse maven构建springmvc项目
查看>>
js设置组合快捷键/tabindex功能的方法
查看>>
自动检测域内电脑的USB端口是否开启的脚本
查看>>
Python 学习笔记之函数
查看>>
mysql-mmm高可用架构
查看>>
使用shell脚本搭建源码LAMP环境
查看>>
我的友情链接
查看>>
关于VMware上Linux克隆后网卡名称修改的操作
查看>>
[置顶]让Windows FTP服务器更安全
查看>>
CLR via C#,2
查看>>
xcode莫名问题收集
查看>>
Google网址不跳转
查看>>
我所说的“企业存储”是什么意思
查看>>
我的友情链接
查看>>
支付宝 支付bug
查看>>