Machine Learning:Introduction

文章目录

- Machine Learning
- Training
- - Step 1.Contract Function with Unknown Parameters
  - Step 2.Define Loss from Training Data
  - Step 3.Optimization
- Linear Model
- - Piecewise Linear Curve
  - Beyond Piecewise Liner?
  - - Function
    - Loss
    - Optimization
  - Model Deformation

Machine Learning

机器学习就是让机器具备学习的能力,具体而言,是让机器具备找一个函数的能力,具此能力找到一个函数后,可以将某输入转化成某输出,例如:AlphaGo的输入是一个棋盘的当前状态或图片,输出即为下一步最佳落子位置.

根据要找的函数不同,可以将机器学习分为多种类别:

回归(regression):假设要找的函数的输出是一个数值，一个标量（scalar），这种机器学习的任务称为回归.如房价预测.
分类(classification):分类任务要让机器做选择题。人类先准备好一些选项，这些选项称为类别（class），现在要找的函数的输出就是从设定好的选项里面选择一个当作输出，该任务称为分类.如垃圾邮件识别.

在机器学习领域里面，除了回归跟分类以外，还有结构化学习（structured learning）。机器不只是要做选择题或输出一个数字，而是产生一个有结构的物体，比如让机器画一张图，写一篇文章。这种叫机器产生有结构的东西的问题称为结构化学习。

Training

Step 1.Contract Function with Unknown Parameters

Model: y=b+w*x (based on domain knowledge)

Feature: y (output) x(input)

Parameters: w(weight) b(bias)

Step 2.Define Loss from Training Data

Loss也是一个函数 -> L(b,w) => how good a set of values is

通过代入实际参数,以及x,获得y,与真实值(label)计算差距e,最后计算累加平均
$L=\frac{1}{N}\sum e_n$
其中，N 代表训验数据的个数，计算出一个 L,L 是每一笔训练数据的误差 e 相加以后的结果。L 越大，代表现在这一组参数越不好，L 越小，代表现在这一组参数越好。

估测的值跟实际的值之间的差距，其实有不同的计算方法，计算绝对值的差距，，称为平均绝对误差（Mean Absolute Error，MAE）。

$e=|\widehat{y}-y|$

如果算平方的差距，则称为均方误差（Mean Squared Error，MSE）。

$e=(\widehat{y}-y)^2$
有一些任务中 y 和标签都是概率分布，这个时候可能会选择交叉熵（cross entropy)

根据不同参数所得损失画出的等高线图称为误差表面(error surface)

Step 3.Optimization

找到一个w*,b*= arg min L(w,b)

如何找到? -> 梯度下降法(Gradient Descent)

随机选取初始值 w₀(或b₀)
计算偏导(梯度值)
根据梯度值对w更新,使变换后的新梯度下降
斜率大小和预设learning rate 决定步进速度(hyperparameter-超参数->预设)

缺点:从本例中可以明显看出,梯度下降法可能只能找到局部最小值,而非全局最小值

但是,局部最小值算得上一个真正的问题吗?

Linear Model

在机器学习中，线性模型和非线性模型指的是模型如何处理输入数据以预测输出。

线性模型 线性模型假设输入特征（比如房屋面积、房间数量等）与目标变量（比如房价）之间的关系是线性的。这意味着每个输入特征对目标变量的影响是独立的，并且这种影响是成比例的。简单来说，如果画出这些关系图，它们会形成一条直线或一个平面。例如，预测房价，把房子面积当作一个特征，如果是线性关系，可能就是房价等于面积乘以一个价格系数再加上一个固定值，意味着面积每增加一定量，房价就会按照固定幅度增加。
非线性模型 非线性模型则认为输入特征和目标变量之间的关系不是简单的直线关系。换句话说，非线性模型能够捕捉到输入特征与目标变量之间更复杂的关系。这些关系不能通过直线或者平面来表示。比如预测一个城市的犯罪率，可能和人口密度、教育水平、经济发展程度等多个特征有关，这些特征和犯罪率之间的关系不是简单的比例关系，可能人口密度达到一定程度后，犯罪率增长的速度会变快，这就是非线性关系。

线性模型对于实际问题可能过于简单,因为x和y之间可能有比较复杂的关系,这种限制被称为Model Bias