CS229学习笔记（1）

xiaoxiao2021-02-28 43

线性回归

我们在上一节房屋售价数据集的基础上，增添房间数量这一特征变量，如下图所示：

因此，特征变量 $x$ 变为了维度为2的向量，记作 $\in R^2$ ，其中 $x_{1}^{(i)}$ 表示数据集中第i个房屋的房屋面积，则 $x_{2}^{(i)}$ 表示数据集中第i个房屋的房间数量。

对于此监督学习问题，若我们采用线性回归模型，其假设函数 $h (x)$ 为：

$\theta_{0} + \theta_{1}x_{1} + \theta_{2}x_{2} = \sum\limits_{i=0}^m \theta_{i}x_{i} = h_{\theta}(x)$

其中， $h_{\theta}(x)$ 表示以 $\theta$ 为参数。为了便于向量化，我们令 $x_{0}=0$ ，则上式可改写为：

$h_{\theta}(x) = \theta^{T}x$

从上式可知， $\theta$ 为未知变量。那么我们该如何根据数据集计算出 $\theta$ 的值呢？我们不妨回想一下假设函数 $h_{\theta}(x)$ 的定义。从上一小节可知，假设函数 $h_{\theta}(x)$ 是我们从给定数据集中学习得到的，其输出的值与数据集中的 $y$ 越相近越好。因此，我们可以定义如下的代价函数（Cost Function）：

$J(\theta) = \frac{1}{2} \sum\limits_{i=1}^{m} (h_{\theta}(x^{(i)}) - y^{i})^2$

当代价函数 $J(\theta)$ 最小时，其参数 $\theta$ 的值为我们所要的，从而得到了拟合训练集的最佳参数。

转载请注明原文地址: https://www.6miu.com/read-2300199.html

技术

最新回复(0)