方法也是算法
4、5类
监督学习(神经网络)、无监督学习、半监督学习(semi-supervised learning)、强化学习、遗传算法(模拟进化理论)
模拟生物的神经网络,但不是生物神经网络
在外界信息的基础上改造自身,对输入和输出进行建模
一种运算模型,大量节点
如人类的神经元
能训练和强化
输入层----隐藏层(多)----输出层
先准备大量数据(有标签)——计算机给出不是很准确的答案,用错误的经验来学习(对比正确和错误的差别,在反向传播)——训练——测试
神经元具有刺激函数,部分神经元激励或者激活。这些神经元会向后面传递信息,参数会改变
Convolutional
人工神经网络结构,图片,语言识别
图片识别
神经层,存在很多神经元,每层都有输入和输出,输入是图片时,其实是数字,处理信息时卷积神经网络会作出处理
对信息的每一块的做处理,批量过滤器,对信息进行收集,每次一个小区域,在整理,让神经网络看到信息,再收集,边缘信息,在整合,再收集
Typora
过滤器不断移动,对信息进行压缩,不断的收集信息
会丢掉信息,让池化层进行pooliing
输入-卷积-池化-卷积-池化-全连接层-全连接-分类
序列数据:
D0-d1-d2-d3
不同的形式
分类
情感分类
照片,写学术论文,作曲
长短期记忆
当下最流行的rnn
记忆原先的数据,但是有时候会健忘
如果w是x小于1的数,对于原始数据会接近0误差,梯度消失
如果w是x大于1的数,对于原始数据会误差会很大,梯度爆炸
三个控制
依靠忘记和输入
神经网络形式,接受一张图片,打吗,在还原
压缩——解压
大部分会用到encoder,会将数据进行压缩,收集出数据中的主要属性,类似PCA ,但是比起PCA 效果会好。
前向神经网络 卷积 rnn
凭空捏造数据,
Generator
Discriminator
一连串的神经层
神经网络:输入-隐藏-输出
宝宝(feature)-计算机认识的宝宝(代表特征)-
手写字符:用三个点代表数字
代表特征的理解方式可以使得黑盒不黑
迁移学习:有分类能力的网络(已经训练好的) 后面再加一个网络 用于其他方面的识别,或者研究
Optimization 优化问题
牛顿法
最小二乘法
梯度下降法
求导求微分
误差方程: 平法差 Cost=(predicted-real)^2
=(Wx-y)^2
=(W-0)^2
神经网络的w是个矩阵
误差函数也很复杂
站在巨人的肩膀上
将已经训练好的网络拆除输出层-再加上新的功能
多任务学习,机器人
Google的翻译模型
数据:训练数据,测试 7:3
考试题作业题
基于30%的成绩,很重要
评价标准:误差;精确度曲线;R2 score;f1 score
L1 L2 正则化 解决过拟合
交叉验证 神经网络的调参
Feature Normalization
正则化 标准化
现实数据来自不同地方 不同场合 不同人采集,
预处理:各个特征 归一化;
minmax normalizationstd normalization能较好分类的特征
避免重复性的特征
现实很复杂 需要解决非线性的问题
Nonlinear 方程
y=Wx
y=FWx
relu ; sigmoid ;tanh
可以创造自己的激励函数 必须要可微分的
单层的随便选
多层的需要考虑梯度爆炸梯度消失
卷积——relu
rnn——relu;tanh
在训练集表现很好,误差很小,但是实际上表现会很差
解决:增加数据量
Regularization
L1正则化y=Wx 误差值=(预测-真实值) ^2+abs(W)
L2 ………………………………………………………………….+ W^2
L3\4 ………………………………………………………………….+ W^3\4
Dropout regularization 每次训练都把一些神经元
SGD 每次使用批量数据,放到NN 上
W += -Learning rate*dx
Momentum :下坡
m=b1 * m – leaining rate * dx
W+=m
AdaGrad 不好走的鞋子
V += dx^2
W += -Learning rate * dx/ 根号(v)
RMSProp 上着结合
V=b1 * v+(1-b1)*dx^2
W += -Learning rate*dx/ 根号(v)
统一数据
Batch normalization
大数据分成小批量的数据
的
处理过拟合的手段
误差函数Jθ=yθx-y2
L1 正规化后的函数 Jθ=yθx-y2+[θ1+θ2+…]
L2正规化后的函数 Jθ=yθx-y2+[θ12+θ22+…]
非线性强的参数会
最终形式:
从错误中学习
如:围棋、游戏
让计算机自己学,虚拟的好老师,不会告诉你结果,但是会打分
记住那些高分的行为,避免那些低分的行为
通过尝试来学习获得高分的行为
不理解环境 model free RL
理解环境 model based RL
基于概率PolicyBased RL
基于价值 ValueBased RL
回合更新
单步更新
在线学习——自己
离线学习——自己&别人; 白天玩,晚上学
决策过程
写作业——看电视——看电视——处罚
|______ 写作业——写作业——奖励
潜在奖励