文章目录
- 1. CNN + RNNCNN卷积神经网络 RNN递归神经网络
- 1.1 相同点:
- 1.2 不同点:
- 1.3 组合方式实现
- 2. 图片标注
- 2.1 问题描述:
- 2.2 模型设计
- 2.3 模型设计
- 2.4 模型运行
- 2.5 图片标注升级
- 3. 视频行为识别
- 3.1. CNN特征简单组合
- 3.2. 3D版本CNN图像特征的前后关系没有很好的区别
- 4. 图片/视频问答
- 4.1 图片问答的意义
- 4.2 方法流程
1. CNN + RNNCNN卷积神经网络 RNN递归神经网络
1.1 相同点:
- 都是传统神经网络的扩展 空间和时间扩展
- 前向计算产生结果,反向计算模型更新
- 每层神经网络横向可以多个神经元共存,纵向可以有多层神经网络连接
- 深度和广度注:梯度衰减: CNN ReLU不会衰减,RNN U参数梯度会大于或者小于1
1.2 不同点:
- CNN空间扩展,神经元与特征卷积; RNN时间扩展,神经元与多个时间输出计算
- RNN可以用于描述时间上连续状态的输出,有记忆功能,CNN用于静态输出
- CNN高级深度100+深度,RNN深度有限1.2 组合意义
- 大量信息同时具备时间空间特性- 带有图像的对话,文本表达更具体
视频相对图片描述的内容更加完善图片标注: CNN特征提取,用于RNN语句生成
视频分类: RNN特征提取用于CNN内容分类
图片问答: CNN特征提取用于对话问答
1.3 组合方式实现
- 特征提取:LSTM输出,FC层输出
- 特征合并:Concatenate层,Attention相乘
- 结果输出:连续语句输出LSTM,组合分类回归DNN(深度神经网络)
2. 图片标注
2.1 问题描述:
有图片及标注信息,想要的模型是给图片,机器学习给标注
- CNN网络中全连接层特征描述图片,特征与LSTM进行结构组合
2.2 模型设计
- 数据准备
- 图片CNN特征提取
- 图片标注生成Word2Vect向量
- 生成训练数据:图片特征+第n单词向量:第n+1单词向量
2.3 模型设计
- 运用迁移学习,CNN特征,语句特征应用已有模型
- 最终输出模型是LSTM,训练过程参数设定:梯度上限,学习率调整
训练时间很长
2.4 模型运行
- CNN特征提取
- CNN特征+语句开头,单词逐个预测
2.5 图片标注升级
- 详细标注Loss:目标探测loss 目标识别loss 区域标注loss
- 训练方式:end-to-end
- 开放性探测识别
3. 视频行为识别
3.1. CNN特征简单组合
3.2. 3D版本CNN图像特征的前后关系没有很好的区别
- CNN特征提取
- LSTM判断
- 多次识别结果分析
4. 图片/视频问答
4.1 图片问答的意义
- 是对纯文本语言问答系统的扩展
- 图片理解和语言处理的深度融合
- 提高人工智能能应用范围
- 观察,思考,表达
4.2 方法流程
- 按照语言问答流程解决
- 图片特征同语言特征融合
- 训练数据: 问题 + 图片 + 答案
FCN:只有卷积层的神经网络