1. Deepspeech各个版本(https://github.com/PaddlePaddle/DeepSpeech)

 

(1) DeepSpeech V1

 

其中百度研究团队于2014年底发布了第一代深度语音识别系统 Deep Speech 的研究论文,系统采用了端对端的深度学习技术,也就是说,系统不需要人工设计组件对噪声、混响或扬声器波动进行建模,而是直接从语料中进行学习。采用 7000 小时的干净语音语料,通过添加人工噪音的方法生成 10 万小时的合成语音语料,并在 SWITCHBOARD评测语料上获得了 16.5% 的 WER(词错误率,是一项语音识别的通用评估标准)。

 

(2) DeepSpeech V2

 

2015 年年底,百度 SVAIL 推出了Deep Speech 2,最初是为了改善在饭店、汽车、公共交通等嘈杂环境下英语识别的准确度问题。Deep Speech 2基于 LSTM-CTC(Connectionist Temporal Classification)端对端语音识别技术,将机器学习领域的 LSTM 建模与 CTC 训练引入传统的语音识别框架里,通过深度学习网络识别嘈杂环境下的两种完全不同的语言——英语与普通话。端到端的学习能够使系统处理各种条件下的语音,包括嘈杂环境、口音及区别不同语种。在 Deep Speech 2 中,百度应用了 HPC 技术识别缩短了训练时间,使得以往在几个星期才能完成的实验只需要几天就能完成。

 

(3) DeepSpeech V3

 

2017年10月31日,百度的硅谷AI实验室发布了Deep Speech 3,进一步简化了模型,并且可以在使用预训练过的语言模型时继续进行端到端训练。

 

目前开源版本为DeepSpeech V2

 

 2.在Docker容器上运行

Docker 是一个开源工具,用于在孤立的环境中构建、发布和运行分布式应用程序。此项目的 Docker 镜像已在hub.docker.com中提供,并安装了所有依赖项,其中包括预先构建的PaddlePaddle,CTC解码器以及其他必要的 Python 和第三方库。这个 Docker 映像需要NVIDIA GPU的支持,所以请确保它的可用性并已完成nvidia-docker的安装。

采取以下步骤来启动 Docker 镜像:

  • 下载 Docker 镜像
nvidia-docker pull hub.baidubce.com/paddlepaddle/deep_speech_fluid:latest-gpu
  • git clone 这个资源库
git clone https://github.com/PaddlePaddle/DeepSpeech.git
  • 运行 Docker 镜像
sudo nvidia-docker run -it -v $(pwd)/DeepSpeech:/DeepSpeech hub.baidubce.com/paddlepaddle/deep_speech_fluid:latest-gpu /bin/bash

现在返回并从开始部分开始,您可以在Docker容器中同样执行模型训练,推断和超参数调整。

  • 安装 PaddlePaddle(https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/2.0/install/conda/linux-conda.html)
conda install paddlepaddle-gpu==2.0.0 cudatoolkit=10.2 -c paddle
使用本地conda包安装
conda install --use-local 包名
验证paddle是否安装成功
输入:
python
import paddle
paddle.utils.run_check()
正确运行结果如下

开源nlp 语音控制 开源语音识别_paddle

安装requeirement.txt中的依赖包