Subword Models

  • 1 人类语言声音:语音学和音系学
  • Morphology: Parts of words
  • 2 单词之下的书写系统
  • 纯粹的字符级别的模型
  • 3 子单词模型:两个趋势
  • Hybrid architectures:主要的模型含有单词,一些其他的含有字符
  • 字节对的编码
  • 4 字符级来构建单词级
  • Character-based LSTM to build word rep’ns
  • Bi-LSTM构建单词表示
  • 5 FastText embeddings


1 人类语言声音:语音学和音系学

  • Phonetics 语音学是一种音流——物理学或生物学
  • Phonology 语音体系假定了一组或多组独特的、分类的单元:phoneme 音素 或者是独特的特征
  • 这也许是一种普遍的类型学,但却是一种特殊的语言实现
  • 分类感知的最佳例子就是语音体系
  • 音位差异缩小;音素之间的放大

Morphology: Parts of words

  • 声音本身在语言中没有意义
  • parts of words 是音素的下一级的形态学,是具有意义的最低级别
  • 传统上,morphemes 词素是最小的语义单位 semantic unit
  • 深度学习:形态学研究较少;递归神经网络的一种尝试是 (Luong, Socher, & Manning 2013)
  • 处理更大词汇量的一种可能方法——大多数看不见的单词是新的形态(或数字)
  • 一个简单的替代方法是使用字符 n-grams
  • Wickelphones (Rumelhart& McClelland 1986)
  • Microsoft’s DSSM (Huang, He, Gao, Deng, Acero, & Hect2013)
  • 使用卷积层的相关想法

2 单词之下的书写系统

大部分深度学习的任务都是从语言的书写形式来处理语言的,这是一个简单的过程,需要寻找数据。

纯粹的字符级别的模型

  • 刚开始效果并不好
  • 后来只有解码器使用
  • 然后变成了有前景的结果

3 子单词模型:两个趋势

  1. 和单词级别的模型有相同的架构
  2. 但是使用了更少的词单元:“词块”

Hybrid architectures:主要的模型含有单词,一些其他的含有字符

字节对的编码

使用的是一个压缩算法:将大部分频繁出现的字节对标记为新的字节对。

SpeechSynthesisUtterance改声音_深度学习

  • 有一个目标词汇量,当你达到时就停止
  • 确定最长段的单词分割
  • 分割的单词是由之前的标记器标记的
  • 不再有传统意义上的单词出现

4 字符级来构建单词级

Learning Character-level Representations for Part-ofSpeech Tagging (Dos Santos and Zadrozny2014)

  • 对字符进行卷积以生成单词嵌入
  • 为PoS标签使用固定窗口的词嵌入

Character-based LSTM to build word rep’ns

SpeechSynthesisUtterance改声音_深度学习_02

Bi-LSTM构建单词表示

SpeechSynthesisUtterance改声音_sed_03

5 FastText embeddings

用子单词信息丰富单词向量
Bojanowski, Grave, Joulinand Mikolov. FAIR. 2016. https://arxiv.org/pdf/1607.04606.pdf• https://fasttext.cc

  • 目标:下一代高效的类似于word2vecd的单词表示库,但更适合于具有大量形态学的罕见单词和语言
  • 带有字符n-grams的 w2v 的 skip-gram模型的扩展
  • 将单词表示为用边界符号和整词扩充的字符n-grams
  • where =<wh,whe,her,ere,re>,
  • 注意 $ , <her $ 是不同于 her 的
  • 前缀、后缀和整个单词都是特殊的
  • 将word表示为这些表示的和。上下文单词得分为
  • S(w, c)=\sum g \in G(w) \mathbf{Z}{g}^{\mathrm{T}} \mathbf{V}{C}
  • 细节:与其共享所有n-grams的表示,不如使用“hashing trick”来拥有固定数量的向量
  • 罕见单词的差异收益