Subword Models
- 1 人类语言声音:语音学和音系学
- Morphology: Parts of words
- 2 单词之下的书写系统
- 纯粹的字符级别的模型
- 3 子单词模型:两个趋势
- Hybrid architectures:主要的模型含有单词,一些其他的含有字符
- 字节对的编码
- 4 字符级来构建单词级
- Character-based LSTM to build word rep’ns
- Bi-LSTM构建单词表示
- 5 FastText embeddings
1 人类语言声音:语音学和音系学
- Phonetics 语音学是一种音流——物理学或生物学
- Phonology 语音体系假定了一组或多组独特的、分类的单元:phoneme 音素 或者是独特的特征
- 这也许是一种普遍的类型学,但却是一种特殊的语言实现
- 分类感知的最佳例子就是语音体系
- 音位差异缩小;音素之间的放大
Morphology: Parts of words
- 声音本身在语言中没有意义
- parts of words 是音素的下一级的形态学,是具有意义的最低级别
- 传统上,morphemes 词素是最小的语义单位 semantic unit
- 深度学习:形态学研究较少;递归神经网络的一种尝试是 (Luong, Socher, & Manning 2013)
- 处理更大词汇量的一种可能方法——大多数看不见的单词是新的形态(或数字)
- 一个简单的替代方法是使用字符 n-grams
- Wickelphones (Rumelhart& McClelland 1986)
- Microsoft’s DSSM (Huang, He, Gao, Deng, Acero, & Hect2013)
- 使用卷积层的相关想法
2 单词之下的书写系统
大部分深度学习的任务都是从语言的书写形式来处理语言的,这是一个简单的过程,需要寻找数据。
纯粹的字符级别的模型
- 刚开始效果并不好
- 后来只有解码器使用
- 然后变成了有前景的结果
3 子单词模型:两个趋势
- 和单词级别的模型有相同的架构
- 但是使用了更少的词单元:“词块”
Hybrid architectures:主要的模型含有单词,一些其他的含有字符
字节对的编码
使用的是一个压缩算法:将大部分频繁出现的字节对标记为新的字节对。
- 有一个目标词汇量,当你达到时就停止
- 确定最长段的单词分割
- 分割的单词是由之前的标记器标记的
- 不再有传统意义上的单词出现
4 字符级来构建单词级
Learning Character-level Representations for Part-ofSpeech Tagging (Dos Santos and Zadrozny2014)
- 对字符进行卷积以生成单词嵌入
- 为PoS标签使用固定窗口的词嵌入
Character-based LSTM to build word rep’ns
Bi-LSTM构建单词表示
5 FastText embeddings
用子单词信息丰富单词向量
Bojanowski, Grave, Joulinand Mikolov. FAIR. 2016. https://arxiv.org/pdf/1607.04606.pdf• https://fasttext.cc
- 目标:下一代高效的类似于word2vecd的单词表示库,但更适合于具有大量形态学的罕见单词和语言
- 带有字符n-grams的 w2v 的 skip-gram模型的扩展
- 将单词表示为用边界符号和整词扩充的字符n-grams
- where =<wh,whe,her,ere,re>,
- 注意 $ , <her $ 是不同于 her 的
- 前缀、后缀和整个单词都是特殊的
- 将word表示为这些表示的和。上下文单词得分为
- S(w, c)=\sum g \in G(w) \mathbf{Z}{g}^{\mathrm{T}} \mathbf{V}{C}
- 细节:与其共享所有n-grams的表示,不如使用“hashing trick”来拥有固定数量的向量
- 罕见单词的差异收益