目录
- 对比学习
- bert-base-cased、bert-base-uncased、bert-base-chinese
- 远程监督
- 平行语料库
对比学习
对比学习的宗旨就是拉近相似数据,推开不相似数据,有效地学习数据表征
假如:“我爱北京天安门”和“我不爱北京天安门”是相似样本,那么学习过程中就学习不到语义的相关信息,学习的就是字面上的特征;
“我爱北京天安门”和“我不爱北京天安门”是不相似样本,那么学习过程中就可以学习到否定方面的语义信息;
上面的回答直接引用刘聪NLP的回答,原答案点我传送
bert-base-cased、bert-base-uncased、bert-base-chinese
这是huggingface中封装的内容
在对于英文原文本的内容,不能直接送入模型中。
一般会经过分词,预处理等流程之后,才可以送到模型里
bert-base-cased就是第一步分词所需要到的东西(从人类的语言转化为模型能理解的语言),这一步也叫作tokenization
而huggingface提供了许多接口,不用自己动手写tokenization这一过程
bert-base-cased会区分大小写的单词,比如不管怎么分词,’ Love '始终是这个。
如果使用bert-base-uncased,在tokenization步骤之后’ Love '会变成 ’ love '。
当然也有bert-base-chinese用于中文文本的分词
来个小例子辅助理解这个过程
使用bert-base-cased
from transformers import BertTokenizer,BertModel
BERT_PATH = './bert-base-cased'
tokenizer = BertTokenizer.from_pretrained(BERT_PATH)
print(tokenizer.tokenize('To be, or not to be !'))
红色部分就是正在下载bert-base-cased预训练模型
使用bert-base-uncased
from transformers import BertTokenizer
BERT_PATH = './bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(BERT_PATH)
print(tokenizer.tokenize('To be, or not to be !'))
使用bert-base-chinese
from transformers import BertTokenizer
BERT_PATH = './bert-base-chinese'
tokenizer = BertTokenizer.from_pretrained(BERT_PATH)
print(tokenizer.tokenize('ac不知深又水了一篇文章!'))
远程监督
这里面可以深挖的点太多
看完远程监督的综述和论文,就简要的概括,具体细节还是建议去参考原文
远程监督的基础重要假设:
对于一个已有的知识图谱(论文用的Freebase)中的一个三元组(由一对实体和一个关系构成),假设外部文档库(论文用的Wikipedia)中任何包含这对实体的句子,在一定程度上都反映了这种关系。
由此我们可以推断远程监督是必须要有已知的三元组(实体对)才可以对外部语料库(非结构化文本)进行标注关系标签
比如我们已知了<汉武帝,君臣,卫青>这个三元组
那么非结构化文本中的任意句子只要包含汉武帝和卫青两个实体,我们就可以对这句话进行标注
但是这会引入许多噪声
汉武帝和卫青除了有君臣关系外,汉武帝还是卫青的姐夫
那这就可能导致本来提取的是<汉武帝,亲戚,卫青>的三元组
变成了<汉武帝,君臣,卫青>
这样就导致标注了错误的三元组关系出现
因为是通过已有的关系去标注外部语料库,所以远程监督算法属于半监督算法的其中一种
平行语料库
多用在跨语言文本摘要子任务下
通俗来说针对某一特定任务,语料库一般都是单一语言情况(翻译子任务除外)。而平行语料库是在单一语言的基础上,增加了其他语言的对应形式,形成了该语料库同一个字段会有两种以上语言。
举例:
中文:我以前养过一只猫,猫猫很可爱,它很黏这我。我每天都给猫梳毛,喂食,洗澡。去哪里都带着它,它就像我的家人一样。
英文:I used to have a cat, which is very cute and sticky to me. I comb, feed, and bathe the cat every day. Take it with you wherever you go, it's like my family.
生成摘要:
中文:我曾经养过猫。
英文:I used to have cats.