目录

  • 对比学习
  • bert-base-cased、bert-base-uncased、bert-base-chinese
  • 远程监督
  • 平行语料库


对比学习

对比学习的宗旨就是拉近相似数据推开不相似数据有效地学习数据表征

假如:“我爱北京天安门”和“我不爱北京天安门”是相似样本,那么学习过程中就学习不到语义的相关信息,学习的就是字面上的特征;

“我爱北京天安门”和“我不爱北京天安门”是不相似样本,那么学习过程中就可以学习到否定方面的语义信息;

上面的回答直接引用刘聪NLP的回答,原答案点我传送

bert-base-cased、bert-base-uncased、bert-base-chinese

这是huggingface中封装的内容

在对于英文原文本的内容,不能直接送入模型中。

一般会经过分词,预处理等流程之后,才可以送到模型里

bert-base-cased就是第一步分词所需要到的东西(从人类的语言转化为模型能理解的语言),这一步也叫作tokenization

而huggingface提供了许多接口,不用自己动手写tokenization这一过程

bert-base-cased会区分大小写的单词,比如不管怎么分词,’ Love '始终是这个。

如果使用bert-base-uncased,在tokenization步骤之后’ Love '会变成 ’ love '。

当然也有bert-base-chinese用于中文文本的分词

来个小例子辅助理解这个过程

使用bert-base-cased

from transformers import BertTokenizer,BertModel

BERT_PATH = './bert-base-cased'

tokenizer = BertTokenizer.from_pretrained(BERT_PATH)

print(tokenizer.tokenize('To be, or not to be !'))

NLP 英语近义词缩写替换 nlp 同义词_自然语言处理

红色部分就是正在下载bert-base-cased预训练模型

使用bert-base-uncased

from transformers import BertTokenizer

BERT_PATH = './bert-base-uncased'

tokenizer = BertTokenizer.from_pretrained(BERT_PATH)

print(tokenizer.tokenize('To be, or not to be !'))

NLP 英语近义词缩写替换 nlp 同义词_自然语言处理_02

使用bert-base-chinese

from transformers import BertTokenizer

BERT_PATH = './bert-base-chinese'

tokenizer = BertTokenizer.from_pretrained(BERT_PATH)

print(tokenizer.tokenize('ac不知深又水了一篇文章!'))

NLP 英语近义词缩写替换 nlp 同义词_深度学习_03

远程监督

这里面可以深挖的点太多

看完远程监督的综述和论文,就简要的概括,具体细节还是建议去参考原文

远程监督的基础重要假设:

对于一个已有的知识图谱(论文用的Freebase)中的一个三元组(由一对实体和一个关系构成),假设外部文档库(论文用的Wikipedia)中任何包含这对实体的句子,在一定程度上都反映了这种关系。

由此我们可以推断远程监督是必须要有已知的三元组(实体对)才可以对外部语料库(非结构化文本)进行标注关系标签

比如我们已知了<汉武帝,君臣,卫青>这个三元组

那么非结构化文本中的任意句子只要包含汉武帝和卫青两个实体,我们就可以对这句话进行标注

但是这会引入许多噪声

汉武帝和卫青除了有君臣关系外,汉武帝还是卫青的姐夫

那这就可能导致本来提取的是<汉武帝,亲戚,卫青>的三元组

变成了<汉武帝,君臣,卫青>

这样就导致标注了错误的三元组关系出现

因为是通过已有的关系去标注外部语料库,所以远程监督算法属于半监督算法的其中一种

平行语料库

多用在跨语言文本摘要子任务下

通俗来说针对某一特定任务,语料库一般都是单一语言情况(翻译子任务除外)。而平行语料库是在单一语言的基础上,增加了其他语言的对应形式,形成了该语料库同一个字段会有两种以上语言。

举例:
中文:我以前养过一只猫,猫猫很可爱,它很黏这我。我每天都给猫梳毛,喂食,洗澡。去哪里都带着它,它就像我的家人一样。

英文:I used to have a cat, which is very cute and sticky to me. I comb, feed, and bathe the cat every day. Take it with you wherever you go, it's like my family.

生成摘要:
中文:我曾经养过猫。
英文:I used to have cats.