LawsonAbs的认知与思考,望各位读者审慎阅读。

总结


  • 本文详细讲解在使用bert的过程中遇到的坑,并记录之。
  • 持续更新~


1.分词

tokenizer 在分词的时候,如果该词在词典中没有对应项,那么就会拆分成若干个token组合在一起,如​​Pdf​​​ 就会被拆解为 ​​P​​​,​​##d​​​,​​##f​​。

bert使用踩坑记_pytorch

2.词典vocab.txt 中不存在的词怎么办?