LawsonAbs的认知与思考,望各位读者审慎阅读。

总结
  • 本文详细讲解在使用bert的过程中遇到的坑,并记录之。
  • 文章来源:CSDN_LawsonAbs
  • 持续更新~

1.分词

tokenizer 在分词的时候,如果该词在词典中没有对应项,那么就会拆分成若干个token组合在一起,如Pdf 就会被拆解为 P##d##f

bert使用踩坑记_pytorch

2.词典vocab.txt 中不存在的词怎么办?