Hanlp自定义字典(文件) java
1.idea需要更改的地方
位置:
Hanlp.properties文件要放在resources目录下
然后更改hanlp.properties文件内容,如下:
第一,root这里填写的目录是你解压后的data文件的目录(我的就是在D:/hanlp/data)
第二:customDictionary这里去掉上面圈起来的字典,然后加上自己的字典文件
最后截图如下:
然后导入jar包,导包细节就不说了,记得要两个哦,一个是hanlp-1.7.8的,一个是hanlp-1.7.8-sources1下的;
这就是idea需要更改的地方
2.然后就要去更改data文件了
去到你data文件,进入字典目录,我得字典目录如下,是在d盘的
内容为如下:
#记得一定要去掉上面两个文件,如果还有其他bin文件,也可以删除,bin文件是可以再生成的,然后CustomDictionary.txt是默认按该文件的字典来切分汉字的;
然后就是去掉这两个圈起来的文件,最后加入你自己的字典文件
上面圈起来的文件就是我的字典文件,这样就完成了。
试验:
结果:
在字典文件加上1年
结果:
对比两种情况,可以看到字典文件起作用了;
同样的,如果你想用你的停用词,你就自己写一个停用词表,去掉外面的bin文件,并把Hanlp.properties文件的相对应的注释打开即可
截图如下:
没有注释即可,如果该文件没有这些,那就可以模仿我的来写进去即可。
这些搞了很久才能够懂,希望我的整理能够帮到你。
可以的话,可以点赞关注哦,谢谢。
白嫖也行!!帮到你就可以了哈哈哈