ik分词器可以在java用吗 ik分词器分词原理_mob64ca140a8e67的技术博客_51CTO博客

ik分词器可以在java用吗 ik分词器分词原理

关注 mob64ca140a8e67

ik分词器可以在java用吗 ik分词器分词原理

转载

mob64ca140a8e67 2024-03-06 03:24:55

文章标签 ik分词器可以在java用吗 elasticsearch 分词器自定义官网 文章分类 Java 后端开发

分词

分词是指文本转换成一系列单词（term or token)的过程，也可以叫做文本分析，关键词为Analysis。
举例
彭于晏是最帅的明星
分词为：（彭于晏）（最帅）（明星）
Character Filter

分词机制	效果
Character Filter	对原始文件进行处理：例如去除html标签，特殊字符等
Tokenizer	将原始文件进行分词：例：二院二部（二院、二部）
Token Filters	分词后的关键字进行加工：例转小写、删除语气词、近义词、同义词等

示例：

ik分词器可以在java用吗 ik分词器分词原理_分词器

注：这个_analyze中standard(默认)分词很简陋,只能靠空格，符号等进行分割，并且仅能分割英文，不支持中文。

下面继续加一个分词，将大写转换为小写

ik分词器可以在java用吗 ik分词器分词原理_elasticsearch_02

进行去标签化的分词

ik分词器可以在java用吗 ik分词器分词原理_分词器_03

中文的一些分词机制

ik分词器可以在java用吗 ik分词器分词原理_elasticsearch_04

由于中文的博大精深，以上分词器无法满足需求，所以需要引入特殊语法的分词器

特殊语法的分词器

ik分词器可以在java用吗 ik分词器分词原理_自定义_05

IK分词器（常用）

ik分词器可以在java用吗 ik分词器分词原理_elasticsearch_06

ik分词器可以在java用吗 ik分词器分词原理_分词器_07

加载后进行实验，如下图即可发现分词规律。

ik分词器可以在java用吗 ik分词器分词原理_自定义_08

另外一种ik分法

ik分词器可以在java用吗 ik分词器分词原理_分词器_09

注：

这样分词，会有 “世界上”、“世界”。这样的多意的叠词出现。

优点：这样分词很是详细

缺点：分词后倒排序会很多，大大的减小了搜索效率。

自定义分词器

自定义分词器可以多去官网查看链接: 官网.

示例

下面我们创建个叫my的分词器，它里面嵌套的都是下面我们自定义的过滤器，和分词器，这样顺序为，过滤——分词——后处理。

ik分词器可以在java用吗 ik分词器分词原理_ik分词器可以在java用吗_10

查询一条文档里具体的first_name 的值。

批量插入 _bulk

示例如下

ik分词器可以在java用吗 ik分词器分词原理_分词器_11

如果不是这个格式是插入不了滴！

ik分词器可以在java用吗 ik分词器分词原理_ik分词器可以在java用吗_12

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：zabbix中文包 zabbix中文官网

下一篇：验证文件完整性 java 验证文件完整性有用吗

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册