n-gram模型

原创

Laccoliths 2024-09-28 12:09:27 博主文章分类：大模型 ©著作权

©著作权归作者所有：来自51CTO博客作者Laccoliths的原创作品，请联系作者获取转载授权，否则将追究法律责任

1 n-gram

n-gram描述给定文本序列中连续n个项目（字母、音节或单词）的序列。 n-gram模型统计序列的出现频率，捕捉语言中的局部依赖关系。

假设我们有以下的句子：

我喜欢自然语言处理。

这个句子可以被分解为以下单词序列：

我，喜欢，自然，语言，处理。

Unigram是最简单的n-gram，它只考虑单个项目。在这个例子中，unigram就是句子中的每个单独的词：

Bigram考虑的是两个连续项目的序列。在这个例子中，bigram如下：

Trigrams考虑的是三个连续项目的序列。在这个例子中，trigram如下：

四元组考虑的是四个连续项目的序列。在这个例子中，四元组如下：

(我, 喜欢, 自然, 语言) 由于我们的句子只有五个词，所以四元组只包含一个序列。四元组提供了更多的上下文信息，但同时也增加了数据稀疏性的风险，因为更长的序列在语料库中出现的次数可能更少。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯