hanlp 多个自定义词库分开

原创

mob64ca12e8d855 2024-10-02 04:19:53 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e8d855的原创作品，请联系作者获取转载授权，否则将追究法律责任

HanLP 中多个自定义词库的分开使用

引言

在自然语言处理（NLP）领域，分词是文本处理中非常重要的一步。有关中文分词的工具中，HanLP 是一个较为流行的开源库，因其高效和易用而受到广泛关注。为了提升分词的准确性，往往需要用户根据特定领域自定义词库。本文将介绍如何在使用 HanLP 时分开管理并加载多个自定义词库，以提高分词效果。

HanLP 概述

HanLP 是一个自然语言处理工具包，支持多种语言的文本处理，包括分词、词性标注、命名实体识别等。其基础 API 使用简单且文档齐全。因此，越来越多的开发者选择 HanLP 进行文本分析。

自定义词库的必要性

在某些特定场景下，默认的分词效果可能无法满足需求。例如，行业术语、地名、专有名词等，都需要在分词时给予特殊关注。通过引入自定义词库，我们可以极大提升模型的分词效果，让其更好地理解特定领域的语境。

自定义词库的格式

HanLP 支持以“词词性频次”的格式来构建自定义词库。用户在创建词库时，可以根据需要选择性地添加词的词性和频率，若不指定，频率默认为 "1"。

例如，以下是一个简单的词库示例：

人工智能 n 100
深度学习 n 80
自然语言处理 n 60

多个自定义词库的使用

在某些情况下，我们可能需要管理多个自定义词库，例如行业用词、地理名词、产品名称等。通过引入多个自定义词库，我们可以根据不同的需求实现分词效果的灵活适应。

类图

在下面的类图中，我们展示了如何通过多个词库进行分词操作。

classDiagram
  class CustomDictionary {
      +add_word(word: String, pos: String, freq: Integer)
      +load_from_file(filepath: String)
      +get_words() String[]
  }

  class HanLP {
      +segment(text: String) String[]
      +set_dictionary(dictionary: CustomDictionary)
  }

  CustomDictionary --> HanLP : uses

代码示例

以下是一个具体的代码示例，展示如何在 HanLP 中加载并使用多个自定义词库。

from pyhanlp import *

# 自定义词典类
class CustomDictionary:
    def __init__(self):
        self.words = set()
    
    def add_word(self, word, pos='n', freq=1):
        self.words.add((word, pos, freq))
    
    def load_from_file(self, filepath):
        with open(filepath, 'r', encoding='utf-8') as file:
            for line in file.readlines():
                parts = line.strip().split()
                if len(parts) >= 1:
                    word = parts[0]
                    pos = parts[1] if len(parts) > 1 else 'n'
                    freq = int(parts[2]) if len(parts) > 2 else 1
                    self.add_word(word, pos, freq)
    
    def get_words(self):
        return self.words

# 主函数
def main():
    # 创建两个自定义词库
    industry_dict = CustomDictionary()
    geographic_dict = CustomDictionary()

    # 从文件加载词库
    industry_dict.load_from_file('industry_terms.txt')
    geographic_dict.load_from_file('geographic_terms.txt')

    # 设置 HanLP 字典
    HanLP.Config.addDictionary('\n'.join([f"{word} {pos}" for word, pos, _ in industry_dict.get_words()]), "custom_industry")
    HanLP.Config.addDictionary('\n'.join([f"{word} {pos}" for word, pos, _ in geographic_dict.get_words()]), "custom_geographic")
    
    # 待分词文本
    text = "我正在学习人工智能和深度学习。"
    
    # 分词
    result = HanLP.segment(text)
    print("分词结果: ", result)

if __name__ == "__main__":
    main()

代码解释

我们首先定义了一个 CustomDictionary 类，用来管理自定义词库。
提供了三个主要方法：
- add_word 用于添加词条。
- load_from_file 用于从文件加载词库。
- get_words 返回当前词库中的所有词条。
在 main() 函数中，我们实例化了两个对象，分别用于行业词汇和地理词汇，加载相应的词库文件，并通过 HanLP.Config.addDictionary 方法将其添加到 HanLP 中。
最后，我们定义了要分词的文本，并输出最终的分词结果。