LLM终端生成问答数据后,还需要对这些成果做进一步处理,转换为json后存储到本地,作为后续问答的知识基础。

示例代码如下:

import json
with open("../dataset/QA.json", "w", encoding="utf-8") as f:
    f.write('[\n')
    for i,item in enumerate(result):
        f.write(json.dumps(item, ensure_ascii=False,indent=4))
        if i<len(result)-1:
            f.write(',\n')
    f.write('\n]')

print("完成问答数据写入,格式化为json数组,每个对象之间有换行分隔。")

在上述代码中,使用JSON格式存储数据,以便于后续调用。

通过该函数,不仅完成问答信息的储存,还可以存储它们的来源、分片的段落序号,这些处理可以方便后续开展相关文本的查找。

对前节问题生成环节的部分代码进行调整,形成完整版本的问答数据:

#document = documents[-1]
for document in documents:
    result = (chain.run({"document":document,"file_name":target_file}))
    print(result)

形成成果:

扩展补充:问答数据的提取后存储_知识抽取

存储代码运行完毕后,问答数据储存至json文件中:

扩展补充:问答数据的提取后存储_知识抽取_02

通过LLM终端与其他先进工具的完美融合,实现更加卓越的文本处理效果。