LLM终端生成问答数据后,还需要对这些成果做进一步处理,转换为json后存储到本地,作为后续问答的知识基础。
示例代码如下:
import json
with open("../dataset/QA.json", "w", encoding="utf-8") as f:
f.write('[\n')
for i,item in enumerate(result):
f.write(json.dumps(item, ensure_ascii=False,indent=4))
if i<len(result)-1:
f.write(',\n')
f.write('\n]')
print("完成问答数据写入,格式化为json数组,每个对象之间有换行分隔。")
在上述代码中,使用JSON格式存储数据,以便于后续调用。
通过该函数,不仅完成问答信息的储存,还可以存储它们的来源、分片的段落序号,这些处理可以方便后续开展相关文本的查找。
对前节问题生成环节的部分代码进行调整,形成完整版本的问答数据:
#document = documents[-1]
for document in documents:
result = (chain.run({"document":document,"file_name":target_file}))
print(result)
形成成果:
存储代码运行完毕后,问答数据储存至json文件中:
通过LLM终端与其他先进工具的完美融合,实现更加卓越的文本处理效果。