利用检索增强生成 (RAG) 和大型语言模型 (LLM) 的强大功能来创建生成式 AI 应用程序。

译自How to Build a RAG-Powered LLM Chat App with ChromaDB and Python,作者 Oladimeji Sowole。

生成式 AI 正以其创建上下文相关内容的能力彻底改变技术,开创了 AI 可能性的新时代。其核心是检索增强生成 (RAG),它将信息检索与大型语言模型 (LLM)相结合,从外部文档中生成智能、明智的响应。

本教程解释了如何使用ChromaDB构建 RAG 驱动的 LLM 应用程序,ChromaDB 是一款以 AI 为本、开源的嵌入式数据库,以其高效处理大型数据集而闻名。我将指导你完成每一步,展示 RAG 在创建高级 LLM 应用程序中的实际适用性。


要开始构建你的 LLM 应用程序,你需要Python(可从Python 官方网站下载)、OpenAI API 密钥(可在OpenAI 平台上获得)以及对 Python 和 Web API 的基本了解。这些技术将帮助确保在遵循本教程和开发生成式 AI 驱动的聊天应用程序时获得顺畅的体验。



1. 创建并导航到项目目录:在你的终端中,创建一个新目录:

mkdir rag_lmm_application


cd rag_lmm_application

2. 创建你的虚拟环境:这是依赖项管理的关键步骤。你可以使用以下命令创建一个虚拟环境:

python -m venv venv


对于 Mac 或 Linux:

source venv/bin/activate

对于 Windows:


3. 安装必需的包:使用以下命令为你的项目安装必要的库:

pip install -r requirements.txt

requirements.txt 内容为:


完成这些步骤后,你的环境已准备就绪,你可以开始使用 ChromaDB 构建最先进的 RAG 聊天应用程序。


此 LLM 应用程序使用LangChain加载器熟练地处理各种文档格式,包括 PDF、DOCX 和 TXT。这对于启用外部数据可访问性、确保高效的数据处理和维护后续阶段的统一数据准备至关重要。以下代码片段说明了该过程:

# loading PDF, DOCX and TXT files as LangChain Documents 
def load_document(file): 
	import os 
	name, extension = os.path.splitext(file) 
	if extension == '.pdf': 
    	from langchain.document_loaders import PyPDFLoader 
    	print(f'Loading {file}') 
    	loader = PyPDFLoader(file) 
	elif extension == '.docx': 
    	from langchain.document_loaders import Docx2txtLoader 
    	print(f'Loading {file}') 
    	loader = Docx2txtLoader(file) 
	elif extension == '.txt': 
    	from langchain.document_loaders import TextLoader 
    	loader = TextLoader(file) 
    	print('Document format is not supported!') 
    	return None 
	data = loader.load() 
	return data


# splitting data in chunks 
def chunk_data(data, chunk_size=256, chunk_overlap=20): 
	from langchain.text_splitter import RecursiveCharacterTextSplitter 
	text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap) 
	chunks = text_splitter.split_documents(data) 
	return chunks

使用 OpenAI 和 ChromaDB 创建嵌入

在此应用程序中,RAG 使用OpenAI语言模型创建嵌入——文本的基本向量表示,以便高效地理解数据。这些嵌入对于 RAG 的检索至关重要,允许访问相关外部数据。它们有效地存储在 ChromaDB 中,可以快速检索信息,如下面的代码片段所示。此过程极大地增强了应用程序的 AI 能力。

# create embeddings using OpenAIEmbeddings() and save them in a Chroma vector store 
def create_embeddings(chunks): 
	embeddings = OpenAIEmbeddings() 
	vector_store = Chroma.from_documents(chunks, embeddings) 
	# if you want to use a specific directory for chromadb 
	# vector_store = Chroma.from_documents(chunks, embeddings, persist_directory='./mychroma_db') 
	return vector_store

使用 Streamlit 构建聊天界面

Streamlit是一款应用程序,它可以在几分钟内将数据脚本转换为可共享的 Web 应用程序。此 RAG LLM 应用程序将用户输入链接到后端处理。通过 Streamlit 的初始化和布局设计,用户可以上传文档和管理数据。后端处理这些输入,并直接在 Streamlit 界面中返回响应,显示前端和后端操作的无缝集成。

以下代码显示了如何在 Streamlit 中创建文本输入字段和处理用户输入。

def ask_and_get_answer(vector_store, q, k=3): 
	from langchain.chains import RetrievalQA 
	from langchain.chat_models import ChatOpenAI 
	llm = ChatOpenAI(model='gpt-3.5-turbo', temperature=1) 
	retriever = vector_store.as_retriever(search_type='similarity', search_kwargs={'k': k}) 
	chain = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=retriever) 
	answer = chain.run(q) 
	return answer 
# calculate embedding cost using tiktoken 
def calculate_embedding_cost(texts): 
	import tiktoken 
	enc = tiktoken.encoding_for_model('text-embedding-ada-002') 
	total_tokens = sum([len(enc.encode(page.page_content)) for page in texts]) 
	# print(f'Total Tokens: {total_tokens}') 
	# print(f'Embedding Cost in USD: {total_tokens / 1000 * 0.0004:.6f}') 
	return total_tokens, total_tokens / 1000 * 0.0004 
# clear the chat history from streamlit session state 
def clear_history(): 
	if 'history' in st.session_state: 
    	del st.session_state['history'] 
if __name__ == "__main__": 
	import os 
	# loading the OpenAI api key from .env 
	from dotenv import load_dotenv, find_dotenv 
	load_dotenv(find_dotenv(), override=True) 
	st.subheader('LLM Question-Answering Application') 
	with st.sidebar: 
    	# text_input for the OpenAI API key (alternative to python-dotenv and .env) 
    	api_key = st.text_input('OpenAI API Key:', type='password') 
    	if api_key: 
        	os.environ['OPENAI_API_KEY'] = api_key 
    	# file uploader widget 
    	uploaded_file = st.file_uploader('Upload a file:', type=['pdf', 'docx', 'txt']) 
    	# chunk size number widget 
    	chunk_size = st.number_input('Chunk size:', min_value=100, max_value=2048, value=512, on_change=clear_history) 
    	# k number input widget 
    	k = st.number_input('k', min_value=1, max_value=20, value=3, on_change=clear_history) 
    	# add data button widget 
    	add_data = st.button('Add Data', on_click=clear_history) 
    	if uploaded_file and add_data: # if the user browsed a file 
        	with st.spinner('Reading, chunking and embedding file ...'): 
            	# writing the file from RAM to the current directory on disk 
            	bytes_data = uploaded_file.read() 
            	file_name = os.path.join('./', uploaded_file.name) 
            	with open(file_name, 'wb') as f: 
            	data = load_document(file_name) 
            	chunks = chunk_data(data, chunk_size=chunk_size) 
            	st.write(f'Chunk size: {chunk_size}, Chunks: {len(chunks)}') 
            	tokens, embedding_cost = calculate_embedding_cost(chunks) 
            	st.write(f'Embedding cost: ${embedding_cost:.4f}') 
            	# creating the embeddings and returning the Chroma vector store 
            	vector_store = create_embeddings(chunks) 
            	# saving the vector store in the streamlit session state (to be persistent between reruns) 
            	st.session_state.vs = vector_store 
            	st.success('File uploaded, chunked and embedded successfully.')

完成此设置后,用户可以与 AI 应用程序无缝直观地交互。


此 RAG 聊天应用程序利用LangChain 的 RetrievalQA和 ChromaDB,从 ChromaDB 的嵌入数据中提取相关、准确的信息,高效地响应用户查询,展示了高级生成式 AI 能力。

以下代码片段演示了在 Streamlit 应用程序中实际实现此过程:

# user's question text input widget 
	q = st.text_input('Ask a question about the content of your file:') 
	if q: # if the user entered a question and hit enter 
    	if 'vs' in st.session_state: # if there's the vector store (user uploaded, split and embedded a file) 
        	vector_store = st.session_state.vs 
        	st.write(f'k: {k}') 
        	answer = ask_and_get_answer(vector_store, q, k) 
        	# text area widget for the LLM answer 
        	st.text_area('LLM Answer: ', value=answer) 
        	# if there's no chat history in the session state, create it 
        	if 'history' not in st.session_state: 
            	st.session_state.history = '' 
        	# the current question and answer 
        	value = f'Q: {q} \nA: {answer}' 
        	st.session_state.history = f'{value} \n {"-" * 100} \n {st.session_state.history}' 
        	h = st.session_state.history 
        	# text area widget for the chat history 
        	st.text_area(label='Chat History', value=h, key='history', height=400)

此代码集成了 Streamlit 中的用户输入和响应生成。它使用 ChromaDB 的矢量数据获取准确的答案,增强了聊天应用程序的交互性,并提供了信息丰富的 AI 对话。


本教程探讨了使用 OpenAI、ChromaDB 和 Streamlit 构建 LLM 应用程序的复杂性。它解释了如何设置环境、处理文档、创建和存储嵌入,以及构建用户友好的聊天界面,突出了 RAG 和 ChromaDB 在生成式 AI 中的强大组合。

GitHub 存储库涵盖了该过程。要运行该应用程序,请在终端中执行以下命令:

streamlit run ./chat_with_documents.py


