• GitHub - langgenius/dify:. star 30.6k
  • !!!构建 | 中文 | Dify
  • Technology | Mistral AI | Frontier AI in your hands
  • 百度智能云千帆AppBuilder (baidu.com)
  • QAnything之BCEmbedding技术路线-CSDN博客
  • 语聚AI:汇聚语言与AI的力量 (jijyun.cn)
  • 软件应用集成列表 | 集简云 让连接更简单 (jijyun.cn)
  • app-builder/README.md at master · baidubce/app-builder · GitHub
  • ollama/docs/import.md at main · ollama/ollama · GitHub
  • Falcon碾压LLaMa?Huggingface排行引争议,有人自发测评,结论却相反_澎湃号·湃客_澎湃新闻-The Paper
  • 示例 — Xinference
  • 获取文本嵌入  |  Vertex AI 上的生成式 AI  |  Google Cloud
  • 文档中心 - MiniMax 开放平台 (minimaxi.com)
  • Chat with Open Large Language Models (lmsys.org)
  • 提示设计的通用策略  |  Vertex AI 上的生成式 AI  |  Google Cloud

摘要:

AnythingLLM,Dify,Yi开源模型、Mistral、coze扣子、千帆 AppBuilder 、QAnything、语聚AI、集简云(语聚AI)、Xinference、Cohere

对于研究人员或开发者,希望利用最新的 AI 技术,Google AI 的开源项目和工具可能对您更有帮助(Google AI 经常发布开源项目、数据集和工具,使更广泛的 AI 社区能够进行研究和构建应用程序)。如果是一家企业,希望利用AI 提升业务能力,那么 Google Cloud Vertex AI ( Vertex AI 是 Google Cloud 上的一项服务)将是一个更适合的选择。

*:大模型的量化是一种通过减少模型中参数的位数来压缩模型大小,从而减少存储和计算需求的技术。注意:某些架构(例如Falcon:阿联酋阿布扎比的技术创新研究所(TII)开源的一个 400 亿参数的因果解码器模型Falcon-40B)不支持K量化(K 量化的基本思想是将模型中的关键数值,如权重、偏差等数值进行离散化,将其映射到一个有限的数值集合中,从而减少模型的存储空间和计算量)。量化从最高量化级别到最低量化级别顺序示例:

  • q3_K
  • q3_K_SSmall)
  • q3_K_MMedium)
  • q3_K_LLarge)

*:每1000 Token大概可以支持700汉字左右生成

Token 是自然语言文本中的最小粒度单位,即一个最小的单词或符号,可以直观理解为1 个中文词语、1 个英文单词、1 个数字或 1 个符号。通常自然语言文本是由一个一个Token组成的,每个Token都具备自己的词性、词义等属性。一般情况下,海螺 AI (MiniMax开放平台)abab系列模型中 Token 和字数的换算比例约为 1:1.33,每一次实际处理 token 数量以模型返回为准。在大语言模型处理任务的过程中,输入的文本会被转译为Token输入到模型中,而输出则是从Token转译到文本。输入与输出Token的长度直接影响了大语言模型所消耗的算力,所以业界通常采用基于Token数量的计费模式。

*:“离线”的Embedding搭配“在线”的Reranker

*:接RAG使用chat model比base Model效果更好。

AI Tips_生成式

*:RAG过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的 top k个 -> 匹配出的文本作为上下文和问题一起添加到 prompt -> 提交给 LLM生成回答。

?AnythingLLM报错:“Could not respond to message.LanceDBError: No vector column found to create index,删除C:\Users\admin\AppData\Roaming\anythingllm-desktop\storage\lancedb,重新打开AnythingLLM,删除 并 新建“New Workspace”即可。

AI Tips_生成式_02


  • upload a document到“MyDocuments”并移到文件夹MHATC,实际是在C:\Users\admin\AppData\Roaming\anythingllm-desktop\storage\documents下MHATC文件夹里创建json文件。以上LanceDBError:报错时,必须重新upload document。
  • Move to Workspace到ATC-MHATC并Save and Embed,会Updating workspace,是在C:\Users\admin\AppData\Roaming\anythingllm-desktop\storage\lancedb\atc-mhatc.lance\data文件夹下创建后缀.lance文件。
  • 在Vector Database栏点击Reset Workspace Vector Database按钮,会删除C:\Users\admin\AppData\Roaming\anythingllm-desktop\storage\lancedb\下的atc-airnet.lance文件夹。

由开放研究组织 LMSYS Org (Large Model Systems Organization)发布的Chatbot Arena(盲测平台 https://arena.lmsys.org/ )已经成为OpenAI、Anthropic、Google、Meta等国际大厂“龙争虎斗”的当红擂台(开源GitHub - lm-sys/FastChat)。

1、Dify.AI 创始人兼CEO 张路宇(曾在腾讯云 CODING DevOps 团队负责产品及运营管理工作),Dify(源自 Define + ModifyDo It For You)开源的 LLM 应用开发平台。提供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力,轻松构建和运营生成式 AI 原生应用。比 LangChain 更易用

——张路宇:“深信未来,通过 Dify 编排的应用程序将能够像 Docker 容器一样,使用简单的声明性文件来运行并在不同环境中传播。这与当前的做法有很大不同。目前,包括 LangChain 在内的一些产品都采用硬编码的方式,用传统的代码来管理大型模型的各种功能,以解决问题。我们相信这个设计上的差异将是我们与其他产品之间的最大不同之处,我们坚信这个理念是可行的。”

——新的编程范式,即 "prompt first"。在大模型应用开发中,传统的需求分析和 API 文档设计可能不再适用。相反,强调在设计应用之前应先考虑模型的输入提示(prompt),并用这种方式引导模型执行任务。

——市面同类产品有字节的Coze、百度的AppBuilder

AI Tips_生成式_03

  • 全面的模型支持: 与数百种专有/开源 LLMs 以及数十种推理提供商和自托管解决方案无缝集成,涵盖 GPT、Mistral、Llama3 以及任何与 OpenAI API 兼容的模型。
  • MaaS(模型即服务“MaaS:model as a service”)供应商支持Hugging Face,Replicate,AWS Bedrock,NVIDIA,GroqCloud,together.ai,OpenRouter
  • 本地模型推理 Runtime 支持:Xoribits(推荐),OpenLLM,LocalAI,ChatGLM,Ollama,NVIDIA TIS
  • 向量数据库支持:Qdrant(推荐),Weaviate,Zilliz
  • Dify 中提供了两种应用类型:
  • 文本生成型:completion-messages;一问一答,保存当次上下文,情景举例:翻译、判断、索引
  • 对话型:chat-messages;多轮对话,持续保存上下文,情景举例:聊天或一切
  • 建议在使用智能助手(利用大语言模型的推理能力,能够自主对复杂的人类任务进行目标规划、任务拆解、工具调用、过程迭代,并在没有人类干预的情况下完成任务时选择推理能力更强的模型系列如 gpt-4 以获得更稳定的任务完成效果。
  • 提示词编排默认为简易模式,如需要在提示词中针对不同的教学模块位置嵌入不同的上下文和变量,就可以选择专家模式,该模式可以快速切换 Chat 和Complete 模型以满足你的需要,并且都适用于对话型应用和文本生成型应用。
  • 文本补全模型 AI Tips_应用开发_04
  • 在选择模型的时候,模型名字的右侧显示 COMPLETE 的即为文本补全模型,该类模型接受名为“提示词”的自由格式文本字符串,模型将生成一个文本补全,试图匹配您给它的任何上下文或模式。例如,如果您给的提示词:“正如笛卡尔所说,我思故”,它将高概率返回“我在”作为补全。
  • 聊天模型AI Tips_应用开发_05
  • 在选择模型的时候,模型名字的右侧显示 CHAT 的即为聊天模型,该类模型将消息列表作为输入,并返回模型生成的消息作为输出。尽管聊天格式旨在简化多轮对话,但它对于没有任何对话的单轮任务同样有用。聊天模型使用的是聊天消息作为输入和输出,包含 SYSTEM / USER / ASSISTANT 三种消息类型编排
  • SYSTEM
  • 系统消息有助于设置 AI 助手的行为。例如,您可以修改 AI 助手的个性或提供有关它在整个对话过程中应如何表现的具体说明。系统消息是可选的,没有系统消息的模型行为可能类似于使用通用消息,例如“你是一个有帮助的助手”。
  • USER
  • 用户消息提供请求或评论以供 AI 助手响应。
  • ASSISTANT
  • 助手消息存储以前的助手响应,但也可以由您编写以提供所需行为的示例。
  • 上下文(Context):用于将数据集中的相关文本作为提示词上下文插入至完整的提示词中。
  • 对话前提示词(Pre-prompt):在简易模式下编排的对话前提示词将插入至完整提示词中。
  • 会话历史(History):使用文本生成模型构建聊天应用时,系统会将用户会话历史作为上下文插入至完整提示词中。由于部分模型对角色前缀的响应有所差异,你也可以在对话历史的设置中修改对话历史中的角色前缀名,例如:将 “Assistant” 改为 “AI”。
  • 查询内容(Query):查询内容为变量值,用于插入用户在聊天中输入的问题。
  • Dify 支持 Text-Generation 和 Embeddings,对应的 Hugging Face 模型类型:
  • Text-Generation:text-generation,text2text-generation
  • Embeddings:feature-extraction(如果想让 AI 应用基于最新的、私有的上下文对话,必须使用类似嵌入(Embedding)之类的技术)_如果你的 PDF 在特定格式内容下解析出现乱码的情况,可以考虑将 PDF 转成 Markdown 格式,或目前 Markdown 的准确度会更高,或减少 PDF 内的图片、表格等格式内容。
  • 当前支持模型类型如下:
  • llm 文本生成模型
  • text_embedding 文本 Embedding 模型
  • rerank Rerank 模型: Rerank 可以对文档进行重新排序和筛选,让相关的文档排在前面,从而提高 RAG 的效果;HuggingFace 推出的 Text Embedding Inherence(以下简称 TEI)工具来部署 Rerank 模型
  • speech2text 语音转文字
  • tts 文字转语音
  • moderation 审查

AI Tips_应用开发_06

2、AnythingLLM是将OpenAi、GPT-4、LangChain、PineconeDB、ChromaDB等强大的人工智能产品和其他服务整合在一个整洁的包中的最简单方法,无需大惊小怪即可将您的生产力提高100倍.AnythingLLM可以在您的机器上完全本地运行,开销很小,您甚至不会注意到它就在那里!不需要GPU。云和本地安装也可用。

  • 所有集合都被组织到我们称之为“工作空间” "Workspaces"的桶buckets中。工作空间是文件、文档、图像、PDF和其他文件的桶,这些文件将被转换为LLM可以理解并在对话中使用的内容。可以随时添加和删除文件。
  • AnythingLLM允许您设置工作空间特定的LLM,这将覆盖系统LLM,但仅在与特定工作空间聊天时。这允许您拥有许多工作区,每个工作区都有自己的提供者、模型,或者两者都有!
  • AnythingLLM Default Embedder默认模型是流行的全MiniLM-L6-v2模型,主要基于英文文档进行训练
  • Embedding models 嵌入模型是在系统范围内设置的,不能像LLM那样按工作空间进行原子配置。一旦您选择了嵌入模型提供程序并开始上传和嵌入文档,最好不要更改它。虽然您可以更改嵌入器,但这样做意味着您必须删除上传的文档并re-embed重新嵌入它们,以便新的嵌入器可以重新嵌入它们。
  • LM Studio Embedder:LMStudio的推理服务器只允许您加载多个LLM或单个嵌入模型,但不能同时加载这两个。这意味着LMStudio不能既是LLM又是嵌入程序。
  • Ollama支持LLM和嵌入模型的运行,Ollama支持在CPU和GPU上运行LLM。Ollama的/models 端点将在下拉选择中显示LLM和嵌入模型。请确保使用嵌入模型进行嵌入。例如llama2是LLM。不是嵌入程序。

3、模型的版本区分:

  • 训练数据不同:Base模型是海量语料进行的无监督学习出来的预测模型。Chat模型是指令微调SFT(Supervised Fine-Tuning监督微调人工标注指令数据集进行监 督学习得到的模型。Base版本、Instruct版本和Chat版本的考量:
  • Base版本只是做了Next token prediction的预测,相当于纯粹是学习下一个词,用于下游任务一般会通过In Context Learning实现。
  • Instruct一般会遵循特定的指令,代表听话能力。
  • Chat版本会对多轮对话做针对性的优化,对齐helpful、harmnless、honest保证模型对人类有益,由于可能会和基座模型有知识冲突,会有对齐税问题。Base版本一般来说会被认为是最强的模型,因为其包含了最原始的知识储备,没有对齐税,所以对于下游的应用来说,很多时候会基于此版本进行训练。通常来说会加入通用的指令微调数据调整比例进行训练以减少灾难遗忘以获取最高的性能。

零一万物的Yi开源模型分为以下三类:

  • Yi-VL-6B/34B 多模态模型
  • 多轮文本-图像对话
  • 中英文本支持,包括对话和识别图像文本
  • 强大的图像理解能力,支持448×448分辨率
  • Yi-6B/9B/34B-Chat(文本生成ollama run yi:34b-chat-v1.5-q4_1
  • 微调支持多种对话场景
  • 4bit/8bit 量化版,消费级显卡可部署(模型的权重和激-活函数的精度从通常的32位浮点数减少到4bit/8bit)
  • 高质量训练数据,对齐人类偏好
  • Yi-6B/9B/34B 基座模型(文本分类) ollama run yi:34b-v1.5-q4_1
  • 数据参数量 60亿 / 90 亿 / 340 亿

AI Tips_原生应用_07

AI Tips_生成式_08

Model

Context Length

Pre-trained Tokens

Yi-1.5

4K

3.6T

4、法国人工智能初创公司Mistral AI(最新大模型Mistral Large、推出首个聊天机器人产品Le Chat) 在8x7b和8x22b参数大小下的一组具有开放权重的专家混合(MoE)模型Sparse Mixture-of-Experts. (SMoE):ollama run mixtral:8x7b

Sizes

  • mixtral:8x22b
  • mixtral:8x7b

Mixtral 8x22B为人工智能社区的性能和效率树立了新标准。这是一个稀疏的专家混合(SMoE)模型,在141B个有效参数中只使用了39B个,其规模提供了无与伦比的成本效益。Mixtral 8x22B具有以下优点:它能流利地使用英语、法语、意大利语、德语和西班牙语。它具有强大的数学和编码能力。它本身能够调用64K tokens context的函数。上下文窗口允许从大型文档中精确调用信息。

Mixtral 8x7B Instruct (ollama run mixtral:instruct):该模型已通过监督微调supervised fine-tuning 和直接偏好优化direct preference optimisation (DPO)进行了优化,以仔细遵循指导for careful instruction following。

AI Tips_应用开发_09

5、OpenAI发布最新多模态大模型“GPT-4o”「o」代表了英文单词:Omni,代表了全能。支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出,可以在232毫秒内对音频输入做出反应。GPT-4o的速度比GPT-4 Turbo快2倍,速率限制提高5倍,最高可达每分钟1000万token,而价格则便宜了一半。

6、火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,帮助企业构建体验创新、数据驱动和敏捷迭代等数字化能力,实现业务可持续增长。

火山方舟是一站式大模型服务平台,平台提供模型精调、推理、评测等全方位功能与服务,提供丰富的插件生态和AI原生应用开发服务,并通过安全可信的基础设施,专业的算法技术服务,全方位保障企业级AI应用落地。豆包大模型更强模型,更低价格,更易落地,字节跳动推出的自研大模型。通过字节跳动内部50+业务场景实践验证,每日千亿级tokens大使用量持续打磨,提供多模态能力,以优质模型效果为企业打造丰富的业务体验

扣子专业版企业级AI应用开发平台,无需编程技能,零代码快速搭建个性化AI应用;1万+插件的繁荣生态,构建出功能强大的大模型应用;企业级服务,满足数据私有化、组织协作等企业专属需求。具有丰富插件生态,海量创意与插件,扩展智能体技能库。利用工作流拆解和抽象复杂任务,并注入优秀的执行方法约束智能体行为,提升智能体反馈质量。

AI Tips_原生应用_10

AI Tips_生成式_11

  •  知识库功能支持你添加本地或线上文本内容和表格数据供 Bot 使用,以提升大模型回复的可用性和准确性。可以将本地 TXT、PDF、DOCX、Excel、CSV 格式的文档上传至知识库,也可以基于 URL 获取在线网页内容和 API JSON 数据。同时支持直接在知识库内添加自定义数据。
  • 创建一个数据库来记录阅读笔记,包括书名、阅读进度和个人注释。有了数据库,Bot 就可以通过查询数据库中的数据来提供更准确的答案。
  • 可以复制一个预置(公开配置)的 Bot,在此基础上进行修改来创建一个你自己的 Bot。
  • 工作流是一种用于规划和实现复杂功能逻辑的工具。你可以通过拖拽不同的任务节点来设计复杂的多步骤任务,提升 Bot 处理复杂任务的效率。
  • 可以到微信公众号(订阅号)平台发布你的 Bot。发布后,订阅号就可以使用 Bot 回复用户消息。

7、文心一言,英文名是ERNIE Bot,是百度研发的 人工智能大语言模型产品,能够通过上一句话,预测生成下一段话,文心一言由文心大模型驱动,具备理解、生成、逻辑、记忆四大基础能力。非会员是文心大模型3.5,会员享文心大模型4.0。

——百度云千帆AppBuilder(类似于豆包的Bot即智能体)是基于大模型搭建AI原生应用的工作台,提供RAG、Agent、GBI等应用框架,文档问答、表格问答、对话、创作等应用组件,以及文生图、语音等传统AI组件,降低AI原生应用的开发门槛,赋能开发者快速实现应用搭建。AppBuilder进行应用开发时,可根据实际需求,选择以下两种类型的大模型服务:

  • 思考模型:用于任务规划和选择组件,适用于规划任务和调用能力环节,思考模型可选择ERNIE-4.0-8K和ERNIE-3.5-8K,推荐使用ERNIE-4.0-8K,效果更佳
  • 问答模型:用于总结生成回复结果,适用于知识问答环节,问答模型可选择ERNIE Speed-AppBuilder,ERNIE-4.0-8K和ERNIE-3.5-8K,推荐使用ERNIE Speed-AppBuilder,性价比更高。当前消耗免费应用资源, 剩余199次,199次将于92天后到期(不是免费的!)

——千帆AppBuilder创建的应用可以发布到文心智能体平台,便能够轻松触达百度生态的丰富流量场景:文心智能体平台是百度推出的基于文心大模型的智能体(Agent)平台,支持广大开发者根据自身行业领域、应用场景,选取不同类型的开发方式,打造大模型时代的产品能力。开发者可以通过 prompt 编排的方式低成本开发智能体(Agent),同时,文心智能体平台还将为智能体(Agent)开发者提供相应的流量分发路径,完成商业闭环。

——百度智能云千帆AppBuilder-SDK是百度智能云千帆AppBuilder面向AI原生应用开发者提供的一站式开发平台的客户端SDK

我们提供自底向上的:基础组件、流程编排、端到端应用 三类功能。

8、语聚AI:使用AI与数百款企业办公软件,个人软件系统连接延展AI语言模型的能力。支持使用您的软件数据,文档数据问答,支持数十种不同的AI语言/图片生成模型能力。其中“知识助手”功能:连接企业/个人知识文档/页面,赋予AI语言模型专业知识。AI语言模型往往无法回答专业知识,比如您的产品知识,业务知识,论文,电子书等。语聚AI支持上传多种格式的知识文件,赋予AI语言模型您的专业知识。可用于企业内部/外部的知识助手。

  • 支持上传网站/页面,知识文档.
  • 基于上传知识内容,创造性生成新内容,不仅仅是查询与搜索.
  • 最大可支持1GB内容上传.

9、集简云是一款超级软件连接器,无需开发,无需代码知识就可以轻松打通数百款软件(871个不同的应用系统之间的无代码集成)之间的数据连接,构建自动化与智能化的业务流程。通过自动化业务流程,每月可节省企业数百甚至数万小时的人工成本。在集简云的开放平台,您可以上线自己的软件,快速的与数百款应用软件对接,免去前端开发,直接将集简云的产功能嵌入您的系统中,快速增加集成功能。

  • 集简云隶属于北京集简慧通互联科技有限公司,立志于通过无代码集成iPaaS平台与AI人工智能技术,优化企业业务流程,帮助企业流程从粗放式走向精细化,实现从数字化到自动化和智能化的转型。

10、Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。使用 Xinference 拉起 LLM 和 embedding 模型,并暴露两个端口以访问它们。

集成

  • FastGPT:一个基于 LLM 大模型的开源 AI 知识库构建平台。提供了开箱即用的数据处理、模型调用、RAG 检索、可视化 AI 工作流编排等能力,帮助您轻松实现复杂的问答场景。
  • Dify: 一个涵盖了大型语言模型开发、部署、维护和优化的 LLMOps 平台。
  • Chatbox: 一个支持前沿大语言模型的桌面客户端,支持 Windows,Mac,以及 Linux。
  • RAGFlow: 是一款基于深度文档理解构建的开源 RAG 引擎。

功能特点

Xinference

FastChat

OpenLLM

RayLLM

兼容 OpenAI 的 RESTful API

vLLM 集成

更多推理引擎(GGML、TensorRT)

更多平台支持(CPU、Metal)

分布式集群部署

图像模型(文生图)

文本嵌入模型

多模态模型

语音识别模型

更多 OpenAI 功能 (函数调用)

11、Cohere的专精方向——RAG和Agent,针对RAG和Agent做大模型的优化。如果使用AnythingLLM的话,记得看看右上角的版本号。如果版本号是橙色的,说明有新版本。下载、覆盖安装之后,在模型下拉列表中就能看到对Cohere的支持。

AI Tips_原生应用_12