一、基础资源

介绍视频链接官网链接

Github链接

书生大模型全链路开源开放体系_数据集

二、InternLM2.5(书生浦语大模型)

性能表现:

书生大模型全链路开源开放体系_llm_02


书生大模型全链路开源开放体系_人工智能_03


书生大模型全链路开源开放体系_人工智能_04


大海捞针实验:从海量的背景知识中检索到特定知识,用原生的超长上下文,而不是做rag。

书生大模型全链路开源开放体系_数据集_05

核心技术思路

书生大模型全链路开源开放体系_人工智能_06


数据对齐:指在数据处理过程中,将不同的数据源或数据集按照相同的格式和结构进行匹配和匹配的过程。这个过程通常涉及到数据的清洗、转换和整合,以确保数据的一致性和准确性。在数据对齐的过程中,我们需要关注数据的来源、格式、结构、含义和语义等方面,以确保数据的对齐效果。

价值对齐:让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致,确保人类与人工智能协作过程中的安全与信任。这个问题被称为“价值对齐”(value alignment,或AI alignment)。价值对齐是AI安全的一个核心议题。人类反馈的强化学习(RLHF)可用于对齐。

书生大模型全链路开源开放体系_人工智能_07


基于规则:按照一定格式构造数据集

基于模型:例如给代码增加函数、注释

基于反馈:人类反馈

书生大模型全链路开源开放体系_数据集_08

三、书生浦语模型谱系

书生大模型全链路开源开放体系_llm_09


20B的涌现现象更明显,可以对没见过的问题进行合理的回答。

书生大模型全链路开源开放体系_数据_10

四、数据

书生万卷有丰富的数据集

书生大模型全链路开源开放体系_llm_11

书生大模型全链路开源开放体系_数据_12


Miner U可以提取pdf和网页数据,在本地就能用Label LLM能方便地对对话进行评估标注

Label U可以对视频进行标注

五、预训练Intern Evo

书生大模型全链路开源开放体系_llm_13

六、微调框架

书生大模型全链路开源开放体系_数据_14

七、评测体系 OpenCompass

书生大模型全链路开源开放体系_数据_15


书生大模型全链路开源开放体系_llm_16

八、部署 LMDeploy

书生大模型全链路开源开放体系_数据_17

九、智能体框架Lagent

书生大模型全链路开源开放体系_llm_18


Agent Mindsearch

书生大模型全链路开源开放体系_数据集_19

十、RAG工具茴香豆

书生大模型全链路开源开放体系_数据集_20


书生大模型全链路开源开放体系_数据_21