前言
从技术上讲,“Transformer” 是一种神经网络模型,它通过其编码器/解码器组件中使用一种称为 attention 的数学技术来查找单词或其他数据序列中的关系。这种设置允许 transformer 模型从甚至很长的文本序列中学习上下文和含义,从而创建更自然的响应和预测。了解 transformer 架构是为您自己的 AI 应用程序释放 LLM 功能的关键。
这份全面的指南将带您从变压器的起源一直到为您自己的项目微调 LLM。作者 Nicole Königstein 通过可执行的 Jupyter 笔记本,实际展示了 transformer 架构的重要数学和理论背景,阐明了这项神奇的技术是如何在实际应用中发挥作用的。
在 Transformers in Action 中,您将学习:
- 变压器和 LLM 的工作原理
- 使 HuggingFace 模型适应新任务
- 使用 Ray Tune 和 Optuna 自动进行超参数搜索
- 优化 LLM 模型性能
- 高级提示和零/少样本学习
- 使用强化学习生成文本
- 负责的 LLM
目录
第1部分:变压器简介
- 1对变压器的需求
- 深入了解变压器
第⒉部分:用于基本NLP任务的TRANSFORMER
- 3文本摘要
- 4机器翻译
- 5文本分类
第3部分:高级模型和方法
- 6文本生成
- 7控制生成的文本
- 8多模态模型
- 9优化和评估大型语言模型
- 10合乎道德和负责任的大型语言模型
- 附录