前言

从技术上讲,“Transformer” 是一种神经网络模型,它通过其编码器/解码器组件中使用一种称为 attention 的数学技术来查找单词或其他数据序列中的关系。这种设置允许 transformer 模型从甚至很长的文本序列中学习上下文和含义,从而创建更自然的响应和预测。了解 transformer 架构是为您自己的 AI 应用程序释放 LLM 功能的关键。

《Transformers in Action》从基础到高级的全面指南,小白必备!!_人工智能

这份全面的指南将带您从变压器的起源一直到为您自己的项目微调 LLM。作者 Nicole Königstein 通过可执行的 Jupyter 笔记本,实际展示了 transformer 架构的重要数学和理论背景,阐明了这项神奇的技术是如何在实际应用中发挥作用的。


在 Transformers in Action 中,您将学习:

  • 变压器和 LLM 的工作原理
  • 使 HuggingFace 模型适应新任务
  • 使用 Ray Tune 和 Optuna 自动进行超参数搜索
  • 优化 LLM 模型性能
  • 高级提示和零/少样本学习
  • 使用强化学习生成文本
  • 负责的 LLM

目录

第1部分:变压器简介

  • 1对变压器的需求
  • 深入了解变压器

第⒉部分:用于基本NLP任务的TRANSFORMER

  • 3文本摘要
  • 4机器翻译
  • 5文本分类

第3部分:高级模型和方法

  • 6文本生成
  • 7控制生成的文本
  • 8多模态模型
  • 9优化和评估大型语言模型
  • 10合乎道德和负责任的大型语言模型
  • 附录