こちらのLayerXさんのイベントに参加してきました。ありがとうございました!
LLM Tech Night #5 by LayerX - connpass
AIエージェントで精度出すには
- AIエージェントに雑に仕事を投げない、Agentに頭を使わせない
- 仕事が決まりきったものであれば、AIエージェントを使うよりも別システムが良い場合も
- 処理を繰り返すことで、繰り返しの掛け算で出力精度が悪くなる
- ステップごとに評価を加えることで精度を担保するが、その評価を人がしやすいUXを提供する必要あり
- ワークフローをルールで縛って、精度をあげる
- AI Agentをどこから入れるか?
- 積み上げで導入するようにしている。
- AI agent Tools
AIエージェントのオンボーディング
- 会社ごとにコンテキストがあり、それを理解できていないと精度が出ない
- コンテキストをプロンプトに加えれば精度は出るが、それはユーザーにとって負担
- AIにオンボーディングをすることで精度を出した
- ユーザーはAIへの信頼感が上がると、AIに学習させること、コンテキストを伝えることに前向きになる
AI Agentは作るよりも使う方が多い
- やり方はわかってるけど、作る必要がある作業に対して、AI agentを利用すると良い
- 例: 事務処理の異常値を検出して通知する。
- その評価軸は?
- 軸1: 結果の安全性 / 評価・検証・後戻りできるか
- 軸2: やり方がわかるか
- 似た入力に対しては、LLMに食わせるよりもキャッシュをして処理を安定させる
- コスト減やパフォーマンス向上の効果もあるが、結果が不安定なのはLLM特有のっこと
- キャッシュ管理はどうするか?
- キャッシュのキーは、system prompt / template になっているものを
- キャッシュのクリアは、AI Agentにお願いしている仕事が変わった時で良さそう
- そもそも、キャッシュはファイルに書き出している
- Webアプリケーションで、Redisなどに保存するのとは違う
- 結果が不安定なのを安定させたい狙いがある
- 安定した関数とは?
- 責任範囲が明確で、入力に対して出力が安定している関数
宣伝→
50回スゴイ!
階層的タスク分解をして、下位のタスクの精度をあげる
- 階層的タスク分解= 上位のゴールを下位のゴールに分解する
- 例:カレーを作る → じゃがいもを洗って、皮を剥く
- 下位のタスクの精度が悪ければ、上位のタスクのも悪くなる
- 下位のタスクを測定する方法を確立すると良い
所感
- 業務効率上げるには、業務理解が大切といのは人間共通っぽい
- ユーザーが教えたくなるか?信頼がある方が教えたくなるといのも似ているけれど、道具と人で期待値は違うので似て非なるものと捉えておこうと思った
- LLMは結果が不安定だから、キャッシュを入れて安定させるというのは、引き出しにいれたい
- YAPCつながりの人がいて、うれしかった。おにぎりが美味しかった。
改めて、ありがとうございました!