エージェントの 6 つの中核能力
エージェントを分解すると、おおよそ 6 つの能力が連携していることが分かります。これらを理解することが、エージェントがあなたのために何をできて、何をできないかを知る最短の道です。
認識
エージェントは状況を取り込みます。あなたの依頼、ドキュメント、他のシステムからのデータ、あるいはリアルタイムの入力など。これは、行動する前に何が起きているかを「見る」ためのエージェントの手段です。
推論と計画
即座に返答する代わりに、エージェントは目標をじっくり考え、順序立てたステップに分解します。自分宛てに ToDo リストを書き、最初に何に取り組むかを決めるようなものです。
ツール使用 (function calling)
これは最もレバレッジの効く能力です。エージェントは外部に手を伸ばし、本物のソフトウェアを使います — 検索、メール送信、コード実行、データベースへの問い合わせ。あなたがツールを定義し、モデルがいつ呼び出すかを判断して、あなたのアプリが実行する構造化されたリクエストを返します。
記憶
エージェントはタスク全体 (ときには数日にまたがって) コンテキストを保持します。だから各ステップがゼロから始まることはなく、一貫性とパーソナライズが保たれます。
自律的な多段階実行
一つの目標を与えられると、エージェントは自らループを回します。行動し、結果を観察し、調整し、仕事が終わるまで何段階にもわたって進め続けます — 人がボタンを一つひとつ押すことなく。
マルチエージェント協調
より大きな仕事では、複数の専門化されたエージェントがチームを組み、それぞれが得意な部分を担当し、共通の目標に向けて協調できます。
参考文献
- 01
- 02
- 03
- 04Anthropic — ツール使用 (function calling) の概要
一次情報。モデルがどのようにツールを呼び出すか。
https://platform.claude.com/docs/en/agents-and-tools/tool-use/overview
- 05