gpt researcher

LLM based autonomous agent that conducts deep local and web research on any topic and generates a long report with citations.

assafelovic

22622

2985

Python

English |
中文 |
日本語 |
한국어

🔎 GPT Researcher

GPT Researcher は、さまざまなタスクに対する包括的なオンラインリサーチのために設計された自律エージェントです。

このエージェントは、詳細で事実に基づいた偏りのない研究レポートを生成することができ、関連するリソース、アウトライン、およびレッスンに焦点を当てるためのカスタマイズオプションを提供します。最近の Plan-and-Solve および RAG 論文に触発され、GPT Researcher は速度、決定論、および信頼性の問題に対処し、同期操作ではなく並列化されたエージェント作業を通じてより安定したパフォーマンスと高速化を提供します。

私たちの使命は、AIの力を活用して、個人や組織に正確で偏りのない事実に基づいた情報を提供することです。

なぜGPT Researcherなのか？

手動の研究タスクで客観的な結論を形成するには時間がかかることがあり、適切なリソースと情報を見つけるのに数週間かかることもあります。
現在のLLMは過去の情報に基づいて訓練されており、幻覚のリスクが高く、研究タスクにはほとんど役に立ちません。
現在のLLMは短いトークン出力に制限されており、長く詳細な研究レポート（2,000語以上）には不十分です。
Web検索を可能にするサービス（ChatGPT + Webプラグインなど）は、限られたリソースとコンテンツのみを考慮し、場合によっては表面的で偏った回答をもたらします。
Webソースの選択のみを使用すると、研究タスクの正しい結論を導く際にバイアスが生じる可能性があります。

アーキテクチャ

主なアイデアは、「プランナー」と「実行」エージェントを実行することであり、プランナーは研究する質問を生成し、実行エージェントは生成された各研究質問に基づいて最も関連性の高い情報を探します。最後に、プランナーはすべての関連情報をフィルタリングおよび集約し、研究レポートを作成します。

エージェントは、研究タスクを完了するために gpt-4o-mini と gpt-4o（128K コンテキスト）の両方を活用します。必要に応じてそれぞれを使用することでコストを最適化します。平均的な研究タスクは完了するのに約3分かかり、コストは約0.1ドルです。

詳細説明:

研究クエリまたはタスクに基づいて特定のドメインエージェントを作成します。
研究タスクに対する客観的な意見を形成する一連の研究質問を生成します。
各研究質問に対して、与えられたタスクに関連する情報をオンラインリソースから収集するクローラーエージェントをトリガーします。
各収集されたリソースについて、関連情報に基づいて要約し、そのソースを追跡します。
最後に、すべての要約されたソースをフィルタリングおよび集約し、最終的な研究レポートを生成します。

デモ

https://github.com/assafelovic/gpt-researcher/assets/13554167/a00c89a6-a295-4dd0-b58d-098a31c40fda

チュートリアル

特徴

📝 研究、アウトライン、リソース、レッスンレポートを生成
🌐 各研究で20以上のWebソースを集約し、客観的で事実に基づいた結論を形成
🖥️ 使いやすいWebインターフェース（HTML/CSS/JS）を含む
🔍 JavaScriptサポート付きのWebソースをスクレイピング
📂 訪問および使用されたWebソースのコンテキストを追跡
📄 研究レポートをPDF、Wordなどにエクスポート

📖 ドキュメント

完全なドキュメントについては、こちらを参照してください：

入門（インストール、環境設定、簡単な例）
操作例（デモ、統合、dockerサポート）
参考資料（API完全ドキュメント）
Tavilyアプリケーションインターフェースの統合（コア概念の高度な説明）

クイックスタート

ステップ 0 - Python 3.11 以降をインストールします。こちらを参照して、ステップバイステップのガイドを確認してください。

ステップ 1 - プロジェクトをダウンロードします

$ git clone https://github.com/assafelovic/gpt-researcher.git
$ cd gpt-researcher

ステップ2 - 依存関係をインストールします

$ pip install -r requirements.txt

ステップ 3 - OpenAI キーと Tavily API キーを使用して .env ファイルを作成するか、直接エクスポートします

$ export OPENAI_API_KEY={Your OpenAI API Key here}

$ export TAVILY_API_KEY={Your Tavily API Key here}

LLMには、OpenAI GPT を使用することをお勧めしますが、Langchain Adapter がサポートする他の LLM モデル（オープンソースを含む）を使用することもできます。llm モデルとプロバイダーを config/config.py で変更するだけです。このガイドに従って、LLM を Langchain と統合する方法を学んでください。
検索エンジンには、Tavily Search API（LLM 用に最適化されています）を使用することをお勧めしますが、他の検索エンジンを選択することもできます。config/config.py で検索プロバイダーを「duckduckgo」、「googleAPI」、「googleSerp」、「searchapi」、「searx」に変更するだけです。次に、config.py ファイルに対応する env API キーを追加します。
最適なパフォーマンスを得るために、OpenAI GPT モデルと Tavily Search API を使用することを強くお勧めします。

ステップ 4 - FastAPI を使用してエージェントを実行します

$ uvicorn main:app --reload

ステップ 5 - 任意のブラウザで http://localhost:8000 にアクセスして、リサーチを楽しんでください！

Docker の使い方や機能とサービスの詳細については、ドキュメントページをご覧ください。

🚀 貢献

私たちは貢献を大歓迎します！興味がある場合は、貢献をご覧ください。

私たちのロードマップページを確認し、私たちの使命に参加することに興味がある場合は、Discord コミュニティを通じてお問い合わせください。

✉️ サポート / お問い合わせ

コミュニティディスカッション
私たちのメール: [email protected]

🛡 免責事項

このプロジェクト「GPT Researcher」は実験的なアプリケーションであり、明示または黙示のいかなる保証もなく「現状のまま」提供されます。私たちは学術目的のためにMITライセンスの下でコードを共有しています。ここに記載されている内容は学術的なアドバイスではなく、学術論文や研究論文での使用を推奨するものではありません。

私たちの客観的な研究主張に対する見解：

私たちのスクレイピングシステムの主な目的は、不正確な事実を減らすことです。どうやって解決するのか？私たちがスクレイピングするサイトが多ければ多いほど、誤ったデータの可能性は低くなります。各研究で20の情報を収集し、それらがすべて間違っている可能性は非常に低いです。
私たちの目標はバイアスを排除することではなく、可能な限りバイアスを減らすことです。私たちはここでコミュニティとして最も効果的な人間と機械の相互作用を探求しています。
研究プロセスでは、人々も自分が研究しているトピックに対してすでに意見を持っているため、バイアスがかかりやすいです。このツールは多くの意見を収集し、偏った人が決して読まないであろう多様な見解を均等に説明します。

GPT-4 言語モデルの使用は、トークンの使用により高額な費用がかかる可能性があることに注意してください。このプロジェクトを利用することで、トークンの使用状況と関連する費用を監視および管理する責任があることを認めたことになります。OpenAI API の使用状況を定期的に確認し、予期しない料金が発生しないように必要な制限やアラートを設定することを強くお勧めします。