DB GPT

AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents

eosphoros-ai

16884

2334

Python

DB-GPT: データベースとの対話を革新するプライベートLLM技術

ドキュメント | チームに連絡します | コミュニティ | 論文

DB-GPTとは何か？

🤖 DB-GPTは、AWEL（エージェントワークフロー式言語）とエージェントを備えたオープンソースのAIネイティブデータアプリ開発フレームワークです。

大規模モデルの分野でのインフラを構築することを目的としており、SMMF（マルチモデル管理）、Text2SQL効果の最適化、RAGフレームワークと最適化、マルチエージェントフレームワークの協力、AWEL（エージェントワークフローのオーケストレーション）など、複数の技術機能の開発を通じて、データを使用した大規模モデルアプリケーションをよりシンプルで便利にします。

🚀 データ3.0時代には、モデルとデータベースを基盤として、企業や開発者がより少ないコードで独自のアプリケーションを構築できます。

紹介

DB-GPTのアーキテクチャは以下の図に示されています：

コア機能には以下の部分が含まれます：

RAG（Retrieval Augmented Generation）：現在、RAGは最も実用的に実装され、緊急に必要とされる領域です。DB-GPTは、RAGの機能を使用して知識ベースのアプリケーションを構築できるようにする、RAGに基づくフレームワークをすでに実装しています。
GBI（Generative Business Intelligence）：Generative BIはDB-GPTプロジェクトのコア機能の1つであり、企業のレポート分析とビジネスインサイトを構築するための基本的なデータインテリジェンス技術を提供します。
ファインチューニングフレームワーク：モデルのファインチューニングは、任意の企業が垂直およびニッチなドメインで実装するために不可欠な機能です。DB-GPTは、DB-GPTプロジェクトとシームレスに統合される完全なファインチューニングフレームワークを提供します。最近のファインチューニングの取り組みでは、Spiderデータセットに基づいて82.5%の実行精度を達成しています。
データ駆動型マルチエージェントフレームワーク：DB-GPTは、データに基づいて継続的に意思決定を行い、実行するためのデータ駆動型自己進化型マルチエージェントフレームワークを提供します。
データファクトリー：データファクトリーは、主に大規模モデルの時代における信頼できる知識とデータのクリーニングと処理に関するものです。
データソース：DB-GPTのコア機能に生産ビジネスデータをシームレスに接続するために、さまざまなデータソースを統合します。

サブモジュール

DB-GPT-Hub 大規模言語モデル（LLM）上での教師ありファインチューニング（SFT）を適用することにより、高性能なText-to-SQLワークフロー。
dbgpts dbgptsは、DB-GPT上で構築されたいくつかのデータアプリ、AWELオペレータ、AWELワークフローテンプレート、およびエージェントを含む公式リポジトリです。

Text2SQLファインチューニング

LLM	Supported
LLaMA	✅
LLaMA-2	✅
BLOOM	✅
BLOOMZ	✅
Falcon	✅
Baichuan	✅
Baichuan2	✅
InternLM	✅
Qwen	✅
XVERSE	✅
ChatGLM2	✅

SFT精度
2023年10月10日現在、このプロジェクトを使用して130億パラメータのオープンソースモデルをファインチューニングすることにより、SpiderデータセットでGPT-4を超える実行精度を達成しました！

Text2SQLファインチューニングに関する詳細情報

DB-GPT-Plugins Auto-GPTプラグインを直接実行できるDB-GPTプラグイン
GPT-Vis 可視化プロトコル

AIネイティブデータアプリ

🔥🔥🔥 V0.7.0 リリース | 重要なアップグレードのセット

app_chat_v0 6

app_manage_chat_data_v0 6

chat_dashboard_display_v0 6

agent_prompt_awel_v0 6

インストール

使用チュートリアル

特徴

現在、私たちはいくつかの主要な機能を紹介して、現在の能力を示しています：

プライベートドメインQ&A＆データ処理

DB-GPTプロジェクトは、知識ベースの構築を改善し、構造化および非構造化データの両方の効率的なストレージと検索を可能にする一連の機能を提供します。これらの機能には、複数のファイル形式のアップロードのサポート、カスタムデータ抽出プラグインの統合、および大量の情報を効果的に管理するための統一されたベクトルストレージと検索機能が含まれます。
マルチデータソース＆GBI（Generative Business Intelligence）

DB-GPTプロジェクトは、Excel、データベース、データウェアハウスなどのさまざまなデータソースとの自然言語のシームレスな対話を容易にします。これらのソースから情報を照会および取得するプロセスを簡素化し、直感的な会話を行い、洞察を得ることができます。さらに、DB-GPTは分析レポートの生成をサポートし、ユーザーに貴重なデータの要約と解釈を提供します。
マルチエージェント＆プラグイン

さまざまなタスクを実行するためのカスタムプラグインのサポートを提供し、Auto-GPTプラグインモデルをネイティブにサポートしています。エージェントプロトコルは、エージェントプロトコル標準に準拠しています。
自動ファインチューニングText2SQL

私たちはまた、大規模言語モデル（LLM）、Text2SQLデータセット、LoRA/QLoRA/Pturningなどのファインチューニング方法を中心に、自動ファインチューニングの軽量フレームワークを開発しました。このフレームワークは、Text-to-SQLファインチューニングをアセンブリラインのように簡単にします。DB-GPT-Hub
SMMF（サービス指向マルチモデル管理フレームワーク）

私たちは、LLaMA/LLaMA2、Baichuan、ChatGLM、Wenxin、Tongyi、Zhipuなど、オープンソースおよびAPIエージェントからの数十の大規模言語モデル（LLM）を含む幅広いモデルをサポートしています。
- ニュース

Provider	Supported	Models
DeepSeek	✅	🔥🔥🔥 DeepSeek-R1-0528 🔥🔥🔥 DeepSeek-V3-0324 🔥🔥🔥 DeepSeek-R1 🔥🔥🔥 DeepSeek-V3 🔥🔥🔥 DeepSeek-R1-Distill-Llama-70B 🔥🔥🔥 DeepSeek-R1-Distill-Qwen-32B 🔥🔥🔥 DeepSeek-Coder-V2-Instruct
Qwen	✅	🔥🔥🔥 Qwen3-235B-A22B 🔥🔥🔥 Qwen3-30B-A3B 🔥🔥🔥 Qwen3-32B 🔥🔥🔥 QwQ-32B 🔥🔥🔥 Qwen2.5-Coder-32B-Instruct 🔥🔥🔥 Qwen2.5-Coder-14B-Instruct 🔥🔥🔥 Qwen2.5-72B-Instruct 🔥🔥🔥 Qwen2.5-32B-Instruct
GLM	✅	🔥🔥🔥 GLM-Z1-32B-0414 🔥🔥🔥 GLM-4-32B-0414 🔥🔥🔥 Glm-4-9b-chat
Llama	✅	🔥🔥🔥 Meta-Llama-3.1-405B-Instruct 🔥🔥🔥 Meta-Llama-3.1-70B-Instruct 🔥🔥🔥 Meta-Llama-3.1-8B-Instruct 🔥🔥🔥 Meta-Llama-3-70B-Instruct 🔥🔥🔥 Meta-Llama-3-8B-Instruct
Gemma	✅	🔥🔥🔥 gemma-2-27b-it 🔥🔥🔥 gemma-2-9b-it 🔥🔥🔥 gemma-7b-it 🔥🔥🔥 gemma-2b-it
Yi	✅	🔥🔥🔥 Yi-1.5-34B-Chat 🔥🔥🔥 Yi-1.5-9B-Chat 🔥🔥🔥 Yi-1.5-6B-Chat 🔥🔥🔥 Yi-34B-Chat
Starling	✅	🔥🔥🔥 Starling-LM-7B-beta
SOLAR	✅	🔥🔥🔥 SOLAR-10.7B
Mixtral	✅	🔥🔥🔥 Mixtral-8x7B
Phi	✅	🔥🔥🔥 Phi-3

- [サポートされているLLMの詳細](http://docs.dbgpt.site/docs/modules/smmf)

プライバシーとセキュリティ

私たちは、さまざまな技術を実装することにより、データのプライバシーとセキュリティを確保しています。これには、大規模モデルのプライベート化とプロキシの非識別化が含まれます。
サポートされているデータソース
- データソース

画像

🌐 AutoDLイメージ

貢献

新しい貢献のための詳細なガイドラインを確認するには、貢献方法を参照してください。

貢献者ウォール

ライセンス

MITライセンス（MIT）

引用

もしDB-GPTがあなたの研究や開発に役立つと感じた場合、以下の論文を引用してください。

DB-GPTの全体的なアーキテクチャについて知りたい場合は、論文と論文を引用してください。

DB-GPTを使用してAgent開発に関する内容について知りたい場合は、論文を引用してください。

@article{xue2023dbgpt,
      title={DB-GPT: Empowering Database Interactions with Private Large Language Models}, 
      author={Siqiao Xue and Caigao Jiang and Wenhui Shi and Fangyin Cheng and Keting Chen and Hongjun Yang and Zhiping Zhang and Jianshan He and Hongyang Zhang and Ganglin Wei and Wang Zhao and Fan Zhou and Danrui Qi and Hong Yi and Shaodong Liu and Faqiang Chen},
      year={2023},
      journal={arXiv preprint arXiv:2312.17449},
      url={https://arxiv.org/abs/2312.17449}
}
@misc{huang2024romasrolebasedmultiagentdatabase,
      title={ROMAS: A Role-Based Multi-Agent System for Database monitoring and Planning}, 
      author={Yi Huang and Fangyin Cheng and Fan Zhou and Jiahui Li and Jian Gong and Hongjun Yang and Zhidong Fan and Caigao Jiang and Siqiao Xue and Faqiang Chen},
      year={2024},
      eprint={2412.13520},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2412.13520}, 
}
@inproceedings{xue2024demonstration,
      title={Demonstration of DB-GPT: Next Generation Data Interaction System Empowered by Large Language Models}, 
      author={Siqiao Xue and Danrui Qi and Caigao Jiang and Wenhui Shi and Fangyin Cheng and Keting Chen and Hongjun Yang and Zhiping Zhang and Jianshan He and Hongyang Zhang and Ganglin Wei and Wang Zhao and Fan Zhou and Hong Yi and Shaodong Liu and Hongjun Yang and Faqiang Chen},
      year={2024},
      booktitle = "Proceedings of the VLDB Endowment",
      url={https://arxiv.org/abs/2404.10209}
}

連絡先情報

コミュニティを構築するために取り組んでいます。コミュニティの構築に関するアイデアがあれば、お気軽にお問い合わせください。