あまたある生成AIのうち、話題になっているものを中心に一覧表にまとめました。
随時更新します。
「説明が間違ってるよ」「これがないよ」とお気づきでしたら、X (Twitter)の@MOFU_DSLifeまでご連絡いただけると助かります。
更新履歴
- 2023/11/23 音楽・音声生成AIを追加しました。
- 2023/11/23 「種類」列を追加しました。
- 2023/11/23 https://datascience-beginner.mofumofu.page/?p=488 から独立したページを作成しました。
- 2023/11/27 Orca2-2-13b, OpenChat-3.5-7B, Claude 2.1を追加しました。
- 2023/12/15 SunoAI, Imagen 2, Gemini, MedLM, Mixtral 8x7B, Phi-2, StripedHyena-7B, Magic Animate, Animate Anyone, Shisa 7B, houou, Grok, Meditron, Qwen-72B, Qwen-Audioを追加しました。
大規模言語モデル
画像生成AI
マルチモーダルLLM
コード支援AI
コードの作成と実行を行うAI
音楽・音声生成AI
動画生成AI
種類 | 発表日 | 名前 | パラメータ数 | 開発者・開発会社 | 特徴 | 商用利用 | 特化した言語 |
画像 | 2014/6/ | GAN (Generative Adversarial Networks) | Ian J.Goodfellow | 互いに競合する 2 つのニューラル ネットワーク (ジェネレーターとディスクリミネーター) で構成される。 | |||
音声 | 2016/9/12 | WaveNet | Google DeepMind | 従来より高い品質の音声を生成できるモデル。 | |||
LLM | 2018/6/11 | GPT-1 | 1億1700万 | OpenAI | |||
LLM | 2018/11/2 | BERT | Transformerからの双方向エンコーダ表現を使用。 | ||||
画像 | 2019/2/11 | Image GPT | OpenAI | GPT-2を利用。 | |||
LLM | 2019/2/14 | GPT-2 | 15億 | OpenAI | |||
音楽 | 2019/4/25 | MuseNet | OpenAI | 10種類の楽器を使用して4分間の音楽を生成できるモデル。 | |||
音楽 | 2020/4/30 | Jukebox | OpenAI | VQ-VAEを利用した音楽生成AI。 | |||
LLM | 2020/6/11 | GPT-3 | 1750億 | OpenAI | |||
画像 | 2020/6/19 | DDPM (Denoising Diffision Probabilistic Models) | 拡散モデルの論文。 | ||||
画像 | 2021/1/5 | DALL-E | OpenAI | GPT-3を利用し、テキストキャプションを含む画像で学習。 | |||
LLM | 2021/5/18 | LaMDA | GoogleのチャットAI「Bard」に搭載されている。会話に特化。 | ||||
LLM | 2021/6/14 | HyperCLOVA | 67, 130, 390億 | LINEヤフー、NAVER | 汎用言語モデル | 日本語 | |
コード | 2022/6/21 | GitHub Copilot | GitHub, Microsoft | 2021/6/29にテクニカルプレビュー用に発表。OpenAI Codex(GPT-3)を使用している。 | 商用利用可能(サブスク) | ||
LLM | 2021/8/14 | RWKV | BlinkDL | RNNをベースにしたモデル。GPTのように直接トレーニングすることができ、並列化が可能。 | |||
LLM | 2022/3/15 | GPT-3.5 | OpenAI | ||||
LLM | 2022/4/5 | PaLM | 5400億 | PaLMはLaMDAより幅広い用途での利用が想定されている。 | |||
画像 | 2022/4/6 | DALL-E 2 | 35億 | OpenAI | 拡散モデルを使用。 | ||
マルチ | 2022/4/28 | Flamingo | DeepMind | Transformerを多段に積み重ねるニューラルネットワーク構造を採用 | 研究用途 | ||
マルチ | 2022/9/16 | PaLI | 画像についての質問に答えたり、キャプションをつけたりできる。 | ||||
画像 | 2022/5/24 | Imagen | テキストから画像を生成する拡散モデルを使用した生成AI。 | ||||
画像 | 2022/7/12 | Midjourney | David Holz | ||||
音楽 | 2022/7/26 | Musika | Institute of Computational Perception at JKU | あるジャンルの音楽を学習させるとそれに近い音楽を生成する。 | |||
画像 | 2022/8/22 | Stable Diffusion | Stability AI | 拡散モデルを使用。 | |||
音楽 | 2022/9/7 | AudioLM | 音声やピアノ音楽を入力してその続きを生成する。 | ||||
音楽 | 2022/9/30 | AudioGen | Meta, Hebrew University of Jerusalem, AudioCraft | テキストに従って音楽を生成する。AudioCraftというライブラリで使用可能。 | 商用利用可能 | ||
音楽 | 2022/10/20 | Mubert | Mubert | テキストに従って音楽を生成する。 | 月額課金すると商用利用可能 | ||
音楽 | 2022/11/4 | Dance Diffusion | Harmonai (Stability AI) | Dance Diffusionモデルを使用。ランダムな音楽の作成、二つの音楽の補間などができる。 | |||
LLM | 2022/11/30 | ChatGPT | OpenAI | OpenAIのチャットAI。GPT-3.5を対話用にfine-tuningしたもの。 | |||
音楽 | 2022/12/3 | Audio Diffusion | Robert Dargavel Smith | 拡散モデルを使用し、与えた音楽に基づいて新しい音楽を生成。 | |||
音楽 | 2022/12/16 | Riffusion | Riffusion | テキストに従って音楽を生成する。 | |||
音楽 | 2023/1/27 | Moûsai | Flavio Schneider, Ojasv Kamal, Zhijing Jin, Bernhard Schölkopf | Latent Diffusionモデルを使用。1分以上、多ジャンルの音楽をテキストから生成可能。 | |||
音楽 | 2023/1/29 | AudioLDM | Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, Mark D. Plumbley | Latent Diffusionモデルを使用し、テキストから音楽を生成。 | |||
音楽 | 2023/2/13 | MusicLM | テキストから音楽を生成。「AI Test Kitchen」に登録していると使える。 | ||||
LLM | 2023/2/24 | LLaMa | 70, 130, 330, 650億 | Meta AI | 研究用途 | ||
LLM | 2023/3/13 | Alpaca | 70億 | Stanford University | LLaMAをベースとした軽量なモデル。 | 研究用途 | |
LLM | 2023/3/14 | GPT-4 | 不明 | OpenAI | 可能 | ||
LLM | 2023/3/14 | Claude | 不明 | Anthropic | 可能(従量課金性) | ||
LLM | 2023/3/20 | Alpaca-LoRA | Alpacaトレーニングデータを使用してLLaMAをLoRAでtuningしたもの。 | ||||
LLM | 2023/3/21 | Bard | GoogleのチャットAI。LaMDAの軽量バージョンを使用していた。現在はPaLM 2を利用。 | ||||
LLM | 2023/3/30 | Vicuna | ShareGPTから収集された会話を使ってLLaMAをtuningしたもの。 | ||||
コード | 2023/4/13 | Amazon CodeWhisperer | Amazon | コードに特化したLLM。Amazonのコードなどで学習。2022/6/23にプレビュー版がリリースされていた。 | 商用利用可能 | ||
LLM | 2023/4/17 | RedPajama-Data-1T | 完全オープンソースのモデルを作成するプロジェクト。LLaMAトレーニングデータセットの再現が完了。 | ||||
音楽 | 2023/5/4 | RAVE | Antoine Caillon, Philippe Esling | 高品質の音楽を合成するVAE。 | |||
LLM | 2023/5/11 | PaLM 2 | SGE (Search Generative Experience), Vertex AIで使用されている。 | 多言語対応 | |||
LLM | 2023/5/15 | RWKV-Raven | RWKVをベースにAlpaca、CodeAlpaca、Guanaco、GPT4All、ShareGPTなどのデータセットでfine-tuningしたモデル。 | ||||
LLM | 2023/5/17 | Rinna-3.6B | 36億 | rinna | GPT言語モデル。 | オープンソース | 日本語 |
LLM | 2023/5/18 | OpenCALM | 68億 | サイバーエージェント | 商用利用可能 | 日本語 | |
LLM | 2023/5/31 | Rinna-3.6B-instruction-ppo | rinna | 人間の評価を利用したGPT言語モデルの強化学習済み対話GPT言語モデル。 | オープンソース | ||
音楽 | 2023/6/12 | MusicGen | Meta | テキストや音楽から音楽を生成する。 | |||
LLM | 2023/7/12 | Claude2 | Anthropic | Amazon Bedrockで使える。 | 日本語にも対応 | ||
LLM | 2023/7/14 | RWKV-4-World | BlinkDL | 100を超える世界の言語に対応 | |||
LLM | 2023/7/14 | RWKV-4-World-JPNtuned | BlinkDL | RWKVの日本語版。 | 日本語 | ||
生成・実行 | 2023/7/17 | Code Interpreter (Advanced Data Analysis) | OpenAI | サンドボックス実行環境でPythonコードを作成して実行できる。ファイルの読み取り、出力も可能。 | 商用利用可能(サブスク) | ||
LLM | 2023/7/19 | Llama 2 | 70~700億 | Meta, Microsoft | Llama 2 の事前トレーニング済みモデルは 2 兆個のトークンでトレーニングされ、Llama 1 の 2 倍のコンテキスト長を持つ。 | 商用利用可能 | |
画像 | 2023/7/28 | Stable Diffusion XL (SDXL) | Stability AI | 汎用的で高解像度の画像生成能力を持つ。 | 商用利用可能 | 英語 | |
LLM | 2023/7/31 | Rinna-4B | 40億 | rinna | 汎用言語モデル、長期コンテキストモデル、対話言語モデル、画像対話モデル | 日本語、英語 | |
LLM | 2023/8/10 | Japanese StableLM Alpha-7B | 70億 | Stability AI Japan | 商用利用不可 | 日本語 | |
LLM | 2023/8/11 | AIBunCho-6B | 60億 | インダストリアル・ドリーム | 小説に特化した文章の生成が可能。 | 日本語 | |
LLM | 2023/8/14 | japanese-large-lm | 36億, 17億 | LINEヤフー | 日本語 | ||
マルチ | 2023/8/17 | Japanese InstructBLIP Alpha | Stability AI Japan | 画像言語モデル(画像をもとにしたテキストが生成される)。 | 研究用途 | 日本語 | |
LLM | 2023/8/18 | japanese-large-lm-instruction-sft | 36億 | LINEヤフー | Instruction Tuningを用いてモデルをSupervised Fine-tuningしたもの。 | 商用利用可能 | 日本語 |
LLM | 2023/8/22 | WebLab-10B | 100億 | 東京大学松尾研究室 | 商用利用不可 | 日本語、英語 | |
コード | 2023/8/24 | Code Llama | 70, 130, 340億 | Meta | Llama2のコードに特化したバージョン。 | 商用利用可能 | |
マルチ | 2023/8/24 | Qwen-VL | Alibaba Cloud | Qwenのマルチモーダル版。 | 英語、中国語 | ||
LLM | 2023/8/29 | ELYZA-7B | ELYZA | Llama2ベースでGPT-3.5に匹敵する性能。 | 商用利用可能 | 日本語 | |
LLM | 2023/9/6 | Falcon 180 | 1800億 | Technology Innovation Institute | 因果デコーダ専用モデル。未加工の事前トレーニング済みモデルのため、ユースケースに合わせてtuningが必要。 | 商用利用可能 | |
生成・実行 | 2023/9/6 | Open Interpreter | KillianLucas | LLMを使ってコード生成し、ローカル環境で実行できる。LiteLLMを使用してさまざまな言語モデルを使用可能。 | |||
マルチ | 2023/9/7 | Heron | 700億 | Turing | 大規模マルチモーダル学習ライブラリ。Turingは日本の自動運転の会社。 | 不明 | 日本語、英語 |
音楽 | 2023/9/13 | Stable Audio | Stability AI | Latent Diffusionモデルを利用。音楽生成製品。 | 商用利用可能 | ||
画像 | 2023/9/20 | DALL-E 3 | OpenAI | ChatGPT plusで利用可能。 | |||
LLM | 2023/9/21 | Xwin-LM | 70, 130, 700億 | 不明(中国科学院、精華大学の研究者が参加) | Llama2ベース。AlpacaEvalベンチマークでGPT-4を超えた。 | 不明 | |
コード | 2023/9/21 | CodePlan | Microsoft | リポジトリレベルのコーディングタスクに対応可能。研究段階。 | 研究 | ||
LLM | 2023/9/27 | Mistral-7B | 70億 | Mistral AI | すべてのベンチマークで Llama 2 13B を上回るパフォーマンス。 | ||
LLM | 2023/9/23 | Stable LM 3B-4E1T | 30億 | Stability AI | デコーダ専用言語モデル。 | 英語 | |
マルチ | 2023/9/25 | GPT-4V | OpenAI | 音声でのやりとり、画像による質問が可能。 | 商用利用可能(サブスク) | 英語 | |
LLM | 2023/9/28 | PLaMo-13B | 130億 | Preferred Networks | 商用利用可能 | 日本語、英語 | |
LLM | 2023/9/29 | Qwen-72B | 720億 | Alibaba Cloud | Llama2 70BやGPT-3.5を上回る性能。いくつかのベンチマークではGPT-4を上回る。 | 中国語、英語など | |
LLM | 2023/10/3 | Stable LM 3B | 30億 | Stability AI | ノートPCなど計算能力のあまり高くないPCでも動作するように設計されたコンパクトな大規模言語モデル。 | 商用利用可能 | |
マルチ | 2023/10/5 | LLaVA-1.5 | ウィスコンシン大学、Microsoft | 画像や音声を入力として受け取り、それに関連する情報や質問にテキストや音声で応答することができる。 | 研究用途 | 英語 | |
LLM | 2023/10/10 | Japanese StableLM Instruct Alpha-7B-v2 | Stability AI Japan | Japanese StableLM Alpha-7Bを商用利用可能にしたもの(データセットが異なる)。 | 商用利用可能 | 日本語 | |
マルチ | 2023/10/11 | Ferret | Apple | 簡単な修正を加えることで、11のベンチマークで最先端の結果を達成。このモデルはデータ効率が良く、1.2Mの公開データを使用して1日でトレーニングが可能。 | 研究用途 | 英語 | |
LLM | 2023/10/12 | Qwen | 70, 140億 | Alibaba Cloud | 3兆トークンのデータセットで事前学習を行なったモデル。 | 中国語、英語 | |
マルチ | 2023/10/14 | MiniGPT-v2 | キング・アブドラ科学技術大学、Meta | Llama2ベース。画像を言葉で説明し、物体検出も行うことができる。 | 不明 | ||
マルチ | 2023/10/14 | PaLI-3 | 50億 | 画像に関する質問に答えることができる。 | |||
マルチ | 2023/10/15 | BaKLLaVA-1 | Skunkworks AI, Ontocord, LAION | Mistral-7Bベース | 商用利用不可 | ||
マルチ | 2023/10/17 | Fuyu-8B | 80億 | Adept | モデルのアーキテクチャがシンプル。小型。高速応答が可能。 | 研究用途 | |
LLM | 2023/10/17 | Ernie 4.0 | Baidu | Baiduは発表に際し「Ernie 4.0はOpenAIのGPT-4に匹敵する性能を持つ」と述べている。 | 不明 | 中国語 | |
LLM | 2023/10/20 | LLM-jp-13B | 130億 | 国立情報学研究所 (NII) | 研究目的で公開。 | 不明 | 日本語 |
LLM | 2023/10/25 | Japanese Stable LM 3B-4E1T | 30億 | Stability AI | 継続事前学習(Continued Pretraining)と呼ばれるアプローチが特徴。 | 商用利用可能 | 日本語 |
LLM | 2023/10/25 | Japanese Stable LM Gamma 7B | 70億 | Stability AI | 継続事前学習(Continued Pretraining)と呼ばれるアプローチが特徴。 | 商用利用可能 | 日本語 |
LLM | 2023/10/26 | Stockmark-13B | 130億 | Stockmark | 独自に収集したビジネスに関するデータも事前学習に使用。 | 不明 | 日本語 |
LLM | 2023/10/27 | Zephyr-7B-Beta | 70億 | Hugging Face H4 | Mistral-7Bの微調整バージョン。 | 研究用途 | 英語 |
LLM | 2023/10/31 | Youri-7B | 70億 | rinna | Llama 2 7Bに対して日本語の学習データを用いて継続事前学習を行ったもの。 | 不明 | 日本語 |
LLM | 2023/11/1 | tsuzumi | 6, 70, 130億 | NTT人間情報研究所 | ゼロから学習して作り上げたLLM。 | 日本語、英語 | |
LLM | 2023/11/2 | Japanese Stable LM Beta | 700億 | Stability AI Japan | Llama 2のbaseモデルに対して継続事前学習を行ったもの。 | 商用利用可能 | 日本語 |
LLM | 2023/11/2 | CALM2 | 70億 | サイバーエージェント | 商用利用可能 | 日本語 | |
LLM | 2023/11/2 | OpenChat-3.5-7B | 70億 | imoneoi | 7BのパラメータだがChatGPTと同等のパフォーマンス。 | 商用利用可能 | |
LLM | 2023/11/1 | PLaMo-13B-Instruct | 130億 | Preferred Networks | 指示学習 | 商用/非商用 | |
マルチ | 2023/11/7 | Qwen-Audio | Alibaba Cloud | Qwen-Audio-Chatは、様々なオーディオおよびテキストの入力が可能。 | |||
マルチ | 2023/11/13 | Japanese Stable VLM | Stability AI | 「Japanese Stable LM Instruct Gamma 7B」をベースとした日本語画像言語モデル。 | 商用利用可能 | 日本語 | |
コード | 2023/11/15 | ELYZA-japanese-CodeLlama-7b | 70億 | ELYZA | 「Code Llama」ベースのコード生成と補完に特化したLLM。 | 商用利用可能 | 日本語 |
マルチ | 2023/11/15 | Japanese Stable CLIP | Stability AI | 日本語テキストから画像を検索、画像からテキストを検索できる。 | 日本語 | ||
マルチ | 2023/11/17 | Japanese Stable Diffusion XL | Stability AI | text-to-imageモデル。英語版のStable Diffusion XL (SDXL)を日本語に対応させたもの。 | 日本語 | ||
音楽 | 2023/11/17 | Lyria | Google DeepMind | Lyriaを用いて音楽制作ができるツール「Dream Track」を発表。「Music AI Tools」もリリース予定。 | |||
SLM | 2023/11/18 | Orca2-2-13b | 130億 | Microsoft | Llama2のfine-tuningバージョン。小規模であるがGPT-4などのLLMに匹敵する性能を示す。 | 研究用途 | |
LLM | 2023/11/21 | Claude 2.1 | Anthropic | 200kトークンまで送信できる。Claude 2.0と比較して幻覚が2倍起きにくい。 | |||
動画 | 2023/11/22 | Stable Video Diffusion | Stability AI | Stable Diffusionをベースとして動画生成する。 | 商用利用可能 | ||
動画 | 2023/11/23 | Magic Animate | ByteDance | 人物の画像から動画を生成する。ビデオ拡散モデルと外観エンコーダにより滑らかな遷移を実現。 | |||
LLM | 2023/11/27 | Meditron-70B | 700億 | 医療分野に特化。Llama-2ベースでPubMedの論文などの広範囲にわたる医療コーパスで事前トレーニング。 | |||
LLM | 2023/11/27 | Shisa 7B | AUGMXNT | Mistral 7Bをベースとし、日本語に最適化されている。 | 商用利用可能 | 英語、日本語 | |
動画 | 2023/11/28 | Animate Anyone | Alibaba Cloud | 静止画像からキャラクタービデオを生成。ReferenceNetを用いて参照画像から詳細な外観特徴を抽出。 | |||
LLM | 2023/11/29 | pplx-7b-online, pplx-70b-online | 70億、700億 | PerplexityAI | インターネット上の最新情報を活用して、最新の回答を提供。pplx-apiを通じて一般に公開されている。 | ||
LLM | 2023/12/6 | houou | 70億 | Money Forward, 理化学研究所 | rinnaのYouri7Bについてinstruction tuningを行なった。 | 日本語 | |
LLM | 2023/12/7 | Grok | 330億 | xAI | X Premium Plus加入者は使用できる。一般公開の予定は今のところなし。 | 英語、日本語にも対応 | |
マルチ | 2023/12/7 | Gemini (Gemini Ultra, Gemini Pro, Gemini Nano) | Vertex AIに搭載予定。PaLM 2をベースに構築。Ultraは高性能かつ最大のモデル、Proは幅広いタスク向け、Nanoはデバイス向け。 | ||||
LLM | 2023/12/8 | StripedHyena-7B | together.ai | Llama 2, Mistral 7Bと同等の性能。高速でメモリ効率が良い。 | |||
LLM | 2023/12/11 | Mixtral 8x7B | 467億 | Mistral AI | 多くのベンチマークでGPT-3.5やLlama 2 70Bを上回る。Mistral 7Bをベースにモデルの一部を8倍にしたもの。 | 商用利用可能 | |
LLM | 2023/12/12 | Phi-2 | 27億 | Microsoft | パラメータ数が130億未満の言語モデルの中で最先端のパフォーマンス。 | ||
画像 | 2023/12/13 | Imagen 2 | テキストから画像を生成。Vertex AIで使用できる。電子透かし「SynthID」が組み込まれている。 | ||||
LLM | 2023/12/14 | MedLM | 医療業界向け。Vertex AIを通して米国で提供を開始。PaLM2ベースだが今後Geminiベースのモデルを導入する予定。 | ||||
音楽 | 2023/12/14 | Suno AI | Suno | テキストから歌詞・歌・伴奏を生成。 | |||
LLM | 開発中 | 未定 | 1750億 | 産総研 | 産総研の他にも東京工業大学や、国立情報学研究所が主宰するLLM研究開発チーム「LLM-jp」(東北大学や東京大学、早稲田大学などが参加)も加わる。 | 日本語 | |
LLM | 開発中 | 未定 | 3500億 | ソフトバンク | 2024年内に3500億パラメーターの国産LLMの構築を目指す。大学や研究機関、企業などに提供する計画もあるという。 |
コメント