生成AIの一覧表【2023/12/15更新】

あまたある生成AIのうち、話題になっているものを中心に一覧表にまとめました。

随時更新します。

「説明が間違ってるよ」「これがないよ」とお気づきでしたら、X (Twitter)の@MOFU_DSLifeまでご連絡いただけると助かります。

更新履歴
  • 2023/11/23 音楽・音声生成AIを追加しました。
  • 2023/11/23 「種類」列を追加しました。
  • 2023/11/23 https://datascience-beginner.mofumofu.page/?p=488 から独立したページを作成しました。
  • 2023/11/27 Orca2-2-13b, OpenChat-3.5-7B, Claude 2.1を追加しました。
  • 2023/12/15 SunoAI, Imagen 2, Gemini, MedLM, Mixtral 8x7B, Phi-2, StripedHyena-7B, Magic Animate, Animate Anyone, Shisa 7B, houou, Grok, Meditron, Qwen-72B, Qwen-Audioを追加しました。

大規模言語モデル

画像生成AI

マルチモーダルLLM

コード支援AI

コードの作成と実行を行うAI

音楽・音声生成AI

動画生成AI

種類 発表日 名前 パラメータ数 開発者・開発会社 特徴 商用利用 特化した言語
画像2014/6/GAN (Generative Adversarial Networks)Ian J.Goodfellow互いに競合する 2 つのニューラル ネットワーク (ジェネレーターとディスクリミネーター) で構成される。
音声2016/9/12WaveNetGoogle DeepMind従来より高い品質の音声を生成できるモデル。
LLM2018/6/11GPT-11億1700万OpenAI
LLM2018/11/2BERTGoogleTransformerからの双方向エンコーダ表現を使用。
画像2019/2/11Image GPTOpenAIGPT-2を利用。
LLM2019/2/14GPT-215億OpenAI
音楽2019/4/25MuseNetOpenAI10種類の楽器を使用して4分間の音楽を生成できるモデル。
音楽2020/4/30JukeboxOpenAIVQ-VAEを利用した音楽生成AI。
LLM2020/6/11GPT-31750億OpenAI
画像2020/6/19DDPM (Denoising Diffision Probabilistic Models)拡散モデルの論文。
画像2021/1/5DALL-E OpenAIGPT-3を利用し、テキストキャプションを含む画像で学習。
LLM2021/5/18LaMDAGoogleGoogleのチャットAI「Bard」に搭載されている。会話に特化。
LLM2021/6/14HyperCLOVA67, 130, 390億LINEヤフー、NAVER汎用言語モデル日本語
コード2022/6/21GitHub CopilotGitHub, Microsoft2021/6/29にテクニカルプレビュー用に発表。OpenAI Codex(GPT-3)を使用している。商用利用可能(サブスク)
LLM2021/8/14RWKVBlinkDLRNNをベースにしたモデル。GPTのように直接トレーニングすることができ、並列化が可能。
LLM2022/3/15GPT-3.5OpenAI
LLM2022/4/5PaLM5400億GooglePaLMはLaMDAより幅広い用途での利用が想定されている。
画像2022/4/6DALL-E 235億OpenAI拡散モデルを使用。
マルチ2022/4/28FlamingoDeepMindTransformerを多段に積み重ねるニューラルネットワーク構造を採用研究用途
マルチ2022/9/16PaLIGoogle画像についての質問に答えたり、キャプションをつけたりできる。
画像2022/5/24ImagenGoogleテキストから画像を生成する拡散モデルを使用した生成AI。
画像2022/7/12MidjourneyDavid Holz
音楽2022/7/26MusikaInstitute of Computational Perception at JKUあるジャンルの音楽を学習させるとそれに近い音楽を生成する。
画像2022/8/22Stable DiffusionStability AI拡散モデルを使用。
音楽2022/9/7AudioLMGoogle音声やピアノ音楽を入力してその続きを生成する。
音楽2022/9/30AudioGenMeta, Hebrew University of Jerusalem, AudioCraftテキストに従って音楽を生成する。AudioCraftというライブラリで使用可能。商用利用可能
音楽2022/10/20MubertMubertテキストに従って音楽を生成する。月額課金すると商用利用可能
音楽2022/11/4Dance DiffusionHarmonai (Stability AI)Dance Diffusionモデルを使用。ランダムな音楽の作成、二つの音楽の補間などができる。
LLM2022/11/30ChatGPTOpenAIOpenAIのチャットAI。GPT-3.5を対話用にfine-tuningしたもの。
音楽2022/12/3Audio DiffusionRobert Dargavel Smith拡散モデルを使用し、与えた音楽に基づいて新しい音楽を生成。
音楽2022/12/16RiffusionRiffusionテキストに従って音楽を生成する。
音楽2023/1/27MoûsaiFlavio Schneider, 
Ojasv Kamal, 
Zhijing Jin, 
Bernhard Schölkopf
Latent Diffusionモデルを使用。1分以上、多ジャンルの音楽をテキストから生成可能。
音楽2023/1/29AudioLDMHaohe LiuZehua ChenYi YuanXinhao MeiXubo LiuDanilo MandicWenwu WangMark D. PlumbleyLatent Diffusionモデルを使用し、テキストから音楽を生成。
音楽2023/2/13MusicLMGoogleテキストから音楽を生成。「AI Test Kitchen」に登録していると使える。
LLM2023/2/24LLaMa70, 130, 330, 650億Meta AI研究用途
LLM2023/3/13Alpaca70億Stanford UniversityLLaMAをベースとした軽量なモデル。研究用途
LLM2023/3/14GPT-4不明OpenAI可能
LLM2023/3/14Claude不明Anthropic可能(従量課金性)
LLM2023/3/20Alpaca-LoRAAlpacaトレーニングデータを使用してLLaMAをLoRAでtuningしたもの。
LLM2023/3/21BardGoogleGoogleのチャットAI。LaMDAの軽量バージョンを使用していた。現在はPaLM 2を利用。
LLM2023/3/30VicunaShareGPTから収集された会話を使ってLLaMAをtuningしたもの。
コード2023/4/13Amazon CodeWhispererAmazonコードに特化したLLM。Amazonのコードなどで学習。2022/6/23にプレビュー版がリリースされていた。商用利用可能
LLM2023/4/17RedPajama-Data-1T完全オープンソースのモデルを作成するプロジェクト。LLaMAトレーニングデータセットの再現が完了。
音楽2023/5/4RAVEAntoine Caillon, Philippe Esling高品質の音楽を合成するVAE。
LLM2023/5/11PaLM 2GoogleSGE (Search Generative Experience), Vertex AIで使用されている。多言語対応
LLM2023/5/15RWKV-RavenRWKVをベースにAlpaca、CodeAlpaca、Guanaco、GPT4All、ShareGPTなどのデータセットでfine-tuningしたモデル。
LLM2023/5/17Rinna-3.6B36億rinnaGPT言語モデル。オープンソース日本語
LLM2023/5/18OpenCALM68億サイバーエージェント商用利用可能日本語
LLM2023/5/31Rinna-3.6B-instruction-pporinna人間の評価を利用したGPT言語モデルの強化学習済み対話GPT言語モデル。オープンソース
音楽2023/6/12MusicGenMetaテキストや音楽から音楽を生成する。
LLM2023/7/12Claude2AnthropicAmazon Bedrockで使える。日本語にも対応
LLM2023/7/14RWKV-4-WorldBlinkDL100を超える世界の言語に対応
LLM2023/7/14RWKV-4-World-JPNtunedBlinkDLRWKVの日本語版。日本語
生成・実行2023/7/17Code Interpreter (Advanced Data Analysis)OpenAIサンドボックス実行環境でPythonコードを作成して実行できる。ファイルの読み取り、出力も可能。商用利用可能(サブスク)
LLM2023/7/19Llama 270~700億Meta, MicrosoftLlama 2 の事前トレーニング済みモデルは 2 兆個のトークンでトレーニングされ、Llama 1 の 2 倍のコンテキスト長を持つ。商用利用可能
画像2023/7/28Stable Diffusion XL (SDXL)Stability AI汎用的で高解像度の画像生成能力を持つ。商用利用可能英語
LLM2023/7/31Rinna-4B40億rinna汎用言語モデル、長期コンテキストモデル、対話言語モデル、画像対話モデル日本語、英語
LLM2023/8/10Japanese StableLM Alpha-7B70億Stability AI Japan商用利用不可日本語
LLM2023/8/11AIBunCho-6B60億インダストリアル・ドリーム小説に特化した文章の生成が可能。日本語
LLM2023/8/14japanese-large-lm36億, 17億LINEヤフー日本語
マルチ2023/8/17Japanese InstructBLIP AlphaStability AI Japan画像言語モデル(画像をもとにしたテキストが生成される)。研究用途日本語
LLM2023/8/18japanese-large-lm-instruction-sft36億LINEヤフーInstruction Tuningを用いてモデルをSupervised Fine-tuningしたもの。商用利用可能日本語
LLM2023/8/22WebLab-10B100億東京大学松尾研究室商用利用不可日本語、英語
コード2023/8/24Code Llama70, 130, 340億MetaLlama2のコードに特化したバージョン。商用利用可能
マルチ2023/8/24Qwen-VLAlibaba CloudQwenのマルチモーダル版。英語、中国語
LLM2023/8/29ELYZA-7BELYZALlama2ベースでGPT-3.5に匹敵する性能。商用利用可能日本語
LLM2023/9/6Falcon 1801800億Technology Innovation Institute因果デコーダ専用モデル。未加工の事前トレーニング済みモデルのため、ユースケースに合わせてtuningが必要。商用利用可能
生成・実行2023/9/6Open InterpreterKillianLucasLLMを使ってコード生成し、ローカル環境で実行できる。LiteLLMを使用してさまざまな言語モデルを使用可能。
マルチ2023/9/7Heron700億Turing大規模マルチモーダル学習ライブラリ。Turingは日本の自動運転の会社。不明日本語、英語
音楽2023/9/13Stable AudioStability AILatent Diffusionモデルを利用。音楽生成製品。商用利用可能
画像2023/9/20DALL-E 3OpenAIChatGPT plusで利用可能。
LLM2023/9/21Xwin-LM70, 130, 700億不明(中国科学院、精華大学の研究者が参加)Llama2ベース。AlpacaEvalベンチマークでGPT-4を超えた。不明
コード2023/9/21CodePlanMicrosoftリポジトリレベルのコーディングタスクに対応可能。研究段階。研究
LLM2023/9/27Mistral-7B70億Mistral AIすべてのベンチマークで Llama 2 13B を上回るパフォーマンス。
LLM2023/9/23Stable LM 3B-4E1T30億Stability AIデコーダ専用言語モデル。英語
マルチ2023/9/25GPT-4VOpenAI音声でのやりとり、画像による質問が可能。商用利用可能(サブスク)英語
LLM2023/9/28PLaMo-13B130億Preferred Networks商用利用可能日本語、英語
LLM2023/9/29Qwen-72B720億Alibaba CloudLlama2 70BやGPT-3.5を上回る性能。いくつかのベンチマークではGPT-4を上回る。中国語、英語など
LLM2023/10/3Stable LM 3B30億Stability AIノートPCなど計算能力のあまり高くないPCでも動作するように設計されたコンパクトな大規模言語モデル。商用利用可能
マルチ2023/10/5LLaVA-1.5ウィスコンシン大学、Microsoft画像や音声を入力として受け取り、それに関連する情報や質問にテキストや音声で応答することができる。研究用途英語
LLM2023/10/10Japanese StableLM Instruct Alpha-7B-v2Stability AI JapanJapanese StableLM Alpha-7Bを商用利用可能にしたもの(データセットが異なる)。商用利用可能日本語
マルチ2023/10/11FerretApple簡単な修正を加えることで、11のベンチマークで最先端の結果を達成。このモデルはデータ効率が良く、1.2Mの公開データを使用して1日でトレーニングが可能。研究用途英語
LLM2023/10/12Qwen70, 140億Alibaba Cloud3兆トークンのデータセットで事前学習を行なったモデル。中国語、英語
マルチ2023/10/14MiniGPT-v2キング・アブドラ科学技術大学、MetaLlama2ベース。画像を言葉で説明し、物体検出も行うことができる。不明
マルチ2023/10/14PaLI-350億Google画像に関する質問に答えることができる。
マルチ2023/10/15BaKLLaVA-1Skunkworks AI, Ontocord, LAIONMistral-7Bベース商用利用不可
マルチ2023/10/17Fuyu-8B80億Adeptモデルのアーキテクチャがシンプル。小型。高速応答が可能。研究用途
LLM2023/10/17Ernie 4.0BaiduBaiduは発表に際し「Ernie 4.0はOpenAIのGPT-4に匹敵する性能を持つ」と述べている。不明中国語
LLM2023/10/20LLM-jp-13B130億国立情報学研究所 (NII)研究目的で公開。不明日本語
LLM2023/10/25Japanese Stable LM 3B-4E1T30億Stability AI継続事前学習(Continued Pretraining)と呼ばれるアプローチが特徴。商用利用可能日本語
LLM2023/10/25Japanese Stable LM Gamma 7B70億Stability AI継続事前学習(Continued Pretraining)と呼ばれるアプローチが特徴。商用利用可能日本語
LLM2023/10/26Stockmark-13B130億Stockmark独自に収集したビジネスに関するデータも事前学習に使用。不明日本語
LLM2023/10/27Zephyr-7B-Beta70億Hugging Face H4Mistral-7Bの微調整バージョン。研究用途英語
LLM2023/10/31Youri-7B70億rinnaLlama 2 7Bに対して日本語の学習データを用いて継続事前学習を行ったもの。不明日本語
LLM2023/11/1tsuzumi6, 70, 130億NTT人間情報研究所ゼロから学習して作り上げたLLM。日本語、英語
LLM2023/11/2Japanese Stable LM Beta700億Stability AI JapanLlama 2のbaseモデルに対して継続事前学習を行ったもの。商用利用可能日本語
LLM2023/11/2CALM270億サイバーエージェント商用利用可能日本語
LLM2023/11/2OpenChat-3.5-7B70億imoneoi7BのパラメータだがChatGPTと同等のパフォーマンス。商用利用可能
LLM2023/11/1PLaMo-13B-Instruct130億Preferred Networks指示学習商用/非商用
マルチ2023/11/7Qwen-AudioAlibaba CloudQwen-Audio-Chatは、様々なオーディオおよびテキストの入力が可能。
マルチ2023/11/13Japanese Stable VLMStability AIJapanese Stable LM Instruct Gamma 7B」をベースとした日本語画像言語モデル。商用利用可能日本語
コード2023/11/15ELYZA-japanese-CodeLlama-7b70億ELYZA「Code Llama」ベースのコード生成と補完に特化したLLM。商用利用可能日本語
マルチ2023/11/15Japanese Stable CLIPStability AI日本語テキストから画像を検索、画像からテキストを検索できる。日本語
マルチ2023/11/17Japanese Stable Diffusion XLStability AItext-to-imageモデル。英語版のStable Diffusion XL (SDXL)を日本語に対応させたもの。日本語
音楽2023/11/17LyriaGoogle DeepMindLyriaを用いて音楽制作ができるツール「Dream Track」を発表。「Music AI Tools」もリリース予定。
SLM2023/11/18Orca2-2-13b130億MicrosoftLlama2のfine-tuningバージョン。小規模であるがGPT-4などのLLMに匹敵する性能を示す。研究用途
LLM2023/11/21Claude 2.1Anthropic200kトークンまで送信できる。Claude 2.0と比較して幻覚が2倍起きにくい。
動画2023/11/22Stable Video DiffusionStability AIStable Diffusionをベースとして動画生成する。商用利用可能
動画2023/11/23Magic AnimateByteDance人物の画像から動画を生成する。ビデオ拡散モデルと外観エンコーダにより滑らかな遷移を実現。
LLM2023/11/27Meditron-70B700億Google医療分野に特化。Llama-2ベースでPubMedの論文などの広範囲にわたる医療コーパスで事前トレーニング。
LLM2023/11/27Shisa 7BAUGMXNTMistral 7Bをベースとし、日本語に最適化されている。商用利用可能英語、日本語
動画2023/11/28Animate AnyoneAlibaba Cloud静止画像からキャラクタービデオを生成。ReferenceNetを用いて参照画像から詳細な外観特徴を抽出。
LLM2023/11/29pplx-7b-online, pplx-70b-online70億、700億PerplexityAIインターネット上の最新情報を活用して、最新の回答を提供。pplx-apiを通じて一般に公開されている。
LLM2023/12/6houou70億Money Forward, 理化学研究所rinnaのYouri7Bについてinstruction tuningを行なった。日本語
LLM2023/12/7Grok330億xAIX Premium Plus加入者は使用できる。一般公開の予定は今のところなし。英語、日本語にも対応
マルチ2023/12/7Gemini (Gemini Ultra, Gemini Pro, Gemini Nano)GoogleVertex AIに搭載予定。PaLM 2をベースに構築。Ultraは高性能かつ最大のモデル、Proは幅広いタスク向け、Nanoはデバイス向け。
LLM2023/12/8StripedHyena-7Btogether.aiLlama 2, Mistral 7Bと同等の性能。高速でメモリ効率が良い。
LLM2023/12/11Mixtral 8x7B467億Mistral AI多くのベンチマークでGPT-3.5やLlama 2 70Bを上回る。Mistral 7Bをベースにモデルの一部を8倍にしたもの。商用利用可能
LLM2023/12/12Phi-227億Microsoftパラメータ数が130億未満の言語モデルの中で最先端のパフォーマンス。
画像2023/12/13Imagen 2Googleテキストから画像を生成。Vertex AIで使用できる。電子透かし「SynthID」が組み込まれている。
LLM2023/12/14MedLMGoogle医療業界向け。Vertex AIを通して米国で提供を開始。PaLM2ベースだが今後Geminiベースのモデルを導入する予定。
音楽2023/12/14Suno AISunoテキストから歌詞・歌・伴奏を生成。
LLM開発中未定1750億産総研産総研の他にも東京工業大学や、国立情報学研究所が主宰するLLM研究開発チーム「LLM-jp」(東北大学や東京大学、早稲田大学などが参加)も加わる。日本語
LLM開発中未定3500億ソフトバンク2024年内に3500億パラメーターの国産LLMの構築を目指す。大学や研究機関、企業などに提供する計画もあるという。

コメント

タイトルとURLをコピーしました