- これだけ読めば大丈夫!1ヶ月ニュース要約
- 新サービス
- 新しい生成AI
- ニュース
- AIの活用と未来
- 新しい大規模言語モデル(LLM)
- LLMの新技術
- LLM訓練では事前学習とfine-tuningのデータ関連性が性能向上の鍵
- LLMに外部知識を取り入れる手法「fine-tuning」と「RAG」の比較
- 複数の専門家モデルを組み合わせた拡散モデル「SegMoE」
- LLM同士が互いの知識を検証する手法
- 既存LLM融合による「知識融合」手法開発
- 自己報酬型言語モデルの開発、米Metaが発表
- GoogleとMIT、AI生成の文章/画像だけで学習する手法「SynCLR」開発
- Google開発、LLM内部動作説明手法「Patchscopes」
- Google医療面接特化AI「AMIE」の研究結果
- LLMの検索結果を正確にする手法「CRAG」
- LLMのサイズを効率的に小さくする「SliceGPT」
- その他技術
- 技術まとめ
これだけ読めば大丈夫!1ヶ月ニュース要約
新サービス
OpenAI、GPT-4の性能向上&新モデル追加など
- 新しいモデルのリリース
- 2つの新しい埋め込みモデル:埋め込みとは、自然言語やコードなどのコンテンツ内の概念を表す数値のシーケンスです。埋め込みは、機械学習モデルや他のアルゴリズムがコンテンツ間の関係を理解し、クラスタリングや検索などのタスクを実行するのを容易にします。ChatGPTやAssistants APIでの知識検索、多くの検索拡張生成(RAG)開発者ツールに活用されています。
- 小型で効率的なtext-embedding-3-smallモデル
- 大型でより強力なtext-embedding-3-largeモデル
- 更新されたGPT-4 Turboプレビューモデル:gpt-4-0125-previewをリリースしています。このモデルは、以前のプレビューモデルよりもコード生成などのタスクをより徹底的に完了し、モデルがタスクを完了しない「怠惰」なケースを減らすことを目的としています。
- 更新されたGPT-3.5 Turboモデルと価格引下げ:新しいGPT-3.5 Turboモデル、gpt-3.5-turbo-0125を導入し、過去1年間で3度目のGPT-3.5 Turboの価格引下げを行い、お客様のスケールアップを支援します。
- 更新されたテキストモデレーションモデル:無料のModeration APIを使用すると、開発者は潜在的に有害なテキストを特定できます。
- デフォルトでは、OpenAI APIに送信されたデータはOpenAIモデルの訓練や改善には使用されません。
- 2つの新しい埋め込みモデル:埋め込みとは、自然言語やコードなどのコンテンツ内の概念を表す数値のシーケンスです。埋め込みは、機械学習モデルや他のアルゴリズムがコンテンツ間の関係を理解し、クラスタリングや検索などのタスクを実行するのを容易にします。ChatGPTやAssistants APIでの知識検索、多くの検索拡張生成(RAG)開発者ツールに活用されています。
- 開発者がAPIキーを管理し、API使用状況を理解するための新しい方法の導入
- 開発者はAPIキーのページからAPIキーに権限を割り当てることができるようになりました。
- トラッキングをオンにした後、使用状況ダッシュボードと使用状況エクスポート機能はAPIキーレベルでの指標を公開するようになります。
BardからGeminiへ:Ultra 1.0とアプリ発表
- Googleは、AIを活用して想像力を刺激し生産性を高めるための新しい方法としてBardを提供してきましたが、今後は「Gemini」という名前になります。
- 「Gemini Advanced」は、より高性能なAIモデル「Ultra 1.0」を搭載しており、複雑なタスクの能力が大幅に向上し、より長く詳細な会話や以前のコンテキストに基づいた質問への理解能力が向上します。
- AndroidとiOSで利用可能な新しいGeminiアプリを発表し、外出先でもテキストや画像で質問や会話が可能になります。
Docker設定省力化の「Docker Init」リリース
- 2023年5月、Dockerは新しいコマンドラインインターフェース(CLI)ツール「docker init」のベータ版を発表しました。
- 「docker init」は、プロジェクトの性質に基づいてDockerfile、Composeファイル、.dockerignoreファイルを自動生成し、Docker設定に関連するセットアップ時間と複雑さを大幅に削減するコマンドラインユーティリティです。
- 初期のベータリリースではGoと汎用プロジェクトのみをサポートしていましたが、最新バージョン(Docker Desktop 4.27で利用可能)ではGo、Python、Node.js、Rust、ASP.NET、PHP、Javaをサポートしています。
- 「docker init」の使用は簡単で、プロジェクトディレクトリに移動し、ターミナルで「docker init」コマンドを実行するだけです。このコマンドはツールを起動し、プロジェクトを分析します。その後、アプリケーションに最適なテンプレートを選択し、プロジェクト固有の情報を求められた後、必要なDockerリソースが自動的に生成されます。
- 「docker init」を使用する理由は、Docker化プロセスを簡素化し、Dockerに新しいユーザーでもアクセスしやすくすることです。手動でDockerfileやその他の設定ファイルを一から書く必要がなくなり、時間の節約とエラーの可能性を減らします。
Mircrosoftが月額20ドルの「Copilot Pro」を開始
- Copilot Proという新しいプレミアムサブスクリプションが個人向けに導入されました。これにより、Microsoft 365 PersonalおよびFamilyサブスクライバーにCopilot AI機能が提供されます。
- Copilot Proは
- OpenAIのGPT-4 Turboへの優先アクセス
- AIによる画像作成の強化
- 特定のトピックに特化したCopilot GPTを作成する機能
- Copilot for Microsoft 365は、企業や組織向けに提供される
- Copilotの新機能
- 特定のトピックに特化したCopilot GPTs
- AndroidとiOS用のモバイルアプリの提供
- Microsoft 365モバイルアプリにもCopilotが追加される
新しい生成AI
Googleが「Imagen 2」ベースの画像生成AIツール「ImageFX」をリリース
- Googleは、Imagen 2によって駆動される新しい画像生成ツール「ImageFX」をリリースしました。これは、Google DeepMindの最新のテキストから画像へのモデルであり、これまでで最高品質の画像を提供します。
- ImageFXは、シンプルなテキストプロンプトで画像を作成できる新しいツールで、「表現チップ」というプロンプトインターフェースを含んでおり、創造とアイデアの隣接する次元を迅速に実験できます。
- アメリカ、ニュージーランド、ケニア、オーストラリアで利用可能で、labs.googleでこれらの実験を試すことができます。
Metaのコード生成AIモデル「Code Llama 70B」リリース
- 2024年1月29日に、Code Llama 70Bをリリースしました。これはCode Llamaファミリー内で最大かつ最高性能のモデルです。
- Code Llama 70Bは、研究および商業利用のために無料で提供される3つのバージョン(基本のコードモデル、Python専用モデル、自然言語指示を理解するためにファインチューニングされたモデル)で利用可能です。
- Code Llamaは、コードと自然言語のプロンプトの両方からコードおよびコードに関する自然言語を生成できる最先端の大規模言語モデル(LLM)です。
- Code LlamaはPython, C++, Java, PHP, Typescript (Javascript), C#, Bashなど、現在最も人気のある言語をサポートしています。
- Code Llamaは7B、13B、34B、70Bの4つのサイズでリリースされ、70Bモデルは1Tトークンでトレーニングされています。
- Code Llama – PythonはPythonコードでファインチューニングされ、Code Llama – Instructは自然言語指示を理解するためにファインチューニングされています。
- Code Llamaは一般の自然言語タスクには推奨されず、コード特有のタスクに特化しています。
Stability AIの新コーディングAI「Stable Code 3B」リリース
- Stable Code 3Bは、30億パラメータを持つ大規模言語モデル(LLM)であり、CodeLLaMA 7bのような2.5倍大きなモデルと同等レベルの正確で反応の良いコード補完を提供します。
- 一般的なノートパソコン(MacBook Airなど)上でGPUなしでもオフラインで動作します。
- 2024年の最初の大規模言語モデルリリースとしてStable Code 3Bを発表。これは、コード補完に特化した新しい最先端モデルで、Stable Code Alpha 3Bや初のメジャーなStable Codeリリースに続くものです。
- CodeLLaMA 7bと比較して、Stable Code 3Bは60%小さく、複数のプログラミング言語にわたる同様の高いレベルのパフォーマンスを備えています。
- 4兆トークンの自然言語データで訓練されたStable LM 3B基礎モデルに基づき、ソフトウェアエンジニアリング特有のデータ、コードを含むデータでさらに訓練されました。
Googleの動画生成AI「Lumiere」発表
- Lumiereは、リアルで多様、かつ一貫した動きを描写するビデオを合成するために設計されたテキストからビデオへの拡散モデルです。
- このモデルは、Space-Time U-Netアーキテクチャを導入しており、ビデオの全時間範囲をモデルの単一パスで一度に生成します。これにより、効率的にビデオ合成が可能になります。また、既存のビデオモデルが遠く離れたキーフレームを合成した後に時間的超解像を行うアプローチとは異なり、Space-Time U-Netはビデオ全体での時間的一貫性を保ちやすくなります。
- 空間的および(重要なことに)時間的なダウンサンプリングとアップサンプリングを展開し、事前訓練されたテキストから画像への拡散モデルを活用することで、複数の空間時間スケールで処理することにより、フルフレームレートの低解像度ビデオを直接生成することができます。
DeepMindが幾何学問題解決AI「AlphaGeometry」開発
- AlphaGeometryは、国際数学オリンピックのような複雑な幾何学問題を解決できるAIシステムで、人間の金メダリストに近いレベルで問題を解決します。
- 30問の幾何学問題のベンチマークテストで、AlphaGeometryは標準時間内に25問に解答しました。以前の最先端システムは10問、平均的な人間の金メダリストは25.9問を解答します。
- AlphaGeometryは、ニューラル言語モデルと規則に基づく推論エンジンを組み合わせて解を見つけ、合成トレーニングデータ(1億個のユニークな例)を生成する方法を開発しました。
- このAIシステムは、幾何学問題に必要な新しい幾何学的構造を追加するために、言語モデルが有用な構造を予測し、シンボリックエンジンが図形についてのさらなる推論を行うことを可能にします。
- AlphaGeometryは、合成データ生成アプローチを使用してゼロから訓練され、数学やその他の分野で新しい知識を発見し検証するAIの能力を示しています。
ニュース
JAXAの「SLIM」プロジェクト、日本初の月面着陸に成功
- JAXAの「SLIM」プロジェクトは、2023年12月25日に月周回軌道に投入され、2024年1月20日に日本初の月面着陸に成功しました。
- 着陸地点は目標地点から東に55m程度離れており、高精度(4m以下)で着陸することを目指しましたが、メインエンジンの一部に異常が発生し、計画と異なる姿勢で着陸しました。
- 着陸後、太陽電池が西を向いていたため電源を一時オフにし、太陽光が当たるのを待って観測運用を開始しました。
- 「トイプードル」と名付けた対象を含む周辺撮像を行い、科学観測データを取得しました。
- 着陸に至る航法誘導や月面での航法カメラ画像データなど、ピンポイント着陸技術に必要な技術データを全て取得できました。
- 月面では14日間の昼と、14日間の夜が交互に訪れます。夜になったため現在SLIMは休止中ですが、昼になるとまた動作できる可能性があります。引き続き復旧へ向けた準備を進めています。
Google CloudとHugging FaceのAI開発者向け提携
- Hugging Faceは、オープンモデルとオープンソース技術を活用して、全ての企業が自社のAIを構築できるようにすることを目指しています。
- Google Cloudとの戦略的パートナーシップを通じて、良質な機械学習を民主化することを発表しました。
- この協力関係は、オープンサイエンス、オープンソース、クラウド、ハードウェアの分野でGoogleと共同で行われ、Hugging Faceの最新のオープンモデルとGoogle Cloudの最新のクラウドおよびハードウェア機能を企業が利用できるようにします。
- Google Cloudの顧客は、Google Kubernetes Engine (GKE) と Vertex AI 内でHugging Faceモデルを簡単にトレーニングし、デプロイできるようになり、Google Cloudの独自のハードウェア機能を活用できるようになります。
- Hugging Face Hubのユーザーは、2024年を通じて新しい体験を利用できるようになり、Google Cloudでの生産用デプロイや、Hugging Face SpacesでのTPUを活用したアプリケーションの加速、Google Cloudアカウントを使用したEnterprise Hubサブスクリプションの使用と請求の管理が可能になります。
AIの活用と未来
Google, OpenAI, Metaがデジタルコンテンツ来歴情報を明示
- Googleは、デジタルコンテンツの透明性向上のため、コンテンツの出所と真正性に関する連合(C2PA)に加わり、デジタルコンテンツの出所証明に関するグローバルな標準化団体として、改ざん防止メタデータの技術標準であるContent Credentialsの採用を強化しています。
- OpenAIは、WebおよびAPIで提供するDALL·E 3モデルを通じて生成された画像にC2PAメタデータを含め、これにより画像がOpenAIのツールを通じて生成されたことを示すようにしていますが、このメタデータは容易に削除可能であるため、メタデータがない画像が必ずしもOpenAIのツールを使用して生成されたわけではない可能性があります。
- Metaは、AIによって生成されたコンテンツを特定するための共通の技術標準に関して業界パートナーと協力し、Facebook、Instagram、Threadsに投稿された画像がAIによって生成されたことを示す業界標準の指標を検出できる場合にラベルを付ける計画です。また、Meta AI機能を使用して生成されたフォトリアリスティックな画像には「AIで想像された」というラベルを適用しています。
- C2PA(コンテンツの出所と真正性に関する連合)は、デジタルコンテンツの透明性を高め、誤情報やディープフェイクに対抗するため、デジタルコンテンツの出所と変更履歴に関する信頼できるメタデータを提供し、その出所と真正性を証明する技術標準を開発・推進するグローバルな標準化団体です。
OpenAIアルトマンCEO、AIチップ工場建設のため資金調達計画
- OpenAIのCEO、Sam Altmanは、世界の半導体産業を刷新するために数兆ドルの投資を求めているとウォール・ストリート・ジャーナルが報じた。
- AIチップの供給と需要の問題に長らく取り組んできたAltmanは、世界のチップ製造能力を増やすプロジェクトを検討中であり、アラブ首長国連邦の政府を含む様々な投資家と話し合っているという。
- この取り組みには、5兆ドルから7兆ドルの資金調達が必要になる可能性があるとウォール・ストリート・ジャーナルは一つの情報源を引用して報じた。CNBCはこの数字を確認できなかった。
- Altmanは、世界には現在計画されているよりも多くのAIインフラが必要だと述べ、大規模なAIインフラストラクチャとサプライチェーンの構築が経済競争力に不可欠だとして、OpenAIが支援を試みると述べた。
AWSが国内クラウドインフラに巨額投資
- AWSは、2027年までに東京と大阪のクラウドインフラに2兆2,600億円を投資する計画であることを発表しました。
- この投資により、日本のGDPに5兆5,700億円の貢献と、年間平均30,500人以上の雇用が見込まれます。
- AWSは日本でのデジタルトランスフォーメーション(DX)を支えるため、2009年に最初のオフィスを開設し、2011年に東京リージョン、2021年に大阪リージョンを開設していました。
- AWSは生成AIを活用して企業のイノベーションを加速させるため、生成AIイノベーションセンターに1億ドルを投資し、無料・低価格のトレーニングコースを提供しています。
国産生成AI基盤モデル開発を政府が支援「GENIAC」
- 経済産業省が生成AIの開発力強化のためのプロジェクト「GENIAC」を発表しました。
- 基盤モデル開発に必要な計算資源の提供支援や関係者間の連携促進、対外発信を目的としています。国内の有力AI企業と共に、基盤モデルの開発に必要な計算資源の支援やマッチングを行います。
- 参加企業・機関はABEJA、Preferred Elements、東京大学、Sakana AI、ストックマーク、情報・システム研究機構、Turingなどです。
- NEDOの「ポスト5G情報通信システム基盤強化研究開発事業」を活用し、計算資源の確保と利用料補助を提供します。
生成AI業界団体「Generative AI Japan」発足
- 「Generative AI Japan」(ジェナイ)が1月17日に発足しました。発起人はベネッセコーポレーションとウルシステムズで、代表理事は慶應義塾大学医学部の宮田裕章教授です。
- 理事には日本マイクロソフト、AWSジャパン、グーグルクラウドジャパン、日本オラクルの幹部や、東京大学公共政策大学院、松尾研究所、デジタルハリウッド大学の学者が参加しています。
- 小林史明衆議院議員が生成AIの日本での活用に期待を表明しました。
- 宮田教授は産学連携での人材育成とルール作りの重要性を強調し、生成AIを活用できる環境整備の必要性を訴えました。
新しい大規模言語モデル(LLM)
中国Abacus AIの「Smaug-72B」が世界最高のオープンソースLLMに
- Abacus AIが「Smaug-72B-v0.1」というモデルをリリースし、HuggingFaceのOpen LLM Leaderboardで第1位を獲得しました。
- Smaug-72Bは、moreh/MoMo-72B-lora-1.8.7-DPOからファインチューニングされ、Qwen-72Bに基づいています。
- 新しい技術に関する技術レポートをarXivに公開予定で、オープンソースコミュニティと共有します。
春に登場する国産「小さいLLM」、LLM利用の需要を開拓するか
- 2024年、国内大手ITベンダーが大規模言語モデル(LLM)サービスを提供開始予定です。NTTは「tsuzumi」、NECは「cotomi」をそれぞれ提供します。
- 国産LLMは、OpenAIのGPTシリーズと比較してコンパクトなサイズが特徴です。
- GPTシリーズはパラメーター数を増やすことで性能向上を図っていますが、国産LLMは相対的に小さいサイズです。NECのcotomiは130億、NTTのtsuzumiは70億と6億の2種類を提供します。
- 国産LLMの狙いの一つは、ユーザー企業がオンプレミス環境でLLMを利用できるようにすることです。これにより、外部にデータを出さずにLLMを利用可能になります。
完全にオープンソースなLLM「OLMo-7B」
- Allen Institute for AI (AI2)によって開発されたOLMoモデルはDolmaデータセットで訓練されており、全てのコード、チェックポイント、ログ(近日中に提供予定)、訓練に関わる詳細が公開される、「完全にオープンソース」なLLMです。
- OLMo 7Bは2.5兆のトレーニングトークンを持ち、32層、4096の隠れ層サイズ、32のアテンションヘッド、2048のコンテキスト長を特徴としています。
- 7Bモデルのコアモデル結果として、多様なNLPタスクにおいて高い性能を示します。
- モデルには安全フィルタリングがないため、有害または敏感なコンテンツを生成する可能性があります。
LLMの新技術
LLM訓練では事前学習とfine-tuningのデータ関連性が性能向上の鍵
- LLMは、インターネット上の大量の文章から学びます。これを「事前学習」と呼びます。そして、特定のタスク(例えば翻訳)にさらに「fine-tuning」されます。
- この研究では、どれだけ多くのデータで事前学習するか、そしてそのデータがタスクにどれだけ関連しているかが、タスクのパフォーマンスに大きく影響するかを調べています。
- タスクのパフォーマンスは、2つの方法で評価されます:1つは、LLMがどれだけ正確に翻訳するか、もう1つは「BLEUスコア」という、翻訳の質を数値で表したものです。
- 事前学習データがタスクにより密接に関連している場合、より多くのデータで学習するほど、タスクのパフォーマンスが向上します。
- しかし、事前学習データがタスクとあまり関連していない場合、パフォーマンスが向上しないことがあります。
LLMに外部知識を取り入れる手法「fine-tuning」と「RAG」の比較
- LLMは、たくさんの知識を学んでいるが、その学んだ内容は学習したデータに限られています。
- 新しい情報を追加するか、すでに知っていることをよりよく理解するために、外部からの情報を取り入れる方法がありますが、これは難しい作業です。
- 教師なしファインチューニング(自分で学び直す)とRAG(他から情報を取り入れる)という二つの方法を比較しました。
- 色々なタスクでこれらの方法を試した結果、RAGの方が新しい情報も既知の情報もより良く理解できることがわかりました。
- LLMsは自分で新しいことを学ぼうとすると苦労するが、多くの異なる例を見せることで改善できるかもしれません。
複数の専門家モデルを組み合わせた拡散モデル「SegMoE」
- SegMoE(Segmind Mixture of Diffusion Experts)は、MoE(Mixture of Experts、専門家の混合)の概念を拡散モデルに適用したものです。
- MoEは、複数の専門家(小さなモデルやサブモデル)が特定のタスクや問題の一部に特化して処理を行い、その結果を組み合わせて全体の出力を生成する機械学習のアプローチです。
- SegMoEでは、このアプローチを拡散モデルに適用し、複数の「専門家」拡散モデルを組み合わせて、画像生成などのタスクにおいて高い性能を実現しています。
- 「専門家」モデルとは特定のタスクや情報処理に特化した個別の拡散モデル(Diffusion models)を指します。これらは、特定の領域やタスクにおいて高いパフォーマンスを発揮するように訓練されています。
- SegMoEは、これら複数の専門家モデルを組み合わせることで、それぞれのモデルの強みを活かし、全体としてより幅広いタスクやより複雑な問題に対応できる強力なモデルを作り出します。
- この方法では、必要な情報だけをピックアップして、より正確かつ速い生成が可能になります。
- このプログラムは誰でも簡単に使えるように設計されており、少しの手順で自分だけのモデルを作ることができます。
- 結果として、このプログラムはさまざまなタイプの生成タスクにおいて、高い性能を発揮します。
LLM同士が互いの知識を検証する手法
- 大規模言語モデル(LLMs)は、世界の知識が常に更新されるため、いつも最新の情報を持っているわけではありません。
- 研究者たちは、LLMが情報が不足しているときに、間違った答えを避けるためにどうすればよいかを調べています。
- 今までの方法では、モデルを調整して、自信がない答えを避けるようにしていました。
- しかし、それだけでは十分ではないため、研究者たちは、複数のLLMsを使って互いに情報の欠如を確認し合う新しい方法を考えました。これには、協力的または競争的な方法があります。
- 協力的アプローチでは、複数のLLMが情報を共有し合い、お互いの知識を補完することで、より正確な答えを出すことを目指します。
- 競争的アプローチでは、複数のLLMがそれぞれ独立して答えを出し、その中から最も信頼性の高い答えを選択することで、正確な情報を提供しようとします。
- 実験では、この新しい方法が、質問に答えない方が良い場合の判断において、従来の方法よりも最大19.3%良い結果を出しました。
- このアプローチは、特に複雑な問題を解決しようとする際に、どの情報が不足しているかをより良く把握するのに役立つことがわかりました。
既存LLM融合による「知識融合」手法開発
- AIの開発では、大規模な言語モデル(LLMs)を一から作ることが一般的ですが、これには膨大なコストがかかり、似たような機能を持つモデルが多数生まれる可能性があります。
- そこで、効率的な解決策として、既存のLLMsを組み合わせて、新しい、より強力なモデルを作成するアプローチが提案されています。しかし、異なる構造を持つモデル同士を直接統合するのは技術的に困難です。
- 本研究では、「知識融合」という新しい手法を導入し、異なるLLMsの特長を組み合わせて、それらの知識を一つのモデルに転移させることを目指します。これにより、ターゲットモデルはソースモデル各々の能力を超えるパフォーマンスを発揮する可能性があります。
- 具体的には、LLMsの生成する分布を活用し、複数のモデルの知識を一つに集約して、ターゲットモデルの機能を向上させます。このプロセスは、推論力や常識の理解、コード生成など、様々なタスクにおけるモデルの性能を大幅に改善することが期待されます。
- Llama-2、MPT、OpenLLaMAといった異なるアーキテクチャを持つ人気のLLMsを用いた実験を通じて、知識融合による性能向上の効果を確認しました。これにより、より複雑な問題解決能力を持つAIモデルの開発が可能になると考えられます。
自己報酬型言語モデルの開発、米Metaが発表
- LLMが人間よりも賢くなるには、人間よりも賢いアドバイスが必要とされています。
- 現在は、人間が好むものに基づいてLLMを訓練していますが、この方法では人間の能力に限界があるため、プログラムがさらに良くなるのは難しいです。
- この研究では、LLM自身が訓練中に自分に報酬をあげる「Self-Rewarding Language Models(自己報酬言語モデル)」を試しています。これは、LLMが自分自身を評価し、良い仕事をした時に自分自身を褒めるようなものです。
- 試験結果によると、この方法で訓練されたLLMは指示に従う能力が向上し、自分自身に良い報酬をあげることができるようになりました。
- この新しい方法で訓練されたLLMは、既存の多くのLLMよりも優れた結果を出しました。
- この研究から、LLMが自分で自分をどんどん良くしていく可能性があることが示されました。
GoogleとMIT、AI生成の文章/画像だけで学習する手法「SynCLR」開発
- SynCLRは、実際の写真やテキストを使わずに、コンピュータが生成した画像と文章から画像を理解する方法を学ぶ新しい技術です。
- 最初に、大量の文章(キャプション)をLLMが作り出し、その文章に基づいて関連する画像をtext to image AIが生成します。
- 同じ文章から生成された画像を「似ている」とみなして、それらの画像から何が写っているかを学ぶプロセスを行います。
- この方法で学んだ知識は、画像を分類するタスクや、画像の中の物体を正確に認識するタスクなど、さまざまな問題に応用できることがわかりました。
- 特に、画像の中の物体の境界を正確に識別するタスクでは、既存の他の方法よりもずっと良い結果を出すことができました。
- つまり、SynCLRは、実際の画像やテキストデータを使わなくても、コンピュータが画像を理解する能力を向上させることができる新しい手法です。
Google開発、LLM内部動作説明手法「Patchscopes」
- LLMは、情報を特別な方法で保存して、質問に答えたり文章を作ったりすします。これを「隠れた表現」と呼びます。
- 私たちは、LLMの「隠れた表現」を人間が理解できる言葉で説明できるようにする新しい方法を考えました。これを「Patchscopes」と呼びます。
- Patchscopesはプログラムが自分の「考え方」を私たちに教えてくれるようにするツールです。
- これまでにもLLMの「考え方」を理解しようとする方法はありましたが、「Patchscopes」はそれらの問題点を改善し、新しいこともできるようにします。
- 例えば、「Patchscopes」は、より高度なLLMを使って、より単純なLLMがどう情報を処理しているかを説明することができます。これは、LLMが自分自身を直すのにも役立ちます。
Google医療面接特化AI「AMIE」の研究結果
- 医者と患者の会話は、良い診断と信頼関係を築くために重要です。
- 医者のように話して診断ができるAIがあれば、どこでも良質な医療サービスを受けられるようになりますが、それを実現するのは難しい課題です。
- Googleが開発した「AMIE」というAIシステムは、患者との会話を通じて診断を助けるために開発されました。
- AMIEは、病気の種類や治療方法など、さまざまな医療情報を学ぶために、特別なシミュレーション環境を使います。
- このAIは、問診の方法や診断の正確さ、患者への共感など、多くの面で医者のパフォーマンスを模倣することを目指しています。
- 実際の医者と比べてみると、AMIEは多くの場面で同等かそれ以上の結果を出しましたが、まだ実際の医療現場で使う前に解決すべき問題もあります。
- この研究は、AIが医療の分野でどのように役立つかの可能性を示していますが、実際に人々の健康を診るためには、さらに多くの研究と開発が必要です。
LLMの検索結果を正確にする手法「CRAG」
- 大規模言語モデル(LLM)は、文章を自動で作ることができますが、時に間違った情報を作り出してしまうことがあります。
- これを補うために、以前に集めた情報(文書)を参考にして文章を生成する方法(RAG)があります。しかし、参考にする情報が間違っていたり、関係ない場合があります。
- このような問題を解決するために、「修正型情報検索を利用した生成(CRAG)」という新しい方法を考えました。これは、文章を生成する際の堅牢性(信頼性)を高める方法です。
- この方法では、集めた情報がどれくらい役立つかを評価する小さなプログラムを使って、情報の質に基づいてどのような行動を取るかを決めます。
- ただし、限られた情報源からは最適な情報が得られないこともあるため、インターネット上の広範囲な情報を使って、より良い情報を探します。
- さらに、集めた情報から本当に必要な情報だけを選んで、関係ない情報は除外するための特別な手順を設計しました。
- CRAGは簡単に他の方法と組み合わせて使えるようになっています。
- 短い文章から長い文章まで、様々なタイプの文章を生成する実験で、CRAGを使うと、以前の方法よりもずっと良い結果が得られることがわかりました。
LLMのサイズを効率的に小さくする「SliceGPT」
- 自然言語処理において重要な役割を果たすLLMは、多くのコンピュータリソースを必要とします。
- LLMを効率的に動かすために、LLMの一部を削除する(スパース化)技術がありますが、既存の方法は完璧ではありません。
- SliceGPTはLLMをもっと効率的にする方法です。この方法では、プログラムが使う情報の量を減らします。具体的には、プログラムが持っている「重み行列」という部分を、より小さな行列で置き換えます。これにより、プログラムが必要とするメモリ量を減らし、より速く動かせるようになります。
- 「重み行列」は、LLMがどの情報をどのくらい重要視するかを決める部分です。SliceGPTでは、この部分を小さくしても、LLMが正しく機能するための重要な情報は保ちながら、不必要な情報は削減します。
- 実験では、この方法がうまく機能し、LLMが必要とするリソースを大幅に削減できることが示されました。
その他技術
立教大、大量メモリ不要の新画像認識手法開発
- 立教大学が、大量のメモリを必要としない新しい画像認識手法「動的フィルタ」を開発しました。
- 「フーリエ変換」を用いて、グローバルフィルタと注意機構 (Attention)のメリットを組み合わせた技術です。
- 研究成果は、カナダ・バンクーバーで開催される国際会議「AAAI-24」で発表予定です。
- 注意機構 (Attention)は重要な情報に焦点を当てますが、大量のメモリを必要とします。また、グローバルフィルタは高速フーリエ変換ベースの手法で、大量のメモリを必要とせず、計算量も穏やかに増加します。
- 動的フィルタは、グローバルフィルタに注意機構の利点を採用し、データに応じて重みが計算され、その重みと基底フィルタからデータに応じたフィルタを動的に生成します。動的フィルタは、高解像度の画像認識においても少ないメモリ消費や計算時間で済みます。
- 新たな画像認識モデル「DFFormer」と「CDFFormer」が提案されました。
AppleとUCSB、テキストベース画像編集「MGIE」発表
- 指示ベースの画像編集は、簡単なコマンドだけで画像を変更できる方法です。しかし、人が出す指示は短すぎて、コンピュータが正確に理解するのが難しいことがあります。
- 多モーダル大規模言語モデル(MLLMs)とは、テキスト(言葉)と画像を理解して、それらを組み合わせた反応を生成できる先進的なAIのことです。
- この研究では、MLLMsを使って、より具体的でわかりやすい画像編集の指示を生成し、それによって画像をどのように変更するかをAIに指導する新しい方法(MGIE)を開発しました。
- このMGIEシステムは、Photoshopのような画像修正、写真の全体的な最適化、部分的な編集など、さまざまな編集タスクでその有効性を実証しました。
- 実験により、AIが出す具体的な指示が、指示に基づく画像編集の品質を大幅に向上させること、そしてMGIEがその点で非常に優れた性能を発揮することが確認されました。これにより、画像編集がより簡単かつ効率的に行えるようになります。
コメント