1ヶ月のTechニュースまとめ (2024/2/12-2024/3/10)

これだけ読めば大丈夫！1ヶ月ニュース要約
新サービス
新しいLLM
AIと法律・規制
BitNet
1. Microsoft、各パラメータが-1、0、1のいずれかの値を取る1ビットLLM「BitNet b1.58」発表
LLM新技術
未来のデバイス
1. マルチモーダル機能を備えたBrilliant LabsのAIグラス「Frame」
2. スマホの次の未来のデバイス　Humane社が開発した身につけるAIデバイス「AI Pin」を触ってみた
スキルアップ

これだけ読めば大丈夫！1ヶ月ニュース要約

新サービス

Microsoft、「Azure OpenAI On Your Data」正式リリース
- モデルの学習やfine-tuningなしで自社のデータを使った分析ができるよ
- Azureサービスの中で、関連する文書やデータを検索し、その情報を基にLLMが回答を生成する「RAG」のようなことができるよ
- Microsoft Azureの提供するセキュリティ機能が利用できて安心だよ
AIとリアルに音声で雑談できるチャットAI「Cotomo」無料で利用可能
- 「Cotomo」はAIと音声会話ができるAIアプリだよ（iOS版のみ）
- ユーザーの好みや過去の会話をAIが覚えて、それに基づいた対話を行うよ
- ユーザーが情報を得るためではなく、会話自体を楽しむためのアプリだよ

新しいLLM

Anthropic、新世代LLM「Claude 3」の3つのモデルを発表
- 最も高性能なモデル「Opus」、バランス型の「Sonnet」、コンパクトな「Haiku」の3つのモデルがあるよ
- 「Sonnet」はAmazon Bedrockで利用可能で、Opus, Haikuも近い将来に使えるようになる予定だよ
- GPT-4よりも性能がいいという噂もあって、注目されているよ
Googleの次世代LLM「Gemini 1.5」、処理能力向上
- GeminiはGoogleのAI研究と開発の最前線に立つ、非常に高度なマルチモーダルモデルだよ
- AIモデルが一度に理解・処理できる情報量「コンテキストウィンドウ」が大幅に拡張され100万トークン入力できるようになったよ
- 長文読解能力が高まったよ
Google、LLM「Gemini」ベースの、オープンモデル「Gemma」
- GemmaはGeminiの研究を基にして作られた、よりアクセスしやすいオープンモデルだよ
- NVIDIA GPUやGoogle Cloud TPUを含む複数のAIハードウェアプラットフォームで最適化されているよ
101言語に対応したオープンソースのLLM「Aya」
- Cohereという企業が、119カ国の研究者のべ3000人が参加したプロジェクトを立ち上げて開発したよ
- ソマリア語やウズベク語など、これまで他のLLMでは未対応だった50以上の言語をカバーしているよ

AIと法律・規制

EUでデジタル市場の公平性と競争を促進のための法律「デジタル市場法（DMA）」開始
- オンライン検索エンジンやアプリストアなどを提供する大手デジタルプラットフォーム（ゲートキーパー）を定め、これらの企業が守るべきルールを定めているよ
- 例えばGoogleのような検索エンジンや、AppleのApp Storeのようなアプリストア、LINEやWhatsAppのようなメッセージングサービスが該当するよ
- ゲートキーパーには、第三者とのサービス連携を許可する、ビジネスユーザーが生成したデータへのアクセスを許可するなどの「やるべきこと」があり、自社製品を他社製品より優遇することの禁止などの「やってはいけないこと」が定められているよ
- 違反した企業には、年間総売上の最大10％の罰金や、繰り返し違反の場合は最大20％の罰金が科されることがあるよ
「AIと著作権に関する考え方について（素案）」に関するパブリックコメントの結果について
- 文化庁が発表した「AIと著作権」に関する「素案」に対して、パブコメでは約2万5000件の意見が集まり、それらに対する回答が公開されたよ
- 「作風」はアイデアにとどまり、著作権侵害の対象にはならないとされているよ
- 特定のクリエイターの作品群からなる作品に対する意図的な追加学習（LoRA含む）は著作権侵害の可能性があるとされているよ
- 学習段階で海賊版を使用することに対し、より厳格な対応が求められているよ
世界の大手20社のTech企業が、2024年の選挙でのAI悪用阻止協定を結ぶ
- 世界の大手20社のテクノロジー企業が、2024年の選挙での偽情報や欺瞞を広めるAIコンテンツと戦うために協力することを約束したよ
- Adobe, Amazon, Anthropic, Google, IBM, Meta, Microsoft, OpenAI, Stability AI, TikTok, Xなどが含まれているよ
- ディープフェイクが問題になっているよ

生成AI

StabilityAI、0.5秒未満で単一の画像から高品質な3Dを再構築するモデル「TripoSR」
- TripoSRは、単一の画像から速く高品質な3Dモデルを生成する技術で、Tripo AIとの共同開発により生まれたよ
- GPUがなくても動作するよ
- この技術はMITライセンスで公開されており、誰でもアクセスして使用することができるよ
- LRM: Large Reconstruction Model For Single Image to 3Dという単一の画像からその物体の3Dモデルをわずか数秒で予測することができる技術から着想を得ているよ
OpenAI、テキスト指示をもとに1分の動画を生成するAI「Sora」
- 「Sora」はテキスト指示をもとに最大1分間のビデオシーンを生成するAI技術だよ
- 複数キャラクターや特定の動きを含む複雑なシーンを生成できるけど、複雑なシーンの物理シミュレーションや特定の因果関係の理解に課題があるよ
- 2024年3月12日現在、まだ利用できないよ（大統領選挙で悪用されることを恐れて公開していないという説もあるよ）
Stability AI、新しいtext to imageモデル「Stable Diffusion 3」
- Stability AIが発表した、新しいテキストから画像を生成するモデルだよ
- アルファベットや文字列を含むプロンプトに対する応答性が向上しているよ
- まだ一般には公開されていないけど、早期に試すことができる待機リストへの登録が開始されているよ
Google DeepMind、文章・画像・写真などから操作可能なゲームを生成するAI「Genie」
- 文章、画像、写真、スケッチなどを使い、様々な動きができる仮想世界を作ることができるよ
- 特別なデータやラベル無しで学習でき、ユーザーが作った世界で自由に動き回ることができるよ
- モデルはまだ公開されていないよ

BitNet b1.58

Microsoft、各パラメータが-1、0、1のいずれかの値を取る1ビットLLM「BitNet b1.58」発表
- Microsoftによって開発された、重みが-1, 0, 1のいずれかの値をとる（情報エントロピーが1.58ビット）LLMだよ
- 1.58ビットだけど、従来の16ビット浮動小数点表現のモデルに匹敵する性能があるよ
- 量子化はモデルの計算に必要なデータ（重みや活性化）を、より少ないビット数で表現する技術だよ
- BitNetでは重みをその平均絶対値でスケーリングした後、-1、0、+1のいずれかの値にクリッピングと丸めを行うよ
- 出力層に近い部分では精度が重要なため、8ビットで量子化を行うよ
- 量子化によって、モデルの計算に必要なリソースを大幅に減少させる一方で、性能を維持することができるよ
- 特に、計算速度の向上により、リアルタイムでの処理が可能になるよ
- モデルはトランスフォーマーモデルをベースにしていますが、量子化による効率化のために、特別な技術やコンポーネントが導入されています。これにより、モデルの性能が向上します。
  - BitLinear: 従来の線形変換を置き換えるコンポーネント
  - RMSNorm（Root Mean Square Normalization）: 層の出力を正規化する技術
  - SwiGLU（Swish-Gated Linear Unit）: SwiGLUは、GLU（Gated Linear Unit）にSwish関数を組み合わせた活性化関数で、モデルの表現力を向上させる
  - 回転埋め込み: 回転埋め込みは、位置情報をより効果的にモデルに伝えるための技術で、特に自己注意メカニズムにおいて、トークン間の相対的な位置関係をより正確に捉えることができる

LLM新技術

自動プロンプト最適化ツールのプロンプトは人間の予想外の内容
- 自動プロンプト最適化ツールは、プロンプトを自動で調整し、モデルのパフォーマンスを向上させる最適な文言を見つけ出だすよ
- 自動で最適化されたプロンプトは人間が通常考えるものとは大きく異なり、非常に特異で予想外の内容だったよ
LLMのアンサンブルアプローチは人間の群衆予測トーナメントと同等の予測精度
- 12個のLLMを用いたアンサンブルアプローチは、925人の人間の集団の出す予測と、同じくらいの予測精度があるということがわかったよ
- これまで、人間の集団に比べてLLM単体の予測能力が劣るとされていたよ
LLMのアダプター「LoRA」を組み合わせるモデルマージング新手法「PEFT」
- LLMのパフォーマンスを向上させるために、異なるモデルやアダプターを組み合わせる「モデルマージング」がよく使われるよ
- PEFTは、特にLoRAと呼ばれるアダプターを組み合わせるための新しい手法だよ
- アダプターは、ベースモデルに特定のタスクや言語の知識を追加するために使用される小さな追加モジュールで、モデルの再学習なしに特定の機能や性能の向上を可能にするよ

未来のデバイス

マルチモーダル機能を備えたBrilliant LabsのAIグラス「Frame」
- Brilliant Labsは、音声や画像など複数の種類のデータを理解できるAI「Noa」を備えた眼鏡「Frame」を出したよ
- この眼鏡は、ポケモンGOを作った会社NianticのCEO、ジョン・ハンケ社長も応援しているよ
スマホの次の未来のデバイス　Humane社が開発した身につけるAIデバイス「AI Pin」を触ってみた
- 世界最大級のモバイル関連の国際展示会および会議「MWC Barcelona 2024」にHumane社のAIデバイス「Ai Pin」が出展されたよ
- 衣服の胸元にマグネットで取り付ける形の小型デバイスで、ディスプレイの代わりにプロジェクターが内蔵されており、手のひらに直接投影するよ
- 音声での操作が可能であり、ローカルでの音声処理とクラウド上のLLMを活用して、自然な翻訳機能などを提供するよ
- 「Ai Pin」の販売は米国開始されていて、本体の価格は699ドル、さらに月額24ドルの追加料金が必要なのであまり売れていないみたいだよ

新サービス

モデルの学習やfine-tuningなしで自社のデータを使った分析ができる「Azure OpenAI On Your Data」正式リリース

Azure OpenAI Service で独自のデータを使用する - Azure OpenAI

この記事では、Azure OpenAI でのテキスト生成を向上させるために独自のデータを使用する方法について説明します。

→ 【RAG】Azure On Your DataがGAされたので使ってみた

「Azure OpenAI On Your Data」は、企業が持つデータを用いて、GPT-35-TurboやGPT-4のような高度なAIモデルで分析や対話を行うためのサービスです。このサービスを利用することで、モデルを新たにトレーニングしたり微調整したりすることなく、自社のデータを使った分析が可能になります。REST API、SDK、またはAzure OpenAI StudioのWebベースインターフェースを通じてアクセスできます。Azureのロールベースのアクセス制御を設定し、特定のデータソースを追加することによって、独自のデータをAzure OpenAIモデルと統合できます。キーワード検索、意味検索（セマンティック検索）、ベクトル検索を利用することで、データ検索と情報取得を最適化します。

ChatGPTは、ユーザーとの全てのチャットを通じて情報を「記憶」する機能をテスト中

Just a moment...

ChatGPTは、ユーザーとの全てのチャットを通じて情報を「記憶」する機能をテストしており、これにより同じ情報を繰り返し伝える必要がなくなり、より有益な対話が可能になります。この機能は現在、ChatGPTの無料およびPlusユーザーの一部に対して提供されており、その効果を学ぶ段階にあります。今後、より広い範囲での展開計画が共有される予定です。

GoogleのLLM「Gemini」がビジネスや教育機関向けのGoogle Workspaceで利用可能に

エンタープライズグレードの Gemini が、 Google Workspace のあらゆる規模のチームで利用可能に | Google Workspace ブログ

Googleが作った強力なLLM「Gemini」がGoogle Workspace（ビジネスや教育機関向けのサービス。Gmail, ドキュメント、スプレッドシート、ドライブカレンダー、Meetなど）で使えるようになりました。どんなサイズの会社でも、高機能なEnterpriseプランか、もっと手頃な価格のBusinessプランから選べます。Businessプランは月額2,260円、より高度なEnterpriseプランは月額3,400円です。

あいおいニッセイ同和損害保険、生成 AI のリスクを補償する「生成 AI 専用保険」の提供開始

https://www.aioinissaydowa.co.jp/corporate/about/news/pdf/2024/news_2024022701277.pdf

あいおいニッセイ同和損害保険という保険会社とArchaicという会社が、3月から「生成AI専用保険」という新しい保険を始めると発表しました。この保険は、人工知能（AI）を使って新しい内容を作り出す技術を使っている企業が、もし情報が漏れたり、他人の知的財産を侵害したりした場合の損害を補償します。補償内容には、事故の原因を調べる費用、法律に関する相談費用、同じ事故を防ぐための費用、記者会見や公告の費用、被害者への見舞金などが含まれます。この保険には、事故が起こった後の補償だけでなく、事故が起こらないように事前に予防するためのアドバイスやサポートも含まれています。

AIとリアルに音声で雑談できるチャットAI「Cotomo」無料で利用可能

陽キャ向け？なAIアプリ「Cotomo」が話題　AIと雑談できる　「人と話しているみたい」など驚きの声

おしゃべりAIアプリ「Cotomo」がX上で話題になっている。人間同士が交わす何気ない会話をAIとの対話で再現できるというスマートフォンアプリ（iOS）。使ってみたユーザーからは「人と話しているみたい」など驚きの声が上がっている。

→ https://cotomo.ai/

「Cotomo」は音声会話ができるAIアプリで、特に日常会話に焦点を当てています。これは、一般的なAIが課題解決に注力しているのと対照的です。アプリはユーザーの話したい内容に合わせて、会話をパーソナライズする機能を持っています。つまり、ユーザーの好みや過去の会話をAIが覚えて、それに基づいた対話を行います。『Cotomo』のAIは、会社が自ら開発し、特別に会話データを学習させたものです。これにより、人間らしい会話が可能になっていますが、誤った情報を提供することもあります。アプリの目的は、ユーザーが単に情報を得るためではなく、会話自体を楽しむことにあります。これは、『Cotomo』が特定の課題を解決するよう設計されていないことを意味します。AIの「コミュニケーション能力」にはまだ改善の余地があり、会話の流れが自然ではない場合があります。しかし、ユーザーが一方的に話をするといった使い方ではスムーズに機能します。

新しいLLM

Anthropic、新世代LLM「Claude 3」の3つのモデルを発表

Introducing the next generation of Claude

Today, we're announcing the Claude 3 model family, which sets new industry benchmarks across a wide range of cognitive t...

AnthropicはLLM「Claude 3」の3つのモデルを発表しました。Claude 3 SonnetはAmazon Bedrockで利用可能であり、OpusとHaikuも近い将来に利用可能になる予定です。

Claude 3 Opus
- 最も高度な知能を持つモデルで、高度なタスクにおける市場最高のパフォーマンスを実現。
- 200Kのコンテキストウィンドウを持ち、特定の使用例では1Mトークンを処理可能。
- コストは入力あたり15ドル、出力あたり75ドル。
Claude 3 Sonnet
- 知能と速度のバランスが取れており、特に企業のワークロードに適している。
- コストは入力あたり3ドル、出力あたり15ドルで、同等の知能を持つ他のモデルよりもコストパフォーマンスが高い。
Claude 3 Haiku
- 最速でコンパクトなモデルで、単純な問い合わせやリクエストに対して即時に応答する。
- コストは入力あたり0.25ドル、出力あたり1.25ドルで、類似の知能カテゴリの中で最もスマートかつ手頃な価格。

Googleの次世代LLM「Gemini 1.5」、処理能力向上

次世代モデル、 Gemini 1.5 を発表

膨大な量の情報とモダリティの高度な理解ができる、最新モデルの Gemini 1.5 が登場。

Gemini 1.5は、一度に最大100万トークンの情報を扱えるようになり、これまでのAIモデルよりも長い文脈を理解できます。このモデルは「Mixture–of-Experts（MoE）」アーキテクチャを採用しており、これにより効率的にトレーニングされ、より速く複雑なタスクを学習できます。Gemini 1.5 Proは、標準で128,000トークンの情報を扱うことができ、特定の開発者や企業は最大100万トークンを扱うことができます。大量の情報を扱う能力により、複雑な問題を解析し、テキストやコード、画像、音声、動画といった異なる形式のデータを深く理解します。Gemini 1.5 Proは、新しい情報から学習して新しいスキルを獲得する能力、「インコンテキスト学習」を持っています。Googleは、Gemini 1.5 Proを社会に提供する前に、倫理的なテストと安全性のテストを広範囲にわたって実施しています。

Google、LLM「Gemini」ベースのオープンモデル「Gemma」

Gemma: Introducing new state-of-the-art open models

Gemma is a family of lightweight, state-of-the art open models built from the same research and technology used to creat...

→ https://huggingface.co/google/gemma-7b

→ Google Gemma の紹介

「Gemma」はGoogleが開発した、AIモデルを作るための新しいツールです。これは、Googleが以前に作ったLLM「Gemini」の技術を基にしています。Gemmaには、2種類のモデルサイズ（2Bと7B）があり、それぞれ事前に学習させたバージョンと、特定の指示に応じて調整したバージョンが提供されます。Gemmaを使うことで、開発者はAIの開発をより簡単に、そして安全に行うことができるようになります。また、Gemmaは商業的なプロジェクトにも利用できます。このモデルは複数のプログラミングフレームワーク（JAX、PyTorch、TensorFlowなど）で利用でき、様々なデバイスやGoogle Cloudで効率的に動作するよう最適化されています。

Inflection、パーソナルAI「Pi」の新しいバージョン「Inflection-2.5」をリリース

Inflection-2.5: meet the world's best personal AI

Inflection AI launches Inflection-2.5, enhancing Pi’s IQ and EQ, now competitive with GPT-4. Experience Pi’s upgraded ca...

Inflectionは、人々の日常生活に役立つパーソナルAI、Piの新しいバージョンであるInflection-2.5をリリースしました。この新モデルは、現在の最先端の大規模言語モデルと競合する高い性能を持ち合わせています。Inflection-2.5は、GPT-4の性能に匹敵しながら、トレーニングに必要な計算リソースを大幅に削減しました。数学やコーディングなど、知的能力（IQ）が求められる分野でのパフォーマンスが特に向上し、Piが技術の最前線を押し進めることを保証しています。Piユーザーは、最新の情報を得るためのリアルタイムWeb検索機能も利用できるようになりました。技術的な結果として、Inflection-2.5は、STEM分野を含む幅広いIQ指向のタスクでGPT-4の平均性能の94%以上を達成し、様々なベンチマークで顕著な性能向上を実現しています。

101言語に対応したオープンソースのLLM「Aya」

C4AI Launches Aya, an LLM Covering More Than 100 Languages

More than double the number of languages covered by previous open-source AI models to increase coverage for underreprese...

Cohere For AIは、従来のAIモデルがカバーしていた言語数を大幅に上回る101言語をカバーする新しい多言語大規模言語モデル「Aya」を発表しました。多くのAIモデルが英語中心であるため、世界中の多くのコミュニティがサポートから除外されていました。Ayaは、これらの言語的・文化的ギャップを埋めることを目指しています。Ayaは、自然言語理解や翻訳などの複雑なタスクで、既存のオープンソースモデルを大きく上回る性能を発揮し、50言語以上の新しい言語をサポートしています。また、514万のプロンプトとコンプリーションを含む、これまでで最大の多言語データセットが公開されています。これには、多言語での注釈も含まれています。AyaモデルとデータセットはApache 2.0ライセンスで公開され、広範な使用が可能になっています。

ローコストで開発された最高性能の日本語オープンモデル「KARAKURI LM」

カラクリ、700億パラメーターLLM「KARAKURI LM」を一般公開

カラクリ株式会社のプレスリリース（2024年1月31日 18時53分）カラクリ、700億パラメーターLLM「KARAKURI LM」を一般公開

→ 推定1000万円以下のコストで開発され、国内最大・最高性能を達成した日本語LLM, Karakuri-LMの秘密

KARAKURI LM 70B v0.1とKARAKURI LM 70B Chat v0.1は、Llama 2をベースに日本語能力を強化した言語モデルとその会話版です。KARAKURI LMは多言語と日本語コーパスを組み合わせた事前学習を行い、KARAKURI LM ChatはOASST2と独自の会話データセットを使用し会話データセットを用いたファインチューニングを行っています。16Bトークンのデータで学習し、Llama 2の論文で述べられていたハイパーパラメータを用いました。これらのモデルは、日本語トークンの割合が少ないにも関わらず、MT-Bench-jpベンチマークで最高性能を達成し、日本語の会話モデルとして顕著な成果を示しています。モデルの開発には継続事前学習とマルチタスク学習のアプローチが採用され、SteerLMを用いて言語モデルの挙動をコントロールする方法が採用されています。これらのモデルはHuggingFace Hubで公開されています。

このモデルは、物語生成や日本語の質問応答、JSON形式での応答生成において、国産LLMの中で類を見ない高性能を実現しています。一部ではGPT-4を上回るとも言われています。驚異的な成果を出せた理由は、わずか数名の社員による開発と、3日間という短期間での学習にあります。学習には、NVIDIAのGPUではなく、Amazon AWSの独自開発した「AWS Trainium」を利用し、約744万円のコストで完了しました。これは、高性能なLLMを開発するために必要なコストを大幅に削減する英断でした。

AIと法律・規制

EUでデジタル市場の公平性と競争を促進のための法律「デジタル市場法（DMA）」開始

About the Digital Markets Act

The DMA is one of the first regulatory tools to comprehensively regulate the gatekeeper power of the largest digital com...

デジタル市場法（DMA）は、EUがデジタルセクターの公平性と競争を促進するために制定した法律です。DMAは、オンライン検索エンジンやアプリストアなどを提供する大手デジタルプラットフォーム（ゲートキーパー）を特定し、これらの企業が守るべきルールを定めています。ゲートキーパーとは、EUのデジタル市場法で定義された、大きな影響力を持つデジタルプラットフォームを運営する企業のことです。これらの企業は、例えばGoogleのような検索エンジンや、AppleのApp Storeのようなアプリストア、LINEやWhatsAppのようなメッセージングサービスが該当します。ゲートキーパーには、第三者とのサービス連携を許可する、ビジネスユーザーが生成したデータへのアクセスを許可するなどの「やるべきこと」があり、自社製品を他社製品より優遇することの禁止などの「やってはいけないこと」が定められています。DMAは2022年に採択され、2023年5月から適用されました。この法律は、当初から存在する基本プラットフォームサービスにのみ適用されます。違反した企業には、年間総売上の最大10％の罰金や、繰り返し違反の場合は最大20％の罰金が科されることがあります。

「AIと著作権に関する考え方について（素案）」に関するパブリックコメントの結果について

https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/hoseido/r05_07/pdf/94011401_01.pdf

→ 画像生成AIの著作権問題、文化庁議論で争点はっきり

2023年7月より「AIと著作権」に関する議論が行われ、2月29日に最終案に近い「素案」が発表されました。パブコメでは約2万5000件の意見が集まり、それらに対する回答が公開されました。文化庁は、393項目に分類されたパブコメに対して回答しましたが、基本的に素案の内容を大きく修正する意向はなく、内容の周知と精緻化を目的としています。AIによるディープフェイク対策は著作権法の範囲外とされました。

素案では、「作風」はアイデアにとどまり、著作権侵害の対象にはならないとされていますが、特定のクリエイターの作品群からなる作品に対する意図的な追加学習（LoRA含む）は著作権侵害の可能性があるとされました。

著作権法第30条の4に関する議論では、開発・学習段階における規定であり、生成・利用段階での著作権侵害と直結しない可能性があるとされました。

学習段階で海賊版を使用することに対し、より厳格な対応が求められていますが、具体的な義務化には至っていません。

新聞協会の意見を反映し、将来的にデータベースとして販売する予定のあるニュース記事は学習データとして使用できない可能性があるとされましたが、過去の実績が必要などの条件が設けられました。

世界の大手20社のTech企業が、2024年の選挙でのAI悪用阻止協定を結ぶ

AI Elections Accord

The tech accord sets expectations for how signatory companies will manage the risks arising from deceptive AI election c...

世界の大手20社のテクノロジー企業が、2024年の選挙での偽情報や欺瞞を広めるAIコンテンツと戦うために協力することを約束しました。Adobe, Amazon, Anthropic, Arm, ElevenLabs, Google, IBM, Inflection AI, LinkedIn, McAfee, Meta, Microsoft, Nota, OpenAI, Snap Inc., Stability AI, TikTok, Trend Micro, Truepic, X

StabilityAI、0.5秒未満で単一の画像から高品質な3Dを再構築するモデル「TripoSR」

TripoSRのご紹介：単一画像からの高速3Dオブジェクト生成 — Stability AI Japan

Tripo AIと提携し、LRM: Large Reconstruction Model For Single Image to 3D にインスパイアされた高速3Dオブジェクト再構築モデルTripoSRを開発しました。この新しい画像から3D...

TripoSRは、単一の画像から速く高品質な3Dモデルを生成する技術で、Tripo AIとの共同開発により生まれました。特別なハードウェア（GPU）がなくても動作し、幅広い利用シーンでの使用が可能です。この技術はMITライセンスで公開されており、誰でもアクセスして使用することができます。

LRM: Large Reconstruction Model For Single Image to 3Dという単一の画像からその物体の3Dモデルをわずか数秒で予測することができる技術から着想を得ています。トレーニングデータの準備には、実世界の画像に近いデータを生成するためデータレンダリング技術が用いられています。さらに、モデルはチャンネル数の最適化やマスク制約の追加など、多くの技術的改良が施されています。使用方法はGitHubとHugging Faceで提供されていますが、人々が不快、不安を感じるような3Dモデルの意図的な作成や拡散、歴史的または現在のステレオタイプを広めるコンテンツの作成には使用しないでください。

OpenAI、テキスト指示をもとに1分の動画を生成するAI「Sora」

Just a moment...

「Sora」はテキスト指示をもとにビデオシーンを生成するAI技術です。Soraは拡散モデルとTransformerアーキテクチャを使用し、ビデオや画像を小さなデータ単位（パッチ）で表現して処理します。これにより、さまざまな長さや解像度のビジュアルデータに対応可能です。ユーザーの指示に忠実でありながら、最大1分間の高品質動画を生成可能です。複数キャラクターや特定の動きを含む複雑なシーンを生成できますが、複雑なシーンの物理シミュレーションや特定の因果関係の理解に課題があります。OpenAIは、Soraを製品に組み込む前に、誤解を招くコンテンツの検出や使用ポリシー遵守の確認などの安全対策を実施します。

Stability AI、新しいtext to imageモデル「Stable Diffusion 3」アルファベット生成の性能向上

Stable Diffusion 3 — Stability AI

Announcing Stable Diffusion 3 in early preview, our most capable text-to-image model with greatly improved performance i...

Stability AIは「Stable Diffusion 3」という新しいテキストから画像を生成するモデルを発表しました。以前のモデルよりもさらに高い性能を持っており、とくにアルファベットや文字列を含むプロンプトに対する応答性が向上しています。このモデルは、800万から80億のパラメータを持つさまざまなバージョンがあり、ユーザーが必要に応じて選択できます。不正使用を防ぐための対策が施されており、トレーニングからデプロイメントまで安全性が考慮されています。まだ一般には公開されていませんが、早期に試すことができる待機リストへの登録が開始されました。

Google DeepMind、文章・画像・写真などから操作可能なゲームを生成するAI「Genie」

🧞 Genie: Generative Interactive Environments

A Foundation Model for Playable Worlds

Genieは、インターネット上のラベル付けされていない動画から学んだ、ゲーム世界を作り出す技術です。この技術を使って、文章、画像、写真、スケッチなどを使い、様々な動きができる仮想世界を作ることができます。Genieは110億のパラメータを持ち、これにより非常に複雑な世界を作成する基盤となります。このシステムは、動画の時系列データを処理するツール、動きの予測をするモデル、そして簡単に拡張できる行動モデルから成り立っています。重要なのは、Genieが特別なデータやラベル無しで学習でき、ユーザーが作った世界で自由に動き回ることができる点です。

BitNet

Microsoft、各パラメータが-1、0、1のいずれかの値を取る1ビットLLM「BitNet b1.58」発表

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Recent research, such as BitNet, is paving the way for a new era of 1-bit Large Language Models (LLMs). In this work, we...

→ 論文解説

→ 試してみた

→ 実装

Microsoftの研究チームが「BitNet b1.58」という名前の1ビット大規模言語モデル（LLM）の新しいバージョンを開発しました。このモデルでは、LLMの各パラメータが-1、0、1のいずれかの値を取ります。この新しいモデルは、以前のモデルが使用していた全精度（FP16やBF16）と比較しても、モデルのサイズやトレーニングに使用されるトークンの数が同じであるにもかかわらず、計算の複雑さやタスクの遂行能力が同等です。また、処理速度、使用メモリ量、データ処理速度、エネルギー消費量の点で、以前のモデルよりも大幅に改善されています。さらに、この技術は新しい計算方法を可能にし、1ビットLLM専用に最適化されたハードウェアを設計するための新しい可能性を開きます。

BitNetの詳細

量子化
- 量子化は、モデルの重みやアクティベーションをより少ないビット数で表現するプロセスです。量子化プロセスにはスケーリングとクリッピングが含まれ、重みの分布を調整し、量子化の精度を向上させます。BitNet b1.58では、重みを三値（-1, 0, 1）で表現する1.58ビット量子化を採用しています。
- 量子化により、モデルのサイズを削減し、計算を高速化し、エネルギー消費を削減することが可能になります。
- 量子化関数は以下のステップで構成されます
  - スケーリング: 重み行列をその平均絶対値でスケーリングします。これは、重みの絶対値の平均を計算し、その値で重み全体を割ることによって行われます。このステップは、重みの分布を調整し、量子化の精度を向上させるために重要です。
  - クリッピングと丸め: スケーリングされた重みを-1、0、+1の範囲にクリッピングし、最も近い整数値（-1、0、または+1）に丸めます。このプロセスは、実際に量子化を実行し、重みを1.58ビット形式に変換します。
    - クリッピング（Clipping）: 与えられた数値が特定の範囲外にある場合、その数値を範囲の境界値に制限します。例えば、範囲が-1から+1の場合、-1.5は-1に、2.0は+1にクリッピングされます。
    - ラウンディング（Rounding）: 数値を最も近い整数に丸めます。例えば、0.2は0に、0.5は通常の数学的ルールに従って1に丸められます（ただし、0.5の丸め方は実装によって異なる場合があります。いくつかのシステムでは0.5が偶数に丸められる「銀行家の丸め」を使用します）。
- 活性化関数については、BitNetでは8ビットの量子化を採用しています。これは、モデルの出力に近い層では高精度が必要であるため、重みよりも高いビット幅を使用します。
- 1.58ビットの量子化により、モデルの重みが非常にコンパクトになり、計算に必要なメモリとエネルギーが減少します。また、-1、0、+1の値のみを使用することで、行列乗算において乗算演算を省略でき、大幅な効率向上が見込めます。特に、整数の加算演算は浮動小数点数の乗算や加算に比べてハードウェアレベルで高速に実行できるため、推論時のレイテンシが大幅に改善されます。
アーキテクチャ
- BitNet b1.58は、トランスフォーマーを基盤としていますが、重みを1.58ビットで量子化するために特別なコンポーネントを導入しています。例えば、BitLinearは、従来の線形変換を1.58ビット重みを使用する形式に置き換え、計算効率を向上させます。また、RMSNorm、SwiGLU、回転埋め込みなどの技術トバイアスの除去がモデルの性能向上に寄与しています。
  - RMSNorm（Root Mean Square Normalization）は、層正規化（Layer Normalization）の一種で、トランスフォーマーモデルにおける層の出力を正規化する手法です。従来の層正規化が出力ベクトルの平均と分散を用いるのに対し、RMSNormは出力ベクトルのルート平均二乗（Root Mean Square）を使用します。これにより、モデルの学習安定性を向上させ、特に深いネットワークにおいて有効であることが示されています。RMSNormは計算がシンプルであり、学習中の勾配の流れを改善する効果があります。
  - SwiGLU（Swish-Gated Linear Unit）は、活性化関数の一種で、Gated Linear Unit（GLU）にSwish関数を組み合わせたものです。SwiGLUは、モデルの表現力を向上させるために使用され、特にトランスフォーマーモデルのフィードフォワードネットワーク部分で利用されます。GLUが入力の一部をゲート制御することで情報の流れを調整するのに対し、SwiGLUではSwish関数を用いることで、より柔軟な非線形変換を実現し、モデルの性能を向上させます。
  - 回転埋め込みは、トランスフォーマーモデルの位置埋め込み（Positional Embedding）技術の一種で、特に自己注意（Self-Attention）メカニズムにおいて、トークン間の相対的な位置情報をより効果的にエンコードするために使用されます。回転埋め込みでは、トークンの位置埋め込みを回転させることで、相対位置に基づいた情報をモデルに提供します。これにより、長距離の依存関係をより正確にモデル化できるようになり、特に長い文書や文章を扱う際のモデルの性能が向上します。
情報エントロピー
- 情報エントロピーは、データセットの「情報量」や「不確実性」を表す指標です。エントロピーが高ければ高いほど、データセットは多くの情報を含んでいるとされます。BitNet b1.58のコンテキストでは、3つの異なる値（-1, 0, 1）を均等な確率でエンコードする場合、エンコードに必要な情報量は約1.585ビットになります。この計算は、各値を効率的に表現するために必要なビット数の平均的な下限を示しています。

LLM新技術

自動プロンプト最適化ツールのプロンプトは人間の予想外の内容

The Unreasonable Effectiveness of Eccentric Automatic Prompts

Large Language Models (LLMs) have demonstrated remarkable problem-solving and basic mathematics abilities. However, thei...

研究では、「ポジティブ思考」といった前向きな言葉をプロンプトに加えることがモデルのパフォーマンスにどのような影響を与えるかを定量的に調べ、これをシステム的にプロンプトを最適化する方法と比較しました。モデルに対して前向きな言葉や肯定的なメッセージをプロンプト（命令文や問いかけ文）に組み込むことで、多くの場合でモデルのパフォーマンスを向上させる効果があることを見出しました。自動プロンプト最適化ツールは、プロンプトを自動で調整し、モデルのパフォーマンスを向上させる最適な文言を見つけ出します。自動で最適化されたプロンプトは人間が通常考えるものとは大きく異なり、非常に特異で予想外の内容であることも発見されました。これは、自動最適化が従来の手法や直感とは異なる新たなアプローチを提示していることを意味します。

LLMのアンサンブルアプローチは人間の群衆予測トーナメントと同等の予測精度

Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy

Human forecasting accuracy in practice relies on the 'wisdom of the crowd' effect, in which predictions about future eve...

12個のLLMを用いたアンサンブルアプローチは、925人の人間の予測者の集合と比較して、未来の出来事に関する31の二項質問に対する予測で同等の性能を示しました。LLMは、人間の中央値予測を情報として取り入れることで予測精度を17%から28%向上させることができますが、人間と機械の予測を平均する方がより精度が高いです。「群衆の知恵」効果は、多くの人の予測を一つにまとめることで、未来の出来事についての予測精度を高めることができるというものです。これまでの研究では、LLMは、個々の予測者としては人間の集団に比べて予測能力が劣るとされていました。LLMが予測の集約を通じて人間の群衆予測トーナメントと同等の予測精度を達成できることが示され、LLMにおける「群衆の知恵」効果が確認されました。これにより、社会全体でさまざまな用途にLLMを使用する道が開かれました。

LLMのアダプター「LoRA」を組み合わせるモデルマージング新手法「PEFT」

🤗 PEFT welcomes new merging methods

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

LLMのパフォーマンスを向上させるために、異なるモデルやアダプターを組み合わせる「モデルマージング」がよく使われます。PEFTは、特にLoRAと呼ばれるアダプターを組み合わせるための新しい手法を提供しています。LoRAは、モデルの特定の部分を微調整するためのアダプターです。（アダプターは、ベースモデルに特定のタスクや言語の知識を追加するために使用される小さな追加モジュールで、モデルの再学習なしに特定の機能や性能の向上を可能にします。)マージングには「結合」や「線形」、「SVD」などのいくつかの方法があります。

未来のデバイス

マルチモーダル機能を備えたBrilliant LabsのAIグラス「Frame」

Frame

Designed for imaginative hackers, Frame comes with a suite of AI capabilities right out the box, helping you take your i...

→ https://prtimes.jp/main/html/rd/p/000000002.000128229.html

Brilliant Labsは、AIアシスタント「Noa」を備えたAI眼鏡「Frame」を発表しました。この眼鏡は、歴史上の著名人のメガネを参考にしたデザインで、ファッション性が高いです。「Frame」は軽量のナイロンプラスチック製で、一日中快適に使用できます。販売価格は349ドルで、アメリカで予約が始まっており、2024年4月に最初の出荷が予定されています。AIアシスタントの「Noa」は、見ているものをリアルタイムで処理したり、音声を認識して翻訳するなど、複数のモードで機能するAIです。Frameは、リアルタイムでウェブ検索が可能なPerplexityとの連携も特徴です。明るく高解像度のディスプレイ、フロントに向けた特別なカメラ、高性能のマイクを搭載しており、Bluetooth 5でスマートフォンとも接続できます。さらに、動きを検知する6DoF IMUを備えており、カスタマイズ可能な視力矯正レンズも用意されています。

スマホの次の未来のデバイス　Humane社が開発した身につけるAIデバイス「AI Pin」を触ってみた

身につけるAI「Humane」が日本に来る?　“ポストスマホ”の可能性【石野純也のモバイル通信SE】

2月26日から29日の4日間に渡ってスペイン・バルセロナで開催された「MWC Barcelona 2024」のクアルコムブースに、人だかりができているコーナーがあった。来場者の目的は、AIデバイスのスタートアップ、Humane(ヒューメイン...

→ Humaneのウェアラブルデバイス「Ai Pin」は“スマートフォンに頼りすぎない未来”を導くか

MWC Barcelona 2024で注目された「Ai Pin」は、衣服の胸元にマグネットで取り付ける形の小型デバイスで、Snapdragonチップを搭載しています。ディスプレイの代わりにプロジェクターが内蔵されており、手のひらに直接、メールや画像などの情報を投影して見ることができます。このデバイスは音声での操作が可能であり、ローカルでの音声処理とクラウド上の大規模言語モデル(LLM)を活用して、自然な翻訳機能などを提供します。4Gネットワークに対応しており、eSIMを用いた音声通話機能も搭載しています。「Ai Pin」の販売は米国で11月16日から開始され、本体の価格は699ドルです。さらに、T-Mobileを介した無制限の通話、テキストメッセージ、データ通信サービスを利用するためには、月額24ドルの追加料金が必要になります。

これだけ読めば大丈夫！1ヶ月ニュース要約

新サービス

モデルの学習やfine-tuningなしで自社のデータを使った分析ができる「Azure OpenAI On Your Data」正式リリース

ChatGPTは、ユーザーとの全てのチャットを通じて情報を「記憶」する機能をテスト中

GoogleのLLM「Gemini」がビジネスや教育機関向けのGoogle Workspaceで利用可能に

あいおいニッセイ同和損害保険、生成 AI のリスクを補償する「生成 AI 専用保険」の提供開始

AIとリアルに音声で雑談できるチャットAI「Cotomo」無料で利用可能

新しいLLM

Anthropic、新世代LLM「Claude 3」の3つのモデルを発表

Googleの次世代LLM「Gemini 1.5」、処理能力向上

Google、LLM「Gemini」ベースのオープンモデル「Gemma」

Inflection、パーソナルAI「Pi」の新しいバージョン「Inflection-2.5」をリリース

101言語に対応したオープンソースのLLM「Aya」

ローコストで開発された最高性能の日本語オープンモデル「KARAKURI LM」

AIと法律・規制

EUでデジタル市場の公平性と競争を促進のための法律「デジタル市場法（DMA）」開始

「AIと著作権に関する考え方について（素案）」に関するパブリックコメントの結果について

世界の大手20社のTech企業が、2024年の選挙でのAI悪用阻止協定を結ぶ

StabilityAI、0.5秒未満で単一の画像から高品質な3Dを再構築するモデル「TripoSR」

OpenAI、テキスト指示をもとに1分の動画を生成するAI「Sora」

Stability AI、新しいtext to imageモデル「Stable Diffusion 3」アルファベット生成の性能向上

Google DeepMind、文章・画像・写真などから操作可能なゲームを生成するAI「Genie」

BitNet

Microsoft、各パラメータが-1、0、1のいずれかの値を取る1ビットLLM「BitNet b1.58」発表

LLM新技術

自動プロンプト最適化ツールのプロンプトは人間の予想外の内容

LLMのアンサンブルアプローチは人間の群衆予測トーナメントと同等の予測精度

LLMのアダプター「LoRA」を組み合わせるモデルマージング新手法「PEFT」

未来のデバイス

マルチモーダル機能を備えたBrilliant LabsのAIグラス「Frame」

スマホの次の未来のデバイス Humane社が開発した身につけるAIデバイス「AI Pin」を触ってみた

スキルアップ

コメント

スマホの次の未来のデバイス　Humane社が開発した身につけるAIデバイス「AI Pin」を触ってみた