【毎週更新】1週間のTechニュースのまとめ【2024/5/6更新】

2024/4/29~2024/5/5のTech Newsまとめ

【新サービス】 2024-04-30 08:32:00 ChatGPTに設定を記憶させる「Memory」、Plusで正式機能に https://www.itmedia.co.jp/news/articles/2404/30/news080.html

OpenAIは、ChatGPTの機能「Memory」を、ChatGPT Plusユーザーに正式に提供開始いたしました。Memoryは、チャットの内容を記憶させることで、情報を繰り返す必要がなくなる機能です。初期設定でオンになっており、会議の要約を頼む際には、見出し、ポイントの箇条書き、最後のまとめを含ませるよう指示することができます。その際、返答に「Memory updated」と表示されることで、Memoryに記憶されたことが確認できるようになりました。記憶された内容は、以降の依頼時に自動的に反映されるようになります。また、Memoryに記録された項目については、「Manage memories」ボタンからMemory管理画面に移行し、記録されたくない項目を削除することもできます。さらに、EnterpriseおよびTeamsプランでもMemoryが利用可能になる見込みです。開発者自身のGPTのMemoryに記録した項目については、他のユーザーと共有されることはありません。

——————————–

【新サービス】 2024-04-30 11:00:00 GitHub Copilot Workspace: Welcome to the Copilot-native developer environment https://github.blog/2024-04-29-github-copilot-workspace/

GitHub Copilot Workspaceは、開発者の環境を再定義する革新的な取り組みです。従来の開発プロセスにおける課題を解決するため、自然言語を用いて「アイデアから、コードへ、ソフトウェアまで」を一気に実現できる新しい体験を提供します。

GitHub Copilotは2022年に登場し、開発者の生産性を最大55%向上させる画期的なツールとなりました。2023年には、GitHub Copilot Chatが登場し、開発者がコードと対話しながら、デバッグやテストを行えるようになりました。そして今回、GitHub Copilot Workspaceが発表されました。GitHub Copilot Workspaceでは、自然言語を用いて、課題の定義、仕様の作成、コード実装、テスト実行まで、開発プロセス全体をカバーします。Copilotエージェントがあなたのパートナーとなり、開発を支援してくれます。もちろん、すべての工程は編集可能で、開発者自身が主体的に関与できます。GitHub Copilot Workspaceは、コードの生成や自動化だけでなく、開発者の創造性を発揮させることを目的としています。これにより、より高度な開発者がシステム思考に集中できるようになり、初心者でも気軽にソフトウェア開発に取り組めるようになります。

——————————–

【LLMの評価】 2024-04-30 13:07:00 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs https://arxiv.org/abs/2401.06209

この論文では、大規模言語モデル(LLM)を使ったマルチモーダルな手法において、視覚的な能力に依然として課題があることが示されています。具体的には、最近のマルチモーダルなLLM(MLLM)では、CLIP(Contrastive Language-Image Pre-training)を使った言語-画像の事前学習によって視覚的な理解を実現しようとしていますが、依然として基本的な視覚パターンの理解に問題があることが明らかになりました。著者らは、CLIP の視覚的な埋め込み空間と、vision-only の自己教師あり学習との間にギャップがあることを示しています。そして、CLIP がvisually 類似していると判断する「CLIP-blind pairs」と呼ばれる画像ペアを使って、「Multimodal Visual Patterns (MMVP)」というベンチマークを構築しました。このMMVPを使って評価したところ、最新のシステム(GPT-4Vなど)でも、基本的な視覚パターンの理解に課題があることがわかりました。さらに、CLIP ベースのビジョン-言語モデルを評価したところ、CLIP が苦手とする視覚パターンと、マルチモーダルなLLMsが問題を抱える視覚パターンの間に強い相関があることが示されました。これらの課題に対する初期的な取り組みとして、著者らは「Mixture of Features (MoF)」と呼ばれるアプローチを提案しています。これは、vision 自己教師あり学習特徴量をMLLMsに統合することで、視覚的な基盤を大きく向上できることを示しています。

——————————–

【LLMの能力】 2024-05-01 17:16:43 Talking Nonsense: Probing Large Language Models’ Understanding of Adversarial Gibberish Inputs https://arxiv.org/abs/2404.17120

このテキストでは、大規模言語モデル (Large Language Models, LLMs) の「無意味な入力に対する理解能力」について議論しています。まず著者らは、LLMsが人間の言語を非常に優れて理解できるものの、LLMs自身が生成する見かけ上無意味な言語も理解できるかどうかを調べています。そのためGreedy Coordinate Gradient最適化手法を用いて、LLMsに意味のない入力から意味のある出力を生成させる「Babelの言語」と呼ばれるプロンプトを作成しました。その結果、Babelのプロンプトは自然なプロンプトに比べて低い損失関数値に収束することが分かりました。つまり、LLMsは意味のない入力に対しても一定の理解を示すことが明らかになったのです。さらに、Babelのプロンプトの構造を調べ、有害な文章生成も容易であることが示されました。これは、LLMsにおける入力に対するアラインメント (適合性) の問題を示唆しています。

——————————–

【新サービス】 2024-05-02 01:32:43 Introducing the Claude Team plan and iOS app https://www.anthropic.com/news/team-plan-and-ios

最近、クロードチームはチームプランとiOSアプリの2つのアップデートを発表しました。チームプランは、従業員全員がクロードとより多くのやり取りができるようにするものです。月額30ドル/ユーザーの料金で、クロード3モデル群(Opus、Sonnet、Haiku)の全機能を利用できるようになります。また、長文書類の処理や複雑なトピックの議論、マルチステップの会話ができる200,000トークンのコンテキストウィンドウ、ユーザー管理やビリング管理のための管理ツールなども備わっています。さらに、信頼できるソースからの引用、データリポジトリとの統合、同僚とのAI生成文書の共同作業など、今後の機能拡張も予定されています。クロードiOSアプリは、クロードのウェブとシームレスに連携し、写真の撮影・アップロードや画像解析など、モバイルでの使用に適した機能を提供します。Pro、Teamユーザー全員が無料でダウンロードできます。

——————————–

【技術解説】 2024-05-02 05:00:00 Natural language boosts LLM performance in coding, planning, and robotics https://news.mit.edu/2024/natural-language-boosts-llm-performance-coding-planning-robotics-0501

このテキストは、大規模言語モデル(LLM)の性能向上に向けた3つのニューロシンボリック手法を紹介しています。

1. LILO (Library Induction from Language Observations):LLMを利用してコードを合成し、Stitchアルゴリズムによる自動リファクタリングで抽象化を行い、自然言語を使って抽象化されたコードを文書化するフレームワークです。これにより、LLMが人間のように抽象化を行えるようになり、より複雑な課題に対応できるようになります。

2. Ada (Action Domain Acquisition):自然言語の記述から行動の抽象化を学習し、階層的な計画を立てる手法です。GPT-4などのLLMと組み合わせることで、仮想環境での課題遂行能力が大幅に向上しました。

3. LGA (Language-Guided Abstraction):ロボット操作において、事前の人間による詳細な注釈を必要としない手法です。言語モデルを用いて環境の重要な特徴を抽出し、模倣学習によってロボットの行動計画を生成します。これにより、構造化されていない環境でもロボットが適切に行動できるようになります。

これら3つのフレームワークは、自然言語を活用してLLMの抽象化能力を向上させ、プログラミング、AIプランニング、ロボティクスなどの複雑な課題への適用を可能にしています。今後は、より強力な言語モデルの導入や、マルチモーダルな表現の活用など、さらなる発展が期待されます。

この研究は、MIT CSAILのJoshua Tenenbaum教授、Julie Shah准教授、Jacob Andreas准教授を筆頭とする研究チームによって行われ、米国国防高等研究計画局(DARPA)や米国海軍研究局(ONR)などからの支援を受けています。

——————————–

【新サービス】 2024-05-02 12:07:02 AWS、生成AIアシスタント「Amazon Q」一般提供開始 https://www.watch.impress.co.jp/docs/news/1588786.html

AWS(Amazon Web Services)は、生成AIアシスタント「Amazon Q」の一般提供を開始しました。また、社内データから生成AIアプリを構築できる新機能「Amazon Q Apps」も同時に発表しています。

「Amazon Q」は、開発者向けの機能が豊富です。コード生成や、テストやデバッグ、複数ステップの計画や推論(reasoning)機能を備えており、開発者のリクエストに応じて、コードの変換(Javaバージョンアップグレードの実行など)や新たなコードの実装が可能です。さらに、エンタープライズデータリポジトリに接続することで、企業のポリシー、製品情報、業績、コードベース、人材などさまざまな企業データに関する質問に答えることができ、データの論理的な要約やトレンドの解析、データに関する会話なども可能になっています。

「Amazon Q Apps」は、従業員が自然言語で業務アプリのニーズを記述するだけで、求める業務を遂行するアプリを生成できる機能です。これにより、効率的に日常業務を簡素化し、自動化することができます。

——————————–

【新サービス】 2024-05-02 17:21:57 グーグル「Gemini」アプリ、日本で提供開始 https://www.watch.impress.co.jp/docs/news/1588887.html

グーグルは、生成AI「Gemini」アプリの日本展開を開始しました。Geminiは、Androidアプリとしてダウンロードできるほか、Googleアプリからもアクセス可能です。iOSユーザーはGoogleアプリからGeminiを利用することができます。

Geminiは、会話型かつマルチモーダルな機能を備えたAIアシスタントです。

Androidでは、Geminiアプリをダウンロードするほか、Google Assistantの起動方法(電源ボタンの長押しや「OK Google」の音声入力など)でもGeminiにアクセスできます。Geminiアプリには、Google Assistantの多くの機能(タイマー設定、通話、スマートホームデバイスのコントロールなど)が追加されており、今後さらに機能が拡張される予定です。iOSではGoogleアプリからGeminiを利用可能で、SNS投稿のサポートや旅行計画の立案などの機能を使うことができます。

また、Geminiには拡張機能が用意されており、ユーザーはGmailやYouTubeなどのGoogleサービスと連携して、旅行計画の立案や動画視聴など、ワンストップで様々なタスクを行うことができます。ユーザーは、プライバシー設定や拡張機能の使用方法を自由に管理できます。

さらに、デスクトップ版のChromeでもGeminiを利用できる新しい方法が提供される予定です。Chromeのアドレスバーに「@gemini」と入力し、続いて質問を入力することで、Geminiが起動し、回答が表示されるようになります。

——————————–

【開発技術】 2024-05-04 01:35:41 OpenTofu Amiable to a Terraform Reconciliation https://thenewstack.io/opentofu-amiable-to-a-terraform-reconciliation/

OpenTofu コミュニティは、Linux Foundation の下で Terraform をフォークすることなく、オープンソースに戻ることを強く望んでいます。2024年5月2日、IBM がHashiCorp を6.4億ドルで買収したことを受けて、OpenTofu はこの買収がどのように Terraform の将来に影響するのかに注目しています。

OpenTofu のコメンテーターSebastian Stadil氏は、IBM がHashiCorp よりもオープンソースをよりよく理解していることを期待しています。IBM がTerraform (およびHashiCorp ポートフォリオ全体) をオープンソースに戻すのであれば、OpenTofu はTerraformとの統合を歓迎すると述べています。OpenTofu は Linux Foundation のサポートを受けた Terraform のフォークで、コミュニティの分断を避けるためにも、統合されることが望ましいと考えています。

一方、OpenTofu は最新のバージョン1.7.0をリリースしました。このバージョンには、設定ファイルの端末間暗号化や、プロバイダ定義の関数の追加など、ユーザーから長く求められていた機能が実装されています。リリース作業を通して、OpenTofu プロジェクトの長期的な維持可能性に自信を持っているSebastian Stadil氏は、外部からの多数の寄与者が加わっていることを述べています。

OpenTofu は Terraform との統合を目指しつつ、独立したオープンソースプロジェクトとしての発展も目指しています。IBM がTerraformをどのように扱うかによって、OpenTofu の今後の方向性が大きく変わってくると考えられます。

——————————–

【LLMの評価】 2024-05-05 09:00:00 Introducing the Open Leaderboard for Hebrew LLMs! https://huggingface.co/blog/leaderboard-hebrew

このプロジェクトは、ヘブライ語NLPの発展に向けた重要な取り組みを紹介するものです。ヘブライ語は低リソース言語であるため、既存のLLMリーダーボードはヘブライ語の特性を正確に反映していませんでした。そこで、オープンなLLMリーダーボードを開発し、ヘブライ語のランゲージモデルを評価・改善することを目的としています。このリーダーボードは、イスラエルのNLP研究機関であるMafatおよびDICTAによって構築・運営されています。ヘブライ語QA、感情分析、代名詞解決、翻訳の4つのベンチマークタスクを設定し、LLMの性能を評価します。これらのタスクは、ヘブライ語の形態論的な複雑さや文脈依存性を考慮して設計されています。リーダーボードの技術的な仕組みは、オープンLLMリーダーボードをベースにしています。HuggingFace Inference Endpointsを使ってモデルを自動的にデプロイし、lighteval ライブラリによってAPIリクエストを管理しています。この取り組みは、研究者やデベロッパー、enthusiastに広く参加を呼びかけており、ヘブライ語のランゲージテクノロジー研究の発展に寄与することが期待されています。

本プロジェクトは、イスラエル国防省や国内NLP研究センターDICTAなどの支援を受けています。ヘブライ語の言語的・文化的な特性を反映したモデルの開発を推進し、ヘブライ語テクノロジーの向上につなげることが目的です。研究者やデベロッパーの積極的な参加を呼びかけています。

2024/4/22~2024/4/28のTech Newsまとめ

【LLM新技術】 2024-04-23 23:18:09 FlowMind: Automatic Workflow Generation with LLMs https://arxiv.org/abs/2404.13050

RPA(Robotic Process Automation)は反復的なプロセスを自動化するのに有効ですが、ユーザーによる即興的や予期せぬタスクには対応が難しい課題がありました。そこで登場したのが、LLMの機能を活用したFlowMindです。LLMには「ハルシネーション」と呼ばれる虚偽の出力が問題となっていますが、FlowMindではAPIを活用することでこの問題を解決しています。また、FlowMindはLLMと企業の機密データや コードの直接の対話を排除することで、情報の整合性と機密性を確保しています。特に金融分野では重要な点です。さらにFlowMindは、ユーザーに自動生成されたワークフローの概要を提示し、フィードバックを得るなどしてユーザー体験を簡素化しています。論文では、ファンドに関するQ&Aデータセット「NCEN-QA」を新たに提案し、FlowMindの性能評価に活用しています。評価の結果、FlowMindの有効性と、提案するLLM活用方式の各要素の重要性が示されました。

——————————–

【LLM新技術】 2024-04-25 08:50:48 Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models https://arxiv.org/abs/2402.14207

本研究は、大規模言語モデルを使用して、Wikipedia のようなグラウンディングされた長編記事を最初から作成する方法について調査しています。この問題は、事前執筆段階における新たな課題を提起します。具体的には、トピックを調査し、執筆前にアウトラインを準備する方法についてです。研究者らは、STORM と呼ばれる執筆システムを提案しています。STORM は、事前執筆段階をモデル化しています。その手順は以下の通りです:

1. 与えられたトピックについて、多様な視点を発見する

2. トピックの専門家と行われる対話を模倣し、さまざまな視点から質問を受ける

3. 収集した情報をキュレーションし、アウトラインを作成する

評価のために、研究者らは FreshWiki と呼ばれるデータセットを作成しました。これは、最近公開された高品質な Wikipedia 記事から構成されています。そして、アウトラインの評価方法を定義しています。さらに、経験豊富な Wikipedia 編集者からフィードバックを得ています。STORM によって生成された記事は、アウトラインが整理されている (絶対値で 25% 増加) と評価されており、カバー範囲も広い (10% 増加) と評価されています。専門家からのフィードバックにより、グラウンディングされた長編記事の生成における新たな課題も明らかになりました。具体的には、ソースの偏りの転移や、関連性の低い事実の過剰な関連付けなどが挙げられます。

——————————–

【RAG】 2024-04-25 22:24:03 Reducing hallucination in structured outputs via Retrieval-Augmented Generation https://arxiv.org/abs/2404.08189

本文は、Retrieval Augmented Generation(RAG)を活用することで、生成型AIシステムにおけるハルシネーションの問題を改善する方法について述べています。まず、生成型AIシステムにはハルシネーションが生じる傾向があり、これが実世界での導入を阻害する可能性があることが指摘されています。著者らは、自然言語の要件に基づいてワークフローを生成する企業向けアプリケーションを開発する過程で、RAGを活用することでこの問題に取り組みました。著者らの実装により、出力におけるハルシネーションが大幅に減少し、ドメイン外のデータに対するLLMの一般化性能も向上しました。さらに、小規模で高精度なリトリーバーエンコーダを使用することで、LLMベースシステムの導入時のリソース負荷を軽減できることが示されています。

2024/4/15~2024/4/21のTech Newsまとめ

【新しいLLM】 2024-04-15 09:00:00 Introducing Idefics2: A Powerful 8B Vision-Language Model for the community https://huggingface.co/blog/idefics2

Idefics2は、自然言語とイメージからなる入力に対して、文章での出力を生成できる強力な8B規模のマルチモーダルモデルです。Idefics1 から大幅な性能向上を実現しており、オープンソースでライセンスされています。

Idefics2の主な特徴は以下の通りです。

1. 8B個のパラメータを持つ大規模モデルで、多様な用途に利用可能です。オープンソースのため、コミュニティでの活用が期待されます。

2. 光学文字認識(OCR)の能力が強化されており、画像やドキュメントの文字情報を効果的に活用できます。

3. 画像の全体や部分を柔軟に扱うことができ、大きなサイズの画像にも対応しています。

4. 問題文や指示に基づいて、質問への回答やイメージの記述、複数のイメージに基づくストーリーの生成、計算処理などを行うことができます。

5. 事前学習後にさまざまなタスクに対してファインチューニングできるよう、Transformers ライブラリに統合されています。

6. コミュニティ向けにオープンソースデータセット「The Cauldron」を公開しており、多様なマルチモーダルタスクでの利用が期待されます。

開発にあたっては、Google チームやMistral AIなどの貢献に感謝しています。

——————————–

【新サービス】 2024-04-16 07:22:10 Cohere Compass Private Beta: A New Multi-Aspect Embedding Model https://cohere.com/blog/compass-beta

Cohereは、多様な側面を持つデータに対応できる新しい基盤埋め込みモデル「Cohere Compass」のプライベートベータを発表しました。多様な側面を持つデータとは、複数の概念や関係性を含むデータのことを指します。企業の保有するメール、請求書、履歴書、サポートチケット、ログメッセージ、表形式データなどがこれに該当します。従来の埋め込みモデルは、単一の属性しか捉えることができませんでした。例えば、青と黄色のジーンズと緑と赤のTシャツが近い埋め込み結果を示してしまいます。これでは、「赤のTシャツ」を検索しても適切な結果が得られません。Cohere Compassは、このような多様な側面を持つデータに対応するために設計されています。Compassでは、JSONドキュメントとして入力データを受け取り、ベクトルデータベースに多様な側面を捉えた埋め込み表現を保存します。従来のRAGパイプラインでは、メールと添付PDFを別々に処理していましたが、Compassではメールとその添付ファイルを一つのJSON文書として取り扱い、メタデータと本文の関係性を保持した埋め込み表現を生成します。Compassを使うと、「Cohere埋め込みのPRはいつのものですか?」といった、時間、意味上のトピック、タイプなどの複数の側面を組み合わせた検索クエリに適切に応答できるようになります。Cohereは現在Compassのプライベートベータテストを行っており、多様な側面を持つデータを持つ企業の参加を募集しています。Compassの活用により、より高度な検索や分析が可能になることが期待されます。

——————————–

【新しいLLM】 2024-04-16 08:37:34 Reka Core: Our Frontier Class Multimodal Language Model https://www.reka.ai/news/reka-core-our-frontier-class-multimodal-language-model

Reka Coreは、業界トップクラスの多モーダル言語モデルです。数か月にわたりGPUを使って効率的に学習されており、OpAI、Anthropic、Googleなどの最新モデルと肩を並べる性能を持っています。コストパフォーマンスの面でも優れており、多様な用途への活用が期待されます。具体的な性能比較では、Reka Coreは画像・動画理解の「MMMU」タスクで、GPT-4Vと同等の成績を収めています。また、独立第三者機関による多モーダルの人間評価では、Claude-3 Opusを上回り、ビデオタスクでもGemini Ultraを凌駕しています。言語タスクでも、他の最新モデルと肩を並べる成績を収めています。Reka Coreの主な機能としては、画像や動画、オーディオなどの多モーダルな理解能力、128Kもの長いコンテキストウィンドウ、高度な推論能力、コーディング能力、32か国語の多言語対応、オンプレミスやオンデバイスなど柔軟な展開が可能といった特徴が挙げられます。Rekaは、このReka Coreをはじめ、Edge、Flash など一連の高性能モデルを提供しており、電子商取引、ヘルスケア、ロボティクスなど、様々な分野での活用を目指しています。パートナーには、Snowflake、Oracle、AI Singaporeなどの大手企業や組織が名を連ねており、多モーダル技術の普及に尽力しています。

——————————–

【LLMの評価】 2024-04-16 09:00:00 Introducing the LiveCodeBench Leaderboard – Holistic and Contamination-Free Evaluation of Code LLMs https://huggingface.co/blog/leaderboard-livecodebench

LiveCodeBenchは、UC Berkeley、MIT、Cornellの研究者によって開発された新しいベンチマークで、LLMのコード生成機能を計測することができます。

LiveCodeBenchは、さまざまなコーディングコンテストプラットフォームから蓄積されたコーディング問題を利用しています。問題にはリリース日が付与されており、異なる時間枠の問題集合で評価することで、 “経時的な評価” が可能になり、汚染を防ぐことができます。コード生成タスクに加えて、自己修復、テスト出力予測、コード実行なども評価することで、次世代のAIプログラミングエージェントに求められる総合的なコーディング能力を把握することができます。LiveCodeBenchの問題は、LeetCode、AtCoder、CodeForcesといったコーディングコンテストプラットフォームから収集されています。これらのサイトでは定期的にコンテストが開催され、参加者のコーディングやプロブレムソルビングのスキルを評価する問題が出題されます。問題には自然言語の問題文と入出力例が含まれ、隠されたテストケースに合格するプログラムを作成することが目標となっています。

——————————–

【DL技術】 2024-04-16 09:00:00 AI Apps in a Flash with Gradio’s Reload Mode https://huggingface.co/blog/gradio-reload

Gradioはマシンラーニングアプリ作成に使われるPythonライブラリです。Gradioでは、UIレイアウトをPythonで記述し、UIイベントに応じて動作するPythonロジックを追加します。このライブラリは基本的なPythonを知っていれば簡単に学習できます。通常、Gradioアプリケーションはpython app.pyのようにPythonスクリプトとして起動させます。これにより、HTTPサーバが起動し、アプリのUIが表示されて、ユーザーアクションに応答します。アプリに変更を加える場合は、サーバを停止(通常はCtrl + Cで)し、ソースファイルを編集してから再実行する必要があります。この停止・再実行のサイクルには待ち時間が発生し、アプリの開発効率を下げてしまいます。そこで、Gradioはリロードモードを実装しました。gradio app.pyコマンドを使ってアプリを起動すれば、ソースコードの変更を即座に反映できます。

Gradioがこのオリジナルのリロード機能を実装した理由は次の2点です。

1. 高速なリロード: Uvicornのオートリロード機能ではサーバーが停止・再起動するため、Gradioアプリのように迅速な反応が求められる場合に遅すぎます。Gradioでは、UIをPythonで構築するため、変更後すぐに反映させることが重要です。これはJavaScriptエコシステムでは当たり前ですが、Pythonにとっては新しい概念です。

2. 選択的なリロード: GradioアプリはAIアプリケーションなので、メモリ上にAIモデルを読み込んだり、ベクトルデータベースに接続したりする処理が含まれます。開発時にサーバーを再起動するとこれらの処理が毎回実行され、開発サイクルの遅延が発生します。そこで、Gradioは`gr.NO_RELOAD`ブロックを使って、リロードしないコードを指定できる仕組みを導入しました。

——————————–

【新しいLLM】 2024-04-18 09:00:00 Welcome Llama 3 – Meta’s new open LLM https://huggingface.co/blog/llama3

Meta社が開発した次世代の大規模言語モデル「Llama 3」が公開されました。Llama 3には以下の特徴があります。

1. モデルサイズ: 8B (小規模)と70B (大規模)の2種類が用意されています。両モデルともに、ベースモデルと命令チューニングされたバージョンが提供されています。また、これらに加えて、Llama 3 8Bをベースにしたセーフティ重視のモデル「Llama Guard 2」も公開されました。

2. トークン数の拡張: Llama 2の32,000トークンから、Llama 3では128,256トークンへと拡張されました。これにより、入出力の効率が向上し、多言語性能も強化されています。

3. アーキテクチャの改善: 8Bモデルでは、メモリ効率の良い「Grouped-Query Attention」が採用されました。また、全体的な精度向上のため、大量のデータ(15トリリオントークン以上)を用いてさらなる学習が行われました。

4. 使いやすさの向上: Hugging Faceとの密接な連携により、この新しいLlama 3モデルをTransformersライブラリから簡単に利用できるようになりました。さまざまなデプロイ環境(Inference Endpoints、Google Cloud、Amazon SageMaker)にも対応しています。

5. 柔軟なライセンス: Llama 3には派生利用が可能な、比較的緩いライセンスが適用されています。ただし、派生モデルにはLlama 3の由来を明示する必要があります。

——————————–

【LLMの評価】 2024-04-19 09:00:00 The Open Medical-LLM Leaderboard: Benchmarking Large Language Models in Healthcare https://huggingface.co/blog/leaderboard-medicalllm

「The Open Medical-LLM Leaderboard」はヘルスケア分野における大規模言語モデル(LLM)の性能を評価するためのものです。

主な特徴は以下の通りです。

1. 様々な医療分野のデータセットを使って、LLMの医療知識とQA能力を包括的に評価します。データセットには、MedQA、PubMedQA、MedMCQAなどが含まれています。

2. 主な評価指標は正答率(Accuracy)です。提出されたモデルはこの指標に基づいて順位付けされます。

3. 現在のリーダーには、GPT-4やMed-PaLM-2といった商用モデルと、Starling-LM-7BやGemini Proといった研究用モデルが名を連ねています。

4. モデルの提出方法や、今後の展開について詳しく解説されています。例えば、モデルをsafetensorsフォーマットに変換したり、AutoClassesとの互換性を確認する必要があります。

5. 今後はより多様なデータセットの導入や、新しい評価指標の検討など、リーダーボードの機能拡張が予定されています。

——————————–

【ニュース】 2024-04-19 10:00:15 企業や組織のイノベーションを創出する Microsoft AI Co-Innovation Lab Kobe https://news.microsoft.com/ja-jp/2024/04/19/240419-microsoft-ai-co-innovation-lab-kobe-creating-innovation-for-companies-and-organizations/

Microsoft AI Co-Innovation Lab Kobe(神戸ラボ)の開設から半年間の活動や施設の運用状況が紹介されました。

神戸ラボは、マイクロソフトおよび川崎重工業株式会社と神戸市の連携により、2023年10月11日に神戸商工貿易センター内に開設されました。AI やIoTを活用したイノベーションの創出と産業の振興を目指しており、地域活性化にもつなげていくことが期待されています。ツアーでは、神戸ラボの所長である日本マイクロソフト株式会社の平井健裕氏より、施設の紹介や運用状況、今後の活動などが説明されました。神戸ラボはこれまでに90社以上の企業が訪れ、毎週のようにスプリント開発が実施されている注目を集める施設となっています。また、神戸市のイノベーション創出の取り組みとして、スタートアップ支援事業「Urban Innovation KOBE」の紹介や、行政とスタートアップの連携などが武田卓氏より説明されました。

さらに、マイクロソフトと川崎重工業株式会社の協業事例やAIオーブン「THEO」の開発事例も紹介されました。特に、THEOの開発では、Microsoft AI Co-Innovation Labの活用により、職人の技術をデータ化してAI学習済みモデルを実現するなど、興味深い取り組みが行われていることがわかりました。

——————————–

【LLM新技術】 2024-04-19 14:25:15 Many-Shot In-Context Learning https://arxiv.org/abs/2404.11018

本論文では、大規模言語モデル(LLM)による「多量の事例によるインコンテキストラーニング(Many-Shot In-Context Learning)」について報告されています。従来のLLMは、わずかな事例(few-shot)から容易にインコンテキストでの学習ができることが知られていますが、本研究では、数百~数千の事例(many-shot)を利用した場合の性能を調べています。その結果、生成タスクや識別タスクにおいて大幅な性能向上が見られました。しかし、many-shotの学習には人間が生成した多数の事例が必要になるという課題がありました。そこで、本研究では2つの新しい手法を提案しています。1つは「Reinforced ICL」です。これは、人間が生成した事例の代わりに、モデル自身が生成したチェーン・オブ・シンキング(論理的な推論過程)を利用するものです。もう1つは「Unsupervised ICL」で、ドメイン固有の質問のみを提示し、事例そのものは与えないというものです。これらの手法を使うことで、複雑な推論タスクにおいても、many-shotの学習が効果的であることが示されました。また、few-shotの学習とは異なり、many-shotの学習では、事前学習時のバイアスを上書きし、数値入力を持つ高次元の関数を学習することができることが分かりました。

2024/4/8~2024/4/14のTech Newsまとめ

【AIと法律・規制】アメリカの俳優らの労働組合SAG-AFTRAとレコードレーベルがAIの音声利用規制で暫定契約

SAG-AFTRA(Screen Actors Guild-American Federation of Television and Radio Artists)は、アメリカ合衆国の演技者、アナウンサー、放送ジャーナリスト、プログラムホスト、ニュースライター、その他メディア関連の職種の人々を代表する労働組合です。SAG-AFTRAと主要なレコードレーベルが、新しい契約について仮合意しました。この契約は2021年から2026年まで有効です。含まれるレコードレーベルは、ワーナーミュージック、ソニーミュージック、ユニバーサルミュージック、ディズニーミュージックです。この合意には、音楽産業での人工知能の使用を倫理的に制限する新しいルールが設けられており、これは業界で初めてのことです。人工知能に関するルールは、歌手の声のデジタル複製を使用する音声録音のリリース前に、明確な同意と最低報酬要件が必要とされます。契約の他の重要な点には、最低賃金の上昇、健康と退職の福利の改善、ストリーミング収益の貢献割合の増加があります。

———————————

【人間とAIの未来】自民党がAIデータ利用と安全性確保のための新戦略を発表

自民党デジタル社会推進本部「AIの進化と実装に関するプロジェクトチーム」(平将明 PT座長)は4月12日、「AIホワイトペーパー ステージⅡにおける新戦略 ー世界一AIフレンドリーな国へー」をとりまとめ、 デジタル社会推進本部で了承いただきました。この後、政務調査会の審査を経て、自民党の政策になります。

  • 研究開発と利活用の推進:政府や民間が持つデータの活用を推進し、新たなAI開発への利用を容易にする。特定の分野、例えば自動車や医療、農業などにおいて、データの収集とAI開発の相乗効果を官民共同で進める。
  • 安全性の確保:AIに関するリスクを管理し、安全な利用を保証するためのガイドラインや法的枠組みを整備。AI事業者はリスクの評価と低減を継続的に行うことが求められる。
  • 国際協調と連携の強化:AIの安全性評価に関する国際的なネットワークを構築し、国際的な協調を図る。アジア諸国やグローバルサウスとの協調を強化する。

———————————

【新サービス】新しい「GPT-4 Turbo」がChatGPTの有料ユーザーに提供開始

———————————

【人間とAIの未来】生成AIが漫画制作で役立つ点と限界 漫画家「うめ」が資料を公開

経済産業研究所は「漫画制作における生成AI活用の現状:2024春」という資料を無料公開しました。この資料は漫画家「うめ」の小沢高広さんが作成したものです。資料では、生成AIが漫画制作で役立つ点と限界が挙げられています。例えば、AIは創造的なアイデア出しやパターン生成には適していますが、物語性が強い長編漫画を描く能力にはまだ到達していないとされています。小沢さんは、生成AIが現在の漫画家の仕事を奪うことはないと見ていますが、将来的にどうなるかは不明であるとも述べています。また、AIの利用が著作権侵害になるかどうかについても触れられており、法的な許可は得られているものの、倫理的な問題や不同意の意思表示が簡便に行える技術の開発が望まれています。

———————————

【AIとロボット】AIロボット開発企業Sanctuary AIは自動車部品メーカーMagnaと提携

Sanctuary AIは、自動車部品メーカーMagnaとの戦略的パートナーシップと投資を通じて、一般用途のロボットの開発、導入、拡大をサポートしています。この提携により、Magnaの製造業務に一般用途のAIロボットが導入され、コスト削減とスケーラビリティの向上が目指されます。Sanctuary AIは、人間のようなAIを持つロボットを世界で初めて作ることを目標に掲げています。この目標を達成するためには、世界的なパートナーが必要です。Sanctuary AIは、独自の技術、特に人間の手に似た高度な機能を持つロボット「Phoenix™」やAI制御システム「Carbon™」を開発しています。これらは、製造業だけでなく他の多くの業界にも変革をもたらす可能性があります。Magnaは、2021年からSanctuary AIに投資しており、特定のタスクに一般用途AIロボットを統合することで、高品質な製品の提供能力を向上させることを目指しています。

———————————

【LLMの評価】Meta、視覚と言語モデルの空間理解を評価する「OpenEQAベンチマーク」

Metaが、OpenEQA(オープン・ボキャブラリー体感型質問応答)ベンチマークを発表しました。これは、AIエージェントが物理的な空間をどのように理解しているかを評価するためのものです。このベンチマークは、視覚と言語のモデル(VLMs)を評価し、それらが人間のレベルと比べて大きなギャップがあることを発見しました。特に空間理解を必要とする質問において、今日のVLMsはほとんど助けにならないことがわかりました。OpenEQAの目的は、AIエージェントが見た世界について理解し、コミュニケーションを取る手助けをするためのオープンリサーチを促進することです。OpenEQAは、1,600以上の非テンプレート化された質問と回答のペアを含んでおり、これらは実世界の使用例を反映しています。また、物理的な環境のビデオやスキャンへのリンクも提供されています。現在のところ、最も性能の良いモデルであるGPT-4Vでも、人間のパフォーマンス(85.9%)と比較して大きな性能差(48.5%)があります。特に、空間に関する質問に対しては、視覚情報を活用しているモデルであっても、テキストのみのモデルとほとんど変わらない結果となっています。

———————————

【新しいLLM】モバイルUI画面を理解し操作するAppleの新AI言語モデル「Ferret-UI」 

AppleのFerret-UIはモバイルUIの多面的理解を実現するAIモデル

Appleが「Ferret-UI」という新しいAI言語モデルを発表しました。このモデルは、iPhoneやAndroidなどのモバイルUI画面をより深く理解し、インタラクションできるように設計されています。Ferret-UIは、スクリーンショットを詳細に説明するタスク、質問に対する応答、およびスクリーンの機能を推測する能力を持っています。このモデルは「any-resolution」技術を使用しており、画面を複数のサブ画像に分割し、それぞれを別々にエンコードすることで、細かい視覚情報を失うことなく、豊かな視覚特徴を活用できます。基本的なUIタスク(アイコン認識やテキスト検出など)と高度なUIタスク(詳細な説明、対話、機能推論など)を通じて、モデルはUI要素の意味と空間的な位置関係を理解することができます。このモデルにより、モバイルデバイスのユーザーインターフェースをより効果的に解析し、操作するAIの開発が進むことが期待されています。

———————————

【音楽生成AI】無料でAIが最大1200曲の作曲が可能「Udio」パブリックベータ版を公開

———————————

【ニュース】MetaがAI特化の新カスタムチップ「MTIA」を発表

Metaは「Meta Training and Inference Accelerator (MTIA)」の次世代モデルを発表しました。これは、AIに特化したカスタムチップです。この新しいチップは、パフォーマンスがMTIA v1に比べて大幅に向上しており、ランキングと推薦モデルを効率よく動かすことができます。MTIAは、Metaの製品とサービス全体で新しい体験を提供するためのAIインフラストラクチャ投資の一環です。このチップは、処理要素(PE)の8×8グリッドを持ち、密集計算性能が3.5倍、スパース計算性能が7倍に向上しています。チップのアーキテクチャは、メモリ帯域幅と容量を重視して設計されており、オンチップのSRAM容量と帯域幅がそれぞれ2倍、LPDDR5の容量も2倍に増えています。ソフトウェアスタックも更新され、PyTorch 2.0と完全に統合されています。また、トリトン言語を使用してMTIA専用の高効率コードを生成するTriton-MTIAコンパイラバックエンドが導入されています。この次世代チップは、初代MTIAに比べて性能が3倍向上し、モデル処理スループットが6倍、性能効率が1.5倍向上しています。MTIAはデータセンターで稼働を開始し、MetaのAIワークロードに対する効率的なサポートを提供しています。

———————————

【ニュース】Raspberry Piがソニー製AI機能搭載センサーIMX500を用いた新AIカメラモジュールを今年夏に発売予定

英国Raspberry Piは、ソニーのAI機能を搭載したインテリジェントビジョンセンサー「IMX500」を使ったAIカメラモジュールを2024年夏に発売予定です。IMX500は、画像処理とAI処理を行う積層構造を採用しており、外部の高性能プロセッサやメモリを必要とせずに、エッジAIシステムを実現できます。Raspberry Piはこのカメラモジュールに、画像認識モデルのMobileNetを搭載しており、Tensorflowのカスタムモデルもインポート可能です。デモでは、Raspberry Pi Zero 2 Wを使用して、物体認識や身体セグメンテーションのデモを実施しました。価格や詳細な発表はまだされていませんが、外箱の準備が進んでおり、2024年夏の発売が予定されています。ソニーとRaspberry Piは、イメージセンサーや半導体製品の製造で長期的な戦略的パートナーシップを築いています。

———————————

【ニュース】Googleが10億ドルを投資して日本とグアムの新海底ケーブルなどのインフラを強化

Googleは日本のデジタル接続性を向上させるために、10億ドルを投資することを発表しました。これには、太平洋接続イニシアチブの拡張と、新たな海底ケーブル「Proa」と「Taihei」の設置が含まれます。「Proa」海底ケーブルは、NECが製造し、日本、北マリアナ諸島(CNMI)、グアムを接続します。このケーブルはCNMIの最初の国際海底ケーブルとなります。「Taihei」は日本とハワイを接続する別のNEC製海底ケーブルで、平和と太平洋を意味します。これらのケーブルは、アメリカ本土と日本(茨城県の志摩および高萩市)の間に新しいルートを設け、デジタル接続の信頼性と回復力を向上させることを目的としています。さらに、ハワイ、CNMI、グアムを結ぶインターリンクケーブルの建設も資金提供され、太平洋のルートをつなぎ、信頼性の向上とレイテンシの削減を図ります。このプロジェクトには、KDDI、ARTERIA、Citadel Pacific、CNMI政府など、複数のパートナーが協力しています。Googleのネットワークインフラストラクチャへの投資は、過去に日本のGDPを4億ドル以上増加させたと推定されており、デジタルサービスへのアクセス増加により、スキル開発やキャリアの機会が拡大しています。

———————————

【新しいLLM】Microsoftも出資するAI企業Mistral、オープンソースLLM「Mixtral 8x22B」リリース

———————————

【新技術】新OS「DBOS」はクラウド時代の大量データ処理に対応

クラウドサービスが拡大している今、Linuxのような従来のOSでは対応が難しくなっているため、新しいタイプのOSが求められています。「DBOS」という新しいOSは、データを中心とした設計思想を持ち、大量のデータを扱う現代の要求に対応するよう開発されました。DBOSはデータベースの技術を活用し、データの管理とアクセスを効率化することで、より高速で安全なデータ処理を実現します。アプリケーションの動作状態などは、分散されたデータベースに保存され、これにより、データの整合性とセキュリティが保たれます。このOSは、開発者が利用できるさまざまなレベルで構成されており、アプリケーションの開発やデータの扱いを柔軟に行えます。開発者は特定の開発キット(SDK)を用いて、独自のアプリケーションをこのOS上で開発し、データを効果的に活用することができます。アプリケーションが予期せず停止した場合でも、DBOSは自動的に処理を再開できるため、サービスの中断を最小限に抑えることができます。

———————————

【新サービス】GoogleのGemmaファミリーが開発者向けにCodeGemmaとRecurrentGemmaを導入

GoogleのGemmaファミリーが拡大し、「CodeGemma」と「RecurrentGemma」という新しいモデルが導入されました。

  • CodeGemmaは、コード補完や生成、命令に従う作業に特化しており、プログラミング作業を効率化するための機能を提供します。これにより、開発者はより迅速に、かつ誤りの少ないコードを書くことができるようになります。
  • RecurrentGemmaは、リカレントニューラルネットワークを使用し、メモリ使用量を減少させることで、限られたメモリのデバイス上でも長いサンプルの生成を可能にします。これは、研究者がより大きなバッチサイズで高速に推論を行うために設計されたモデルで、長いシーケンスの生成において効率的です。

これらのモデルはオープンソースであり、JAXやPyTorch、Hugging Face Transformersなど、さまざまなツールやプラットフォームとの互換性を持ちます。これにより、幅広いハードウェア上でのローカル実験やコスト効率の良い展開が可能になります。さらに、Gemma 1.1では、パフォーマンスの向上と開発者からのフィードバックに基づくバグ修正、利用条件の更新が行われました。これらのモデルは、KaggleやHugging Face、Vertex AI Model Gardenなどで利用でき、開発者や研究者はこれらを自分のプロジェクトに組み込んで、新しい可能性を探求することができます。

———————————

【AIの活用】バイエルとGoogle Cloudが放射線科医向けAIアプリケーション開発を加速

バイエルとGoogle Cloudが協力して、放射線科医を支援するAI技術を開発しています。これは放射線科医の作業負荷を軽減し、より効率的に患者さんを診断するのに役立つことを目的としています。バイエルはGoogle Cloudの技術を使用し、放射線学に特化したAI駆動型のアプリケーションを素早く開発し、展開するためのプラットフォームを進化させます。医療画像は非常に大量であり、これらを効率的に分析するためには新しいAIツールの開発が必要です。バイエルのイノベーションプラットフォームは、AIによるデータ分析から、規制や科学論文からの情報抽出、開発と検証のためのAI支援、医療イメージングのコアラボサービス利用まで、アプリケーション開発のための一連のプロセスをサポートします。このプラットフォームはGoogle Cloud上に構築され、データ分析やAIの開発に必要な多くのツールを提供します。データのセキュリティとプライバシーは非常に重要で、Google Cloudの技術はHIPAAやGDPRに準拠したデータの管理を可能にします。これは医療データを扱う上で欠かせない要素です。

———————————

【新サービス】Gemini 1.5 Proがオーディオ理解やJSONモードなど新機能で180ヵ国以上で利用可能に

Gemini 1.5 Proは、Googleの最新のAIモデルで、音声を含むさまざまな種類のデータを理解できる能力を持っています。これにより、開発者はより多様なアプリケーションを開発できるようになります。このモデルは、オーディオファイルやビデオファイルを入力として受け取り、それをテキストデータに変換することで、例えば講義の内容をクイズに変換するなどの処理が可能です。JSONモードを利用すると、モデルの出力をJSONオブジェクトとして受け取ることができ、これによりテキストや画像からの構造化データの抽出が簡単になります。新しいテキスト埋め込みモデルは、文章や単語を数値のベクトルに変換する技術であり、この技術を用いることで、テキストデータの類似性を計算したり、検索性能を向上させることができます。このモデルは、既存の類似モデルと比較して高い性能を達成しています。Google AI Studioを通じて、これらの新しい機能を活用するためのAPIキーを取得し、Gemini API Cookbookでのコード例やクイックスタートガイドを参照しながら開発を始めることができます。

———————————

【ニュース】マイクロソフトが日本のAI及びクラウド基盤強化に4,400億円を投資

マイクロソフトは、日本のAI技術とクラウドサービスの基盤を強化するために、約4,400億円の大規模な投資を行うと発表しました。この投資は、日本でのデジタル化の進展を加速させることを目的としています。投資の一環として、マイクロソフトは300万人にリスキリングの機会を提供し、技術スキルの向上を支援します。これにより、AIを効果的に活用する人材を育成し、日本社会全体のデジタルスキルの底上げを図ります。また、日本初となる研究拠点の設立により、AI技術の研究開発を促進し、イノベーションの創出を目指します。これは、国際的な研究コミュニティとの連携を深め、日本の科学技術の発展に貢献することを意図しています。サイバーセキュリティ分野では、日本政府との連携を強化し、国内のセキュリティ環境を向上させることで、政府や企業、一般国民をサイバー攻撃から守る取り組みを進めます。これらの取り組みを通じて、マイクロソフトは日本のデジタルトランスフォーメーションを支援し、経済成長と社会の発展に貢献することを目指しています。

———————————

【スキルアップ】AWS Japanが推奨する初学者向け6ステップ勉強法

———————————

【新しいLLM】Cohere AIの新しいLLM「Command R+」は、128kトークンのコンテキストウィンドウや多言語対応でOpenAI APIよりも安価

Command R+は、企業向けに開発された大規模言語モデル(LLM)で、企業の実際のニーズに合わせて設計されています。このモデルは、128kトークンのコンテキストウィンドウを持ち、検索強化生成(RAG)や多言語対応などの先進的な機能を提供します。Microsoft Azureを通じて最初に提供され、その後、他のクラウドプラットフォームでも提供される予定です。英語を含む10の主要言語をサポートし、世界中の企業が異なる言語のデータソースから正確な回答を生成できるようにします。Command R+の利用料金は、input $3/1M tokens、output $15/1M tokensです。

(GPT-4 Turboはinput $10/1M tokens, output$30/1M tokens)

(Mistral-Largeはinput $8/1M tokens, output $24/1M tokens)

2024/4/1~2024/4/7のTech Newsまとめ

Summary

【新サービス】ChatGPT有料版でDALL-E画像の部分編集が可能に

【新サービス】エンドルフィンとSUPERNGINEが「ピュアモデルAI」発表 契約した漫画家の作品だけから学習し著作権を保護

【新しいLLM】「JetMoE-8B」は$0.1M未満でLLaMA2-7Bを超える性能を示す低コストLLM

【音楽生成AI】StabilityAIの「Stable Audio 2.0」最大3分の高品質音楽トラック生成

【LLM新技術】Generate then RetrieveはLLMを用いて関連情報を正確に検索する方法を提案

【LLM新技術】Appleの研究チームがLLMで新たな参照解決技術ReALMを開発しGPT-4と比較して効率向上

【LLM新技術】日本語の質問に対する文書関連性を再ランク付けするRerankerをリリース

【LLM新技術】人間とAIアシスタント間の架空の対話をプロンプト内に大量に含めることで、LLMに有害な回答をさせることが可能になる「Many-shot jailbreaking」

【人間とAIの未来】イスラエルの「Lavender AI」がガザにおいて約10%のケースで誤って人を爆撃対象と特定

【ニュース】中国はAIと偽アカウントで米国の選挙に影響を試みている

【ニュース】OpenAIが東京にオフィスを開設する計画を発表 世界三番目の国際ロケーション

【ニュース】経済産業省がラピダスに5900億円の支援を決定し次世代半導体の研究開発を加速

【LLMツール】大規模言語モデルを効率的に配布・実行できる「llamafile v0.7」CPUとGPUでの速度とセキュリティを向上

【開発技術】zxはJavaScriptでシェルスクリプトを簡単に書けるツール

zxは、JavaScriptを使って、普段コンピューターに命令を出す「シェルスクリプト」を手軽に書けるようにするツールです。通常のシェルコマンドを**$**記号で囲むだけで使えるようにし、より簡単にプログラミングできます。シェルスクリプト特有の複雑さやわかりにくさを解消し、開発者がより簡単に、そして快適にコードを書けるようになります。JavaScriptの知識があれば、TypeScriptでの開発や、リモートでの実行、Markdownファイル内でのスクリプト実行も可能です。Docker内でも簡単に実行できるため、さまざまな環境での利用が想定されます。ファイル内でコマンドを実行する例や、配列を使った操作、非同期処理の制御が簡単にできる点が魅力です。色付けやファイル検索、システム操作、待機、データフォーマットの変換など、初めから多くの機能が利用できます。

→ 2024-04-06 “Release 8.0.0 · google/zx” https://github.com/google/zx/releases/tag/8.0.0

———————————

【ニュース】中国はAIと偽アカウントで米国の選挙に影響を試みている

中国は偽のソーシャルメディアアカウントを活用して、米国民がどのような問題について意見が分かれているかを調査しています。これは、選挙に影響を与える可能性があるため、特に注目されています。さらに、AIを駆使したコンテンツを通じて、米国内外での分断を促進し、中国の地政学的な利益を推し進める活動を強化しています。北朝鮮は、自国の軍事目的や情報収集のための資金を得るために、暗号通貨の盗難やサプライチェーン攻撃などのサイバー犯罪を行っています。最近では、これらのサイバー作戦の効率性と効果性を高めるためにAI技術の利用を始めたことが報告されています。

———————————

【新しいLLM】「JetMoE-8B」は$0.1M未満でLLaMA2-7Bを超える性能を示す低コストLLM

新しいLLM「JetMoE-8B」は訓練コストが非常に低く($0.1M未満)、高額な訓練リソースを持つMeta AIのLLaMA2-7Bモデルよりも優れた性能を示しました。訓練には公開されているデータセットのみを使用し、そのコードはオープンソース化されています。このモデルは、一般的な消費者向けのGPUでもファインチューニングが可能であり、多くの研究所でも利用できます。推論時に活用するパラメータは2.2Bに過ぎず、計算コストを大幅に削減しています。JetMoEの構造は、スパース(疎)活性化アーキテクチャにインスパイアされており、24のブロックから成り立っています。スパース(疎)活性化アーキテクチャとは、モデルの全てのパーツが常に動作するわけではなく、必要に応じて特定の部分だけが活性化(動作)する設計のことです。これにより、計算資源を効率的に使用し、大規模なモデルでも計算コストを抑えることが可能になります。各ブロックは、注意力の混合(MoA)とMLPエキスパートの混合(MoE)の2つのMoEレイヤーを含んでいます。注意力の混合(MoA)とは、異なる専門家(部品)が特定の情報に注意を払う仕組みを意味します。これにより、モデルは重要な情報に焦点を当てて処理することができます。MLPエキスパートの混合(MoE)では、複数の専門家がそれぞれ異なるデータ処理を行います。MLP(Multi-Layer Perceptron、多層パーセプトロン)は、単純な形式のニューラルネットワークを指し、データの特徴を抽出するのに使われます。

———————————

【LLM新技術】Generate then RetrieveはLLMを用いて関連情報を正確に検索する方法を提案

会話型情報検索(CIS)は、ユーザーが会話を通じて情報を求める際に、そのニーズを正確に把握し関連する情報を提供するシステムの開発を目指しています。一般的には、ユーザーの質問を1つのクエリに書き換えて情報検索を行いますが、この方法では情報ニーズを完全に捉えきれない場合があります。大規模言語モデルを利用して、ユーザーの情報ニーズに基づき複数のクエリを生成する新しい方法を3つ提案します。これにより、より関連性の高い情報を検索することが可能になります。この方法を様々なLLMsを用いて評価し、特にGPT-4やLlama-2 chatを活用した実験を行いました。TREC iKATに基づく新しい評価基準を導入し、gpt 3.5を使用した判定方法を提案しました。提案したモデルはTREC iKATデータセットにおいて有効であることが示され、情報検索の精度を向上させることができました。

———————————

【人間とAIの未来】イスラエルの「Lavender AI」がガザにおいて約10%のケースで誤って人を爆撃対象と特定

イスラエル軍は、「Lavender」という人工知能(AI)システムを利用して、ガザ地区の数万人の住民を暗殺対象として特定しています。このシステムは人間の介入が限られており、被害者に対する許容度が高いポリシーを持っています。「Lavender」は、ハマスやパレスチナ・イスラミック・ジハード(PIJ)の軍事部門に属すると疑われる人々を、低階級のものも含めて、爆撃の潜在的な対象としてマークすることを目的としています。戦争の初期にはこのシステムが中心的な役割を果たしました。約37,000人のパレスチナ人が戦闘員として疑われ、彼らの家が空爆の可能性のある対象としてマークされました。システムによる選択の理由や、それに基づく生データのチェックなしに、「Lavender」の殺害リストが広範囲に承認されました。このシステムは、約10%のケースで誤って人を特定し、そのうちのいくつかは戦闘員グループとの関連が薄かったり、全く関連がない人々でした。イスラエル軍は、標的となった個人が家族と一緒に自宅にいる時に、特に夜間に家族全員がいる場合に限らず、システム的に攻撃を加えました。このAIの決定によって、戦闘に関与していない多くの女性や子どもを含む数千人のパレスチナ人が、戦争の最初の数週間にイスラエルの空爆で亡くなりました。

———————————

【音楽生成AI】StabilityAIの「Stable Audio 2.0」最大3分の高品質音楽トラック生成

StabilityAIのStable Audio 2.0は、AIを使って44.1KHzのステレオで最大3分の高品質な音楽トラックを生成します。自然言語を用いて音楽のサンプルをアップロードし、それを変換することができる機能を持っています。テキストからオーディオへの変換だけでなく、オーディオからオーディオへの変換も可能で、サウンドエフェクトの生成やスタイル転送などの新機能が追加されています。Stable Audio 1.0に基づいて開発され、TIME誌から高い評価を受けています。このモデルはStable Audioのウェブサイトで無料で利用でき、今後APIを通じても利用できるようになります。オートエンコーダと拡散トランスフォーマー(DiT)を使用して大規模な音楽構造を認識し、再現する能力を持っています。AudioSparxの800,000以上のオーディオファイルとテキストメタデータを使用してトレーニングされ、Audible Magicと提携して著作権を保護するための技術を使用しています。

———————————

【新サービス】ChatGPT有料版でDALL-E画像の部分編集が可能に

OpenAIはChatGPTの有料版において、DALL-Eでは生成された画像の中から特定の領域を選択し、その部分を新しい指示に基づいて編集できるようになります。この機能はWebとAndroid/iOSアプリで利用でき、ChatGPT Plusのような有料プランを購入しているユーザーが使用できます。

———————————

【LLM新技術】Appleの研究チームがLLMで新たな参照解決技術ReALMを開発しGPT-4と比較して効率向上

参照解決とは、人間やコンピュータが「それ」「これ」などのあいまいな表現の意味をコンテキストから理解することを指します。これは、会話の中や、ユーザーの画面上に表示されるエンティティ(例えば、特定のアプリや情報)など、さまざまな場面で必要とされます。Appleの研究チームは、大規模言語モデル(LLM)を用いて、テキストのみでこの参照解決を行う新しい方法を提案しています。これにより、会話や画面上に表示されるオブジェクトへの参照など、さまざまなタイプの参照を効率的に処理できるようになります。実験結果から、提案されたモデルは、画面上の参照に対して5%以上の改善を達成しました。また、GPT-3.5およびGPT-4という既存の大規模言語モデルと比較しても、優れた性能を発揮しました。特に、提案されたモデルはGPT-4と同等の性能を持ちながら、より少ないパラメータ(モデルの「サイズ」を意味します)を使用しており、より効率的な参照解決システムの構築が可能です。

———————————

【LLM新技術】日本語の質問に対する文書関連性を再ランク付けするRerankerをリリース

Rerankerは、AIが質問文に最も関連する文書を選び出し、再ランク付けする技術です。これは、文章の意味や質問の意図をより深く理解することに特化しています。この日本語特化のRerankerは、小さなものから大きなものまで様々なサイズで提供されており、日本語の質問に対する文書の関連性を精密に評価することが可能です。評価実験では、いくつかの日本語タスクで高い性能を示しました。これは、従来公開されていなかった日本語を学習させたRerankerの効果を示しています。Rerankerの利点は、質問と文書の関連性をより詳細に理解できる点にありますが、その分、リアルタイムでの計算コストがかかるという欠点もあります。実際の検索システムでは、まず文ベクトルなどで関連する文書を絞り込み、その後Rerankerでより正確に再ランク付けすることで、全体の精度を向上させることができます。この技術により、日本語の文書検索精度が向上し、ユーザーが求める情報をより早く、より正確に見つけ出すことが可能になります。

———————————

【新サービス】エンドルフィンとSUPERNGINEが「ピュアモデルAI」発表 契約した漫画家の作品だけから学習し著作権を保護

エンドルフィン株式会社と株式会社SUPERNGINEは、漫画家自身の絵柄のみを学習させる「ピュアモデルAI」という技術を使って、マンガ制作の新しい方法を提案しました。一般的な生成AIとは違い、ピュアモデルAIは契約した漫画家の作品だけから学習することで、その漫画家独自の「個性」を守りながら、著作権を侵害することなくマンガを制作できます。このシステムは漫画家の許可がないと使用できないようになっており、漫画家は自分の作品に対する完全なコントロールを保持できます。これにより、漫画家とその作品のオリジナリティを守ることができます。例として、里中満智子先生と倉田よしみ先生の作品がこのAIを用いて制作されました。このプロジェクトでは、漫画のストーリー構成とネームは漫画家が手がけ、以降の工程はAIが担当しています。このAIサービスは、漫画制作を短時間で行う、アイデアを迅速に作品化する、単純作業を減らすなど、漫画家の負担を軽減し、効率化を図ることができます。これにより、漫画家は新しいチャレンジをしやすくなり、新たな収益の機会を得ることができます。

———————————

【LLM新技術】人間とAIアシスタント間の架空の対話をプロンプト内に大量に含めることで、LLMに有害な回答をさせることが可能になる「Many-shot jailbreaking」

「Many-shot jailbreaking」とは、大規模言語モデル(LLM)の安全ガードを回避する手法で、LLMが入力として処理できる情報の量、つまり「コンテキストウィンドウ」を利用します。この手法では、人間とAIアシスタント間の架空の対話をプロンプト内に大量に含めることで、LLMに有害な回答をさせることが可能になります。対話の数が一定数を超えると、モデルは安全対策を上回って危険な質問に回答するようになります。「In-context learning」というプロセスがこの手法の有効性に関連しています。これは、LLMがプロンプト内の情報のみを使用して学習するプロセスです。この学習方式は、正常な状況下でも、多数のプロンプトデモンストレーションによって性能が向上するという統計的なパターンに従います。研究公開の目的は、この問題に対処するための戦略を加速させ、LLM提供者や研究者間での情報共有を促進することです。大規模モデルでは、Many-shot jailbreakingがより効果的であることが確認されており、今後のモデルに対するリスクが高まる可能性があります。

———————————

【ニュース】OpenAIが東京にオフィスを開設する計画を発表 世界三番目の国際ロケーション

OpenAIは2024年4月に東京にオフィスを開設する予定で、これがアジアでの初めての拠点となります。この情報は内部の人物から得たものです。日本オフィスは、OpenAIにとってロンドンとダブリンに続く3番目の国際的なロケーションになります。ChatGPTを公開して以来、OpenAIはAI分野で大きな注目を集めており、過去には少なくとも1000億ドルの評価額で資金調達を行う交渉があったと報じられています。日本では、ソフトバンクや日本電信電話などの企業が日本語サービスの展開を急いでおり、AIの採用が広がっています。OpenAIの共同創設者でありCEOのサム・オルトマンは、昨年4月に岸田文雄首相と会談した後、日本オフィスの開設を見据え、日本語サービスの拡充や政府とのリスク軽減および規制実施に向けた協力を計画していると述べました。

———————————

【LLMツール】大規模言語モデルを効率的に配布・実行できる「llamafile v0.7」CPUとGPUでの速度とセキュリティを向上

llamafile v0.7は、大規模言語モデルを一つのファイルで配布・実行するツールです。このバージョンでは、CPUとGPUでの計算の速度と正確さが向上し、セキュリティが強化されました。tinyBLASは、数値計算の一つであるKahan合計を使い、よりcuBLASと一致する結果を出すようになりました。特にWindowsユーザーにとって有益です。CPU上でのプロンプト評価が非常に高速になり、例えばRaspberry Pi 5でのf16重みは以前の8倍の速度で動作します。bf16データ型のサポートが新たにCPU用に追加されました。bf16はGoogle Brainが提案した浮動小数点数フォーマットです。

———————————

【ニュース】経済産業省がラピダスに5900億円の支援を決定し次世代半導体の研究開発を加速

経済産業省が、ラピダスという企業が進める次世代半導体の製造に向けて、5,900億円の追加資金を提供することを決めました。この支援金は、半導体の基本的な製造プロセスに5,365億円、さらに新しい技術の開発に535億円が割り当てられます。ラピダスは、アメリカとの協力のもと、2ナノメートルという非常に小さい半導体を製造するための研究や技術開発を北海道で進めており、2025年の春には試験的な生産ラインを動かす予定です。また、新しく始まるプロジェクトでは、これらの小さな半導体を効率的に組み合わせる技術や、消費電力を抑える技術の開発が進められます。この研究は、千歳市の工業団地にある施設で行われる予定です。

2024/3/25~2024/3/31のTech Newsまとめ

Summary

【新サービス】OpenAIの「Voice Engine」 テキストと音声サンプルから元の話者に似た自然な音声を生成

【新しいLLM】日本Microsoftの支援を受けたPKSHA, RetNetを使用した新LLM 学習と推論の速度を3倍に

【新しいLLM】DatabricksのMoEモデルに基づいたオープンソースLLM「DBRX」

【LLM新技術】Microsoftの研究チームがプロンプト圧縮の新手法「LLMLingua-2」を開発

【LLM新技術】FIT-RAGはLLMを改変せずに事実情報利用とトークン削減を実現し回答正確性と効率を向上

【LLM新技術】特定分野に特化した質問に対する精度を向上させる新しいLLM訓練手法「RAFT」

【ニュース】xz-utilsにバックドア発見 遠隔地からのSSH接続でトリガー

【ニュース】AmazonはAnthropicに27.5億ドルの追加投資 AWSでClaude AIを提供しAIモデル開発を効率化

【ニュース】EUが「量子パクト」に署名 量子技術で競争力を高めヨーロッパを世界の「量子の谷」にする野心を示しました

【ニュース】Intel, Google, 富士通, ArmなどがNVIDIAのAI開発環境CUDAに対抗するためUnified Acceleration Foundationを設立

【AIの活用】Googleの生成AIモデル「SEEDS」が天気予報の不確実性を定量化 極端な天気イベントの低コスト予測を可能に

【AIの活用】MITチームが気候モデル予測の精度向上に機械学習と動的システム理論を活用

【AIの活用】MIT開発の家庭用ロボットがLLMで常識を学習、複雑なタスクに対応

【AIエージェント】新しいOSSプロジェクト「Devika」が登場 「Devin」を超える全自動AIエンジニアを目指す

【AIと法律・規制】テネシー州知事がAIにおける声の不正使用防止のELVIS法案に署名

【ニュース】xz-utilsにバックドア発見 遠隔地からのSSH接続でトリガー

2024年3月29日に、xz-utils(開発者が無損失圧縮を行うためのソフトウェアスイート)にバックドアが見つかりました。このパッケージは、リリース用のtarballやソフトウェアパッケージ、カーネルイメージ、initramfsイメージの圧縮に広く使用されています。このバックドアは特定の条件が満たされた時のみ動作し、まだ他の条件も存在する可能性があります。遠隔地からの非特権システムが公開SSHポートに接続した場合にトリガーされることがわかっています。システムが脆弱であるためには、glibcを使用しているディストリビューションであること、xzまたはliblzmaのバージョンが5.6.0または5.6.1であることが必要です。systemdとパッチが適用されたopensshを使用している組み合わせが脆弱であることがわかっていますが、他の設定についてはまだ分析中です。公開されているsshdを実行している場合、おそらく脆弱です。そうでなければ今のところは不明ですが、可能な限り早くアップデートすることが推奨されます。glibcとxz-5.6.0またはxz-5.6.1を使用している.debまたは.rpmベースのディストリビューションを使用している場合、公開アクセス可能なsshを使用している場合は「今すぐにアップデートする」ことが推奨されます。

———————————

【AIの活用】Googleの生成AIモデル「SEEDS」が天気予報の不確実性を定量化 極端な天気イベントの低コスト予測を可能に

Googleが、天気予報が正確さとタイムリーな提供を実現できるように研究投資を行っています。SEEDSという新しい生成AIモデルは、物理ベースのモデルに依存せずに、大量のアンサンブル予報を効率的に生成することができます。これにより、低コストで極端な天気イベントを予測することが可能になります。このモデルは、従来の方法と比較して同等かそれ以上の精度を持ち、特に極端な天気イベントの予測において高い性能を発揮します。SEEDSはGoogle Cloudのリソースを活用して高速に大量のアンサンブルメンバーを生成でき、スケールアップも容易です。このアプローチは、数個の物理ベースの予報を使用して、追加の予報をより効率的に生成する新しい予報システムを提案しており、これにより計算資源を節約し、予報の解像度を高めるか、頻度を上げることができます。

———————————

【新サービス】OpenAIの「Voice Engine」 テキストと音声サンプルから元の話者に似た自然な音声を生成

OpenAIは「Voice Engine」というモデルを紹介しました。これは、テキストと15秒の音声サンプルから元の話者に似た自然な音声を生成することができます。Voice Engineは2022年末に開発され、テキスト音声APIのプリセット音声、ChatGPT Voice、Read Aloudの基盤として使用されています。合成音声の悪用のリスクを考慮して、公開には慎重な姿勢を取っています。合成音声の責任ある使用について社会との対話を進め、広範なリリースについての判断を下す予定です。Voice Engineは教育支援、コンテンツの翻訳、遠隔地でのサービス提供の改善、非発声者への支援、話し言葉の障害を持つ人々の回復支援など、様々な用途での利用が検討されています。合成音声の安全な開発には、選挙年における特別なリスクへの注意、使用ポリシーの遵守、声の認証や不正使用の防止などが重要です。

———————————

【LLM新技術】FIT-RAGはLLMを改変せずに事実情報利用とトークン削減を実現し回答正確性と効率を向上

大規模言語モデル(LLM)のファインチューニングは、膨大なパラメータ数のため多くのケースで現実的ではありません。これに対処する一つの方法は、LLMを変更せずに(ブラックボックスとして)、検索強化生成(RAG)システムを組み合わせることです。ブラックボックスRAGは知識集約タスクで成功を収めていますが、従来の方法では2つの問題があります:(1) リトリバー(検索機能)が重要な事実情報を見落とすこと、(2) 不必要な文書情報を結合することでトークンの無駄遣いをすること。これらの問題に対処するため、FIT-RAGでは文書からの事実情報の利用と、トークン数の削減に焦点を当てた新しいフレームワークを提案しています。FIT-RAGは、事実情報を利用するために「二ラベル文書スコアラー」を導入し、さらに「自己知識認識器」と「サブドキュメントレベルのトークン削減器」を用いて、不要なトークンを削除します。結果として、FIT-RAGはTriviaQA、NQ、PopQAの3つのオープンドメイン質問応答データセットで、回答の正確さを大幅に向上させるとともに、平均でトークン使用量を約半分に削減することができました。

———————————

【ニュース】AmazonはAnthropicに27.5億ドルの追加投資 AWSでClaude AIを提供しAIモデル開発を効率化

Amazonは、人工知能分野の企業Anthropicに合計40億ドルを投資しており、このパートナーシップを通じて、Anthropicの最先端AIモデル「Claude」をAmazonのクラウドサービスAWSを介して利用可能にしています。Anthropicは、AWSの専用チップTrainiumとInferentiaを使用して、AIモデルの開発や訓練、適用(デプロイメント)を行います。これにより、効率的かつ高速に大規模なAIモデルを構築し、広範囲にわたる顧客に提供することが可能になります。特に、Claude 3モデルは、論理的思考や数学、コーディングの分野で優れた性能を発揮し、現在利用可能な他のAIモデル、例えばOpenAIのGPT-4を上回る能力を持っています。AWS、Anthropic、Accentureは共同で、健康医療、公共セクター、銀行、保険などの厳しく規制された産業で、企業がジェネラティブAIを責任を持って導入し、応用を広げるための支援を行います。AmazonとAnthropicの戦略的コラボレーションの一環として、追加の27.5億ドルを投資し、合計40億ドルの投資を完了しました。

———————————

【新しいLLM】日本Microsoftの支援を受けたPKSHA, RetNetを使用した新LLM 学習と推論の速度を3倍に

PKSHA Technologyとは、人とソフトウェアの共進化を目指す企業で、今回日本マイクロソフトの支援を受けて新しいタイプの言語モデルを開発しました。このモデルはRetNet(Retentive Network)と呼ばれる新技術を用いており、これは従来のTransformerモデルの後継技術として期待されています。特に、学習と推論の速度が速く、少ないメモリで効率的に動作する点が特徴です。LLM(Large Language Model)とは、大量のテキストデータから言語のパターンを学習し、文章の生成や理解を行うAIモデルのことです。PKSHAが開発したモデルは、従来のものよりも約3倍の速度で回答を生成でき、コンタクトセンターや社内ヘルプデスクなどの即時性が求められる場面での活用が期待されています。DeepSpeedはMicrosoftによって開発された深層学習フレームワークで、このプロジェクトで利用されています。DeepSpeedは、高い並列分散処理能力を持ち、大規模なAIモデルの学習を効率的に行えます。

———————————

【新しいLLM】DatabricksのMoEモデルに基づいたオープンソースLLM「DBRX」

Databricksは、企業が独自のデータを活用してAIシステムを構築できるよう支援することを目的としています。この目的の下、DatabricksのMosaic Researchチームによって開発されたDBRXは、特に言語理解、プログラミング、数学、論理の分野で優れた性能を持ち、既存のオープンソースモデルやGPT-3.5と比べても高い性能を示しています。これは、オープンソースモデルの質が向上している現在のトレンドに寄与しています。DBRXはMixture-of-Experts(MoE)モデルであり、MegaBlocksの研究とオープンソースプロジェクトに基づいて構築されています。MoEモデルは、より大きなモデルをトレーニングし、高速なスループットで提供することを可能にします。DBRXは、132億パラメータの中から任意の時点で36億パラメータを使用し、速度と性能の両方を実現しています。Databricksプラットフォームでは、企業はDBRXを使用し、独自データに基づくカスタマイズモデルを構築できます。これにより、企業はオープンソースLLMを自社の知的財産として活用し、業界内での競争力を高めることができます。

———————————

【AIの活用】MITチームが気候モデル予測の精度向上に機械学習と動的システム理論を活用

MITのチームは、機械学習と動的システム理論を利用して、気候モデルの予測を修正する新しい方法を開発しました。これにより、将来の極端な天候の頻度をより正確に予測できるようになります。この方法では、大規模な気候モデルのシミュレーションを実際の状況により近づけるために「調整」します。これは、過去の気温や湿度などのデータを学習して、気象特性間の基本的な動的関連を理解する機械学習のアルゴリズムに基づいています。研究チームは、米国エネルギー省が運用するEnergy Exascale Earth System Model(E3SM)という気候モデルを使って、この新しいアプローチのテストを行いました。その結果、修正されたモデルは過去36年間の実際の気候パターンとより一致する結果を生成しました。

———————————

【LLM新技術】特定分野に特化した質問に対する精度を向上させる新しいLLM訓練手法「RAFT」

現在、大量のテキストデータを使って学習させた大規模言語モデル(LLM)を使うことが一般的ですが、これらのモデルに最新の知識や特定の分野の知識をどう組み込むかは、解決されていない課題です。この研究では、「Retrieval Augmented FineTuning (RAFT)」と呼ばれる新しい訓練方法を提案しており、この方法を使うことでモデルが特定の分野の質問に「オープンブック」形式でより正確に答えられるようになります。RAFTは、質問に関連するドキュメントの中から質問に答えるのに役立つ情報のみを選んで利用し、質問に関係ない情報を持つドキュメントを無視するようにモデルを訓練します。この手法により、モデルは質問に対する答えを導くためのロジックをよりうまく組み立てることができ、推論能力が向上します。RAFTを用いることで、PubMed、HotpotQA、Gorillaといった特定のドメインのデータセットにおいて、モデルのパフォーマンスが一貫して向上しました。RAFTの訓練手法のコードとデモは、公開されており、自由にアクセスして使用することが可能です。

———————————

【ニュース】EUが「量子パクト」に署名 量子技術で競争力を高めヨーロッパを世界の「量子の谷」にする野心を示しました

EUのリーダーたちは、「量子パクト」という重要な協定に署名することで、量子技術に関する野心を表明しました。この協定は、EUが科学と産業の競争力において量子技術の重要性を認識し、ヨーロッパを世界の「量子の谷」にすることを目指します。「ヨーロッパの量子未来を形成する」という会議では、加盟国の代表や特別ゲストがこの宣言を公式に祝いました。EUの内部市場担当コミッショナーであるティエリー・ブルトン氏は、このパクトの署名を、ヨーロッパの量子技術の未来を形成する上での歴史的な一歩であると賞賛しました。この協定は、ヨーロッパの20の国々の代表によって署名され、ヨーロッパ全体で量子技術のコラボレーションとイノベーションを推進することを目的としています。会議では、ベルギー量子サークルという新しいイニシアチブが発表され、ベルギー内およびヨーロッパ全体での量子技術に関するコラボレーションとイノベーションをさらに促進することを目指しています。

———————————

【AIエージェント】新しいOSSプロジェクト「Devika」が登場 「Devin」を超える全自動AIエンジニアを目指す

「Devika」とは、GitHubで公開されているプログラミングを自動で行うためのシステムです。このシステムは、プログラミング作業を効率的に行うAI「Devin」を基に開発されました。「Devin」は、プログラムのコードを自動で生成したり、プログラムの誤り(バグ)を見つけ出したりする能力を持っています。また、「Devin」はプログラミングにおける問題を自身で解決することができ、ウェブサイトの開発や公開(デプロイ)も可能です。性能はSWE-benchというテストで他の類似モデルよりも優れていることが確認されています。「Devika」の構造は、ユーザーインターフェース、中核となるエージェント、言語モデル、計画・推論エンジンなど、様々な部分から成り立っており、これらが連携して高度なプログラミングを可能にします。このプロジェクトは、外部からの貢献を歓迎しており、コラボレーションや議論を行うためのDiscordサーバーが用意されています。

———————————

【ニュース】Intel, Google, 富士通, ArmなどがNVIDIAのAI開発環境CUDAに対抗するためUnified Acceleration Foundationを設立

NVIDIAがAI開発の分野で使用されるGPUと開発環境CUDAで大きなシェアを獲得していることに対抗するため、IntelやGoogle、富士通、Armをはじめとするテクノロジー企業が「Unified Acceleration Foundation (UXL Foundation)」を設立しました。この団体は、よりオープンで多様なハードウェアに対応可能なソフトウェア開発環境を構築することを目指しており、Intelが開発をリードする「oneAPI」を基にしています。CUDAはNVIDIAのGPUに特化しているため、開発者はNVIDIAのGPUを選択せざるを得ない状況がありました。しかし、UXL Foundationが目指すoneAPIは、異なる種類のプロセッサ(CPUやGPUなど)に対応し、オープンソースで開発されています。2024年上半期には、この新しい開発環境の仕様が確定する予定であり、多くの企業からの技術的な貢献を受けています。これにより、開発者がNVIDIA以外の選択肢を持てるようになることを目指しています。

———————————

【LLM新技術】Microsoftの研究チームがプロンプト圧縮の新手法「LLMLingua-2」を開発

Microsoftの研究チームはプロンプトをどのように短く(圧縮して)するかに焦点を当てています。目的は、AIが様々なタスクに一般化して対応できるようにしながら、処理速度を向上させることです。従来のプロンプト圧縮手法では、言語モデルが生成する情報のエントロピーを基にしてプロンプトを短くしていました。しかし、この方法では一方向の文脈しか考慮しておらず、プロンプト圧縮に必要な全ての情報を捉えられないこと、また圧縮の目標とエントロピーが必ずしも一致しないため、最適な圧縮が行えない可能性がありました。研究チームは、大規模言語モデルから情報を抽出する「データ蒸留」という方法を用いて、必要な情報を失わずにプロンプトを圧縮する新しい手法を提案しました。また、プロンプト圧縮をトークンの分類問題として扱い、トランスフォーマーエンコーダを用いて双方向の文脈から必要な情報を抽出します。この方法では、XLM-RoBERTa-largeやmBERTといった比較的小さなモデルを使用して、圧縮の目標を直接学習することで、処理速度の向上を実現します。この手法をいくつかのデータセットで評価したところ、従来の方法と比較して優れた性能を示し、異なる大規模言語モデルに対しても堅牢に機能することが示されました。また、この手法は既存のプロンプト圧縮方法に比べて3倍から6倍速く、エンドツーエンドの処理遅延を1.6倍から2.9倍加速し、圧縮比は2倍から5倍に達しました。

———————————

【AIと法律・規制】テネシー州知事がAIにおける声の不正使用防止のELVIS法案に署名

米国のテネシー州知事がAIによる音楽業界の不正使用から保護する新法「ELVIS法案」に署名しました。この法律は、AIが生成する声の不正使用からソングライターやパフォーマーを保護します。テネシー州の音楽産業は、多くの雇用を生み出し、経済に大きく貢献しています。以前の法律は、人間の声や画像を無許可で使用するAI技術を具体的にはカバーしていませんでした。新法「ELVIS法案」により、音楽産業の専門家の「声」も保護されることになりました。

———————————

【AIの活用】MIT開発の家庭用ロボットがLLMで常識を学習、複雑なタスクに対応

MITのエンジニアリングチームが開発した新しい方法により、家庭用ロボットは、例えば床の拭き掃除や食事の提供など、より複雑な家事タスクをこなすことができるようになりました。これらのロボットは、人間の動作を模倣することで学習しています。しかし、ロボットがトレーニングされたパスから外れた状況に直面した場合に、常識を持って対処するようにするために、MITのエンジニアはロボットの動作データと大規模言語モデル(LLM)の「常識知識」を接続する方法を開発しました。このアプローチでは、ロボットが家庭のタスクをサブタスクに論理的に分割し、サブタスク内での障害に物理的に適応して、タスクを最初からやり直すことなく進めることが可能になります。これにより、エンジニアが途中で発生する可能性のある全ての失敗に対して修正をプログラムする必要がなくなります。この方法により、ロボットは、赤いビー玉を別のボウルに移すというタスクを実施中に研究者によって頻繁に中断されたにも関わらず、最終的に成功することができました。

2024/3/18~2024/3/24のTech Newsまとめ

【ニュース】AppleがiPhoneのAI機能向上のためGoogleのLLM「Gemini」の使用を交渉中

Appleは、GoogleのGeminiというLLMをiPhoneに組み込むために交渉しています。この取り決めが進むと、iPhoneのソフトウェアに新しい機能が加わる予定です。Appleは同様にOpenAIとも提携の可能性について話し合いを持ち、その技術の使用を検討していました。AppleとGoogleが合意に至れば、これまでに行われた両社間の検索サービスに関するパートナーシップを拡大する形となります。しかし、Appleは自社のAIモデルを基にしたiOS 18の新機能も開発中です。これらの機能は、クラウド経由ではなく、デバイス上で直接動作することに焦点を当てています。Apple自身も、Ajaxという名前の大規模言語モデルや、Apple GPTと呼ばれる基本的なチャットボットを開発しテストしていますが、これらはGoogleや他の競合他社の技術と比較して劣っているとされています。

——————————–

【新サービス】PyTorchモデルの量子化を簡素化するツールキット「Quanto」

QuantoはPyTorch用の量子化ツールキットで、深層学習モデルの計算量とメモリ使用量を削減するために開発されました。このツールキットは、モデルの重みと活性化関数を、通常の32ビット浮動小数点数ではなく、8ビット整数のような低精度のデータ型で表現することにより、メモリの使用量を減らします。Quantoは多機能で、Eagerモードのサポート、任意のデバイスへの配置、自動的な量子化/逆量子化の挿入、機能操作やモジュールの自動量子化などを提供します。さまざまな量子化(重みにはint2、int4、int8、活性化にはint8、float8を含む)をサポートしており、大規模言語モデル以外にも幅広いモデルに適用可能です。量子化の過程では、モデルを動的に量子化した後に、必要に応じてキャリブレーションや量子化認識トレーニングを行い、重みを固定する手順が含まれます。QuantoはHugging FaceのTransformersライブラリと統合されており、QuantoConfigを使用することで任意のモデルを簡単に量子化できます。

——————————–

【新サービス】Microsoft Copilot GPT BuilderでカスタムAIを設計可能に

Microsoft Copilot Proに新機能「Copilot GPT Builder」が追加され、この機能によりユーザーは自分専用のAIを設計できるようになりました。このカスタムAI、つまりCopilot GPTを利用すると、特定の知識を活用したり、定型作業を自動化したりすることが可能です。たとえば、食事の計画から買い物リストを自動生成するような使い方ができます。Copilot GPTの作成や管理は、Copilot Proサブスクリプションを持つユーザーに限られ、他の人と共有することもできますが、編集は作成者だけに制限されます。このツールへのアクセス方法はウェブサイト上で簡単に説明されており、初心者でも直感的に操作できる設計になっています。Copilot GPTはパソコンだけでなく、モバイルデバイスでも利用可能ですが、そのためにはCopilot Proサブスクリプションは必須ではありません。

——————————–

【新しいLLM】Appleの新マルチモーダルLLM「MM1」が多様なデータから学習

MM1は、Appleが発表した大規模なマルチモーダル言語モデル(MLLM)です。事前学習では、画像-キャプションデータ、交互に提供される画像とテキストのデータ、テキストのみのデータの混合を用いています。この混合は、異なるタイプのデータから学習することで、モデルの柔軟性と汎用性を高めます。通常の密集したモデル(dense models)と、専門家の混合(Mixture of Experts, 略してMoE)と呼ばれる特別なタイプのモデルが含まれています。MoEモデルは、いくつかの「専門家」と呼ばれる部分から成り、それぞれが異なるタスクに特化しています。モデルが新しいデータを処理する際には、最も適切な専門家が選ばれてタスクを実行します。この方法により、モデルは効率的に、かつ高い精度で様々な問題を解決することができます。また、画像エンコーダー、画像解像度、画像トークンの数がモデル性能に大きな影響を与えることが明らかにされました。視覚言語コネクターの設計は、比較的影響が少ないとされています。大規模事前学習により、MM1は文脈内学習や多画像推論など、複数の高度な能力を持ちます。

——————————–

【LLM新技術】API経由のLLM使用で非公開情報が漏洩するリスクを発見

商用大規模言語モデルは、独自モデルに対してAPIのみのアクセスを提供することで保護されています。研究では、APIを通じて少数のクエリ(例えばOpenAIのgpt-3.5-turboで$1,000未満)だけで、LLMについて多くの非公開情報を学ぶことが可能であることが示されています。現代のLLMsが抱えるsoftmaxボトルネックという問題を中心に、モデルの出力が限定される現象があります。この特性を利用することで、低コストでLLMの隠れ層のサイズの発見、全語彙出力の取得、モデル更新の検出と区別、単一の出力からのLLMの特定、出力層のパラメータ推定が可能になります。

実証的な調査により、これらの方法が有効であることが示され、例えばOpenAIのgpt-3.5-turboの埋め込みサイズを約4,096と推定できます。LLMプロバイダがこれらの攻撃から保護する方法と、これらの機能が透明性と説明責任の向上に寄与する可能性についても議論されています。

——————————–

【国内ニュース】KDDIがAIベンチャーELYZAを子会社化し、生成AIサービス展開へ

ELYZAはKDDIグループと提携し、KDDIの支援のもとでAI技術の社会実装を加速します。具体的には、KDDIがELYZAの株式の大部分を保有し、ELYZAを子会社にします。ELYZAは、東京大学の松尾研究室から生まれた企業で、日本で高性能な人工知能言語モデルを開発しています。このモデルは、700億パラメータを持ち、世界的なモデルと競合する性能を持っています。この提携を通じて、AIの技術開発とその社会への応用をさらに進めることが目的です。具体的には、日本語に特化した汎用的な言語モデルの開発、特定の業界や問題に特化したモデルの開発、そしてこれらの技術を活用した新しいサービスやソリューションの提供が予定されています。例えば、顧客サービスセンター向けに特化した言語モデルの開発など、特定の領域に焦点を当てたプロジェクトが進められます。

——————————–

【AIと法律・規制】YouTubeがAI生成リアル動画に透明性確保のためラベル付け義務化を開始

YouTubeは、AI技術を用いて作られたリアルな動画コンテンツに、それがAIによって生成されたものであることを示すラベルの付与を必須としました。この措置は、視聴者に対してより高い透明性を提供し、AIの使用が明確になるようにするためです。具体的には、実在する人物の顔や声をAIで作成した場合、実際には起こっていない出来事をリアルに描写した場合、リアルに見える架空のシーンを生成した場合などにラベルが必要です。ただし、動画の脚本やキャプションをAIで生成した場合や、明らかにファンタジーな内容の場合は、このルールの適用外となります。YouTubeは、この新ルールに従わないクリエイターに対しては、将来的にコンテンツ削除やYouTubeパートナープログラムからの除外などのペナルティを科すことも考えています。

——————————–

【DL技術】MITの「FeatUp」技術は深層学習による画像・動画解析の解像度向上に寄与

「FeatUp」は、MITの研究チームによって開発された新しい技術で、深層学習モデルが画像や動画から「見る」際の解像度を劇的に向上させることができます。これにより、オブジェクトの認識やシーンの解析がより正確になります。一般に、深層学習アルゴリズムは画像を小さな正方形に分割して処理しますが、このプロセスで画像の細かいディテールが失われがちです。FeatUpは、この情報の損失を防ぎ、深層ネットワークの解像度を高めることができます。FeatUpの重要なアプローチは、画像を微妙に変化させ(例えば、少し左右に動かすなど)して、その小さな変化に対するアルゴリズムの反応を観察し、それに基づいて高解像度の特徴マップを生成することです。このアルゴリズムは、オブジェクト検出やセマンティックセグメンテーション(画像内のピクセルにオブジェクトのラベルを割り当てる)、深度推定など、多岐にわたるコンピュータビジョンタスクの性能を向上させることができます。これは、自動運転車から医療画像診断まで、幅広い応用が期待されます。

——————————–

【動画生成AI】Googleの「VLOGGER」音声・テキストからリアルな話者ビデオを生成

VLOGGERは、音声とテキストを用いて、単一の画像から話している人物のビデオを生成する技術です。この手法は、確率的拡散モデルを用いた2段階のプロセスで構成され、音声からビデオへの多対多のマッピングをモデリングします。最初のネットワークは、音声波形から中間の身体モーション制御を生成し、次のネットワークはこれらの身体制御を使って対応するフレームを生成します。VLOGGERによって生成されたモデルは、オリジナルの主題の多様な分布のビデオを生成します。背景は固定されているにもかかわらず、全てのビデオがリアルに見えます。主な応用例としては、既存のビデオの編集や、新しい音声に合わせた顔や唇のエリアの編集などがあります。これは、ビデオ翻訳の場面で特に有効です。

——————————–

【AIの活用】TacticAI: コーナーキック向けAIでプレイ改善提案、幾何学的DL活用

TacticAIはGoogle DeepmindとリバプールFCとの共同研究から生まれた、コーナーキック専門のAIシステムです。システムは予測型と生成型のAIモデルを使って、過去のプレイを分析し、将来のプレイを改善するための提案を行います。プレイヤー間の相互作用をグラフとして表現し、幾何学的ディープラーニングを用いることで、限られたデータからも一般化可能な予測を行うことができます。コーチはTacticAIを利用して、戦術を試行し、特定の目的(例えばショット確率の減少)を達成するためにプレイヤーの配置を調整できます。専門家による評価では、実際の戦術に比べてTacticAIの提案が90%の場合で評価されました。

——————————–

【ニュース】ムスタファ・スレイマン氏Microsoft AIでCopilot等を推進

AI技術会社DeepMindとInflectionの創業者であるムスタファ・スレイマンとカレン・シモニャンがマイクロソフトに参加しました。新しい「Microsoft AI」という組織が作られ、Copilotや他の消費者向けAI製品と研究の推進を担当します。ムスタファはMicrosoft AIの最高執行責任者(EVP)兼最高経営責任者(CEO)として、カレンは最高科学責任者としてそれぞれの役割を果たします。Inflectionからもいくつかのメンバーがマイクロソフトへの参加を選びました。マイクロソフトは、AI分野でのOpenAIとの戦略的なパートナーシップを継続し、その上にイノベーションを構築します。組織変更により、Copilot、Bing、Edgeを含む複数のチームがムスタファに報告する形になります。ケビン・スコットは引き続き全社のAI戦略を統括する技術責任者(CTO)およびAIの最高執行責任者として活動します。ラジェシュ・ジャはExperiences & Devicesの最高執行責任者として、Microsoft 365用Copilotの開発を進めます。

——————————–

【LLM新技術】SakanaAI、進化的アルゴリズムによる基盤モデル構築の取り組み

Sakana AIは、自然界の進化や集合知に着想を得て、コンピュータ上でモデルを進化させる手法で基盤モデルの開発を進めています。「進化的モデルマージ」とは、多様な機能を持つ様々なオープンソースモデルを組み合わせ(マージして)、新しいモデルを作り出す方法です。進化的アルゴリズムを使って、これらの組み合わせ方を探索し、最適な方法を見つけ出します。進化的アルゴリズムは、生物の進化を模倣したアルゴリズムで、多くの可能性の中から最適なものを選び出すことができます。このアプローチにより、人間では思いつかないような新しいモデルの組み合わせ方を発見できるようになります。実験では、日本語で数学的推論が可能な言語モデル(EvoLLM-JP)、日本語で対話可能な画像言語モデル(EvoVLM-JP)、高速な日本語画像生成モデル(EvoSDXL-JP)を開発しました。これらのモデルは、特定の能力において従来のモデルを超える性能を示しています。進化的アルゴリズムを使うことで、従来のモデル開発方法に比べて、新しいモデルを効率的かつ自動的に生成することが可能になります。これにより、大規模な計算資源やデータを必要とせずに、新しい基盤モデルを開発できるようになります。今回の成果は進化的アプローチを使った基盤モデル開発の初歩的なステップであり、今後もこの分野の研究を進めていく予定です。

——————————–

【新しいLLM】楽天、日本語最適化LLM「Rakuten AI 7B」公開

楽天が公開した「Rakuten AI 7B」は、日本語と英語の大量のインターネットデータを使って事前学習された、70億パラメータを持つ言語モデルです。フランスのAIスタートアップMistral AI社のオープンモデル「Mistral-7B-v0.1」をベースとしています。この事前学習は、楽天の高性能GPUクラスター上で行われ、高速かつ大規模なデータセットでの学習が可能になりました。さらに、インストラクションチューニングとは、モデルに特定の指示に従うように学習させるプロセスのことで、これにより「Rakuten AI 7B Instruct」モデルが生成されました。また、チャットモデルは会話形式のデータを使ってさらにファインチューニングされ、自然な対話生成が可能になります。このモデルシリーズは高品質なデータの使用と楽天独自の技術である形態素解析器を利用し、日本語テキストの処理効率を高めています。全モデルはHugging Faceリポジトリからダウンロード可能で、文章生成、要約、質問応答などの様々なNLPタスクに使用できます。これらのモデルは商用目的でも使用でき、また、基盤モデルとして他のモデルの開発にも役立ちます。

——————————–

【LLM新技術】AIアシスタントの「トークン長サイドチャネル」攻撃研究

AIアシスタントからの通信が安全に行われているかの問題を扱っているこの研究では、「トークン長サイドチャネル」という新しい問題点を指摘しています。これは、通信が暗号化されていても、トークン(AIが生成するテキストの単位)の長さのパターンを解析することで、送信されたメッセージの内容をある程度推測できるというものです。ただし、この情報だけではメッセージの内容を完全に解読するのは困難です。そこで研究者たちは大規模言語モデル(LLM)を活用し、推測を行う新しい技術を開発しました。これには、LLMを使ってトークン長のシーケンスから実際の言葉へと翻訳する作業、コンテキスト情報を用いて可能性のある応答を絞り込む作業、そして特定のライティングスタイルへのモデルのファインチューニングを含みます。実験では、この技術を使ってAIアシスタントの応答の約3割を再構築し、半分以上の応答からは話題を正確に推測することができました。

——————————–

【データ基盤】SigLens: Elasticsearchを大幅に上回る処理速度の列指向DB

SigLensは、大量のデータを効率的に扱うために特化した列指向データベースで、特にログデータや監視データなどの分析を行う際に、その処理速度と効率性で大きな利点を提供します。SigLensとElasticsearchの間でNYC Taxi Datasetを使用した性能テストが行われ、SigLensが大幅に高速な結果を出しました。このデータセットはニューヨーク市のタクシーやUberによる10億回以上の旅行記録を含んでいます。テストは、同じハードウェア設定、同じデータセット、同じクエリセットを使用して実施されました。4つの異なるクエリがテストに使用され、データのインジェストとクエリの処理に関する詳細なステップが提供されています。Elasticsearchは分散型検索エンジンであり、SigLensは観測データのためにゼロから構築された列指向データベースです。SigLensは列毎の動的圧縮や列毎の微細インデックスを使用しており、AgileAggregationTreeアルゴリズムを採用して高速な集約クエリを実現しています。テストの結果、SigLensはすべてのクエリタイプでElasticsearchよりも大幅に高速であることが示されました。これにより、複雑なデータセットに対するフィルタや集約クエリを高速に実行することが可能になります。

——————————–

【生成AI技術】xT: 大画像を階層的に分割し詳細を統合する新フレームワーク

コンピュータビジョンの分野において、大きな画像を扱う際に直面する問題を解決するための新しいフレームワーク「xT」が紹介されました。xTは、大きな画像を小さな部分に階層的に分割し、各部分を個別に理解した上で、それらを大きな画像として統合するアプローチを採用しています。このプロセスは「ネステッドトークン化」と呼ばれ、画像をトークンに分割し、さらにサブリージョンに分割して詳細を把握します。xTはリージョンエンコーダーとコンテキストエンコーダーという二つのエンコーダーを使い、画像のローカルな詳細とグローバルな文脈を統合します。実験では、iNaturalist 2018での細かな種類分類、xView3-SARでのコンテキスト依存のセグメンテーション、MS-COCOでの検出など、様々なベンチマークタスクにおいて高い精度を達成しました。 

——————————–

【LLM新技術】GaLore: 低コストハードウェアで大規模モデルを効率的にトレーニング

GaLoreは、大規模言語モデル(LLMs)を低コストのハードウェアで効率的にトレーニングすることを可能にする技術です。これにより、AI研究の範囲が広がり、より多くの研究者や実践者が先進的なAIモデルのトレーニングを行うことが可能になります。この技術の特徴は、トレーニングプロセス中のオプティマイザー状態や勾配に関連するメモリ要件を大幅に削減することにあります。具体的には、勾配の低ランク構造を利用して、保存および操作が必要なデータの次元を減少させます。GaLoreは、低次元部分空間に勾配を投影することで、オプティマイザー状態のメモリフットプリントを削減します。これにより、同じメモリ制約内でより大きなモデルをトレーニングするか、より大きなバッチサイズを使用することが可能になります。トレーニング中に異なる低ランク部分空間を動的に切り替えることで、モデルがパラメータ空間の限定された部分に閉じ込められることなく、フルパラメータ学習の能力を維持します。GaLoreを8ビット精度のオプティマイザーと組み合わせることで、メモリ効率を最大化し、トレーニングプロセスの品質を保ちながら、大規模なモデルのトレーニングが可能になります。

——————————–

【生成AI技術】DMDフレームワーク: 伝統的拡散モデルを30倍速く単一ステップで実行

MIT CSAILの研究者たちは、従来の反復的なプロセスを必要とする伝統的な拡散モデルを単一のステップに単純化する新しいフレームワークを紹介しました。このアプローチは、配布マッチング蒸留(DMD)と呼ばれ、生成された画像の品質を維持しつつ、画像生成を大幅に高速化します。この革新的な方法は、生成的敵対ネットワーク(GAN)の原理と拡散モデルの原理を組み合わせることで、現在の拡散モデルに比べて30倍の速度で視覚コンテンツの生成を可能にします。DMDフレームワークは、既存のモデルから新しいモデルに知識を移転する教師-学生モデルのタイプを利用します。これにより、より複雑なオリジナルのモデルを模倣する新しいコンピューターモデルを教育します。DMDは回帰損失と配布マッチング損失の2つのコンポーネントを利用します。回帰損失は、学習をより安定させるために画像の空間を粗く整理するためのマッピングをアンカーにするのに使われ、配布マッチング損失は、生成された画像が実際に起こる確率に対応するようにします。

——————————–

【AIと法律・規制】国連: AIの安全・信頼を促進する画期的な決議を採択

国連総会は、「安全で安心し、信頼できる」人工知能(AI)システムの促進に関する画期的な決議を採択しました。この決議は、持続可能な開発にも貢献します。決議は、AIの設計、開発、展開、使用における人権の尊重、保護、促進を強調しています。このテキストは、120以上の他の加盟国によって「共同提案」または支持されました。国連総会は、AIシステムが持続可能な開発目標(SDGs)の17に達するための進歩を加速し、可能にする潜在能力を認識しています。すべての加盟国と関係者に対し、国際人権法に準拠して運用することが不可能であるか、人権の享受に不当なリスクをもたらすAIシステムの使用を控えるか中止するよう呼びかけています。また、国連総会は、AIの安全で安心し、信頼できる使用に関連する規制およびガバナンスアプローチとフレームワークを開発し、支援するよう全ての国、民間部門、市民社会、研究機関、メディアに促しています。

——————————–

【LLM新技術】GoogleなどはAPIを介して、ブラックボックスLLMの隠れ次元数を特定する脆弱性を発見しました

ブラックボックス状態の本番環境言語モデルから、具体的で重要な情報を抽出するための最初の攻撃方法を紹介しています。これは、OpenAIのChatGPTやGoogleのPaLM-2のようなモデルを対象としています。この攻撃は、APIアクセスを通じてトランスフォーマーモデルの埋め込み投影層を抽出することができます。これはモデルの一部で、データの次元削減や特徴抽出に関連しています。この方法で、20米ドル未満のコストでOpenAIのAdaとBabbageの全投影行列を取得し、これらのモデルがそれぞれ1024と2048の隠れ次元を持つことを初めて明らかにしました。また、gpt-3.5-turboモデルの隠れ次元サイズを正確に特定し、全投影行列を抽出するコストは2,000米ドル未満であると推測しています。

——————————–

【新サービス】Google Scholar PDF Readerで論文PDFの可読性向上

Google Scholarによる新しいPDFリーダーが発表されました。これは研究論文を読む際の使いやすさを大幅に向上させるツールです。テキスト内の引用がクリック可能なリンクに変わり、引用された記事の概要をすぐに見ることができるようになります。自動生成された目次を通して、目的のセクションへ簡単にナビゲートでき、図表へのリンクも同様に直接ジャンプできます。引用をコピーしたり、後で引用するために参考文献管理ツールに保存したりする機能があります。読んでいる論文に関連する記事や引用記事を検索する機能も付加されています。目に優しいディスプレイテーマを選択することが可能で、これはChromeブラウザの拡張機能として提供されています。

2024/3/11~2024/3/17のTech Newsまとめ

【新しいLLM】東大発ベンチャーELYZA 日本語LLM「ELYZA-japanese-Llama-2-70b」国内モデルとしては最高性能を達成

株式会社ELYZAは、700億パラメータの日本語大規模言語モデル「ELYZA-japanese-Llama-2-70b」を開発し、国内モデルとしては最高性能を達成しました。このモデルはグローバルモデルと比較しても同等の性能を有しています。ELYZAはこのモデルをはじめとする日本語大規模言語モデル群を「ELYZA LLM for JP」シリーズとして提供開始し、安全なAPIサービスや共同開発プロジェクトなど様々な形態で提供を予定しています。提供開始を記念して、チャット形式のデモサイトが公開されており、このモデルの性能を実際に体験することができます。「ELYZA-japanese-Llama-2-70b」はELYZA独自の事後学習により、公開されている他の日本語大規模言語モデルよりも優れた性能を発揮し、グローバルモデルとも競合する性能を達成しています。

——————————–

【新しいLLM】UC Berkeley発ベンチャーCovariant、ロボット用のChatGPT「RFM-1」開発

カリフォルニア大学バークレー校発のベンチャーであるCovariantが、ロボット用のChatGPTとして「RFM-1」を開発しました。RFM-1は、ロボットの言語を解釈するためのLLMをベースにしています。このシステムは、Covariantが運用するBrain AIプラットフォームから収集された膨大なデータを利用しています。Covariantは、RFM-1を使用して、倉庫だけでなく、製造、食品加工、リサイクル、農業、サービス業、そして家庭でのロボットの利用を拡大したいと考えています。現在は主に倉庫でのタスクをこなす産業用ロボットアームにこのソフトウェアが使われていますが、将来的には様々なハードウェアで利用できるようにする計画です。このシステムは、顧客がテキストで命令を入力すると、その命令に基づいてロボットがオブジェクトを識別し、最適な行動を選択できるようにします。

——————————–

【開発技術】Webアプリケーションの応答性を測るためのブラウザベンチマーク「Speedometer 3.0」Apple、Google、Microsoft、Mozillaが共同でリリース

Speedometer 3.0は、Webアプリケーションの応答性を測るためのブラウザベンチマークで、Apple、Google、Microsoft、Mozillaが共同でリリースしました。この新しいバージョンは、ユーザー体験を幅広くカバーするテストを追加し、実際のWeb使用をより正確に反映しています。このプロジェクトは、ブラウザエンジン間の初の産業横断的協力により、新しいガバナンスモデルで開発されました。Speedometer 3.0は、ユーザーの操作をシミュレートすることで、ブラウザのパフォーマンスを評価します。新しいテストには、チャートの描画、コード編集、WYSIWYG編集、ニュースサイト閲覧など、現代のWeb使用シナリオが含まれています。また、テストランナーも改善され、ブラウザが行うペイントや非同期タスクなどの作業をより多く測定します。

——————————–

【スキルアップ】AnthropicのLLM「Claude 3」のプロンプト集、公式が公開中

——————————–

【AIと法律・規制】Apple、EUのデジタル市場法(DMA)に準拠 EU域内限定でApp Store以外からもアプリの配布が可能に

Appleは、EUのデジタル市場法(DMA)に準拠するために、iOS、Safari、およびApp Storeに関するいくつかの重要な変更を発表しました。これらの変更は、EUの27加盟国でアプリを配布する開発者に限定され、EU内のユーザーに配布されるアプリにのみ適用されます。開発者は、代替アプリマーケットプレイスや自身が所有するWebサイトからiOSアプリを配布できる新しいオプションを利用できるようになります。これにより、App Store以外からもアプリの配布が可能になり、新たなセキュリティ対策としてノタリゼーションが導入されます。ノタリゼーション(Notarization)は、アプリケーションやソフトウェアの開発者が作成したコードが安全であることを第三者(特に、アプリケーションを配布するプラットフォームやオペレーティングシステムの提供者)が確認し、証明するプロセスです。また、代替支払いサービスプロバイダ(PSP)を利用する新しいオプションが導入され、開発者はこれらの方法を通じてデジタル商品やサービスの支払いを処理できるようになります。

——————————–

【ニュース】Meta、AIの研究開発向けに2つの24k GPUクラスターを立ち上げ

MetaはAIの将来のために2つの24k GPUクラスターを立ち上げました。AIモデルのトレーニングや研究開発に必要な高性能計算資源を提供します。これらのクラスターは、Grand Teton、OpenRack、PyTorchといったオープンソース技術を使用して構築されています。Metaは、2024年末までに350,000 NVIDIA H100 GPUsを含むより大規模なインフラストラクチャーの構築を目指しています。これにより、AIモデルのさらなる発展が可能になります。また、RoCEおよびInfiniBandネットワークファブリックを使用しています。TectonicとHammerspaceによって支えられたストレージは、大量のデータを効率的に扱うことができ、AIトレーニングの効率を大幅に向上させています。

——————————–

【新しいLLM】博報堂テクノロジーズ、日本語特化マルチモーダル事前学習モデルを開発

博報堂テクノロジーズが日本語に特化した視覚と言語を組み合わせた事前学習モデルを開発し、そのモデルを無償で公開したと発表しました。このモデルは、画像検索やテキストからの画像生成、画像のタグ付け、画像に対する質問応答など、多岐にわたる応用が可能です。特に、日本語データに対する検索精度が英語モデルを上回ることが特徴です。

——————————–

【新サービス】TensorFlow 2.16のリリース Keras version3が今回から標準に、Python 3.12をサポートなど

【新サービス】NumPy 2.0.0リリース、性能向上とAPI変更でPython開発を加速

——————————–

【AIと法律・規制】欧州議会、AI Actを採択 職場や学校などでの感情認識の使用、社会的採点システムなどの規制

欧州議会は、基本的人権の遵守を確保し、イノベーションを促進する人工知能法を採択しました。

この法律では、特に以下のような人工知能アプリケーションが規制されます:

  • 感情認識の使用(職場や学校での使用が含まれる)
  • 社会的採点システム
  • 予測型警察活動(個人のプロファイリングや特性評価に基づく場合)
  • 人間の行動を操作するAIや人々の脆弱性を悪用するAI
  • 敏感な特性に基づく生物学的分類システム
  • インターネットやCCTV映像からの顔画像の無差別なスクレイピングによる顔認識データベースの作成

消費者は、自分たちの権利に影響を与える高リスクAIシステムに基づく決定について苦情を提出し、説明を受ける権利があります。一般目的AI(GPAI)システムは、EUの著作権法の遵守やトレーニングに使用されるコンテンツの詳細な要約の公開など、特定の透明性要件を満たす必要があります。中小企業やスタートアップが、自社の人工知能技術や製品を市場に投入する前に、それらを実際の環境で開発し、テストすることができるようにするための制度を設けます。

——————————–

【LLM新技術】Google、外部から内容が見えない製品LLMから重要な情報を引き出す「モデル盗用攻撃」提案

この研究は、OpenAIのChatGPTやGoogleのPaLM-2のような、外部から内容が見えない製品言語モデルから重要な情報を引き出す最初の試みとして、モデル盗用攻撃を紹介しています。攻撃者はAPIを通じて通常のアクセス権を利用し、トランスフォーマーモデルの埋め込み層の詳細な情報を特定できるようになります。特に、20ドル以下のコストでOpenAIのAdaとBabbageモデルの埋め込み層の完全な構造を把握し、これらのモデルがそれぞれ1024と2048の隠れ層の大きさを持つことを明らかにしました。また、gpt-3.5-turboモデルについても、完全な構造を解明するのに2,000ドル未満かかると推測しています。研究の終わりには、このような攻撃からモデルを守るための方法や、今後この攻撃方法が発展する可能性についての考察も述べられています。

——————————–

【AIエージェント】Google DeepMind、ゲームの世界でAIエージェントが任務をこなす「SIMA」

Google DeepMindが開発した、「SIMA(Scalable Instructable Multiworld Agent)」というAIエージェントは、様々なビデオゲームの世界で自然言語の指示に従って任務をこなすことが可能です。この研究は、ビデオゲームを利用して、AIシステムがどのように有益なエージェントになりうるかを探求するためのものです。8つのゲームスタジオと共同で、9つの異なるビデオゲームでSIMAを訓練及びテストしました。SIMAは、画像と言語を正確に結びつけるモデルと、次に画面上で何が起こるかを予測するビデオモデルを含む、キーボードとマウスの動作を出力する主モデルから成り立っています。ゲームのソースコードや専用のAPIにアクセスする必要がなく、画面の画像とユーザーから提供される自然言語の指示だけを入力として使用します。SIMAは、「左を向く」や「はしごを登る」といった600の基本技能を実行する能力があり、将来は「資源を探してキャンプを作る」のような高度な計画と複数のサブタスクが必要なタスクへの挑戦を目指しています。

——————————–

【ニュース】米オレゴン州が家電の自己修理を支援する法律を成立、製造業者は部品を提供へ

オレゴン州が、家庭用電子機器を自分で修理する消費者の権利を支持する法案を成立させました。この法案は、修理に必要な工具、部品、取扱説明書を製造業者が提供することを義務付けています。この法律は、特にアップルなどの大手技術企業から、デバイスのセキュリティや安全性に悪影響を及ぼす可能性があるとの批判を受けています。2027年7月1日から、この法律に違反すると最大で1日あたり1,000ドルの罰金が課されます。この規制は、2015年7月1日以降に製造された消費者向け電子機器や2021年7月1日以降に製造された携帯電話に適用されます。法案により、第三者の部品を使っても製品の性能を低下させたり、誤解を招く警告を送ることが禁止されます。これにより、修理費用を抑え、より多くの修理オプションが消費者に提供されることが期待されています。

——————————–

【ニュース】GoogleのAI「Gemini」が人物画像生成を停止、人種バイアス問題に対処

Googleは、マルチモーダルLLM「Gemini」の機能を一時的に停止しました。ユーザーは、実際には白人が多数を占めていた歴史的シーンを、多様な人種のキャラクターで描写した画像をSNSに投稿し、人種バイアスへの過剰な対応を問題視しました。Geminiが一部の歴史的描写で不正確な画像を生成していることをGoogleは認め、改善を約束しました。過去の研究では、AIによる画像生成が、訓練データに存在する人種や性別の偏見を増幅する可能性があることが示されています。

——————————–

【AIエージェント】AIソフトウェアエンジニア「Devin」発表、複雑な開発タスクを自動化

DevinはAIを使ってソフトウェアエンジニアリングのタスクを自動で行う最初のソフトウェアです。複雑なタスクを計画し、それに必要な多数の判断を下しながら作業を進めることができます。この過程で、関連する情報を思い出し、学習し、ミスを修正する能力を持っています。開発作業に必要なツール(シェル、コードエディタ、ブラウザなど)を備えており、エンジニアが通常行う作業をサンドボックス化された環境で実行できます。進捗状況の報告、フィードバックの受け入れ、設計選択の共同作業など、ユーザーとの能動的な協力が可能です。SWE-benchベンチマークにおいて、従来モデルの性能を大幅に上回る成果を達成しました。

2024/3/4~2024/3/10のTech Newsまとめ

【新しいLLM】Anthropic、新世代LLM「Claude 3」の3つのモデルを発表 中程度のモデルはAmazon Bedrockで利用可能

AnthropicはLLM「Claude 3」の3つのモデルを発表しました。Claude 3 SonnetはAmazon Bedrockで利用可能であり、OpusとHaikuも近い将来に利用可能になる予定です。

  • Claude 3 Opus
    • 最も高度な知能を持つモデルで、高度なタスクにおける市場最高のパフォーマンスを実現。
    • 200Kのコンテキストウィンドウを持ち、特定の使用例では1Mトークンを処理可能。
    • コストは入力あたり15ドル、出力あたり75ドル。
  • Claude 3 Sonnet
    • 知能と速度のバランスが取れており、特に企業のワークロードに適している。
    • コストは入力あたり3ドル、出力あたり15ドルで、同等の知能を持つ他のモデルよりもコストパフォーマンスが高い。
  • Claude 3 Haiku
    • 最速でコンパクトなモデルで、単純な問い合わせやリクエストに対して即時に応答する。
    • コストは入力あたり0.25ドル、出力あたり1.25ドルで、類似の知能カテゴリの中で最もスマートかつ手頃な価格。

———————————

【新しいLLM】Inflection、パーソナルAI「Pi」の新しいバージョン「Inflection-2.5」をリリース

Inflectionは、人々の日常生活に役立つパーソナルAI、Piの新しいバージョンであるInflection-2.5をリリースしました。この新モデルは、現在の最先端の大規模言語モデルと競合する高い性能を持ち合わせています。Inflection-2.5は、GPT-4の性能に匹敵しながら、トレーニングに必要な計算リソースを大幅に削減しました。数学やコーディングなど、知的能力(IQ)が求められる分野でのパフォーマンスが特に向上し、Piが技術の最前線を押し進めることを保証しています。Piユーザーは、最新の情報を得るためのリアルタイムWeb検索機能も利用できるようになりました。技術的な結果として、Inflection-2.5は、STEM分野を含む幅広いIQ指向のタスクでGPT-4の平均性能の94%以上を達成し、様々なベンチマークで顕著な性能向上を実現しています。

———————————

【新しいLLM】Nvidiaの新しいLLM「Nemotron-4 15B」

Nvidiaが発表した「Nemotron-4 15B」は、15億のパラメータを持つ大規模な多言語言語モデルであり、英語、多言語、およびコーディングのタスクで強力なパフォーマンスを発揮します。英語、多言語、およびコーディングのタスクで、類似サイズの既存のオープンモデルを上回っています。特に多言語能力では、サイズが4倍以上のモデルや、多言語タスク専用のモデルをも上回る性能を示しています。標準的なデコーダーのみのTransformerアーキテクチャを使用しています。NVIDIAのH100 GPU上で、特定のバッチサイズと効率メトリクスを使用して約13日間で訓練が完了しました。訓練の最終段階で使用されるデータの分布を変更することで、モデルがより高品質なソースから学習するように調整します。このアプローチにより、モデルは事前学習段階で扱ったデータとは異なる、新たに強調されたデータ領域に対して、より良く適応することができます。学習率の「崩壊スケジュール」(学習率を徐々に減少させていく戦略)を調整することで、訓練の終わりにかけてモデルの更新がより細かく、慎重に行われるようにします。これにより、モデルが過学習を避け、既存の知識を損なうことなく新しい情報を効率的に取り込むことが可能になります。

———————————

【AIと法律・規制】EUでデジタル市場の公平性と競争を促進のための法律「デジタル市場法(DMA)」開始

デジタル市場法(DMA)は、EUがデジタルセクターの公平性と競争を促進するために制定した法律です。DMAは、オンライン検索エンジンやアプリストアなどを提供する大手デジタルプラットフォーム(ゲートキーパー)を特定し、これらの企業が守るべきルールを定めています。ゲートキーパーとは、EUのデジタル市場法で定義された、大きな影響力を持つデジタルプラットフォームを運営する企業のことです。これらの企業は、例えばGoogleのような検索エンジンや、AppleのApp Storeのようなアプリストア、LINEやWhatsAppのようなメッセージングサービスを提供しています。ゲートキーパーには、第三者とのサービス連携を許可する、ビジネスユーザーが生成したデータへのアクセスを許可するなどの「やるべきこと」があり、自社製品を他社製品より優遇することの禁止などの「やってはいけないこと」が定められています。DMAは2022年に採択され、2023年5月から適用されました。この法律は、当初から存在する基本プラットフォームサービスにのみ適用されます。違反した企業には、年間総売上の最大10%の罰金や、繰り返し違反の場合は最大20%の罰金が科されることがあります。

———————————

【LLM新技術】LLMのアンサンブルアプローチは人間の群衆予測トーナメントと同等の予測精度

12個のLLMを用いたアンサンブルアプローチは、925人の人間の予測者の集合と比較して、未来の出来事に関する31の二項質問に対する予測で同等の性能を示しました。LLMは、人間の中央値予測を情報として取り入れることで予測精度を17%から28%向上させることができますが、人間と機械の予測を平均する方がより精度が高いです。「群衆の知恵」効果は、多くの人の予測を一つにまとめることで、未来の出来事についての予測精度を高めることができるというものです。これまでの研究では、LLMは、個々の予測者としては人間の集団に比べて予測能力が劣るとされていました。LLMが予測の集約を通じて人間の群衆予測トーナメントと同等の予測精度を達成できることが示され、LLMにおける「群衆の知恵」効果が確認されました。これにより、社会全体でさまざまな用途にLLMを使用する道が開かれました。

———————————

【LLM新技術】自動プロンプト最適化ツールのプロンプトは人間の予想外の内容

研究では、「ポジティブ思考」といった前向きな言葉をプロンプトに加えることがモデルのパフォーマンスにどのような影響を与えるかを定量的に調べ、これをシステム的にプロンプトを最適化する方法と比較しました。モデルに対して前向きな言葉や肯定的なメッセージをプロンプト(命令文や問いかけ文)に組み込むことで、多くの場合でモデルのパフォーマンスを向上させる効果があることを見出しました。自動プロンプト最適化ツールは、プロンプトを自動で調整し、モデルのパフォーマンスを向上させる最適な文言を見つけ出します。自動で最適化されたプロンプトは人間が通常考えるものとは大きく異なり、非常に特異で予想外の内容であることも発見されました。これは、自動最適化が従来の手法や直感とは異なる新たなアプローチを提示していることを意味します。

———————————

【その他生成AI】StabilityAI、0.5秒未満で単一の画像から高品質な3Dを再構築するモデル「TripoSR」

StabilityAIのTripoSRは、0.5秒未満で単一の画像から高品質な3Dを再構築するモデルです。このモデルは、変換器アーキテクチャを利用し、LRMネットワークアーキテクチャに基づいて改良を加えています。公開データセットでの評価は、他のオープンソース代替品と比較して、量的および質的に優れた性能を示しています。MITライセンスの下で公開され、研究者、開発者、クリエイティブな作業をサポートすることを目的としています。

———————————

【ニュース】Sam AltmanはOpenAIのCEOとして取締役会に戻る

【ニュース】OpenAIの取締役会に3人の新メンバーが加わる

OpenAIの取締役会特別委員会は、法律事務所WilmerHaleによる調査を完了しました。この調査は、OpenAIの運営とガバナンスに関する複数の問題を評価しました。Sam AltmanとGreg Brockmanのリーダーシップに全面的な支持を示し、AltmanはCEOとして取締役会に戻ります。また、取締役会に3人の新メンバーが加わりました。医療と非営利セクターのリーダーであるDr. Sue Desmond-Hellmann、法律と企業ガバナンスの専門家であるNicole Seligman、そして消費者技術業界のベテランであるFidji Simoです。取締役会は、企業ガバナンスガイドラインの更新、利益相反ポリシーの強化、内部通報ホットラインの設置、およびミッションと戦略に焦点を当てた新しい委員会の作成など、ガバナンス構造の重要な改善を導入しました。

———————————

【人間とAIの未来】90人以上の科学者が、AIを利用した生物学研究の危険性に関する合意書に署名

90人以上の科学者が、AIを利用した生物学研究が将来的に世界に害を及ぼさないようにするための合意書に署名しました。この取り組みは、AI技術の発展を阻止するのではなく、新しい遺伝子物質を製造するために必要な機器の使用を規制することを目的としています。合意に署名した科学者たちは、AI技術による新しいワクチンや薬品の開発など、技術の利益がリスクを上回ると主張しています。AnthropicのCEOは、AI技術の進展により、専門知識がない人でも大規模な生物学的攻撃が可能になる可能性があると議会に警告しました。

———————————

【新サービス】Visual Studio Codeの最新リリース エディターでの音声入力、多言語サポート、改善されたPythonインポート機能など

Visual Studio Codeの最新リリースでは、エディターでの音声入力、多言語サポート、改善されたPythonインポート機能など、多数の新機能と改善があります。アクセシビリティ機能が強化され、言語モデルへのアクセス管理に新APIが導入されました。エディターの利便性が向上し、デバッグやリモート開発の機能が強化されています。PythonやJupyterのサポートが改善され、GitHub Pull Requestsの管理がより便利になりました。拡張機能開発者向けには、新しいAPIやテストカバレッジの生成ツールが提供されています。

———————————

【新サービス】プログラミング作業を支援するAIツールの企業版「GitHub Copilot Enterprise」β版開始

GitHub Copilot Enterpriseは、プログラミング作業を支援するAIツールの企業版で、現在はテスト段階(beta版)で公開されています。このツールを試すためには、GitHub Enterpriseの契約が必要です。また、ウェイトリストに登録する必要があります。主な機能には、コードを理解し会話を行うチャット、ドキュメントの検索や要約、プルリクエストの内容を要約する機能などがあります。これらはプログラミング作業を効率化します。企業や組織単位でこのツールを有効にでき、GitHubのウェブサイト上で直接AIとチャットが可能になります。特定のリポジトリ(プロジェクトフォルダ)やドキュメントをAIに認識させ、それに基づいたチャットができるようになります。これにより、プロジェクト固有の情報に基づいたサポートを受けられます。リポジトリの内容を事前にAIが学習することで(インデックス生成)、より精度の高い情報検索や会話が可能になります。

プルリクエスト(コード変更の提案)に対する要約機能を使うことで、変更内容を簡潔に理解するのに役立ちます。

———————————

【国内ニュース】GITAI USAとKDDIはロボットを使った基地局アンテナ設置の実証実験に成功

GITAI USAとKDDIという企業が協力して、2023年12月7日に月面でモバイルネットワーク基地局のアンテナをロボットで設置するテストを行い、成功しました。5メートルの支柱に、地球外ローバーが運んだアンテナを2台のアーム型ロボットが設置し、そのアンテナを電源に接続する作業を行いました。宇宙ステーションでのロボットによる自律作業の成功経験を持つGITAIと、地上でモバイルネットワークを構築した経験を持つKDDIが協力し、月面でのモバイルネットワーク構築に向けて無人で基地局を設置する技術開発を進めています。

———————————

【技術まとめ】クラスメソッド データアナリティクス通信(機械学習編)

AWSのアップデートには、Amazon SageMakerのモデルトレーニング高速化、Amazon Rekognitionの新しいモデレーションラベルの追加、Amazon BedrockとAmazon PollyのUIと機能の改善が含まれます。

Google Cloudのアップデートでは、Vertex AI Geminiの一般提供開始、BigQuery MLからのVertex AI PaLM2 APIへのエンべディングの依頼機能、および時系列分析用の新関数の追加が目玉です。

2024/2/26~2024/3/3のTech Newsまとめ

【LLM新技術】Microsoft、各パラメータが-1、0、1のいずれかの値を取る1ビットLLM「BitNet b1.58」発表論文解説試してみた実装

Microsoftの研究チームが「BitNet b1.58」という名前の1ビット大規模言語モデル(LLM)の新しいバージョンを開発しました。このモデルでは、LLMの各パラメータが-1、0、1のいずれかの値を取ります。この新しいモデルは、以前のモデルが使用していた全精度(FP16やBF16)と比較しても、モデルのサイズやトレーニングに使用されるトークンの数が同じであるにもかかわらず、計算の複雑さやタスクの遂行能力が同等です。また、処理速度、使用メモリ量、データ処理速度、エネルギー消費量の点で、以前のモデルよりも大幅に改善されています。さらに、この技術は新しい計算方法を可能にし、1ビットLLM専用に最適化されたハードウェアを設計するための新しい可能性を開きます。

———————————

【新サービス】モデルの学習やfine-tuningなしで自社のデータを使った分析ができる「Azure OpenAI On Your Data」正式リリース

Azure OpenAI On Your Data」は、企業が持つデータを用いて、GPT-35-TurboやGPT-4のような高度なAIモデルで分析や対話を行うためのサービスです。このサービスを利用することで、モデルを新たにトレーニングしたり微調整したりすることなく、自社のデータを使った分析が可能になります。REST API、SDK、またはAzure OpenAI StudioのWebベースインターフェースを通じてアクセスできます。Azureのロールベースのアクセス制御を設定し、特定のデータソースを追加することによって、独自のデータをAzure OpenAIモデルと統合できます。キーワード検索、意味検索(セマンティック検索)、ベクトル検索を利用することで、データ検索と情報取得を最適化します。

———————————

【新サービス】日本IBMの生成AI基盤モデル「Granite」ビジネス関係のデータで学習

———————————

【新サービス】Google DeepMind、文章・画像・写真などから操作可能なゲームを生成するAI「Genie」

Genieは、インターネット上のラベル付けされていない動画から学んだ、ゲーム世界を作り出す技術です。この技術を使って、文章、画像、写真、スケッチなどを使い、様々な動きができる仮想世界を作ることができます。Genieは110億のパラメータを持ち、これにより非常に複雑な世界を作成する基盤となります。このシステムは、動画の時系列データを処理するツール、動きの予測をするモデル、そして簡単に拡張できる行動モデルから成り立っています。重要なのは、Genieが特別なデータやラベル無しで学習でき、ユーザーが作った世界で自由に動き回ることができる点です。

———————————

【新サービス】AIとリアルに音声で雑談できるチャットAI「Cotomo」無料で利用可能

———————————

【新サービス】あいおいニッセイら、国内初「生成AI専用保険」情報漏えい時の費用などを負担

———————————

【日本のTech産業の未来】「AIと著作権に関する考え方について(素案)」に関するパブリックコメントの結果について

———————————

【LLM新技術】人間の好みに応じてLLMをfine-tuningする手法 DPOPPOΨPORSO

———————————

【技術解説】LLMを含む様々な処理をつなげる宣言型言語「LCEL (LangChain Expression Language)」

LCELは、LLMを含む様々な処理を「ブロックを組み合わせるように」簡単につなげることができる特別な方法です。通常のLangChainよりも、もっと直感的に、何をしたいかを「宣言する」だけで作業が進められます。LCELは、LangServeというツールを使ってプロトタイプから本番環境へと、変更することなく移行できるように設計されています、また、作業を効率的に進めるための便利な機能がたくさんあります。例えば、結果を少しずつ早く受け取れる「ストリーミング」、同時に多くの作業をこなせる「非同期サポート」、ステップを同時に進めることができる「並列実行」、失敗した時に自動でやり直す「リトライとフォールバック」などです。作業の入出力をチェックするためのルール(スキーマ)を自動で作ってくれたり、作業の各ステップを追跡して問題を見つけやすくする(トレーシング)機能があります。これは、仕事の流れをスムーズにし、問題があった時にすぐに対処できるようにするためです。

———————————

【ニュース】Apple, 電気自動車プロジェクト「Apple Car」中止へ

———————————

【ニュース】MicrosoftとMistral AIが提携発表 Azure上でLLM「Mistral Large」が使用可能に

2024/2/19~2024/2/25のTech Newsまとめ

【新サービス】Google、LLM「Gemini」ベースの、AIモデルを作るための新しいツール「Gemma」:「Gemma」はGoogleが開発した、AIモデルを作るための新しいツールです。これは、Googleが以前に作ったLLM「Gemini」の技術を基にしています。Gemmaには、2種類のモデルサイズ(2Bと7B)があり、それぞれ事前に学習させたバージョンと、特定の指示に応じて調整したバージョンが提供されます。Gemmaを使うことで、開発者はAIの開発をより簡単に、そして安全に行うことができるようになります。また、Gemmaは商業的なプロジェクトにも利用できます。このモデルは複数のプログラミングフレームワーク(JAX、PyTorch、TensorFlowなど)で利用でき、様々なデバイスやGoogle Cloudで効率的に動作するよう最適化されています。

———————————

【新サービス】 GoogleのLLM「Gemini」がビジネスや教育機関向けのGoogle Workspaceで利用可能に:Googleが作った強力なLLM「Gemini」がGoogle Workspace(ビジネスや教育機関向けのサービス。Gmail, ドキュメント、スプレッドシート、ドライブカレンダー、Meetなど)で使えるようになりました。どんなサイズの会社でも、高機能なEnterpriseプランか、もっと手頃な価格のBusinessプランから選べます。Businessプランは月額2,260円、より高度なEnterpriseプランは月額3,400円です。

———————————

【新サービス】Stability AI、新しいtext to imageモデル「Stable Diffusion 3」アルファベット生成の性能向上:Stability AIは「Stable Diffusion 3」という新しいテキストから画像を生成するモデルを発表しました。以前のモデルよりもさらに高い性能を持っており、とくにアルファベットや文字列を含むプロンプトに対する応答性が向上しています。このモデルは、800万から80億のパラメータを持つさまざまなバージョンがあり、ユーザーが必要に応じて選択できます。 不正使用を防ぐための対策が施されており、トレーニングからデプロイメントまで安全性が考慮されています。まだ一般には公開されていませんが、早期に試すことができる待機リストへの登録が開始されました。

———————————

【LLM新技術】LLMのアダプター「LoRA」を組み合わせるモデルマージング新手法「PEFT」:LLMのパフォーマンスを向上させるために、異なるモデルやアダプターを組み合わせる「モデルマージング」がよく使われます。PEFTは、特にLoRAと呼ばれるアダプターを組み合わせるための新しい手法を提供しています。LoRAは、モデルの特定の部分を微調整するためのアダプターです。(アダプターは、ベースモデルに特定のタスクや言語の知識を追加するために使用される小さな追加モジュールで、モデルの再学習なしに特定の機能や性能の向上を可能にします。)マージングには「結合」や「線形」、「SVD」などのいくつかの方法があります。

———————————

【AIツール】Intel製のCPUやGPUなどで効率的にAIモデルを動かすツール「openvino」:OpenVINOツールキットはAIの推論を高速化し、様々なデバイスに展開するためのオープンソースのツール群です。Intel製のCPUやGPUなどで効率的にAIモデルを動かせるようにすることが可能です。モデルを変換し、推論を行うためのランタイムライブラリ、さまざまなデバイス上での推論を加速するプラグイン群が含まれています。TensorFlowやONNXなど、一般的なモデル形式に広く対応しており、多くのオープンソースモデルを利用可能です。Apache 2.0ライセンスのもとで公開されており、開発者は自由に利用、改変、再配布が可能です。

———————————

【LLM新技術】情報を論理的な順序で提示することで、LLMの回答の正確性が大幅に向上

———————————

【AIツール】テキストデータを効率的に扱う「Mamba」を複数のPCで同時に学習できるツール「kotomamba」

【AIツール】ユーザーとアシスタントの会話をモデルが理解しやすい形に変換する「Hugging Face Chat Template」

———————————

【ニュース】世界の大手20社のTech企業が、2024年の選挙でのAI悪用阻止協定を結ぶ:世界の大手20社のテクノロジー企業が、2024年の選挙での偽情報や欺瞞を広めるAIコンテンツと戦うために協力することを約束しました。Adobe, Amazon, Anthropic, Arm, ElevenLabs, Google, IBM, Inflection AI, LinkedIn, McAfee, Meta, Microsoft, Nota, OpenAI, Snap Inc., Stability AI, TikTok, Trend Micro, Truepic, X

———————————

【DL技術】表データを効果的に学習、自己教師あり学習もでき、説明性があるモデル「TabNet」

———————————

【スキルアップ】AIと因果推論について学べる「Causal ML Book」PDF全文無料公開

2024/2/12~2024/2/18のTech Newsまとめ

Summary
  • マルチモーダル機能を備えたBrilliant LabsのAIグラス「Frame」:• Brilliant Labsは、音声や画像など複数の種類のデータを理解できるAI「Noa」を備えた眼鏡「Frame」を出しました。この眼鏡は、ポケモンGOを作った会社NianticのCEO、ジョン・ハンケ社長も応援しています。
  • ChatGPTは、ユーザーとの全てのチャットを通じて情報を「記憶」する機能をテスト中:ChatGPTは、ユーザーとの全てのチャットを通じて情報を「記憶」する機能をテストしており、これにより同じ情報を繰り返し伝える必要がなくなり、より有益な対話が可能になります。この機能は現在、ChatGPTの無料およびPlusユーザーの一部に対して提供されており、その効果を学ぶ段階にあります。今後、より広い範囲での展開計画が共有される予定です。
  • Googleの次世代LLM「Gemini 1.5」、処理能力向上:Gemini 1.5はGoogleから新しく公開されたLLMで、テキストからの長文理解や多様なタスクの処理能力が向上しています。• コンテキストウィンドウとは、AIモデルが一度に理解・処理できる情報量のことで、Gemini 1.5ではこれが大幅に拡張されました。
  • ローコストで開発された最高性能の日本語オープンモデル「KARAKURI LM」:• KARAKURI LM Chatは、公開・非公開の会話データセットを使って学習され、日本語オープンモデルの中で最高性能をMT-Bench-jpベンチマークで記録しています。既存のLlama 2モデルをベースに、特に日本語のデータを多く含めて追加事前学習させたAIモデルです。
  • 101言語に対応したオープンソースのLLM「Aya」:「Aya」は従来のAIモデルがカバーしていた言語数を大幅に上回る101言語に対応した新しいタイプの言語モデルです。多くのAIモデルが英語中心であるため、世界中の多くのコミュニティがサポートから除外されていました。Ayaは、これらの言語的・文化的ギャップを埋めることを目指しています。
  • OpenAI、テキスト指示をもとに1分の動画を生成するAI「Sora」:「Sora」はテキスト指示をもとにビデオシーンを生成するAI技術です。Soraは拡散モデルとTransformerアーキテクチャを使用し、ビデオや画像を小さなデータ単位(パッチ)で表現して処理します。これにより、さまざまな長さや解像度のビジュアルデータに対応可能です。

【新サービス】マルチモーダル機能を備えたBrilliant LabsのAIグラス「Frame」

【新サービス】torchvision transforms V発表。画像タスク向け新機能追加、高速化

【新サービス】Google、サイバー防御イニシアチブとファイルタイプ識別システム「Magika」

【新サービス】会話やチャンネルの内容を要約「SlackAI」今冬開始

【新サービス】ChatGPTは、ユーザーとの全てのチャットを通じて情報を「記憶」する機能をテスト中

【新サービス】過去最大のアップデート「LamaIndex v0.10.0」データ処理フレームワークとしての機能強化

——————————

【新しいLLM】ローコストで開発された最高性能の日本語オープンモデル「KARAKURI LM」

【新しいLLM】Googleの次世代LLM「Gemini 1.5」、処理能力向上

【新しいLLM】101言語に対応したオープンソースのLLM「Aya」

【新しいLLM】京大言語メディア研究室のLLM「LLM-jp-13B v1.1」 モデル・データ公開

——————————

【動画生成AI】Apple、自然言語を使って静止画(SVGファイル)を動かすことができる「Keyframer」発表

【動画生成AI】OpenAI、テキスト指示をもとに1分の動画を生成するAI「Sora」

【画像生成AI】Stability AI、3段階でテキストから画像を生成する「Stable Cascade」

——————————

【新技術】Microsoft、Windowsで動くアプリの操作を自動化する「UFO」

——————————

【LLM新技術】感情的なプロンプトを使うことで、LLMのパフォーマンスが向上

【LLM新技術】LLMが自分で問題解決のための推論システムを作り出す「SELF-DISCOVER」

【LLM新技術】LLMにわざと間違わせてルールを学ばせるプロンプト技術「LEAP」

【技術解説】日本語LLMにおけるトークナイザーの重要性

【RAG】情報を探して答えを出し、答えを検証するRAG「Self-RAG」

【RAG】集めた情報の有効性を評価して性能改善するRAG「CRAG」

——————————

【DL技術】Meta、動画から特徴予測だけを使って学習する手法「V-JEPA」

【DL技術】CNNにおいてネットワークの不要な部分を効率よく削る「構造化Pruning」

【機械学習モデル】畳み込み処理と注意機構を融合させた、画像認識タスク向けの新しいモデル「CoAtNet」

——————————

【人間とAIの未来】すべての製品にセキュリティ対策の実施を義務付ける「EUサイバーレジリエンス法」

【人間とAIの未来】OpenAIはMicrosoftと共同で、国家支援のサイバー攻撃者5組織の活動を阻止

——————————

【国内ニュース】JAXAのH3ロケット試験機2号機、打ち上げ成功

2024/2/5~2024/2/11のTech Newsまとめ

【新サービス】BardからGeminiへ:Ultra 1.0とアプリ発表:Googleの新しいサービスGemini Advancedは、高性能AIモデルUltra 1.0を搭載し、Google One AI Premium Planの一部として月額19.99ドルで提供されます。また、GoogleはAndroidとiOS用の新しいGeminiアプリを発表しました。

【新サービス】Docker設定省力化の「Docker Init」リリース:docker initは、プロジェクトに最適なテンプレートを提案し、選択したテンプレートに基づき必要なDockerfileやComposeファイルなどのDockerリソースを自動生成することで、アプリケーションのコンテナ化プロセスを容易にするDocker Desktopの新しいコマンドラインツールです。

【新サービス】Microsoft「Copilot」をアップデート 微調整モデル「Deucalion」搭載:MicrosoftはCopilotの1周年を記念して、新しいベースモデル「Deucalion」を採用し、Web、Android、iOSアプリに対して「よりバランスよく」機能するよう微調整しました。

【新サービス】Windows 11にLinuxスタイル「Sudo」コマンド追加:Windows 11 Insider Preview Build 26052で登場した「Sudo for Windows」は、特別な管理者権限が必要な作業(昇格コマンドと呼びます)を、より簡単に行えるようにする新機能です。

【新サービス】Appleの新言語「Pkl」オープンソース公開:Appleが開発した新しい言語「pkl」は、コードとしての設定を可能にし、豊富な検証機能とツールを提供する設定専用言語です。静的な設定フォーマット(JSON、YAML、XMLなど)は単純な設定ニーズには適していますが、読み書きのしにくさ、大きなファイルを複数の小さなファイルに分割できないなどの欠点があり、Pklはこれらの欠点を解決します。

——————————

【AIと法律・規制】Google, OpenAI, Metaの「デジタルコンテンツ来歴情報付与」への取り組み:Google, OpenAI, Metaは、デジタルコンテンツの透明性を高め、誤情報やディープフェイクに対抗するため、C2PA(コンテンツの出所と真正性に関する連合)に参加し、デジタルコンテンツの来歴情報の標準化と信頼性向上に取り組んでいます。C2PAはデジタルコンテンツの作成や変更履歴に関する信頼できるメタデータを提供し、その出所と真正性を証明する技術標準を開発、推進する団体です。

——————————

【新しいLLM】中国Abacus AIの「Smaug-72B」が世界最高のオープンソースLLMに:Smaug-72Bは、Abacus AIによって公開された新しいオープンソース言語モデルで、Qwenによって数ヶ月前にリリースされた「Qwen-72B」をベースにした改良版です。Hugging Faceの最新ランキングによると世界で最も優れたモデルと評され、高い性能を誇ります。

【新しいLLM】春に登場する国産「小さいLLM」、LLM利用の需要を開拓するか:2024年にNTTの「tsuzumi」とNECの「cotomi」をはじめとする国産大規模言語モデル(LLM)が提供されますが、これらはOpenAIの「GPT」などに比べ相対的に小さいLLMであり、この小規模な設計が新たなオンプレミス環境でのLLM利用の需要を開拓するための勝ち筋と見なされています。

【新しいLLM】完全にオープンソースなLLM「OLMo-7B」:AI2がリリースしたOLMo 7Bは、プレトレーニングデータとトレーニングコードを含む真にオープンな最先端の大規模言語モデルで、研究者と開発者が共同で言語モデルの科学を進歩させることを可能にします。

——————————

【LLM新技術】LLM訓練では事前学習とfine-tuningのデータ関連性が性能向上の鍵:大規模言語モデル(LLM)を訓練する際に、プレトレーニング(基礎学習)に使用するデータと、その後のファインチューニング(特定タスクへの適応学習)に使用する下流タスクのデータとの間の関連性が、モデルの性能向上において重要な役割を果たすことが明らかになりました。

【LLM新技術】LLM同士が互いの知識を検証する手法:回答に必要となる知識は随時更新されていきますが、大規模言語モデル(LLM)には知識の欠落や古い情報が残る可能性があります。ワシントン大学やUCバークレーの研究者らは、LLM同士が互いの知識を検証し合い、信頼性の低い回答を控えさせる手法を提案しました。

【LLM新技術】LLMの検索結果を正確にする手法「CRAG」:大規模言語モデル(LLM)は固有の知識だけでは生成テキストの正確性を保証できず、幻覚を示すことが避けられません。Corrective Retrieval Augmented Generation(CRAG)では検索結果の品質を評価し、適切な知識検索を行う軽量な評価器を導入し、無関係な情報をフィルタリングするアルゴリズムを採用しています。

——————————

【LLMの活用】AIによるポケモンバトルで勝率56%「PokeLLMon」:米ジョージア工科大学の研究者らによって提案された、大規模言語モデル(LLM)を搭載した自律型AIエージェントです。インコンテキスト強化学習、知識拡張生成、一貫性あるアクション生成という3つの戦略を用いて、人間のプレイヤーのように振る舞い、戦術的な意思決定を可能にしています。

【LLMの活用】AIが生んだ芥川賞「東京都同情塔」:九段理江さんの芥川賞受賞作「東京都同情塔」では、生成AIがキャラクターとの対話シーンの表現に利用され、AIによるアイデア出しや文章表現の評価・添削に活用されており、生成AIとの実際の対話が作品の構想の土台となっています。

——————————

【DL技術】立教大、大量メモリ不要の新画像認識手法開発:立教大学が開発した新しい画像認識手法は、「フーリエ変換」を使用して「グローバルフィルタ」と「注意機構」の利点を組み合わせ、大量のメモリを必要とせずに高解像度の画像を効率的に認識できる技術です。

【画像生成AI】AppleとUCSB、テキストベース画像編集「MGIE」発表:MGIE(MLLM-Guided Image Editing)は、Appleとカリフォルニア大学サンタバーバラ校の研究により開発された、マルチモーダル大規模言語モデル(MLLM)を使用してテキストプロンプトに基づく画像編集を可能にするツールです。画像のトリミング、サイズ変更、フィルター追加や、特定の部分に対する具体的な変更など、詳細な指示に応じた編集操作を実行する能力を持っています。

——————————

【RAG】RAG実案件の知見まとめ:RAGはLLMが元々持っていない知識や社内情報に基づく質問に対しても正確な回答を生成できます。しかし、社内知識や暗黙知を必要とする質問への対応が難しく、これらを解決するためにはシステムの構成要素を細かく調整し、暗黙知やメタデータをプロンプトに含めるなどの改良が必要となります。

——————————

【開発技術】アプリエンジニアの「監視」重要性:アプリケーションエンジニアにとって「監視」は、デプロイ後のアプリケーションの動作を確認し、問題を早期に発見することです。これによって開発したコードの質を多角的に評価し、改善へのフィードバックが可能になります。また、良いコードへの理解が深まり、開発の手応えと成果が得られます。

2024/1/29~2024/2/4のTech Newsまとめ

Summary

【新サービス】Googleが「Imagen 2」ベースの画像生成AIツール「ImageFX」をリリース:テキストプロンプトを使って多様な画像バリエーションを生成できる新しいユーザーインタフェースを特徴としています。

【新サービス】AppleのVR/MRヘッドセット「Vision Pro」:Apple Vision Proはスタンドアローン型ヘッドセットであり、その重心の問題、内蔵されたM2とR1プロセッサ、開放型スピーカー、優れたパススルー品質、限定的な視野角、高精度の手と視線追跡機能を備えています。

【新サービス】GPT-4無料「リートン」が「GPT-4 Turbo」と「SDXL」を公開:株式会社リートンテクノロジーズジャパンは、無料で無制限に「GPT-4」を使用できるプラットフォーム「リートン」において「GPT-4 Turbo」や「Stable Diffusion XL」などの複数の新AIモデルの利用が可能になるアップデートを公開しました。

【新しいLLM】Metaのコード生成AIモデル「Code Llama 70B」リリース:Code Llama 70Bは、コード生成やコードに関する自然言語の生成が可能な最大かつ最高性能のモデルであり、研究や商業用途で無料で利用可能で、Python専用モデルや自然言語指示を理解するためにファインチューニングされたモデルを含む3つのバージョンが提供されています。

——————————

【生成AI技術】「SegMoE (Segmind Mixture of Diffusion Experts)」 概要:SegMoEはトレーニングなしで数分以内に安定した拡散モデルを専門家の混合に動的に組み合わせるための強力なフレームワークです。

【生成AI技術】MoE (Mixture of Experts Explained):MoEは複数の専門家ネットワークを使用して問題空間を均質な領域に分割する機械学習手法であり、各入力に対して1つまたは少数のエキスパートモデルのみが実行される点でアンサンブル手法とは異なります。

——————————

【LLM新技術】LLMのサイズを効率的に小さくする「SliceGPT」:不要な部分を剪定してLLMのサイズを効率的に圧縮し、計算資源とメモリ使用量を減らしつつ、高性能を維持する新技術であり、剪定後の再微調整なしで下流タスクにおける性能を保つことが可能です。

——————————

【技術解説】LLMに外部知識を取り入れる手法「fine-tuning」と「RAG」の比較:LLMにおいて、新しい情報を取り入れることや既存の情報の能力を精緻化する技術として、教師なしファインチューニングと検索拡張生成(RAG)の二つのアプローチを比較したところ、RAGが一貫して優れた性能を示すことを発見しました。

——————————

【ニュース】Appleのティム・クックCEOが生成AI機能の詳細発表予定を明かす:AppleのCEO、Tim Cookは四半期決算の会議で、今年後半に顧客に提供される予定の生成AIソフトウェア機能をiOS、iPadOS、macOSに統合する計画を示唆しました。

【ニュース】Apple、EUで外部ストア解放への影響と展望:AppleはEU圏でのデジタル市場法対策として、外部アプリストアの許可や決済手数料の変更を実施し、全世界のApp Storeでもストリーミングゲームやミニアプリの提供を認める新ルールを導入します。

【ニュース】ドコモ、ネットワーク品質「大幅改善」報告:NTTドコモは、2023年に実施した通信サービス品質の集中対策により、都市部での接続問題や速度低下を大幅に改善し、対策対象の90%以上で改善措置を完了したと報告した。

【ニュース】ユニバーサルミュージック、TikTokとの契約打ち切り:ユニバーサルミュージックグループ(UMG)は、アーティストへの不当な報酬額、AI音楽の容認、権利侵害への不十分な対応などの理由から、2024年1月31日をもってTikTokとの契約を更新せず、TikTokおよびTikTok Musicへの楽曲ライセンス供与を停止することを決定しました。

【ニュース】Amazon、iRobot買収断念:Amazonは、iRobotの買収計画をEU規制当局の承認が得られなかったために断念し、iRobotとの契約終了を発表しました。同時に、iRobotはフロア掃除事業に集中し、CEO退任と事業再建策を発表し、約350人の人員削減を行うことを明らかにしました。

——————————

【通信技術】NTTの光電融合デバイス研究強化とIOWN技術:NTTは、IOWN(光通信技術を中心にした次世代ネットワークを構築するプロジェクト)の一環として、広帯域・低遅延のネットワークと電力効率を向上させる3点の技術の研究を進めることを決定しました。

——————————

【日本のTech産業の未来】国産生成AI基盤モデル開発を政府が支援「GENIAC」:経済産業省は、国内外の競争力強化を目指し、ABEJAや東京大学など複数の企業・機関が参加して基盤モデル開発のための計算資源支援や連携促進を行います。

——————————

【スキルアップ】2023年話題のAIツール体験:このLTでは、AIによる問題解決が加速する新時代に向けて、2023年に話題になったChatGPTやGPTのマルチモーダル機能などのAIツールを紹介します。

2024/1/22~2024/1/28のTech Newsまとめ

——————————

【新サービス】Microsoft、Teamsでメタバース会議システム「Mesh」

【新サービス】OpenAI、GPT-4の性能向上&新モデル追加&使用状況をAPIキーの管理方法の改善など

——————————

【ニュース】OpenAIアルトマンCEO、AIチップ工場建設のため資金調達計画

【ニュース】Google、生成AIトレーニング下請けAppen解約

【ニュース】国内初「Wi-Fi 7」ルーター、バッファロー2月発売

【ニュース】JAXA、SLIMの撮影・データ送信成功

【ニュース】Google CloudとHugging FaceのAI開発者向け提携

【ニュース】日本のスペースワン、カイロスロケット初号機を3月9日に打ち上げ

——————————

【DL技術】Fujitsu、AIモデルの公平性の検証や改善する技術を一般公開

【DL技術】分類モデルの出力値を実際の確率に近づける手法「Probability Calibration」

——————————

【動画生成AI】Googleの動画生成AI「Lumiere」発表

——————————

【新しいLLM】OrionStarAIの多言語対応LLM「Orion-14B」

【新しいLLM】NVIDIA、GPT-4レベルの質問応答LLM「ChatQA」

【新しいLLM】マルチモーダルな小規模言語モデル「imp-v1-3B」

——————————

【LLM新技術】自己報酬型言語モデルの開発、米Metaが発表

【LLM新技術】大規模言語モデルの「幻覚」軽減のテクニック

【LLM新技術】LLMによるコード生成の精度向上「AlphaCodium」

【LLM新技術】Google開発、LLM内部動作説明手法「Patchscopes」

【LLM新技術】既存LLM融合による「知識融合」手法開発

【技術解説】マルチモーダルLLMの技術とトレンド

——————————

【AIと法律・規制】OpenAI、大統領選候補者なりすましチャットボット削除

【AIと法律・規制】EUのAI法案に関するAIガバナンスのコスト試算

【AIと法律・規制】「AIに関する音楽団体協議会」設立

——————————

【新技術】ディズニーが開発した動く床「ホロタイル」

——————————

【開発技術】「Docker Build Cloud」でビルド最大40倍高速化

——————————

【スキルアップ】机から離れた状態で論文を大量に読む方法

2024/1/15~2024/1/21のTechニュースまとめ

【新サービス】マイクロソフトが月額20ドルの「Copilot Pro」を開始

【新サービス】グーグル「かこって検索」新機能登場

——————————

【新しいLLM】オープンソースLLM Mixtral 8x7B、GPT-3.5に匹敵

【新しいLLM】Stability AIの新コーディングAI「Stable Code 3B」リリース

【新しいLLM】DeepMindが幾何学問題解決AI「AlphaGeometry」開発

【新しいLLM】Google医療面接特化AI「AMIE」の研究結果

——————————

【LLM新技術】「プロンプトのバタフライ効果」LLMへの影響調査結果

【LLM新技術】RLHF (人間フィードバック学習)の具体例を考察

【LLM新技術】オープンソースLLMをCPUでファインチューニング

【LLM新技術】CoTの推論ステップ数がLLMの推論能力に及ぼす影響

【LLM新技術】GoogleとMIT、AI生成の文章/画像だけで学習する手法開発

【LLM新技術】LLMバックドア攻撃の現在の安全対策調査

【LLM新技術】Meta研究者らが自己報酬言語モデルを開発

【LLM新技術】「Flash Attention」で効率的にLLMをフルファインチューニング

【LLM新技術】LLMマルチエージェントフレームワーク「AutoGen」入門

【LLM新技術】高スループットでLLMの推論実行「SGLang」体験

——————————

【LLMのツール】LM StudioでLLMをローカル環境で動かす手順

——————————

【LLMの比較】2024年共通テスト:ChatGPT vs Bard vs Claude2

——————————

【IT・AIの活用】KDDIとつくば市、遠隔ロボによる投票実験

【IT・AIの活用】AIパートナーと恋愛するアプリ「恋するAI」

【IT・AIの活用】芥川賞・九段理江さん、チャットGPT駆使で受賞

【IT・AIの活用】被災地支援にロボット犬、陸自が運用

——————————

【人間とAIの未来】OpenAI、ChatGPTポリシーから軍事使用禁止削除

【人間とAIの未来】OpenAI、世界選挙イヤーに向けての取り組み

【人間とAIの未来】イラストAI学習防止ツール「emamori」サービス開始

【人間とAIの未来】MetaザッカーバーグCEO、AGI開発宣言

【人間とAIの未来】世界リスク「虚偽情報」、AI台頭で増大の可能性

【人間とAIの未来】特訓AIモデルが潜伏工作員のように情報漏洩の可能性

【AIと法律・規制】「AI事業者ガイドライン案」のパブコメ募集開始

——————————

【日本のTech産業の未来】Sakana AIの45億円資金調達とNTTの筆頭株主就任AIドリームチーム「Sakana.ai」が人材募集

【日本のTech産業の未来】生成AI業界団体「Generative AI Japan」発足

【日本のTech産業の未来】AWSが国内クラウドインフラに巨額投資

——————————

【AWS】2023年12月のAWS最新情報ブログキャッチアップ

——————————

【新技術】CES 2024 透明・HMD・球体ディスプレイ

【新技術】NTTの個人性再現“デジタル分身”対話技術

【新技術】Google兄弟会社「Wing」、大型ドローン発表

——————————

【通信技術】SpaceXと農業機械のDeere、インターネット接続契約締結

【開発技術】モダンCSSのまとめ2024年に役立つCSSの新機能

【Web技術】サードパーティーCookie廃止後のウェブマーケティング変化

——————————

【ロボット】テスラの人型ロボット「Optimus」のTシャツたたみ動画

——————————

【ニュース】中国、米禁止のNVIDIA製半導体を購入

【ニュース】Yahoo!天気に避難所情報機能追加

【ニュース】富士通株急落、英国郵便冤罪事件の影響

【ニュース】EUがAmazonの「iRobot」買収計画阻止の報道

【ニュース】日本初「SLIM」月面着陸に成功、太陽光パネルは発電せず

——————————

【科学技術】グラフェンからの初半導体作成成功

——————————

【マネジメント】エンジニアの最小コミュニケーション術

【マネジメント】techtekt 新卒研修2023 研修資料公開

【マネジメント】生成AI導入時の社内ガイドライン作成法解説

——————————

【スキルアップ】つよつよエンジニアは「努力」するよりも「楽しむ」

【スキルアップ】「ITエンジニア本大賞2024」発表

【スキルアップ】LT会の面白いやり方と内容公開

【スキルアップ】最年少「基本情報技術者試験」合格者の学習法

——————————

2024/1/8~2024/1/14のTechニュースまとめ

【新サービス】【OpenAI】ChatGPT新プラン「Team」、月額30ドル

【新サービス】【OpenAI】「GPT Store」開始、ChatGPTアプリ公開可

——————————

【NN技術】一般的な視覚認識タスク向けの汎用的Transformer「CSWin Transformer」

【データ前処理】統合データ処理ライブラリ「Ibis」100本ノック

【分析技術】Group-Hot Encodingの活用法

【分析技術】PyTorchとPythonのバージョン更新手順

【分析技術】sklearnの「SimpleImputer」で欠損値を補完する

——————————

【IT・AIの活用】猫の痛み判別AI「CatsMe!」の開発

【IT・AIの活用】Science誌, AIで不正画像チェック

【IT・AIの活用】JR各社の作業ロボットによる保守革命

——————————

【人間とAIの未来】【AIと法律・規制】文化庁「AIと著作権に関する考え方について(素案)」についての考察

——————————

【新しいLLM】東工大と産総研、日本語対応の言語モデル「Swallow」無償公開

【新しいLLM】企業のドキュメントをLLMで読み込む「DocLLM」

【新しいLLM】【特化型LLM】JPモルガン、請求書、領収書などに特化したLLM「DocLLM」開発

【SLM】【技術解説】小規模LLMの限界と改善策

【LLM技術】自分の過去と対戦することでLLMの性能を向上させる手法「SPIN」

【LLM技術】HuggingFaceより高速なfine-tuning用ライブラリ「Unsloth」と「TRL」

【LLM技術】【高速化・効率化】LLM用高速推理ライブラリ「vLLM」

【LLM技術】複数のLLMモデルを一つにマージするツール「mergekit」の解説

【LLM技術】LLMパラメータ数とGPUメモリの分析

【LLM技術】【技術解説】LLMトレーニングの「分散学習」

【LLM技術】LLMの知識を直接編集して効果的に最適化する手法「Knowledge Editing」

【LLM技術】【プロンプトエンジニアリング】Google開発、表データ特化プロンプトエンジニアリング「Chain of Table」

【LangChain】LangChain初の安定版リリース

——————————

【生成AI】Getty ImagesとNVIDIAの画像生成AIサービス開始

【生成AI】テキスト・画像・動画からの音楽生成「M2UGen」

【生成AI】テキスト・画像から動画を生成する「DragNUWA」

——————————

【AWS】【データ分析】クラスメソッド データアナリティクス通信2024年1月号 機械学習編  AWSデータ分析編

【AWS】AWSの最新情報とトレンドチェック

——————————

【データ基盤】【Snowflake】2023年12月のSnowflake新機能・変更点まとめ

——————————

【デバイス】【XR】ソニー、コンテンツ制作特化XRヘッドマウントディスプレイ 、ソニーの4K HMD没入型コンテンツ制作システム体験

【デバイス】【XR】空間コンピューティング向けARグラス「XREAL Air 2 Ultra」

【デバイス】【XR】Apple Vision Pro、米国発売予定

——————————

【GPU・AIチップ】NVIDIAの新GPU「RTX 4080 SUPER」シリーズ発表

——————————

【通信技術】Wi-Fi CERTIFIED 7の正式発表とその特徴

【Web技術】Chrome、サードパーティCookie廃止とその影響

——————————

【新しい技術】他人が装着するイヤフォンへの音楽注入システムの開発

——————————

【ニュース】富士通の会計システム欠陥による英大規模冤罪

【ニュース】Gmail迷惑メール対策強化の詳細

【ニュース】AWS認定試験の値上げ情報

【ニュース】Windows 10更新問題とMicrosoftの対策

【未来予測】デジタル経済 2023年の予測と結果、2024年の予測

——————————

【マネジメント】チーム中心の組織作りのための6つのチーム設計原則

【マネジメント】テスト実施者の名前を記録しない仕組みづくり

【マネジメント】QAのテストプロセスが自走するチーム体制づくり

【マネジメント】エンジニアリングマネージャー (EM) のセルフ評価解説

【マネジメント】新規プロダクト開発のBadプラクティス

——————————

【スキルアップ】2024年版:データエンジニア向け推薦本リスト

【スキルアップ】GitHub資格認定プログラムが一般ユーザに開放

【スキルアップ】Microsoft、初心者向け生成AI学習教材の無償公開

【スキルアップ】西谷流・育児中のエンジニア勉強法

【スキルアップ】おすすめのコマンドラインツール集

——————————

【つくってみた】【やってみた】AITuberを創る

【つくってみた】ひとりで作ったタスク管理ツールの進化

——————————

【科学】ロングCOVIDとミトコンドリアの関係

【科学】JAXAの小型月着陸実証機「SLIM」のライブ配信

【科学】家庭用ヘッドセットで脳に電流を流してうつ病を改善

【科学技術】コーヒー豆を挽く前に水で濡らすとおいしくなる

【科学技術】H-IIAロケット打ち上げ成功

2024/1/1~2024/1/7のTechニュースまとめ

2023/12/25~2023/12/31のTechニュースまとめ

2023/12/18~2023/12/24のTechニュースまとめ

2023/12/11~2023/12/17のTechニュースまとめ

2023/12/4~2023/12/10のTechニュースまとめ

2023/11/27-2023/12/3のTechニュースまとめ

2023/11/20~2023/11/26のTechニュースまとめ

2023/11/13~2023/11/19のTechニュースまとめ

2023/11/6~2023/11/12のTechニュースまとめ

毎日のニュースピックアップはこちら

2023年11月のテクノロジーニュースピックアップ!


この週の主要な技術関連ニュースをまとめました。

リンク

2023/10/30~2023/11/5のTechニュースまとめ

毎日のニュースピックアップはこちら

2023年11月のテクノロジーニュースピックアップ!


この週の主要な技術関連ニュースをまとめました。

リンク

2023/10/25~2023/10/29のTechニュースまとめ

毎日のニュースピックアップはこちら

2023年10月のテクノロジーニュースピックアップ!(できるだけ毎日更新)

——————————

この週の主要な技術関連ニュースをまとめました。

リンク

2023/10/16~2023/10/22のTechニュースまとめ

毎日のニュースピックアップはこちら

2023年10月のテクノロジーニュースピックアップ!(できるだけ毎日更新)

——————————

この週の主要な技術関連ニュースをまとめました。

リンク

2023/10/9~2023/10/15のTechニュースまとめ

毎日のニュースピックアップはこちら

2023年10月のテクノロジーニュースピックアップ!(できるだけ毎日更新)

——————————

この週の主要な技術関連ニュースをまとめました。

リンク

2023/10/2~2023/10/8のTechニュースまとめ

毎日のニュースピックアップはこちら

2023年10月のテクノロジーニュースピックアップ!(できるだけ毎日更新)

——————————

この週の主要な技術関連ニュースをまとめました。

リンク

2023/9/25~2023/10/1のTechニュースまとめ

毎日のニュースピックアップはこちら

2023年9月のおもしろいIT・AI・科学記事一覧(できるだけ毎日更新)

2023年10月のテクノロジーニュースピックアップ!(できるだけ毎日更新)

——————————

この週の主要な技術関連ニュースをまとめました。

リンク

コメント

タイトルとURLをコピーしました