- 2024/4/29~2024/5/5のTech Newsまとめ
- 2024/4/22~2024/4/28のTech Newsまとめ
- 2024/4/15~2024/4/21のTech Newsまとめ
- 2024/4/8~2024/4/14のTech Newsまとめ
- 2024/4/1~2024/4/7のTech Newsまとめ
- 2024/3/25~2024/3/31のTech Newsまとめ
- 2024/3/18~2024/3/24のTech Newsまとめ
- 2024/3/11~2024/3/17のTech Newsまとめ
- 2024/3/4~2024/3/10のTech Newsまとめ
- 2024/2/26~2024/3/3のTech Newsまとめ
- 2024/2/19~2024/2/25のTech Newsまとめ
- 2024/2/12~2024/2/18のTech Newsまとめ
- 2024/2/5~2024/2/11のTech Newsまとめ
- 2024/1/29~2024/2/4のTech Newsまとめ
- 2024/1/22~2024/1/28のTech Newsまとめ
- 2024/1/15~2024/1/21のTechニュースまとめ
- 2024/1/8~2024/1/14のTechニュースまとめ
- 2024/1/1~2024/1/7のTechニュースまとめ
- 2023/12/25~2023/12/31のTechニュースまとめ
- 2023/12/18~2023/12/24のTechニュースまとめ
- 2023/12/11~2023/12/17のTechニュースまとめ
- 2023/12/4~2023/12/10のTechニュースまとめ
- 2023/11/27-2023/12/3のTechニュースまとめ
- 2023/11/20~2023/11/26のTechニュースまとめ
- 2023/11/13~2023/11/19のTechニュースまとめ
- 2023/11/6~2023/11/12のTechニュースまとめ
- 2023/10/30~2023/11/5のTechニュースまとめ
- 2023/10/25~2023/10/29のTechニュースまとめ
- 2023/10/16~2023/10/22のTechニュースまとめ
- 2023/10/9~2023/10/15のTechニュースまとめ
- 2023/10/2~2023/10/8のTechニュースまとめ
- 2023/9/25~2023/10/1のTechニュースまとめ
2024/4/29~2024/5/5のTech Newsまとめ
【新サービス】 2024-04-30 08:32:00 ChatGPTに設定を記憶させる「Memory」、Plusで正式機能に https://www.itmedia.co.jp/news/articles/2404/30/news080.html
OpenAIは、ChatGPTの機能「Memory」を、ChatGPT Plusユーザーに正式に提供開始いたしました。Memoryは、チャットの内容を記憶させることで、情報を繰り返す必要がなくなる機能です。初期設定でオンになっており、会議の要約を頼む際には、見出し、ポイントの箇条書き、最後のまとめを含ませるよう指示することができます。その際、返答に「Memory updated」と表示されることで、Memoryに記憶されたことが確認できるようになりました。記憶された内容は、以降の依頼時に自動的に反映されるようになります。また、Memoryに記録された項目については、「Manage memories」ボタンからMemory管理画面に移行し、記録されたくない項目を削除することもできます。さらに、EnterpriseおよびTeamsプランでもMemoryが利用可能になる見込みです。開発者自身のGPTのMemoryに記録した項目については、他のユーザーと共有されることはありません。
——————————–
【新サービス】 2024-04-30 11:00:00 GitHub Copilot Workspace: Welcome to the Copilot-native developer environment https://github.blog/2024-04-29-github-copilot-workspace/
GitHub Copilot Workspaceは、開発者の環境を再定義する革新的な取り組みです。従来の開発プロセスにおける課題を解決するため、自然言語を用いて「アイデアから、コードへ、ソフトウェアまで」を一気に実現できる新しい体験を提供します。
GitHub Copilotは2022年に登場し、開発者の生産性を最大55%向上させる画期的なツールとなりました。2023年には、GitHub Copilot Chatが登場し、開発者がコードと対話しながら、デバッグやテストを行えるようになりました。そして今回、GitHub Copilot Workspaceが発表されました。GitHub Copilot Workspaceでは、自然言語を用いて、課題の定義、仕様の作成、コード実装、テスト実行まで、開発プロセス全体をカバーします。Copilotエージェントがあなたのパートナーとなり、開発を支援してくれます。もちろん、すべての工程は編集可能で、開発者自身が主体的に関与できます。GitHub Copilot Workspaceは、コードの生成や自動化だけでなく、開発者の創造性を発揮させることを目的としています。これにより、より高度な開発者がシステム思考に集中できるようになり、初心者でも気軽にソフトウェア開発に取り組めるようになります。
——————————–
【LLMの評価】 2024-04-30 13:07:00 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs https://arxiv.org/abs/2401.06209
この論文では、大規模言語モデル(LLM)を使ったマルチモーダルな手法において、視覚的な能力に依然として課題があることが示されています。具体的には、最近のマルチモーダルなLLM(MLLM)では、CLIP(Contrastive Language-Image Pre-training)を使った言語-画像の事前学習によって視覚的な理解を実現しようとしていますが、依然として基本的な視覚パターンの理解に問題があることが明らかになりました。著者らは、CLIP の視覚的な埋め込み空間と、vision-only の自己教師あり学習との間にギャップがあることを示しています。そして、CLIP がvisually 類似していると判断する「CLIP-blind pairs」と呼ばれる画像ペアを使って、「Multimodal Visual Patterns (MMVP)」というベンチマークを構築しました。このMMVPを使って評価したところ、最新のシステム(GPT-4Vなど)でも、基本的な視覚パターンの理解に課題があることがわかりました。さらに、CLIP ベースのビジョン-言語モデルを評価したところ、CLIP が苦手とする視覚パターンと、マルチモーダルなLLMsが問題を抱える視覚パターンの間に強い相関があることが示されました。これらの課題に対する初期的な取り組みとして、著者らは「Mixture of Features (MoF)」と呼ばれるアプローチを提案しています。これは、vision 自己教師あり学習特徴量をMLLMsに統合することで、視覚的な基盤を大きく向上できることを示しています。
——————————–
【LLMの能力】 2024-05-01 17:16:43 Talking Nonsense: Probing Large Language Models’ Understanding of Adversarial Gibberish Inputs https://arxiv.org/abs/2404.17120
このテキストでは、大規模言語モデル (Large Language Models, LLMs) の「無意味な入力に対する理解能力」について議論しています。まず著者らは、LLMsが人間の言語を非常に優れて理解できるものの、LLMs自身が生成する見かけ上無意味な言語も理解できるかどうかを調べています。そのためGreedy Coordinate Gradient最適化手法を用いて、LLMsに意味のない入力から意味のある出力を生成させる「Babelの言語」と呼ばれるプロンプトを作成しました。その結果、Babelのプロンプトは自然なプロンプトに比べて低い損失関数値に収束することが分かりました。つまり、LLMsは意味のない入力に対しても一定の理解を示すことが明らかになったのです。さらに、Babelのプロンプトの構造を調べ、有害な文章生成も容易であることが示されました。これは、LLMsにおける入力に対するアラインメント (適合性) の問題を示唆しています。
——————————–
【新サービス】 2024-05-02 01:32:43 Introducing the Claude Team plan and iOS app https://www.anthropic.com/news/team-plan-and-ios
最近、クロードチームはチームプランとiOSアプリの2つのアップデートを発表しました。チームプランは、従業員全員がクロードとより多くのやり取りができるようにするものです。月額30ドル/ユーザーの料金で、クロード3モデル群(Opus、Sonnet、Haiku)の全機能を利用できるようになります。また、長文書類の処理や複雑なトピックの議論、マルチステップの会話ができる200,000トークンのコンテキストウィンドウ、ユーザー管理やビリング管理のための管理ツールなども備わっています。さらに、信頼できるソースからの引用、データリポジトリとの統合、同僚とのAI生成文書の共同作業など、今後の機能拡張も予定されています。クロードiOSアプリは、クロードのウェブとシームレスに連携し、写真の撮影・アップロードや画像解析など、モバイルでの使用に適した機能を提供します。Pro、Teamユーザー全員が無料でダウンロードできます。
——————————–
【技術解説】 2024-05-02 05:00:00 Natural language boosts LLM performance in coding, planning, and robotics https://news.mit.edu/2024/natural-language-boosts-llm-performance-coding-planning-robotics-0501
このテキストは、大規模言語モデル(LLM)の性能向上に向けた3つのニューロシンボリック手法を紹介しています。
1. LILO (Library Induction from Language Observations):LLMを利用してコードを合成し、Stitchアルゴリズムによる自動リファクタリングで抽象化を行い、自然言語を使って抽象化されたコードを文書化するフレームワークです。これにより、LLMが人間のように抽象化を行えるようになり、より複雑な課題に対応できるようになります。
2. Ada (Action Domain Acquisition):自然言語の記述から行動の抽象化を学習し、階層的な計画を立てる手法です。GPT-4などのLLMと組み合わせることで、仮想環境での課題遂行能力が大幅に向上しました。
3. LGA (Language-Guided Abstraction):ロボット操作において、事前の人間による詳細な注釈を必要としない手法です。言語モデルを用いて環境の重要な特徴を抽出し、模倣学習によってロボットの行動計画を生成します。これにより、構造化されていない環境でもロボットが適切に行動できるようになります。
これら3つのフレームワークは、自然言語を活用してLLMの抽象化能力を向上させ、プログラミング、AIプランニング、ロボティクスなどの複雑な課題への適用を可能にしています。今後は、より強力な言語モデルの導入や、マルチモーダルな表現の活用など、さらなる発展が期待されます。
この研究は、MIT CSAILのJoshua Tenenbaum教授、Julie Shah准教授、Jacob Andreas准教授を筆頭とする研究チームによって行われ、米国国防高等研究計画局(DARPA)や米国海軍研究局(ONR)などからの支援を受けています。
——————————–
【新サービス】 2024-05-02 12:07:02 AWS、生成AIアシスタント「Amazon Q」一般提供開始 https://www.watch.impress.co.jp/docs/news/1588786.html
AWS(Amazon Web Services)は、生成AIアシスタント「Amazon Q」の一般提供を開始しました。また、社内データから生成AIアプリを構築できる新機能「Amazon Q Apps」も同時に発表しています。
「Amazon Q」は、開発者向けの機能が豊富です。コード生成や、テストやデバッグ、複数ステップの計画や推論(reasoning)機能を備えており、開発者のリクエストに応じて、コードの変換(Javaバージョンアップグレードの実行など)や新たなコードの実装が可能です。さらに、エンタープライズデータリポジトリに接続することで、企業のポリシー、製品情報、業績、コードベース、人材などさまざまな企業データに関する質問に答えることができ、データの論理的な要約やトレンドの解析、データに関する会話なども可能になっています。
「Amazon Q Apps」は、従業員が自然言語で業務アプリのニーズを記述するだけで、求める業務を遂行するアプリを生成できる機能です。これにより、効率的に日常業務を簡素化し、自動化することができます。
——————————–
【新サービス】 2024-05-02 17:21:57 グーグル「Gemini」アプリ、日本で提供開始 https://www.watch.impress.co.jp/docs/news/1588887.html
グーグルは、生成AI「Gemini」アプリの日本展開を開始しました。Geminiは、Androidアプリとしてダウンロードできるほか、Googleアプリからもアクセス可能です。iOSユーザーはGoogleアプリからGeminiを利用することができます。
Geminiは、会話型かつマルチモーダルな機能を備えたAIアシスタントです。
Androidでは、Geminiアプリをダウンロードするほか、Google Assistantの起動方法(電源ボタンの長押しや「OK Google」の音声入力など)でもGeminiにアクセスできます。Geminiアプリには、Google Assistantの多くの機能(タイマー設定、通話、スマートホームデバイスのコントロールなど)が追加されており、今後さらに機能が拡張される予定です。iOSではGoogleアプリからGeminiを利用可能で、SNS投稿のサポートや旅行計画の立案などの機能を使うことができます。
また、Geminiには拡張機能が用意されており、ユーザーはGmailやYouTubeなどのGoogleサービスと連携して、旅行計画の立案や動画視聴など、ワンストップで様々なタスクを行うことができます。ユーザーは、プライバシー設定や拡張機能の使用方法を自由に管理できます。
さらに、デスクトップ版のChromeでもGeminiを利用できる新しい方法が提供される予定です。Chromeのアドレスバーに「@gemini」と入力し、続いて質問を入力することで、Geminiが起動し、回答が表示されるようになります。
——————————–
【開発技術】 2024-05-04 01:35:41 OpenTofu Amiable to a Terraform Reconciliation https://thenewstack.io/opentofu-amiable-to-a-terraform-reconciliation/
OpenTofu コミュニティは、Linux Foundation の下で Terraform をフォークすることなく、オープンソースに戻ることを強く望んでいます。2024年5月2日、IBM がHashiCorp を6.4億ドルで買収したことを受けて、OpenTofu はこの買収がどのように Terraform の将来に影響するのかに注目しています。
OpenTofu のコメンテーターSebastian Stadil氏は、IBM がHashiCorp よりもオープンソースをよりよく理解していることを期待しています。IBM がTerraform (およびHashiCorp ポートフォリオ全体) をオープンソースに戻すのであれば、OpenTofu はTerraformとの統合を歓迎すると述べています。OpenTofu は Linux Foundation のサポートを受けた Terraform のフォークで、コミュニティの分断を避けるためにも、統合されることが望ましいと考えています。
一方、OpenTofu は最新のバージョン1.7.0をリリースしました。このバージョンには、設定ファイルの端末間暗号化や、プロバイダ定義の関数の追加など、ユーザーから長く求められていた機能が実装されています。リリース作業を通して、OpenTofu プロジェクトの長期的な維持可能性に自信を持っているSebastian Stadil氏は、外部からの多数の寄与者が加わっていることを述べています。
OpenTofu は Terraform との統合を目指しつつ、独立したオープンソースプロジェクトとしての発展も目指しています。IBM がTerraformをどのように扱うかによって、OpenTofu の今後の方向性が大きく変わってくると考えられます。
——————————–
【LLMの評価】 2024-05-05 09:00:00 Introducing the Open Leaderboard for Hebrew LLMs! https://huggingface.co/blog/leaderboard-hebrew
このプロジェクトは、ヘブライ語NLPの発展に向けた重要な取り組みを紹介するものです。ヘブライ語は低リソース言語であるため、既存のLLMリーダーボードはヘブライ語の特性を正確に反映していませんでした。そこで、オープンなLLMリーダーボードを開発し、ヘブライ語のランゲージモデルを評価・改善することを目的としています。このリーダーボードは、イスラエルのNLP研究機関であるMafatおよびDICTAによって構築・運営されています。ヘブライ語QA、感情分析、代名詞解決、翻訳の4つのベンチマークタスクを設定し、LLMの性能を評価します。これらのタスクは、ヘブライ語の形態論的な複雑さや文脈依存性を考慮して設計されています。リーダーボードの技術的な仕組みは、オープンLLMリーダーボードをベースにしています。HuggingFace Inference Endpointsを使ってモデルを自動的にデプロイし、lighteval ライブラリによってAPIリクエストを管理しています。この取り組みは、研究者やデベロッパー、enthusiastに広く参加を呼びかけており、ヘブライ語のランゲージテクノロジー研究の発展に寄与することが期待されています。
本プロジェクトは、イスラエル国防省や国内NLP研究センターDICTAなどの支援を受けています。ヘブライ語の言語的・文化的な特性を反映したモデルの開発を推進し、ヘブライ語テクノロジーの向上につなげることが目的です。研究者やデベロッパーの積極的な参加を呼びかけています。
2024/4/22~2024/4/28のTech Newsまとめ
【LLM新技術】 2024-04-23 23:18:09 FlowMind: Automatic Workflow Generation with LLMs https://arxiv.org/abs/2404.13050
RPA(Robotic Process Automation)は反復的なプロセスを自動化するのに有効ですが、ユーザーによる即興的や予期せぬタスクには対応が難しい課題がありました。そこで登場したのが、LLMの機能を活用したFlowMindです。LLMには「ハルシネーション」と呼ばれる虚偽の出力が問題となっていますが、FlowMindではAPIを活用することでこの問題を解決しています。また、FlowMindはLLMと企業の機密データや コードの直接の対話を排除することで、情報の整合性と機密性を確保しています。特に金融分野では重要な点です。さらにFlowMindは、ユーザーに自動生成されたワークフローの概要を提示し、フィードバックを得るなどしてユーザー体験を簡素化しています。論文では、ファンドに関するQ&Aデータセット「NCEN-QA」を新たに提案し、FlowMindの性能評価に活用しています。評価の結果、FlowMindの有効性と、提案するLLM活用方式の各要素の重要性が示されました。
——————————–
【LLM新技術】 2024-04-25 08:50:48 Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models https://arxiv.org/abs/2402.14207
本研究は、大規模言語モデルを使用して、Wikipedia のようなグラウンディングされた長編記事を最初から作成する方法について調査しています。この問題は、事前執筆段階における新たな課題を提起します。具体的には、トピックを調査し、執筆前にアウトラインを準備する方法についてです。研究者らは、STORM と呼ばれる執筆システムを提案しています。STORM は、事前執筆段階をモデル化しています。その手順は以下の通りです:
1. 与えられたトピックについて、多様な視点を発見する
2. トピックの専門家と行われる対話を模倣し、さまざまな視点から質問を受ける
3. 収集した情報をキュレーションし、アウトラインを作成する
評価のために、研究者らは FreshWiki と呼ばれるデータセットを作成しました。これは、最近公開された高品質な Wikipedia 記事から構成されています。そして、アウトラインの評価方法を定義しています。さらに、経験豊富な Wikipedia 編集者からフィードバックを得ています。STORM によって生成された記事は、アウトラインが整理されている (絶対値で 25% 増加) と評価されており、カバー範囲も広い (10% 増加) と評価されています。専門家からのフィードバックにより、グラウンディングされた長編記事の生成における新たな課題も明らかになりました。具体的には、ソースの偏りの転移や、関連性の低い事実の過剰な関連付けなどが挙げられます。
——————————–
【RAG】 2024-04-25 22:24:03 Reducing hallucination in structured outputs via Retrieval-Augmented Generation https://arxiv.org/abs/2404.08189
本文は、Retrieval Augmented Generation(RAG)を活用することで、生成型AIシステムにおけるハルシネーションの問題を改善する方法について述べています。まず、生成型AIシステムにはハルシネーションが生じる傾向があり、これが実世界での導入を阻害する可能性があることが指摘されています。著者らは、自然言語の要件に基づいてワークフローを生成する企業向けアプリケーションを開発する過程で、RAGを活用することでこの問題に取り組みました。著者らの実装により、出力におけるハルシネーションが大幅に減少し、ドメイン外のデータに対するLLMの一般化性能も向上しました。さらに、小規模で高精度なリトリーバーエンコーダを使用することで、LLMベースシステムの導入時のリソース負荷を軽減できることが示されています。
2024/4/15~2024/4/21のTech Newsまとめ
【新しいLLM】 2024-04-15 09:00:00 Introducing Idefics2: A Powerful 8B Vision-Language Model for the community https://huggingface.co/blog/idefics2
Idefics2は、自然言語とイメージからなる入力に対して、文章での出力を生成できる強力な8B規模のマルチモーダルモデルです。Idefics1 から大幅な性能向上を実現しており、オープンソースでライセンスされています。
Idefics2の主な特徴は以下の通りです。
1. 8B個のパラメータを持つ大規模モデルで、多様な用途に利用可能です。オープンソースのため、コミュニティでの活用が期待されます。
2. 光学文字認識(OCR)の能力が強化されており、画像やドキュメントの文字情報を効果的に活用できます。
3. 画像の全体や部分を柔軟に扱うことができ、大きなサイズの画像にも対応しています。
4. 問題文や指示に基づいて、質問への回答やイメージの記述、複数のイメージに基づくストーリーの生成、計算処理などを行うことができます。
5. 事前学習後にさまざまなタスクに対してファインチューニングできるよう、Transformers ライブラリに統合されています。
6. コミュニティ向けにオープンソースデータセット「The Cauldron」を公開しており、多様なマルチモーダルタスクでの利用が期待されます。
開発にあたっては、Google チームやMistral AIなどの貢献に感謝しています。
——————————–
【新サービス】 2024-04-16 07:22:10 Cohere Compass Private Beta: A New Multi-Aspect Embedding Model https://cohere.com/blog/compass-beta
Cohereは、多様な側面を持つデータに対応できる新しい基盤埋め込みモデル「Cohere Compass」のプライベートベータを発表しました。多様な側面を持つデータとは、複数の概念や関係性を含むデータのことを指します。企業の保有するメール、請求書、履歴書、サポートチケット、ログメッセージ、表形式データなどがこれに該当します。従来の埋め込みモデルは、単一の属性しか捉えることができませんでした。例えば、青と黄色のジーンズと緑と赤のTシャツが近い埋め込み結果を示してしまいます。これでは、「赤のTシャツ」を検索しても適切な結果が得られません。Cohere Compassは、このような多様な側面を持つデータに対応するために設計されています。Compassでは、JSONドキュメントとして入力データを受け取り、ベクトルデータベースに多様な側面を捉えた埋め込み表現を保存します。従来のRAGパイプラインでは、メールと添付PDFを別々に処理していましたが、Compassではメールとその添付ファイルを一つのJSON文書として取り扱い、メタデータと本文の関係性を保持した埋め込み表現を生成します。Compassを使うと、「Cohere埋め込みのPRはいつのものですか?」といった、時間、意味上のトピック、タイプなどの複数の側面を組み合わせた検索クエリに適切に応答できるようになります。Cohereは現在Compassのプライベートベータテストを行っており、多様な側面を持つデータを持つ企業の参加を募集しています。Compassの活用により、より高度な検索や分析が可能になることが期待されます。
——————————–
【新しいLLM】 2024-04-16 08:37:34 Reka Core: Our Frontier Class Multimodal Language Model https://www.reka.ai/news/reka-core-our-frontier-class-multimodal-language-model
Reka Coreは、業界トップクラスの多モーダル言語モデルです。数か月にわたりGPUを使って効率的に学習されており、OpAI、Anthropic、Googleなどの最新モデルと肩を並べる性能を持っています。コストパフォーマンスの面でも優れており、多様な用途への活用が期待されます。具体的な性能比較では、Reka Coreは画像・動画理解の「MMMU」タスクで、GPT-4Vと同等の成績を収めています。また、独立第三者機関による多モーダルの人間評価では、Claude-3 Opusを上回り、ビデオタスクでもGemini Ultraを凌駕しています。言語タスクでも、他の最新モデルと肩を並べる成績を収めています。Reka Coreの主な機能としては、画像や動画、オーディオなどの多モーダルな理解能力、128Kもの長いコンテキストウィンドウ、高度な推論能力、コーディング能力、32か国語の多言語対応、オンプレミスやオンデバイスなど柔軟な展開が可能といった特徴が挙げられます。Rekaは、このReka Coreをはじめ、Edge、Flash など一連の高性能モデルを提供しており、電子商取引、ヘルスケア、ロボティクスなど、様々な分野での活用を目指しています。パートナーには、Snowflake、Oracle、AI Singaporeなどの大手企業や組織が名を連ねており、多モーダル技術の普及に尽力しています。
——————————–
【LLMの評価】 2024-04-16 09:00:00 Introducing the LiveCodeBench Leaderboard – Holistic and Contamination-Free Evaluation of Code LLMs https://huggingface.co/blog/leaderboard-livecodebench
LiveCodeBenchは、UC Berkeley、MIT、Cornellの研究者によって開発された新しいベンチマークで、LLMのコード生成機能を計測することができます。
LiveCodeBenchは、さまざまなコーディングコンテストプラットフォームから蓄積されたコーディング問題を利用しています。問題にはリリース日が付与されており、異なる時間枠の問題集合で評価することで、 “経時的な評価” が可能になり、汚染を防ぐことができます。コード生成タスクに加えて、自己修復、テスト出力予測、コード実行なども評価することで、次世代のAIプログラミングエージェントに求められる総合的なコーディング能力を把握することができます。LiveCodeBenchの問題は、LeetCode、AtCoder、CodeForcesといったコーディングコンテストプラットフォームから収集されています。これらのサイトでは定期的にコンテストが開催され、参加者のコーディングやプロブレムソルビングのスキルを評価する問題が出題されます。問題には自然言語の問題文と入出力例が含まれ、隠されたテストケースに合格するプログラムを作成することが目標となっています。
——————————–
【DL技術】 2024-04-16 09:00:00 AI Apps in a Flash with Gradio’s Reload Mode https://huggingface.co/blog/gradio-reload
Gradioはマシンラーニングアプリ作成に使われるPythonライブラリです。Gradioでは、UIレイアウトをPythonで記述し、UIイベントに応じて動作するPythonロジックを追加します。このライブラリは基本的なPythonを知っていれば簡単に学習できます。通常、Gradioアプリケーションはpython app.pyのようにPythonスクリプトとして起動させます。これにより、HTTPサーバが起動し、アプリのUIが表示されて、ユーザーアクションに応答します。アプリに変更を加える場合は、サーバを停止(通常はCtrl + Cで)し、ソースファイルを編集してから再実行する必要があります。この停止・再実行のサイクルには待ち時間が発生し、アプリの開発効率を下げてしまいます。そこで、Gradioはリロードモードを実装しました。gradio app.pyコマンドを使ってアプリを起動すれば、ソースコードの変更を即座に反映できます。
Gradioがこのオリジナルのリロード機能を実装した理由は次の2点です。
1. 高速なリロード: Uvicornのオートリロード機能ではサーバーが停止・再起動するため、Gradioアプリのように迅速な反応が求められる場合に遅すぎます。Gradioでは、UIをPythonで構築するため、変更後すぐに反映させることが重要です。これはJavaScriptエコシステムでは当たり前ですが、Pythonにとっては新しい概念です。
2. 選択的なリロード: GradioアプリはAIアプリケーションなので、メモリ上にAIモデルを読み込んだり、ベクトルデータベースに接続したりする処理が含まれます。開発時にサーバーを再起動するとこれらの処理が毎回実行され、開発サイクルの遅延が発生します。そこで、Gradioは`gr.NO_RELOAD`ブロックを使って、リロードしないコードを指定できる仕組みを導入しました。
——————————–
【新しいLLM】 2024-04-18 09:00:00 Welcome Llama 3 – Meta’s new open LLM https://huggingface.co/blog/llama3
Meta社が開発した次世代の大規模言語モデル「Llama 3」が公開されました。Llama 3には以下の特徴があります。
1. モデルサイズ: 8B (小規模)と70B (大規模)の2種類が用意されています。両モデルともに、ベースモデルと命令チューニングされたバージョンが提供されています。また、これらに加えて、Llama 3 8Bをベースにしたセーフティ重視のモデル「Llama Guard 2」も公開されました。
2. トークン数の拡張: Llama 2の32,000トークンから、Llama 3では128,256トークンへと拡張されました。これにより、入出力の効率が向上し、多言語性能も強化されています。
3. アーキテクチャの改善: 8Bモデルでは、メモリ効率の良い「Grouped-Query Attention」が採用されました。また、全体的な精度向上のため、大量のデータ(15トリリオントークン以上)を用いてさらなる学習が行われました。
4. 使いやすさの向上: Hugging Faceとの密接な連携により、この新しいLlama 3モデルをTransformersライブラリから簡単に利用できるようになりました。さまざまなデプロイ環境(Inference Endpoints、Google Cloud、Amazon SageMaker)にも対応しています。
5. 柔軟なライセンス: Llama 3には派生利用が可能な、比較的緩いライセンスが適用されています。ただし、派生モデルにはLlama 3の由来を明示する必要があります。
——————————–
【LLMの評価】 2024-04-19 09:00:00 The Open Medical-LLM Leaderboard: Benchmarking Large Language Models in Healthcare https://huggingface.co/blog/leaderboard-medicalllm
「The Open Medical-LLM Leaderboard」はヘルスケア分野における大規模言語モデル(LLM)の性能を評価するためのものです。
主な特徴は以下の通りです。
1. 様々な医療分野のデータセットを使って、LLMの医療知識とQA能力を包括的に評価します。データセットには、MedQA、PubMedQA、MedMCQAなどが含まれています。
2. 主な評価指標は正答率(Accuracy)です。提出されたモデルはこの指標に基づいて順位付けされます。
3. 現在のリーダーには、GPT-4やMed-PaLM-2といった商用モデルと、Starling-LM-7BやGemini Proといった研究用モデルが名を連ねています。
4. モデルの提出方法や、今後の展開について詳しく解説されています。例えば、モデルをsafetensorsフォーマットに変換したり、AutoClassesとの互換性を確認する必要があります。
5. 今後はより多様なデータセットの導入や、新しい評価指標の検討など、リーダーボードの機能拡張が予定されています。
——————————–
【ニュース】 2024-04-19 10:00:15 企業や組織のイノベーションを創出する Microsoft AI Co-Innovation Lab Kobe https://news.microsoft.com/ja-jp/2024/04/19/240419-microsoft-ai-co-innovation-lab-kobe-creating-innovation-for-companies-and-organizations/
Microsoft AI Co-Innovation Lab Kobe(神戸ラボ)の開設から半年間の活動や施設の運用状況が紹介されました。
神戸ラボは、マイクロソフトおよび川崎重工業株式会社と神戸市の連携により、2023年10月11日に神戸商工貿易センター内に開設されました。AI やIoTを活用したイノベーションの創出と産業の振興を目指しており、地域活性化にもつなげていくことが期待されています。ツアーでは、神戸ラボの所長である日本マイクロソフト株式会社の平井健裕氏より、施設の紹介や運用状況、今後の活動などが説明されました。神戸ラボはこれまでに90社以上の企業が訪れ、毎週のようにスプリント開発が実施されている注目を集める施設となっています。また、神戸市のイノベーション創出の取り組みとして、スタートアップ支援事業「Urban Innovation KOBE」の紹介や、行政とスタートアップの連携などが武田卓氏より説明されました。
さらに、マイクロソフトと川崎重工業株式会社の協業事例やAIオーブン「THEO」の開発事例も紹介されました。特に、THEOの開発では、Microsoft AI Co-Innovation Labの活用により、職人の技術をデータ化してAI学習済みモデルを実現するなど、興味深い取り組みが行われていることがわかりました。
——————————–
【LLM新技術】 2024-04-19 14:25:15 Many-Shot In-Context Learning https://arxiv.org/abs/2404.11018
本論文では、大規模言語モデル(LLM)による「多量の事例によるインコンテキストラーニング(Many-Shot In-Context Learning)」について報告されています。従来のLLMは、わずかな事例(few-shot)から容易にインコンテキストでの学習ができることが知られていますが、本研究では、数百~数千の事例(many-shot)を利用した場合の性能を調べています。その結果、生成タスクや識別タスクにおいて大幅な性能向上が見られました。しかし、many-shotの学習には人間が生成した多数の事例が必要になるという課題がありました。そこで、本研究では2つの新しい手法を提案しています。1つは「Reinforced ICL」です。これは、人間が生成した事例の代わりに、モデル自身が生成したチェーン・オブ・シンキング(論理的な推論過程)を利用するものです。もう1つは「Unsupervised ICL」で、ドメイン固有の質問のみを提示し、事例そのものは与えないというものです。これらの手法を使うことで、複雑な推論タスクにおいても、many-shotの学習が効果的であることが示されました。また、few-shotの学習とは異なり、many-shotの学習では、事前学習時のバイアスを上書きし、数値入力を持つ高次元の関数を学習することができることが分かりました。
2024/4/8~2024/4/14のTech Newsまとめ
【AIと法律・規制】アメリカの俳優らの労働組合SAG-AFTRAとレコードレーベルがAIの音声利用規制で暫定契約
SAG-AFTRA(Screen Actors Guild-American Federation of Television and Radio Artists)は、アメリカ合衆国の演技者、アナウンサー、放送ジャーナリスト、プログラムホスト、ニュースライター、その他メディア関連の職種の人々を代表する労働組合です。SAG-AFTRAと主要なレコードレーベルが、新しい契約について仮合意しました。この契約は2021年から2026年まで有効です。含まれるレコードレーベルは、ワーナーミュージック、ソニーミュージック、ユニバーサルミュージック、ディズニーミュージックです。この合意には、音楽産業での人工知能の使用を倫理的に制限する新しいルールが設けられており、これは業界で初めてのことです。人工知能に関するルールは、歌手の声のデジタル複製を使用する音声録音のリリース前に、明確な同意と最低報酬要件が必要とされます。契約の他の重要な点には、最低賃金の上昇、健康と退職の福利の改善、ストリーミング収益の貢献割合の増加があります。
———————————
【人間とAIの未来】自民党がAIデータ利用と安全性確保のための新戦略を発表
自民党デジタル社会推進本部「AIの進化と実装に関するプロジェクトチーム」(平将明 PT座長)は4月12日、「AIホワイトペーパー ステージⅡにおける新戦略 ー世界一AIフレンドリーな国へー」をとりまとめ、 デジタル社会推進本部で了承いただきました。この後、政務調査会の審査を経て、自民党の政策になります。
- 研究開発と利活用の推進:政府や民間が持つデータの活用を推進し、新たなAI開発への利用を容易にする。特定の分野、例えば自動車や医療、農業などにおいて、データの収集とAI開発の相乗効果を官民共同で進める。
- 安全性の確保:AIに関するリスクを管理し、安全な利用を保証するためのガイドラインや法的枠組みを整備。AI事業者はリスクの評価と低減を継続的に行うことが求められる。
- 国際協調と連携の強化:AIの安全性評価に関する国際的なネットワークを構築し、国際的な協調を図る。アジア諸国やグローバルサウスとの協調を強化する。
———————————
【新サービス】新しい「GPT-4 Turbo」がChatGPTの有料ユーザーに提供開始
———————————
【人間とAIの未来】生成AIが漫画制作で役立つ点と限界 漫画家「うめ」が資料を公開
経済産業研究所は「漫画制作における生成AI活用の現状:2024春」という資料を無料公開しました。この資料は漫画家「うめ」の小沢高広さんが作成したものです。資料では、生成AIが漫画制作で役立つ点と限界が挙げられています。例えば、AIは創造的なアイデア出しやパターン生成には適していますが、物語性が強い長編漫画を描く能力にはまだ到達していないとされています。小沢さんは、生成AIが現在の漫画家の仕事を奪うことはないと見ていますが、将来的にどうなるかは不明であるとも述べています。また、AIの利用が著作権侵害になるかどうかについても触れられており、法的な許可は得られているものの、倫理的な問題や不同意の意思表示が簡便に行える技術の開発が望まれています。
———————————
【AIとロボット】AIロボット開発企業Sanctuary AIは自動車部品メーカーMagnaと提携
Sanctuary AIは、自動車部品メーカーMagnaとの戦略的パートナーシップと投資を通じて、一般用途のロボットの開発、導入、拡大をサポートしています。この提携により、Magnaの製造業務に一般用途のAIロボットが導入され、コスト削減とスケーラビリティの向上が目指されます。Sanctuary AIは、人間のようなAIを持つロボットを世界で初めて作ることを目標に掲げています。この目標を達成するためには、世界的なパートナーが必要です。Sanctuary AIは、独自の技術、特に人間の手に似た高度な機能を持つロボット「Phoenix™」やAI制御システム「Carbon™」を開発しています。これらは、製造業だけでなく他の多くの業界にも変革をもたらす可能性があります。Magnaは、2021年からSanctuary AIに投資しており、特定のタスクに一般用途AIロボットを統合することで、高品質な製品の提供能力を向上させることを目指しています。
———————————
【LLMの評価】Meta、視覚と言語モデルの空間理解を評価する「OpenEQAベンチマーク」
Metaが、OpenEQA(オープン・ボキャブラリー体感型質問応答)ベンチマークを発表しました。これは、AIエージェントが物理的な空間をどのように理解しているかを評価するためのものです。このベンチマークは、視覚と言語のモデル(VLMs)を評価し、それらが人間のレベルと比べて大きなギャップがあることを発見しました。特に空間理解を必要とする質問において、今日のVLMsはほとんど助けにならないことがわかりました。OpenEQAの目的は、AIエージェントが見た世界について理解し、コミュニケーションを取る手助けをするためのオープンリサーチを促進することです。OpenEQAは、1,600以上の非テンプレート化された質問と回答のペアを含んでおり、これらは実世界の使用例を反映しています。また、物理的な環境のビデオやスキャンへのリンクも提供されています。現在のところ、最も性能の良いモデルであるGPT-4Vでも、人間のパフォーマンス(85.9%)と比較して大きな性能差(48.5%)があります。特に、空間に関する質問に対しては、視覚情報を活用しているモデルであっても、テキストのみのモデルとほとんど変わらない結果となっています。
———————————
【新しいLLM】モバイルUI画面を理解し操作するAppleの新AI言語モデル「Ferret-UI」
→ AppleのFerret-UIはモバイルUIの多面的理解を実現するAIモデル
Appleが「Ferret-UI」という新しいAI言語モデルを発表しました。このモデルは、iPhoneやAndroidなどのモバイルUI画面をより深く理解し、インタラクションできるように設計されています。Ferret-UIは、スクリーンショットを詳細に説明するタスク、質問に対する応答、およびスクリーンの機能を推測する能力を持っています。このモデルは「any-resolution」技術を使用しており、画面を複数のサブ画像に分割し、それぞれを別々にエンコードすることで、細かい視覚情報を失うことなく、豊かな視覚特徴を活用できます。基本的なUIタスク(アイコン認識やテキスト検出など)と高度なUIタスク(詳細な説明、対話、機能推論など)を通じて、モデルはUI要素の意味と空間的な位置関係を理解することができます。このモデルにより、モバイルデバイスのユーザーインターフェースをより効果的に解析し、操作するAIの開発が進むことが期待されています。
———————————
【音楽生成AI】無料でAIが最大1200曲の作曲が可能「Udio」パブリックベータ版を公開
———————————
【ニュース】MetaがAI特化の新カスタムチップ「MTIA」を発表
Metaは「Meta Training and Inference Accelerator (MTIA)」の次世代モデルを発表しました。これは、AIに特化したカスタムチップです。この新しいチップは、パフォーマンスがMTIA v1に比べて大幅に向上しており、ランキングと推薦モデルを効率よく動かすことができます。MTIAは、Metaの製品とサービス全体で新しい体験を提供するためのAIインフラストラクチャ投資の一環です。このチップは、処理要素(PE)の8×8グリッドを持ち、密集計算性能が3.5倍、スパース計算性能が7倍に向上しています。チップのアーキテクチャは、メモリ帯域幅と容量を重視して設計されており、オンチップのSRAM容量と帯域幅がそれぞれ2倍、LPDDR5の容量も2倍に増えています。ソフトウェアスタックも更新され、PyTorch 2.0と完全に統合されています。また、トリトン言語を使用してMTIA専用の高効率コードを生成するTriton-MTIAコンパイラバックエンドが導入されています。この次世代チップは、初代MTIAに比べて性能が3倍向上し、モデル処理スループットが6倍、性能効率が1.5倍向上しています。MTIAはデータセンターで稼働を開始し、MetaのAIワークロードに対する効率的なサポートを提供しています。
———————————
【ニュース】Raspberry Piがソニー製AI機能搭載センサーIMX500を用いた新AIカメラモジュールを今年夏に発売予定
英国Raspberry Piは、ソニーのAI機能を搭載したインテリジェントビジョンセンサー「IMX500」を使ったAIカメラモジュールを2024年夏に発売予定です。IMX500は、画像処理とAI処理を行う積層構造を採用しており、外部の高性能プロセッサやメモリを必要とせずに、エッジAIシステムを実現できます。Raspberry Piはこのカメラモジュールに、画像認識モデルのMobileNetを搭載しており、Tensorflowのカスタムモデルもインポート可能です。デモでは、Raspberry Pi Zero 2 Wを使用して、物体認識や身体セグメンテーションのデモを実施しました。価格や詳細な発表はまだされていませんが、外箱の準備が進んでおり、2024年夏の発売が予定されています。ソニーとRaspberry Piは、イメージセンサーや半導体製品の製造で長期的な戦略的パートナーシップを築いています。
———————————
【ニュース】Googleが10億ドルを投資して日本とグアムの新海底ケーブルなどのインフラを強化
Googleは日本のデジタル接続性を向上させるために、10億ドルを投資することを発表しました。これには、太平洋接続イニシアチブの拡張と、新たな海底ケーブル「Proa」と「Taihei」の設置が含まれます。「Proa」海底ケーブルは、NECが製造し、日本、北マリアナ諸島(CNMI)、グアムを接続します。このケーブルはCNMIの最初の国際海底ケーブルとなります。「Taihei」は日本とハワイを接続する別のNEC製海底ケーブルで、平和と太平洋を意味します。これらのケーブルは、アメリカ本土と日本(茨城県の志摩および高萩市)の間に新しいルートを設け、デジタル接続の信頼性と回復力を向上させることを目的としています。さらに、ハワイ、CNMI、グアムを結ぶインターリンクケーブルの建設も資金提供され、太平洋のルートをつなぎ、信頼性の向上とレイテンシの削減を図ります。このプロジェクトには、KDDI、ARTERIA、Citadel Pacific、CNMI政府など、複数のパートナーが協力しています。Googleのネットワークインフラストラクチャへの投資は、過去に日本のGDPを4億ドル以上増加させたと推定されており、デジタルサービスへのアクセス増加により、スキル開発やキャリアの機会が拡大しています。
———————————
【新しいLLM】Microsoftも出資するAI企業Mistral、オープンソースLLM「Mixtral 8x22B」リリース
———————————
【新技術】新OS「DBOS」はクラウド時代の大量データ処理に対応
クラウドサービスが拡大している今、Linuxのような従来のOSでは対応が難しくなっているため、新しいタイプのOSが求められています。「DBOS」という新しいOSは、データを中心とした設計思想を持ち、大量のデータを扱う現代の要求に対応するよう開発されました。DBOSはデータベースの技術を活用し、データの管理とアクセスを効率化することで、より高速で安全なデータ処理を実現します。アプリケーションの動作状態などは、分散されたデータベースに保存され、これにより、データの整合性とセキュリティが保たれます。このOSは、開発者が利用できるさまざまなレベルで構成されており、アプリケーションの開発やデータの扱いを柔軟に行えます。開発者は特定の開発キット(SDK)を用いて、独自のアプリケーションをこのOS上で開発し、データを効果的に活用することができます。アプリケーションが予期せず停止した場合でも、DBOSは自動的に処理を再開できるため、サービスの中断を最小限に抑えることができます。
———————————
【新サービス】GoogleのGemmaファミリーが開発者向けにCodeGemmaとRecurrentGemmaを導入
GoogleのGemmaファミリーが拡大し、「CodeGemma」と「RecurrentGemma」という新しいモデルが導入されました。
- CodeGemmaは、コード補完や生成、命令に従う作業に特化しており、プログラミング作業を効率化するための機能を提供します。これにより、開発者はより迅速に、かつ誤りの少ないコードを書くことができるようになります。
- RecurrentGemmaは、リカレントニューラルネットワークを使用し、メモリ使用量を減少させることで、限られたメモリのデバイス上でも長いサンプルの生成を可能にします。これは、研究者がより大きなバッチサイズで高速に推論を行うために設計されたモデルで、長いシーケンスの生成において効率的です。
これらのモデルはオープンソースであり、JAXやPyTorch、Hugging Face Transformersなど、さまざまなツールやプラットフォームとの互換性を持ちます。これにより、幅広いハードウェア上でのローカル実験やコスト効率の良い展開が可能になります。さらに、Gemma 1.1では、パフォーマンスの向上と開発者からのフィードバックに基づくバグ修正、利用条件の更新が行われました。これらのモデルは、KaggleやHugging Face、Vertex AI Model Gardenなどで利用でき、開発者や研究者はこれらを自分のプロジェクトに組み込んで、新しい可能性を探求することができます。
———————————
【AIの活用】バイエルとGoogle Cloudが放射線科医向けAIアプリケーション開発を加速
バイエルとGoogle Cloudが協力して、放射線科医を支援するAI技術を開発しています。これは放射線科医の作業負荷を軽減し、より効率的に患者さんを診断するのに役立つことを目的としています。バイエルはGoogle Cloudの技術を使用し、放射線学に特化したAI駆動型のアプリケーションを素早く開発し、展開するためのプラットフォームを進化させます。医療画像は非常に大量であり、これらを効率的に分析するためには新しいAIツールの開発が必要です。バイエルのイノベーションプラットフォームは、AIによるデータ分析から、規制や科学論文からの情報抽出、開発と検証のためのAI支援、医療イメージングのコアラボサービス利用まで、アプリケーション開発のための一連のプロセスをサポートします。このプラットフォームはGoogle Cloud上に構築され、データ分析やAIの開発に必要な多くのツールを提供します。データのセキュリティとプライバシーは非常に重要で、Google Cloudの技術はHIPAAやGDPRに準拠したデータの管理を可能にします。これは医療データを扱う上で欠かせない要素です。
———————————
【新サービス】Gemini 1.5 Proがオーディオ理解やJSONモードなど新機能で180ヵ国以上で利用可能に
Gemini 1.5 Proは、Googleの最新のAIモデルで、音声を含むさまざまな種類のデータを理解できる能力を持っています。これにより、開発者はより多様なアプリケーションを開発できるようになります。このモデルは、オーディオファイルやビデオファイルを入力として受け取り、それをテキストデータに変換することで、例えば講義の内容をクイズに変換するなどの処理が可能です。JSONモードを利用すると、モデルの出力をJSONオブジェクトとして受け取ることができ、これによりテキストや画像からの構造化データの抽出が簡単になります。新しいテキスト埋め込みモデルは、文章や単語を数値のベクトルに変換する技術であり、この技術を用いることで、テキストデータの類似性を計算したり、検索性能を向上させることができます。このモデルは、既存の類似モデルと比較して高い性能を達成しています。Google AI Studioを通じて、これらの新しい機能を活用するためのAPIキーを取得し、Gemini API Cookbookでのコード例やクイックスタートガイドを参照しながら開発を始めることができます。
———————————
【ニュース】マイクロソフトが日本のAI及びクラウド基盤強化に4,400億円を投資
マイクロソフトは、日本のAI技術とクラウドサービスの基盤を強化するために、約4,400億円の大規模な投資を行うと発表しました。この投資は、日本でのデジタル化の進展を加速させることを目的としています。投資の一環として、マイクロソフトは300万人にリスキリングの機会を提供し、技術スキルの向上を支援します。これにより、AIを効果的に活用する人材を育成し、日本社会全体のデジタルスキルの底上げを図ります。また、日本初となる研究拠点の設立により、AI技術の研究開発を促進し、イノベーションの創出を目指します。これは、国際的な研究コミュニティとの連携を深め、日本の科学技術の発展に貢献することを意図しています。サイバーセキュリティ分野では、日本政府との連携を強化し、国内のセキュリティ環境を向上させることで、政府や企業、一般国民をサイバー攻撃から守る取り組みを進めます。これらの取り組みを通じて、マイクロソフトは日本のデジタルトランスフォーメーションを支援し、経済成長と社会の発展に貢献することを目指しています。
———————————
【スキルアップ】AWS Japanが推奨する初学者向け6ステップ勉強法
———————————
【新しいLLM】Cohere AIの新しいLLM「Command R+」は、128kトークンのコンテキストウィンドウや多言語対応でOpenAI APIよりも安価
Command R+は、企業向けに開発された大規模言語モデル(LLM)で、企業の実際のニーズに合わせて設計されています。このモデルは、128kトークンのコンテキストウィンドウを持ち、検索強化生成(RAG)や多言語対応などの先進的な機能を提供します。Microsoft Azureを通じて最初に提供され、その後、他のクラウドプラットフォームでも提供される予定です。英語を含む10の主要言語をサポートし、世界中の企業が異なる言語のデータソースから正確な回答を生成できるようにします。Command R+の利用料金は、input $3/1M tokens、output $15/1M tokensです。
(GPT-4 Turboはinput $10/1M tokens, output$30/1M tokens)
(Mistral-Largeはinput $8/1M tokens, output $24/1M tokens)
2024/4/1~2024/4/7のTech Newsまとめ
【開発技術】zxはJavaScriptでシェルスクリプトを簡単に書けるツール
zxは、JavaScriptを使って、普段コンピューターに命令を出す「シェルスクリプト」を手軽に書けるようにするツールです。通常のシェルコマンドを**$
**記号で囲むだけで使えるようにし、より簡単にプログラミングできます。シェルスクリプト特有の複雑さやわかりにくさを解消し、開発者がより簡単に、そして快適にコードを書けるようになります。JavaScriptの知識があれば、TypeScriptでの開発や、リモートでの実行、Markdownファイル内でのスクリプト実行も可能です。Docker内でも簡単に実行できるため、さまざまな環境での利用が想定されます。ファイル内でコマンドを実行する例や、配列を使った操作、非同期処理の制御が簡単にできる点が魅力です。色付けやファイル検索、システム操作、待機、データフォーマットの変換など、初めから多くの機能が利用できます。
→ 2024-04-06 “Release 8.0.0 · google/zx” https://github.com/google/zx/releases/tag/8.0.0
———————————
【ニュース】中国はAIと偽アカウントで米国の選挙に影響を試みている
中国は偽のソーシャルメディアアカウントを活用して、米国民がどのような問題について意見が分かれているかを調査しています。これは、選挙に影響を与える可能性があるため、特に注目されています。さらに、AIを駆使したコンテンツを通じて、米国内外での分断を促進し、中国の地政学的な利益を推し進める活動を強化しています。北朝鮮は、自国の軍事目的や情報収集のための資金を得るために、暗号通貨の盗難やサプライチェーン攻撃などのサイバー犯罪を行っています。最近では、これらのサイバー作戦の効率性と効果性を高めるためにAI技術の利用を始めたことが報告されています。
———————————
【新しいLLM】「JetMoE-8B」は$0.1M未満でLLaMA2-7Bを超える性能を示す低コストLLM
新しいLLM「JetMoE-8B」は訓練コストが非常に低く($0.1M未満)、高額な訓練リソースを持つMeta AIのLLaMA2-7Bモデルよりも優れた性能を示しました。訓練には公開されているデータセットのみを使用し、そのコードはオープンソース化されています。このモデルは、一般的な消費者向けのGPUでもファインチューニングが可能であり、多くの研究所でも利用できます。推論時に活用するパラメータは2.2Bに過ぎず、計算コストを大幅に削減しています。JetMoEの構造は、スパース(疎)活性化アーキテクチャにインスパイアされており、24のブロックから成り立っています。スパース(疎)活性化アーキテクチャとは、モデルの全てのパーツが常に動作するわけではなく、必要に応じて特定の部分だけが活性化(動作)する設計のことです。これにより、計算資源を効率的に使用し、大規模なモデルでも計算コストを抑えることが可能になります。各ブロックは、注意力の混合(MoA)とMLPエキスパートの混合(MoE)の2つのMoEレイヤーを含んでいます。注意力の混合(MoA)とは、異なる専門家(部品)が特定の情報に注意を払う仕組みを意味します。これにより、モデルは重要な情報に焦点を当てて処理することができます。MLPエキスパートの混合(MoE)では、複数の専門家がそれぞれ異なるデータ処理を行います。MLP(Multi-Layer Perceptron、多層パーセプトロン)は、単純な形式のニューラルネットワークを指し、データの特徴を抽出するのに使われます。
———————————
【LLM新技術】Generate then RetrieveはLLMを用いて関連情報を正確に検索する方法を提案
会話型情報検索(CIS)は、ユーザーが会話を通じて情報を求める際に、そのニーズを正確に把握し関連する情報を提供するシステムの開発を目指しています。一般的には、ユーザーの質問を1つのクエリに書き換えて情報検索を行いますが、この方法では情報ニーズを完全に捉えきれない場合があります。大規模言語モデルを利用して、ユーザーの情報ニーズに基づき複数のクエリを生成する新しい方法を3つ提案します。これにより、より関連性の高い情報を検索することが可能になります。この方法を様々なLLMsを用いて評価し、特にGPT-4やLlama-2 chatを活用した実験を行いました。TREC iKATに基づく新しい評価基準を導入し、gpt 3.5を使用した判定方法を提案しました。提案したモデルはTREC iKATデータセットにおいて有効であることが示され、情報検索の精度を向上させることができました。
———————————
【人間とAIの未来】イスラエルの「Lavender AI」がガザにおいて約10%のケースで誤って人を爆撃対象と特定
イスラエル軍は、「Lavender」という人工知能(AI)システムを利用して、ガザ地区の数万人の住民を暗殺対象として特定しています。このシステムは人間の介入が限られており、被害者に対する許容度が高いポリシーを持っています。「Lavender」は、ハマスやパレスチナ・イスラミック・ジハード(PIJ)の軍事部門に属すると疑われる人々を、低階級のものも含めて、爆撃の潜在的な対象としてマークすることを目的としています。戦争の初期にはこのシステムが中心的な役割を果たしました。約37,000人のパレスチナ人が戦闘員として疑われ、彼らの家が空爆の可能性のある対象としてマークされました。システムによる選択の理由や、それに基づく生データのチェックなしに、「Lavender」の殺害リストが広範囲に承認されました。このシステムは、約10%のケースで誤って人を特定し、そのうちのいくつかは戦闘員グループとの関連が薄かったり、全く関連がない人々でした。イスラエル軍は、標的となった個人が家族と一緒に自宅にいる時に、特に夜間に家族全員がいる場合に限らず、システム的に攻撃を加えました。このAIの決定によって、戦闘に関与していない多くの女性や子どもを含む数千人のパレスチナ人が、戦争の最初の数週間にイスラエルの空爆で亡くなりました。
———————————
【音楽生成AI】StabilityAIの「Stable Audio 2.0」最大3分の高品質音楽トラック生成
StabilityAIのStable Audio 2.0は、AIを使って44.1KHzのステレオで最大3分の高品質な音楽トラックを生成します。自然言語を用いて音楽のサンプルをアップロードし、それを変換することができる機能を持っています。テキストからオーディオへの変換だけでなく、オーディオからオーディオへの変換も可能で、サウンドエフェクトの生成やスタイル転送などの新機能が追加されています。Stable Audio 1.0に基づいて開発され、TIME誌から高い評価を受けています。このモデルはStable Audioのウェブサイトで無料で利用でき、今後APIを通じても利用できるようになります。オートエンコーダと拡散トランスフォーマー(DiT)を使用して大規模な音楽構造を認識し、再現する能力を持っています。AudioSparxの800,000以上のオーディオファイルとテキストメタデータを使用してトレーニングされ、Audible Magicと提携して著作権を保護するための技術を使用しています。
———————————
【新サービス】ChatGPT有料版でDALL-E画像の部分編集が可能に
OpenAIはChatGPTの有料版において、DALL-Eでは生成された画像の中から特定の領域を選択し、その部分を新しい指示に基づいて編集できるようになります。この機能はWebとAndroid/iOSアプリで利用でき、ChatGPT Plusのような有料プランを購入しているユーザーが使用できます。
———————————
【LLM新技術】Appleの研究チームがLLMで新たな参照解決技術ReALMを開発しGPT-4と比較して効率向上
参照解決とは、人間やコンピュータが「それ」「これ」などのあいまいな表現の意味をコンテキストから理解することを指します。これは、会話の中や、ユーザーの画面上に表示されるエンティティ(例えば、特定のアプリや情報)など、さまざまな場面で必要とされます。Appleの研究チームは、大規模言語モデル(LLM)を用いて、テキストのみでこの参照解決を行う新しい方法を提案しています。これにより、会話や画面上に表示されるオブジェクトへの参照など、さまざまなタイプの参照を効率的に処理できるようになります。実験結果から、提案されたモデルは、画面上の参照に対して5%以上の改善を達成しました。また、GPT-3.5およびGPT-4という既存の大規模言語モデルと比較しても、優れた性能を発揮しました。特に、提案されたモデルはGPT-4と同等の性能を持ちながら、より少ないパラメータ(モデルの「サイズ」を意味します)を使用しており、より効率的な参照解決システムの構築が可能です。
———————————
【LLM新技術】日本語の質問に対する文書関連性を再ランク付けするRerankerをリリース
Rerankerは、AIが質問文に最も関連する文書を選び出し、再ランク付けする技術です。これは、文章の意味や質問の意図をより深く理解することに特化しています。この日本語特化のRerankerは、小さなものから大きなものまで様々なサイズで提供されており、日本語の質問に対する文書の関連性を精密に評価することが可能です。評価実験では、いくつかの日本語タスクで高い性能を示しました。これは、従来公開されていなかった日本語を学習させたRerankerの効果を示しています。Rerankerの利点は、質問と文書の関連性をより詳細に理解できる点にありますが、その分、リアルタイムでの計算コストがかかるという欠点もあります。実際の検索システムでは、まず文ベクトルなどで関連する文書を絞り込み、その後Rerankerでより正確に再ランク付けすることで、全体の精度を向上させることができます。この技術により、日本語の文書検索精度が向上し、ユーザーが求める情報をより早く、より正確に見つけ出すことが可能になります。
———————————
【新サービス】エンドルフィンとSUPERNGINEが「ピュアモデルAI」発表 契約した漫画家の作品だけから学習し著作権を保護
エンドルフィン株式会社と株式会社SUPERNGINEは、漫画家自身の絵柄のみを学習させる「ピュアモデルAI」という技術を使って、マンガ制作の新しい方法を提案しました。一般的な生成AIとは違い、ピュアモデルAIは契約した漫画家の作品だけから学習することで、その漫画家独自の「個性」を守りながら、著作権を侵害することなくマンガを制作できます。このシステムは漫画家の許可がないと使用できないようになっており、漫画家は自分の作品に対する完全なコントロールを保持できます。これにより、漫画家とその作品のオリジナリティを守ることができます。例として、里中満智子先生と倉田よしみ先生の作品がこのAIを用いて制作されました。このプロジェクトでは、漫画のストーリー構成とネームは漫画家が手がけ、以降の工程はAIが担当しています。このAIサービスは、漫画制作を短時間で行う、アイデアを迅速に作品化する、単純作業を減らすなど、漫画家の負担を軽減し、効率化を図ることができます。これにより、漫画家は新しいチャレンジをしやすくなり、新たな収益の機会を得ることができます。
———————————
【LLM新技術】人間とAIアシスタント間の架空の対話をプロンプト内に大量に含めることで、LLMに有害な回答をさせることが可能になる「Many-shot jailbreaking」
「Many-shot jailbreaking」とは、大規模言語モデル(LLM)の安全ガードを回避する手法で、LLMが入力として処理できる情報の量、つまり「コンテキストウィンドウ」を利用します。この手法では、人間とAIアシスタント間の架空の対話をプロンプト内に大量に含めることで、LLMに有害な回答をさせることが可能になります。対話の数が一定数を超えると、モデルは安全対策を上回って危険な質問に回答するようになります。「In-context learning」というプロセスがこの手法の有効性に関連しています。これは、LLMがプロンプト内の情報のみを使用して学習するプロセスです。この学習方式は、正常な状況下でも、多数のプロンプトデモンストレーションによって性能が向上するという統計的なパターンに従います。研究公開の目的は、この問題に対処するための戦略を加速させ、LLM提供者や研究者間での情報共有を促進することです。大規模モデルでは、Many-shot jailbreakingがより効果的であることが確認されており、今後のモデルに対するリスクが高まる可能性があります。
———————————
【ニュース】OpenAIが東京にオフィスを開設する計画を発表 世界三番目の国際ロケーション
OpenAIは2024年4月に東京にオフィスを開設する予定で、これがアジアでの初めての拠点となります。この情報は内部の人物から得たものです。日本オフィスは、OpenAIにとってロンドンとダブリンに続く3番目の国際的なロケーションになります。ChatGPTを公開して以来、OpenAIはAI分野で大きな注目を集めており、過去には少なくとも1000億ドルの評価額で資金調達を行う交渉があったと報じられています。日本では、ソフトバンクや日本電信電話などの企業が日本語サービスの展開を急いでおり、AIの採用が広がっています。OpenAIの共同創設者でありCEOのサム・オルトマンは、昨年4月に岸田文雄首相と会談した後、日本オフィスの開設を見据え、日本語サービスの拡充や政府とのリスク軽減および規制実施に向けた協力を計画していると述べました。
———————————
【LLMツール】大規模言語モデルを効率的に配布・実行できる「llamafile v0.7」CPUとGPUでの速度とセキュリティを向上
llamafile v0.7は、大規模言語モデルを一つのファイルで配布・実行するツールです。このバージョンでは、CPUとGPUでの計算の速度と正確さが向上し、セキュリティが強化されました。tinyBLASは、数値計算の一つであるKahan合計を使い、よりcuBLASと一致する結果を出すようになりました。特にWindowsユーザーにとって有益です。CPU上でのプロンプト評価が非常に高速になり、例えばRaspberry Pi 5でのf16重みは以前の8倍の速度で動作します。bf16データ型のサポートが新たにCPU用に追加されました。bf16はGoogle Brainが提案した浮動小数点数フォーマットです。
———————————
【ニュース】経済産業省がラピダスに5900億円の支援を決定し次世代半導体の研究開発を加速
経済産業省が、ラピダスという企業が進める次世代半導体の製造に向けて、5,900億円の追加資金を提供することを決めました。この支援金は、半導体の基本的な製造プロセスに5,365億円、さらに新しい技術の開発に535億円が割り当てられます。ラピダスは、アメリカとの協力のもと、2ナノメートルという非常に小さい半導体を製造するための研究や技術開発を北海道で進めており、2025年の春には試験的な生産ラインを動かす予定です。また、新しく始まるプロジェクトでは、これらの小さな半導体を効率的に組み合わせる技術や、消費電力を抑える技術の開発が進められます。この研究は、千歳市の工業団地にある施設で行われる予定です。
2024/3/25~2024/3/31のTech Newsまとめ
【ニュース】xz-utilsにバックドア発見 遠隔地からのSSH接続でトリガー
2024年3月29日に、xz-utils(開発者が無損失圧縮を行うためのソフトウェアスイート)にバックドアが見つかりました。このパッケージは、リリース用のtarballやソフトウェアパッケージ、カーネルイメージ、initramfsイメージの圧縮に広く使用されています。このバックドアは特定の条件が満たされた時のみ動作し、まだ他の条件も存在する可能性があります。遠隔地からの非特権システムが公開SSHポートに接続した場合にトリガーされることがわかっています。システムが脆弱であるためには、glibcを使用しているディストリビューションであること、xzまたはliblzmaのバージョンが5.6.0または5.6.1であることが必要です。systemdとパッチが適用されたopensshを使用している組み合わせが脆弱であることがわかっていますが、他の設定についてはまだ分析中です。公開されているsshdを実行している場合、おそらく脆弱です。そうでなければ今のところは不明ですが、可能な限り早くアップデートすることが推奨されます。glibcとxz-5.6.0またはxz-5.6.1を使用している.debまたは.rpmベースのディストリビューションを使用している場合、公開アクセス可能なsshを使用している場合は「今すぐにアップデートする」ことが推奨されます。
———————————
【AIの活用】Googleの生成AIモデル「SEEDS」が天気予報の不確実性を定量化 極端な天気イベントの低コスト予測を可能に
Googleが、天気予報が正確さとタイムリーな提供を実現できるように研究投資を行っています。SEEDSという新しい生成AIモデルは、物理ベースのモデルに依存せずに、大量のアンサンブル予報を効率的に生成することができます。これにより、低コストで極端な天気イベントを予測することが可能になります。このモデルは、従来の方法と比較して同等かそれ以上の精度を持ち、特に極端な天気イベントの予測において高い性能を発揮します。SEEDSはGoogle Cloudのリソースを活用して高速に大量のアンサンブルメンバーを生成でき、スケールアップも容易です。このアプローチは、数個の物理ベースの予報を使用して、追加の予報をより効率的に生成する新しい予報システムを提案しており、これにより計算資源を節約し、予報の解像度を高めるか、頻度を上げることができます。
———————————
【新サービス】OpenAIの「Voice Engine」 テキストと音声サンプルから元の話者に似た自然な音声を生成
OpenAIは「Voice Engine」というモデルを紹介しました。これは、テキストと15秒の音声サンプルから元の話者に似た自然な音声を生成することができます。Voice Engineは2022年末に開発され、テキスト音声APIのプリセット音声、ChatGPT Voice、Read Aloudの基盤として使用されています。合成音声の悪用のリスクを考慮して、公開には慎重な姿勢を取っています。合成音声の責任ある使用について社会との対話を進め、広範なリリースについての判断を下す予定です。Voice Engineは教育支援、コンテンツの翻訳、遠隔地でのサービス提供の改善、非発声者への支援、話し言葉の障害を持つ人々の回復支援など、様々な用途での利用が検討されています。合成音声の安全な開発には、選挙年における特別なリスクへの注意、使用ポリシーの遵守、声の認証や不正使用の防止などが重要です。
———————————
【LLM新技術】FIT-RAGはLLMを改変せずに事実情報利用とトークン削減を実現し回答正確性と効率を向上
大規模言語モデル(LLM)のファインチューニングは、膨大なパラメータ数のため多くのケースで現実的ではありません。これに対処する一つの方法は、LLMを変更せずに(ブラックボックスとして)、検索強化生成(RAG)システムを組み合わせることです。ブラックボックスRAGは知識集約タスクで成功を収めていますが、従来の方法では2つの問題があります:(1) リトリバー(検索機能)が重要な事実情報を見落とすこと、(2) 不必要な文書情報を結合することでトークンの無駄遣いをすること。これらの問題に対処するため、FIT-RAGでは文書からの事実情報の利用と、トークン数の削減に焦点を当てた新しいフレームワークを提案しています。FIT-RAGは、事実情報を利用するために「二ラベル文書スコアラー」を導入し、さらに「自己知識認識器」と「サブドキュメントレベルのトークン削減器」を用いて、不要なトークンを削除します。結果として、FIT-RAGはTriviaQA、NQ、PopQAの3つのオープンドメイン質問応答データセットで、回答の正確さを大幅に向上させるとともに、平均でトークン使用量を約半分に削減することができました。
———————————
【ニュース】AmazonはAnthropicに27.5億ドルの追加投資 AWSでClaude AIを提供しAIモデル開発を効率化
Amazonは、人工知能分野の企業Anthropicに合計40億ドルを投資しており、このパートナーシップを通じて、Anthropicの最先端AIモデル「Claude」をAmazonのクラウドサービスAWSを介して利用可能にしています。Anthropicは、AWSの専用チップTrainiumとInferentiaを使用して、AIモデルの開発や訓練、適用(デプロイメント)を行います。これにより、効率的かつ高速に大規模なAIモデルを構築し、広範囲にわたる顧客に提供することが可能になります。特に、Claude 3モデルは、論理的思考や数学、コーディングの分野で優れた性能を発揮し、現在利用可能な他のAIモデル、例えばOpenAIのGPT-4を上回る能力を持っています。AWS、Anthropic、Accentureは共同で、健康医療、公共セクター、銀行、保険などの厳しく規制された産業で、企業がジェネラティブAIを責任を持って導入し、応用を広げるための支援を行います。AmazonとAnthropicの戦略的コラボレーションの一環として、追加の27.5億ドルを投資し、合計40億ドルの投資を完了しました。
———————————
【新しいLLM】日本Microsoftの支援を受けたPKSHA, RetNetを使用した新LLM 学習と推論の速度を3倍に
PKSHA Technologyとは、人とソフトウェアの共進化を目指す企業で、今回日本マイクロソフトの支援を受けて新しいタイプの言語モデルを開発しました。このモデルはRetNet(Retentive Network)と呼ばれる新技術を用いており、これは従来のTransformerモデルの後継技術として期待されています。特に、学習と推論の速度が速く、少ないメモリで効率的に動作する点が特徴です。LLM(Large Language Model)とは、大量のテキストデータから言語のパターンを学習し、文章の生成や理解を行うAIモデルのことです。PKSHAが開発したモデルは、従来のものよりも約3倍の速度で回答を生成でき、コンタクトセンターや社内ヘルプデスクなどの即時性が求められる場面での活用が期待されています。DeepSpeedはMicrosoftによって開発された深層学習フレームワークで、このプロジェクトで利用されています。DeepSpeedは、高い並列分散処理能力を持ち、大規模なAIモデルの学習を効率的に行えます。
———————————
【新しいLLM】DatabricksのMoEモデルに基づいたオープンソースLLM「DBRX」
Databricksは、企業が独自のデータを活用してAIシステムを構築できるよう支援することを目的としています。この目的の下、DatabricksのMosaic Researchチームによって開発されたDBRXは、特に言語理解、プログラミング、数学、論理の分野で優れた性能を持ち、既存のオープンソースモデルやGPT-3.5と比べても高い性能を示しています。これは、オープンソースモデルの質が向上している現在のトレンドに寄与しています。DBRXはMixture-of-Experts(MoE)モデルであり、MegaBlocksの研究とオープンソースプロジェクトに基づいて構築されています。MoEモデルは、より大きなモデルをトレーニングし、高速なスループットで提供することを可能にします。DBRXは、132億パラメータの中から任意の時点で36億パラメータを使用し、速度と性能の両方を実現しています。Databricksプラットフォームでは、企業はDBRXを使用し、独自データに基づくカスタマイズモデルを構築できます。これにより、企業はオープンソースLLMを自社の知的財産として活用し、業界内での競争力を高めることができます。
———————————
【AIの活用】MITチームが気候モデル予測の精度向上に機械学習と動的システム理論を活用
MITのチームは、機械学習と動的システム理論を利用して、気候モデルの予測を修正する新しい方法を開発しました。これにより、将来の極端な天候の頻度をより正確に予測できるようになります。この方法では、大規模な気候モデルのシミュレーションを実際の状況により近づけるために「調整」します。これは、過去の気温や湿度などのデータを学習して、気象特性間の基本的な動的関連を理解する機械学習のアルゴリズムに基づいています。研究チームは、米国エネルギー省が運用するEnergy Exascale Earth System Model(E3SM)という気候モデルを使って、この新しいアプローチのテストを行いました。その結果、修正されたモデルは過去36年間の実際の気候パターンとより一致する結果を生成しました。
———————————
【LLM新技術】特定分野に特化した質問に対する精度を向上させる新しいLLM訓練手法「RAFT」
現在、大量のテキストデータを使って学習させた大規模言語モデル(LLM)を使うことが一般的ですが、これらのモデルに最新の知識や特定の分野の知識をどう組み込むかは、解決されていない課題です。この研究では、「Retrieval Augmented FineTuning (RAFT)」と呼ばれる新しい訓練方法を提案しており、この方法を使うことでモデルが特定の分野の質問に「オープンブック」形式でより正確に答えられるようになります。RAFTは、質問に関連するドキュメントの中から質問に答えるのに役立つ情報のみを選んで利用し、質問に関係ない情報を持つドキュメントを無視するようにモデルを訓練します。この手法により、モデルは質問に対する答えを導くためのロジックをよりうまく組み立てることができ、推論能力が向上します。RAFTを用いることで、PubMed、HotpotQA、Gorillaといった特定のドメインのデータセットにおいて、モデルのパフォーマンスが一貫して向上しました。RAFTの訓練手法のコードとデモは、公開されており、自由にアクセスして使用することが可能です。
———————————
【ニュース】EUが「量子パクト」に署名 量子技術で競争力を高めヨーロッパを世界の「量子の谷」にする野心を示しました
EUのリーダーたちは、「量子パクト」という重要な協定に署名することで、量子技術に関する野心を表明しました。この協定は、EUが科学と産業の競争力において量子技術の重要性を認識し、ヨーロッパを世界の「量子の谷」にすることを目指します。「ヨーロッパの量子未来を形成する」という会議では、加盟国の代表や特別ゲストがこの宣言を公式に祝いました。EUの内部市場担当コミッショナーであるティエリー・ブルトン氏は、このパクトの署名を、ヨーロッパの量子技術の未来を形成する上での歴史的な一歩であると賞賛しました。この協定は、ヨーロッパの20の国々の代表によって署名され、ヨーロッパ全体で量子技術のコラボレーションとイノベーションを推進することを目的としています。会議では、ベルギー量子サークルという新しいイニシアチブが発表され、ベルギー内およびヨーロッパ全体での量子技術に関するコラボレーションとイノベーションをさらに促進することを目指しています。
———————————
【AIエージェント】新しいOSSプロジェクト「Devika」が登場 「Devin」を超える全自動AIエンジニアを目指す
「Devika」とは、GitHubで公開されているプログラミングを自動で行うためのシステムです。このシステムは、プログラミング作業を効率的に行うAI「Devin」を基に開発されました。「Devin」は、プログラムのコードを自動で生成したり、プログラムの誤り(バグ)を見つけ出したりする能力を持っています。また、「Devin」はプログラミングにおける問題を自身で解決することができ、ウェブサイトの開発や公開(デプロイ)も可能です。性能はSWE-benchというテストで他の類似モデルよりも優れていることが確認されています。「Devika」の構造は、ユーザーインターフェース、中核となるエージェント、言語モデル、計画・推論エンジンなど、様々な部分から成り立っており、これらが連携して高度なプログラミングを可能にします。このプロジェクトは、外部からの貢献を歓迎しており、コラボレーションや議論を行うためのDiscordサーバーが用意されています。
———————————
【ニュース】Intel, Google, 富士通, ArmなどがNVIDIAのAI開発環境CUDAに対抗するためUnified Acceleration Foundationを設立
NVIDIAがAI開発の分野で使用されるGPUと開発環境CUDAで大きなシェアを獲得していることに対抗するため、IntelやGoogle、富士通、Armをはじめとするテクノロジー企業が「Unified Acceleration Foundation (UXL Foundation)」を設立しました。この団体は、よりオープンで多様なハードウェアに対応可能なソフトウェア開発環境を構築することを目指しており、Intelが開発をリードする「oneAPI」を基にしています。CUDAはNVIDIAのGPUに特化しているため、開発者はNVIDIAのGPUを選択せざるを得ない状況がありました。しかし、UXL Foundationが目指すoneAPIは、異なる種類のプロセッサ(CPUやGPUなど)に対応し、オープンソースで開発されています。2024年上半期には、この新しい開発環境の仕様が確定する予定であり、多くの企業からの技術的な貢献を受けています。これにより、開発者がNVIDIA以外の選択肢を持てるようになることを目指しています。
———————————
【LLM新技術】Microsoftの研究チームがプロンプト圧縮の新手法「LLMLingua-2」を開発
Microsoftの研究チームはプロンプトをどのように短く(圧縮して)するかに焦点を当てています。目的は、AIが様々なタスクに一般化して対応できるようにしながら、処理速度を向上させることです。従来のプロンプト圧縮手法では、言語モデルが生成する情報のエントロピーを基にしてプロンプトを短くしていました。しかし、この方法では一方向の文脈しか考慮しておらず、プロンプト圧縮に必要な全ての情報を捉えられないこと、また圧縮の目標とエントロピーが必ずしも一致しないため、最適な圧縮が行えない可能性がありました。研究チームは、大規模言語モデルから情報を抽出する「データ蒸留」という方法を用いて、必要な情報を失わずにプロンプトを圧縮する新しい手法を提案しました。また、プロンプト圧縮をトークンの分類問題として扱い、トランスフォーマーエンコーダを用いて双方向の文脈から必要な情報を抽出します。この方法では、XLM-RoBERTa-largeやmBERTといった比較的小さなモデルを使用して、圧縮の目標を直接学習することで、処理速度の向上を実現します。この手法をいくつかのデータセットで評価したところ、従来の方法と比較して優れた性能を示し、異なる大規模言語モデルに対しても堅牢に機能することが示されました。また、この手法は既存のプロンプト圧縮方法に比べて3倍から6倍速く、エンドツーエンドの処理遅延を1.6倍から2.9倍加速し、圧縮比は2倍から5倍に達しました。
———————————
【AIと法律・規制】テネシー州知事がAIにおける声の不正使用防止のELVIS法案に署名
米国のテネシー州知事がAIによる音楽業界の不正使用から保護する新法「ELVIS法案」に署名しました。この法律は、AIが生成する声の不正使用からソングライターやパフォーマーを保護します。テネシー州の音楽産業は、多くの雇用を生み出し、経済に大きく貢献しています。以前の法律は、人間の声や画像を無許可で使用するAI技術を具体的にはカバーしていませんでした。新法「ELVIS法案」により、音楽産業の専門家の「声」も保護されることになりました。
———————————
【AIの活用】MIT開発の家庭用ロボットがLLMで常識を学習、複雑なタスクに対応
MITのエンジニアリングチームが開発した新しい方法により、家庭用ロボットは、例えば床の拭き掃除や食事の提供など、より複雑な家事タスクをこなすことができるようになりました。これらのロボットは、人間の動作を模倣することで学習しています。しかし、ロボットがトレーニングされたパスから外れた状況に直面した場合に、常識を持って対処するようにするために、MITのエンジニアはロボットの動作データと大規模言語モデル(LLM)の「常識知識」を接続する方法を開発しました。このアプローチでは、ロボットが家庭のタスクをサブタスクに論理的に分割し、サブタスク内での障害に物理的に適応して、タスクを最初からやり直すことなく進めることが可能になります。これにより、エンジニアが途中で発生する可能性のある全ての失敗に対して修正をプログラムする必要がなくなります。この方法により、ロボットは、赤いビー玉を別のボウルに移すというタスクを実施中に研究者によって頻繁に中断されたにも関わらず、最終的に成功することができました。
2024/3/18~2024/3/24のTech Newsまとめ
【ニュース】AppleがiPhoneのAI機能向上のためGoogleのLLM「Gemini」の使用を交渉中
Appleは、GoogleのGeminiというLLMをiPhoneに組み込むために交渉しています。この取り決めが進むと、iPhoneのソフトウェアに新しい機能が加わる予定です。Appleは同様にOpenAIとも提携の可能性について話し合いを持ち、その技術の使用を検討していました。AppleとGoogleが合意に至れば、これまでに行われた両社間の検索サービスに関するパートナーシップを拡大する形となります。しかし、Appleは自社のAIモデルを基にしたiOS 18の新機能も開発中です。これらの機能は、クラウド経由ではなく、デバイス上で直接動作することに焦点を当てています。Apple自身も、Ajaxという名前の大規模言語モデルや、Apple GPTと呼ばれる基本的なチャットボットを開発しテストしていますが、これらはGoogleや他の競合他社の技術と比較して劣っているとされています。
——————————–
【新サービス】PyTorchモデルの量子化を簡素化するツールキット「Quanto」
QuantoはPyTorch用の量子化ツールキットで、深層学習モデルの計算量とメモリ使用量を削減するために開発されました。このツールキットは、モデルの重みと活性化関数を、通常の32ビット浮動小数点数ではなく、8ビット整数のような低精度のデータ型で表現することにより、メモリの使用量を減らします。Quantoは多機能で、Eagerモードのサポート、任意のデバイスへの配置、自動的な量子化/逆量子化の挿入、機能操作やモジュールの自動量子化などを提供します。さまざまな量子化(重みにはint2、int4、int8、活性化にはint8、float8を含む)をサポートしており、大規模言語モデル以外にも幅広いモデルに適用可能です。量子化の過程では、モデルを動的に量子化した後に、必要に応じてキャリブレーションや量子化認識トレーニングを行い、重みを固定する手順が含まれます。QuantoはHugging FaceのTransformersライブラリと統合されており、QuantoConfigを使用することで任意のモデルを簡単に量子化できます。
——————————–
【新サービス】Microsoft Copilot GPT BuilderでカスタムAIを設計可能に
Microsoft Copilot Proに新機能「Copilot GPT Builder」が追加され、この機能によりユーザーは自分専用のAIを設計できるようになりました。このカスタムAI、つまりCopilot GPTを利用すると、特定の知識を活用したり、定型作業を自動化したりすることが可能です。たとえば、食事の計画から買い物リストを自動生成するような使い方ができます。Copilot GPTの作成や管理は、Copilot Proサブスクリプションを持つユーザーに限られ、他の人と共有することもできますが、編集は作成者だけに制限されます。このツールへのアクセス方法はウェブサイト上で簡単に説明されており、初心者でも直感的に操作できる設計になっています。Copilot GPTはパソコンだけでなく、モバイルデバイスでも利用可能ですが、そのためにはCopilot Proサブスクリプションは必須ではありません。
——————————–
【新しいLLM】Appleの新マルチモーダルLLM「MM1」が多様なデータから学習
MM1は、Appleが発表した大規模なマルチモーダル言語モデル(MLLM)です。事前学習では、画像-キャプションデータ、交互に提供される画像とテキストのデータ、テキストのみのデータの混合を用いています。この混合は、異なるタイプのデータから学習することで、モデルの柔軟性と汎用性を高めます。通常の密集したモデル(dense models)と、専門家の混合(Mixture of Experts, 略してMoE)と呼ばれる特別なタイプのモデルが含まれています。MoEモデルは、いくつかの「専門家」と呼ばれる部分から成り、それぞれが異なるタスクに特化しています。モデルが新しいデータを処理する際には、最も適切な専門家が選ばれてタスクを実行します。この方法により、モデルは効率的に、かつ高い精度で様々な問題を解決することができます。また、画像エンコーダー、画像解像度、画像トークンの数がモデル性能に大きな影響を与えることが明らかにされました。視覚言語コネクターの設計は、比較的影響が少ないとされています。大規模事前学習により、MM1は文脈内学習や多画像推論など、複数の高度な能力を持ちます。
——————————–
【LLM新技術】API経由のLLM使用で非公開情報が漏洩するリスクを発見
商用大規模言語モデルは、独自モデルに対してAPIのみのアクセスを提供することで保護されています。研究では、APIを通じて少数のクエリ(例えばOpenAIのgpt-3.5-turboで$1,000未満)だけで、LLMについて多くの非公開情報を学ぶことが可能であることが示されています。現代のLLMsが抱えるsoftmaxボトルネックという問題を中心に、モデルの出力が限定される現象があります。この特性を利用することで、低コストでLLMの隠れ層のサイズの発見、全語彙出力の取得、モデル更新の検出と区別、単一の出力からのLLMの特定、出力層のパラメータ推定が可能になります。
実証的な調査により、これらの方法が有効であることが示され、例えばOpenAIのgpt-3.5-turboの埋め込みサイズを約4,096と推定できます。LLMプロバイダがこれらの攻撃から保護する方法と、これらの機能が透明性と説明責任の向上に寄与する可能性についても議論されています。
——————————–
【国内ニュース】KDDIがAIベンチャーELYZAを子会社化し、生成AIサービス展開へ
ELYZAはKDDIグループと提携し、KDDIの支援のもとでAI技術の社会実装を加速します。具体的には、KDDIがELYZAの株式の大部分を保有し、ELYZAを子会社にします。ELYZAは、東京大学の松尾研究室から生まれた企業で、日本で高性能な人工知能言語モデルを開発しています。このモデルは、700億パラメータを持ち、世界的なモデルと競合する性能を持っています。この提携を通じて、AIの技術開発とその社会への応用をさらに進めることが目的です。具体的には、日本語に特化した汎用的な言語モデルの開発、特定の業界や問題に特化したモデルの開発、そしてこれらの技術を活用した新しいサービスやソリューションの提供が予定されています。例えば、顧客サービスセンター向けに特化した言語モデルの開発など、特定の領域に焦点を当てたプロジェクトが進められます。
——————————–
【AIと法律・規制】YouTubeがAI生成リアル動画に透明性確保のためラベル付け義務化を開始
YouTubeは、AI技術を用いて作られたリアルな動画コンテンツに、それがAIによって生成されたものであることを示すラベルの付与を必須としました。この措置は、視聴者に対してより高い透明性を提供し、AIの使用が明確になるようにするためです。具体的には、実在する人物の顔や声をAIで作成した場合、実際には起こっていない出来事をリアルに描写した場合、リアルに見える架空のシーンを生成した場合などにラベルが必要です。ただし、動画の脚本やキャプションをAIで生成した場合や、明らかにファンタジーな内容の場合は、このルールの適用外となります。YouTubeは、この新ルールに従わないクリエイターに対しては、将来的にコンテンツ削除やYouTubeパートナープログラムからの除外などのペナルティを科すことも考えています。
——————————–
【DL技術】MITの「FeatUp」技術は深層学習による画像・動画解析の解像度向上に寄与
「FeatUp」は、MITの研究チームによって開発された新しい技術で、深層学習モデルが画像や動画から「見る」際の解像度を劇的に向上させることができます。これにより、オブジェクトの認識やシーンの解析がより正確になります。一般に、深層学習アルゴリズムは画像を小さな正方形に分割して処理しますが、このプロセスで画像の細かいディテールが失われがちです。FeatUpは、この情報の損失を防ぎ、深層ネットワークの解像度を高めることができます。FeatUpの重要なアプローチは、画像を微妙に変化させ(例えば、少し左右に動かすなど)して、その小さな変化に対するアルゴリズムの反応を観察し、それに基づいて高解像度の特徴マップを生成することです。このアルゴリズムは、オブジェクト検出やセマンティックセグメンテーション(画像内のピクセルにオブジェクトのラベルを割り当てる)、深度推定など、多岐にわたるコンピュータビジョンタスクの性能を向上させることができます。これは、自動運転車から医療画像診断まで、幅広い応用が期待されます。
——————————–
【動画生成AI】Googleの「VLOGGER」音声・テキストからリアルな話者ビデオを生成
VLOGGERは、音声とテキストを用いて、単一の画像から話している人物のビデオを生成する技術です。この手法は、確率的拡散モデルを用いた2段階のプロセスで構成され、音声からビデオへの多対多のマッピングをモデリングします。最初のネットワークは、音声波形から中間の身体モーション制御を生成し、次のネットワークはこれらの身体制御を使って対応するフレームを生成します。VLOGGERによって生成されたモデルは、オリジナルの主題の多様な分布のビデオを生成します。背景は固定されているにもかかわらず、全てのビデオがリアルに見えます。主な応用例としては、既存のビデオの編集や、新しい音声に合わせた顔や唇のエリアの編集などがあります。これは、ビデオ翻訳の場面で特に有効です。
——————————–
【AIの活用】TacticAI: コーナーキック向けAIでプレイ改善提案、幾何学的DL活用
TacticAIはGoogle DeepmindとリバプールFCとの共同研究から生まれた、コーナーキック専門のAIシステムです。システムは予測型と生成型のAIモデルを使って、過去のプレイを分析し、将来のプレイを改善するための提案を行います。プレイヤー間の相互作用をグラフとして表現し、幾何学的ディープラーニングを用いることで、限られたデータからも一般化可能な予測を行うことができます。コーチはTacticAIを利用して、戦術を試行し、特定の目的(例えばショット確率の減少)を達成するためにプレイヤーの配置を調整できます。専門家による評価では、実際の戦術に比べてTacticAIの提案が90%の場合で評価されました。
——————————–
【ニュース】ムスタファ・スレイマン氏Microsoft AIでCopilot等を推進
AI技術会社DeepMindとInflectionの創業者であるムスタファ・スレイマンとカレン・シモニャンがマイクロソフトに参加しました。新しい「Microsoft AI」という組織が作られ、Copilotや他の消費者向けAI製品と研究の推進を担当します。ムスタファはMicrosoft AIの最高執行責任者(EVP)兼最高経営責任者(CEO)として、カレンは最高科学責任者としてそれぞれの役割を果たします。Inflectionからもいくつかのメンバーがマイクロソフトへの参加を選びました。マイクロソフトは、AI分野でのOpenAIとの戦略的なパートナーシップを継続し、その上にイノベーションを構築します。組織変更により、Copilot、Bing、Edgeを含む複数のチームがムスタファに報告する形になります。ケビン・スコットは引き続き全社のAI戦略を統括する技術責任者(CTO)およびAIの最高執行責任者として活動します。ラジェシュ・ジャはExperiences & Devicesの最高執行責任者として、Microsoft 365用Copilotの開発を進めます。
——————————–
【LLM新技術】SakanaAI、進化的アルゴリズムによる基盤モデル構築の取り組み
Sakana AIは、自然界の進化や集合知に着想を得て、コンピュータ上でモデルを進化させる手法で基盤モデルの開発を進めています。「進化的モデルマージ」とは、多様な機能を持つ様々なオープンソースモデルを組み合わせ(マージして)、新しいモデルを作り出す方法です。進化的アルゴリズムを使って、これらの組み合わせ方を探索し、最適な方法を見つけ出します。進化的アルゴリズムは、生物の進化を模倣したアルゴリズムで、多くの可能性の中から最適なものを選び出すことができます。このアプローチにより、人間では思いつかないような新しいモデルの組み合わせ方を発見できるようになります。実験では、日本語で数学的推論が可能な言語モデル(EvoLLM-JP)、日本語で対話可能な画像言語モデル(EvoVLM-JP)、高速な日本語画像生成モデル(EvoSDXL-JP)を開発しました。これらのモデルは、特定の能力において従来のモデルを超える性能を示しています。進化的アルゴリズムを使うことで、従来のモデル開発方法に比べて、新しいモデルを効率的かつ自動的に生成することが可能になります。これにより、大規模な計算資源やデータを必要とせずに、新しい基盤モデルを開発できるようになります。今回の成果は進化的アプローチを使った基盤モデル開発の初歩的なステップであり、今後もこの分野の研究を進めていく予定です。
——————————–
【新しいLLM】楽天、日本語最適化LLM「Rakuten AI 7B」公開
楽天が公開した「Rakuten AI 7B」は、日本語と英語の大量のインターネットデータを使って事前学習された、70億パラメータを持つ言語モデルです。フランスのAIスタートアップMistral AI社のオープンモデル「Mistral-7B-v0.1」をベースとしています。この事前学習は、楽天の高性能GPUクラスター上で行われ、高速かつ大規模なデータセットでの学習が可能になりました。さらに、インストラクションチューニングとは、モデルに特定の指示に従うように学習させるプロセスのことで、これにより「Rakuten AI 7B Instruct」モデルが生成されました。また、チャットモデルは会話形式のデータを使ってさらにファインチューニングされ、自然な対話生成が可能になります。このモデルシリーズは高品質なデータの使用と楽天独自の技術である形態素解析器を利用し、日本語テキストの処理効率を高めています。全モデルはHugging Faceリポジトリからダウンロード可能で、文章生成、要約、質問応答などの様々なNLPタスクに使用できます。これらのモデルは商用目的でも使用でき、また、基盤モデルとして他のモデルの開発にも役立ちます。
——————————–
【LLM新技術】AIアシスタントの「トークン長サイドチャネル」攻撃研究
AIアシスタントからの通信が安全に行われているかの問題を扱っているこの研究では、「トークン長サイドチャネル」という新しい問題点を指摘しています。これは、通信が暗号化されていても、トークン(AIが生成するテキストの単位)の長さのパターンを解析することで、送信されたメッセージの内容をある程度推測できるというものです。ただし、この情報だけではメッセージの内容を完全に解読するのは困難です。そこで研究者たちは大規模言語モデル(LLM)を活用し、推測を行う新しい技術を開発しました。これには、LLMを使ってトークン長のシーケンスから実際の言葉へと翻訳する作業、コンテキスト情報を用いて可能性のある応答を絞り込む作業、そして特定のライティングスタイルへのモデルのファインチューニングを含みます。実験では、この技術を使ってAIアシスタントの応答の約3割を再構築し、半分以上の応答からは話題を正確に推測することができました。
——————————–
【データ基盤】SigLens: Elasticsearchを大幅に上回る処理速度の列指向DB
SigLensは、大量のデータを効率的に扱うために特化した列指向データベースで、特にログデータや監視データなどの分析を行う際に、その処理速度と効率性で大きな利点を提供します。SigLensとElasticsearchの間でNYC Taxi Datasetを使用した性能テストが行われ、SigLensが大幅に高速な結果を出しました。このデータセットはニューヨーク市のタクシーやUberによる10億回以上の旅行記録を含んでいます。テストは、同じハードウェア設定、同じデータセット、同じクエリセットを使用して実施されました。4つの異なるクエリがテストに使用され、データのインジェストとクエリの処理に関する詳細なステップが提供されています。Elasticsearchは分散型検索エンジンであり、SigLensは観測データのためにゼロから構築された列指向データベースです。SigLensは列毎の動的圧縮や列毎の微細インデックスを使用しており、AgileAggregationTreeアルゴリズムを採用して高速な集約クエリを実現しています。テストの結果、SigLensはすべてのクエリタイプでElasticsearchよりも大幅に高速であることが示されました。これにより、複雑なデータセットに対するフィルタや集約クエリを高速に実行することが可能になります。
——————————–
【生成AI技術】xT: 大画像を階層的に分割し詳細を統合する新フレームワーク
コンピュータビジョンの分野において、大きな画像を扱う際に直面する問題を解決するための新しいフレームワーク「xT」が紹介されました。xTは、大きな画像を小さな部分に階層的に分割し、各部分を個別に理解した上で、それらを大きな画像として統合するアプローチを採用しています。このプロセスは「ネステッドトークン化」と呼ばれ、画像をトークンに分割し、さらにサブリージョンに分割して詳細を把握します。xTはリージョンエンコーダーとコンテキストエンコーダーという二つのエンコーダーを使い、画像のローカルな詳細とグローバルな文脈を統合します。実験では、iNaturalist 2018での細かな種類分類、xView3-SARでのコンテキスト依存のセグメンテーション、MS-COCOでの検出など、様々なベンチマークタスクにおいて高い精度を達成しました。
——————————–
【LLM新技術】GaLore: 低コストハードウェアで大規模モデルを効率的にトレーニング
GaLoreは、大規模言語モデル(LLMs)を低コストのハードウェアで効率的にトレーニングすることを可能にする技術です。これにより、AI研究の範囲が広がり、より多くの研究者や実践者が先進的なAIモデルのトレーニングを行うことが可能になります。この技術の特徴は、トレーニングプロセス中のオプティマイザー状態や勾配に関連するメモリ要件を大幅に削減することにあります。具体的には、勾配の低ランク構造を利用して、保存および操作が必要なデータの次元を減少させます。GaLoreは、低次元部分空間に勾配を投影することで、オプティマイザー状態のメモリフットプリントを削減します。これにより、同じメモリ制約内でより大きなモデルをトレーニングするか、より大きなバッチサイズを使用することが可能になります。トレーニング中に異なる低ランク部分空間を動的に切り替えることで、モデルがパラメータ空間の限定された部分に閉じ込められることなく、フルパラメータ学習の能力を維持します。GaLoreを8ビット精度のオプティマイザーと組み合わせることで、メモリ効率を最大化し、トレーニングプロセスの品質を保ちながら、大規模なモデルのトレーニングが可能になります。
——————————–
【生成AI技術】DMDフレームワーク: 伝統的拡散モデルを30倍速く単一ステップで実行
MIT CSAILの研究者たちは、従来の反復的なプロセスを必要とする伝統的な拡散モデルを単一のステップに単純化する新しいフレームワークを紹介しました。このアプローチは、配布マッチング蒸留(DMD)と呼ばれ、生成された画像の品質を維持しつつ、画像生成を大幅に高速化します。この革新的な方法は、生成的敵対ネットワーク(GAN)の原理と拡散モデルの原理を組み合わせることで、現在の拡散モデルに比べて30倍の速度で視覚コンテンツの生成を可能にします。DMDフレームワークは、既存のモデルから新しいモデルに知識を移転する教師-学生モデルのタイプを利用します。これにより、より複雑なオリジナルのモデルを模倣する新しいコンピューターモデルを教育します。DMDは回帰損失と配布マッチング損失の2つのコンポーネントを利用します。回帰損失は、学習をより安定させるために画像の空間を粗く整理するためのマッピングをアンカーにするのに使われ、配布マッチング損失は、生成された画像が実際に起こる確率に対応するようにします。
——————————–
【AIと法律・規制】国連: AIの安全・信頼を促進する画期的な決議を採択
国連総会は、「安全で安心し、信頼できる」人工知能(AI)システムの促進に関する画期的な決議を採択しました。この決議は、持続可能な開発にも貢献します。決議は、AIの設計、開発、展開、使用における人権の尊重、保護、促進を強調しています。このテキストは、120以上の他の加盟国によって「共同提案」または支持されました。国連総会は、AIシステムが持続可能な開発目標(SDGs)の17に達するための進歩を加速し、可能にする潜在能力を認識しています。すべての加盟国と関係者に対し、国際人権法に準拠して運用することが不可能であるか、人権の享受に不当なリスクをもたらすAIシステムの使用を控えるか中止するよう呼びかけています。また、国連総会は、AIの安全で安心し、信頼できる使用に関連する規制およびガバナンスアプローチとフレームワークを開発し、支援するよう全ての国、民間部門、市民社会、研究機関、メディアに促しています。
——————————–
【LLM新技術】GoogleなどはAPIを介して、ブラックボックスLLMの隠れ次元数を特定する脆弱性を発見しました
ブラックボックス状態の本番環境言語モデルから、具体的で重要な情報を抽出するための最初の攻撃方法を紹介しています。これは、OpenAIのChatGPTやGoogleのPaLM-2のようなモデルを対象としています。この攻撃は、APIアクセスを通じてトランスフォーマーモデルの埋め込み投影層を抽出することができます。これはモデルの一部で、データの次元削減や特徴抽出に関連しています。この方法で、20米ドル未満のコストでOpenAIのAdaとBabbageの全投影行列を取得し、これらのモデルがそれぞれ1024と2048の隠れ次元を持つことを初めて明らかにしました。また、gpt-3.5-turboモデルの隠れ次元サイズを正確に特定し、全投影行列を抽出するコストは2,000米ドル未満であると推測しています。
——————————–
【新サービス】Google Scholar PDF Readerで論文PDFの可読性向上
Google Scholarによる新しいPDFリーダーが発表されました。これは研究論文を読む際の使いやすさを大幅に向上させるツールです。テキスト内の引用がクリック可能なリンクに変わり、引用された記事の概要をすぐに見ることができるようになります。自動生成された目次を通して、目的のセクションへ簡単にナビゲートでき、図表へのリンクも同様に直接ジャンプできます。引用をコピーしたり、後で引用するために参考文献管理ツールに保存したりする機能があります。読んでいる論文に関連する記事や引用記事を検索する機能も付加されています。目に優しいディスプレイテーマを選択することが可能で、これはChromeブラウザの拡張機能として提供されています。
2024/3/11~2024/3/17のTech Newsまとめ
【新しいLLM】東大発ベンチャーELYZA 日本語LLM「ELYZA-japanese-Llama-2-70b」国内モデルとしては最高性能を達成
株式会社ELYZAは、700億パラメータの日本語大規模言語モデル「ELYZA-japanese-Llama-2-70b」を開発し、国内モデルとしては最高性能を達成しました。このモデルはグローバルモデルと比較しても同等の性能を有しています。ELYZAはこのモデルをはじめとする日本語大規模言語モデル群を「ELYZA LLM for JP」シリーズとして提供開始し、安全なAPIサービスや共同開発プロジェクトなど様々な形態で提供を予定しています。提供開始を記念して、チャット形式のデモサイトが公開されており、このモデルの性能を実際に体験することができます。「ELYZA-japanese-Llama-2-70b」はELYZA独自の事後学習により、公開されている他の日本語大規模言語モデルよりも優れた性能を発揮し、グローバルモデルとも競合する性能を達成しています。
——————————–
【新しいLLM】UC Berkeley発ベンチャーCovariant、ロボット用のChatGPT「RFM-1」開発
カリフォルニア大学バークレー校発のベンチャーであるCovariantが、ロボット用のChatGPTとして「RFM-1」を開発しました。RFM-1は、ロボットの言語を解釈するためのLLMをベースにしています。このシステムは、Covariantが運用するBrain AIプラットフォームから収集された膨大なデータを利用しています。Covariantは、RFM-1を使用して、倉庫だけでなく、製造、食品加工、リサイクル、農業、サービス業、そして家庭でのロボットの利用を拡大したいと考えています。現在は主に倉庫でのタスクをこなす産業用ロボットアームにこのソフトウェアが使われていますが、将来的には様々なハードウェアで利用できるようにする計画です。このシステムは、顧客がテキストで命令を入力すると、その命令に基づいてロボットがオブジェクトを識別し、最適な行動を選択できるようにします。
——————————–
【開発技術】Webアプリケーションの応答性を測るためのブラウザベンチマーク「Speedometer 3.0」Apple、Google、Microsoft、Mozillaが共同でリリース
Speedometer 3.0は、Webアプリケーションの応答性を測るためのブラウザベンチマークで、Apple、Google、Microsoft、Mozillaが共同でリリースしました。この新しいバージョンは、ユーザー体験を幅広くカバーするテストを追加し、実際のWeb使用をより正確に反映しています。このプロジェクトは、ブラウザエンジン間の初の産業横断的協力により、新しいガバナンスモデルで開発されました。Speedometer 3.0は、ユーザーの操作をシミュレートすることで、ブラウザのパフォーマンスを評価します。新しいテストには、チャートの描画、コード編集、WYSIWYG編集、ニュースサイト閲覧など、現代のWeb使用シナリオが含まれています。また、テストランナーも改善され、ブラウザが行うペイントや非同期タスクなどの作業をより多く測定します。
——————————–
【スキルアップ】AnthropicのLLM「Claude 3」のプロンプト集、公式が公開中
——————————–
【AIと法律・規制】Apple、EUのデジタル市場法(DMA)に準拠 EU域内限定でApp Store以外からもアプリの配布が可能に
Appleは、EUのデジタル市場法(DMA)に準拠するために、iOS、Safari、およびApp Storeに関するいくつかの重要な変更を発表しました。これらの変更は、EUの27加盟国でアプリを配布する開発者に限定され、EU内のユーザーに配布されるアプリにのみ適用されます。開発者は、代替アプリマーケットプレイスや自身が所有するWebサイトからiOSアプリを配布できる新しいオプションを利用できるようになります。これにより、App Store以外からもアプリの配布が可能になり、新たなセキュリティ対策としてノタリゼーションが導入されます。ノタリゼーション(Notarization)は、アプリケーションやソフトウェアの開発者が作成したコードが安全であることを第三者(特に、アプリケーションを配布するプラットフォームやオペレーティングシステムの提供者)が確認し、証明するプロセスです。また、代替支払いサービスプロバイダ(PSP)を利用する新しいオプションが導入され、開発者はこれらの方法を通じてデジタル商品やサービスの支払いを処理できるようになります。
——————————–
【ニュース】Meta、AIの研究開発向けに2つの24k GPUクラスターを立ち上げ
MetaはAIの将来のために2つの24k GPUクラスターを立ち上げました。AIモデルのトレーニングや研究開発に必要な高性能計算資源を提供します。これらのクラスターは、Grand Teton、OpenRack、PyTorchといったオープンソース技術を使用して構築されています。Metaは、2024年末までに350,000 NVIDIA H100 GPUsを含むより大規模なインフラストラクチャーの構築を目指しています。これにより、AIモデルのさらなる発展が可能になります。また、RoCEおよびInfiniBandネットワークファブリックを使用しています。TectonicとHammerspaceによって支えられたストレージは、大量のデータを効率的に扱うことができ、AIトレーニングの効率を大幅に向上させています。
——————————–
【新しいLLM】博報堂テクノロジーズ、日本語特化マルチモーダル事前学習モデルを開発
博報堂テクノロジーズが日本語に特化した視覚と言語を組み合わせた事前学習モデルを開発し、そのモデルを無償で公開したと発表しました。このモデルは、画像検索やテキストからの画像生成、画像のタグ付け、画像に対する質問応答など、多岐にわたる応用が可能です。特に、日本語データに対する検索精度が英語モデルを上回ることが特徴です。
——————————–
【新サービス】TensorFlow 2.16のリリース Keras version3が今回から標準に、Python 3.12をサポートなど
【新サービス】NumPy 2.0.0リリース、性能向上とAPI変更でPython開発を加速
——————————–
【AIと法律・規制】欧州議会、AI Actを採択 職場や学校などでの感情認識の使用、社会的採点システムなどの規制
欧州議会は、基本的人権の遵守を確保し、イノベーションを促進する人工知能法を採択しました。
この法律では、特に以下のような人工知能アプリケーションが規制されます:
- 感情認識の使用(職場や学校での使用が含まれる)
- 社会的採点システム
- 予測型警察活動(個人のプロファイリングや特性評価に基づく場合)
- 人間の行動を操作するAIや人々の脆弱性を悪用するAI
- 敏感な特性に基づく生物学的分類システム
- インターネットやCCTV映像からの顔画像の無差別なスクレイピングによる顔認識データベースの作成
消費者は、自分たちの権利に影響を与える高リスクAIシステムに基づく決定について苦情を提出し、説明を受ける権利があります。一般目的AI(GPAI)システムは、EUの著作権法の遵守やトレーニングに使用されるコンテンツの詳細な要約の公開など、特定の透明性要件を満たす必要があります。中小企業やスタートアップが、自社の人工知能技術や製品を市場に投入する前に、それらを実際の環境で開発し、テストすることができるようにするための制度を設けます。
——————————–
【LLM新技術】Google、外部から内容が見えない製品LLMから重要な情報を引き出す「モデル盗用攻撃」提案
この研究は、OpenAIのChatGPTやGoogleのPaLM-2のような、外部から内容が見えない製品言語モデルから重要な情報を引き出す最初の試みとして、モデル盗用攻撃を紹介しています。攻撃者はAPIを通じて通常のアクセス権を利用し、トランスフォーマーモデルの埋め込み層の詳細な情報を特定できるようになります。特に、20ドル以下のコストでOpenAIのAdaとBabbageモデルの埋め込み層の完全な構造を把握し、これらのモデルがそれぞれ1024と2048の隠れ層の大きさを持つことを明らかにしました。また、gpt-3.5-turboモデルについても、完全な構造を解明するのに2,000ドル未満かかると推測しています。研究の終わりには、このような攻撃からモデルを守るための方法や、今後この攻撃方法が発展する可能性についての考察も述べられています。
——————————–
【AIエージェント】Google DeepMind、ゲームの世界でAIエージェントが任務をこなす「SIMA」
Google DeepMindが開発した、「SIMA(Scalable Instructable Multiworld Agent)」というAIエージェントは、様々なビデオゲームの世界で自然言語の指示に従って任務をこなすことが可能です。この研究は、ビデオゲームを利用して、AIシステムがどのように有益なエージェントになりうるかを探求するためのものです。8つのゲームスタジオと共同で、9つの異なるビデオゲームでSIMAを訓練及びテストしました。SIMAは、画像と言語を正確に結びつけるモデルと、次に画面上で何が起こるかを予測するビデオモデルを含む、キーボードとマウスの動作を出力する主モデルから成り立っています。ゲームのソースコードや専用のAPIにアクセスする必要がなく、画面の画像とユーザーから提供される自然言語の指示だけを入力として使用します。SIMAは、「左を向く」や「はしごを登る」といった600の基本技能を実行する能力があり、将来は「資源を探してキャンプを作る」のような高度な計画と複数のサブタスクが必要なタスクへの挑戦を目指しています。
——————————–
【ニュース】米オレゴン州が家電の自己修理を支援する法律を成立、製造業者は部品を提供へ
オレゴン州が、家庭用電子機器を自分で修理する消費者の権利を支持する法案を成立させました。この法案は、修理に必要な工具、部品、取扱説明書を製造業者が提供することを義務付けています。この法律は、特にアップルなどの大手技術企業から、デバイスのセキュリティや安全性に悪影響を及ぼす可能性があるとの批判を受けています。2027年7月1日から、この法律に違反すると最大で1日あたり1,000ドルの罰金が課されます。この規制は、2015年7月1日以降に製造された消費者向け電子機器や2021年7月1日以降に製造された携帯電話に適用されます。法案により、第三者の部品を使っても製品の性能を低下させたり、誤解を招く警告を送ることが禁止されます。これにより、修理費用を抑え、より多くの修理オプションが消費者に提供されることが期待されています。
——————————–
【ニュース】GoogleのAI「Gemini」が人物画像生成を停止、人種バイアス問題に対処
Googleは、マルチモーダルLLM「Gemini」の機能を一時的に停止しました。ユーザーは、実際には白人が多数を占めていた歴史的シーンを、多様な人種のキャラクターで描写した画像をSNSに投稿し、人種バイアスへの過剰な対応を問題視しました。Geminiが一部の歴史的描写で不正確な画像を生成していることをGoogleは認め、改善を約束しました。過去の研究では、AIによる画像生成が、訓練データに存在する人種や性別の偏見を増幅する可能性があることが示されています。
——————————–
【AIエージェント】AIソフトウェアエンジニア「Devin」発表、複雑な開発タスクを自動化
DevinはAIを使ってソフトウェアエンジニアリングのタスクを自動で行う最初のソフトウェアです。複雑なタスクを計画し、それに必要な多数の判断を下しながら作業を進めることができます。この過程で、関連する情報を思い出し、学習し、ミスを修正する能力を持っています。開発作業に必要なツール(シェル、コードエディタ、ブラウザなど)を備えており、エンジニアが通常行う作業をサンドボックス化された環境で実行できます。進捗状況の報告、フィードバックの受け入れ、設計選択の共同作業など、ユーザーとの能動的な協力が可能です。SWE-benchベンチマークにおいて、従来モデルの性能を大幅に上回る成果を達成しました。
2024/3/4~2024/3/10のTech Newsまとめ
【新しいLLM】Anthropic、新世代LLM「Claude 3」の3つのモデルを発表 中程度のモデルはAmazon Bedrockで利用可能
AnthropicはLLM「Claude 3」の3つのモデルを発表しました。Claude 3 SonnetはAmazon Bedrockで利用可能であり、OpusとHaikuも近い将来に利用可能になる予定です。
- Claude 3 Opus
- 最も高度な知能を持つモデルで、高度なタスクにおける市場最高のパフォーマンスを実現。
- 200Kのコンテキストウィンドウを持ち、特定の使用例では1Mトークンを処理可能。
- コストは入力あたり15ドル、出力あたり75ドル。
- Claude 3 Sonnet
- 知能と速度のバランスが取れており、特に企業のワークロードに適している。
- コストは入力あたり3ドル、出力あたり15ドルで、同等の知能を持つ他のモデルよりもコストパフォーマンスが高い。
- Claude 3 Haiku
- 最速でコンパクトなモデルで、単純な問い合わせやリクエストに対して即時に応答する。
- コストは入力あたり0.25ドル、出力あたり1.25ドルで、類似の知能カテゴリの中で最もスマートかつ手頃な価格。
———————————
【新しいLLM】Inflection、パーソナルAI「Pi」の新しいバージョン「Inflection-2.5」をリリース
Inflectionは、人々の日常生活に役立つパーソナルAI、Piの新しいバージョンであるInflection-2.5をリリースしました。この新モデルは、現在の最先端の大規模言語モデルと競合する高い性能を持ち合わせています。Inflection-2.5は、GPT-4の性能に匹敵しながら、トレーニングに必要な計算リソースを大幅に削減しました。数学やコーディングなど、知的能力(IQ)が求められる分野でのパフォーマンスが特に向上し、Piが技術の最前線を押し進めることを保証しています。Piユーザーは、最新の情報を得るためのリアルタイムWeb検索機能も利用できるようになりました。技術的な結果として、Inflection-2.5は、STEM分野を含む幅広いIQ指向のタスクでGPT-4の平均性能の94%以上を達成し、様々なベンチマークで顕著な性能向上を実現しています。
———————————
【新しいLLM】Nvidiaの新しいLLM「Nemotron-4 15B」
Nvidiaが発表した「Nemotron-4 15B」は、15億のパラメータを持つ大規模な多言語言語モデルであり、英語、多言語、およびコーディングのタスクで強力なパフォーマンスを発揮します。英語、多言語、およびコーディングのタスクで、類似サイズの既存のオープンモデルを上回っています。特に多言語能力では、サイズが4倍以上のモデルや、多言語タスク専用のモデルをも上回る性能を示しています。標準的なデコーダーのみのTransformerアーキテクチャを使用しています。NVIDIAのH100 GPU上で、特定のバッチサイズと効率メトリクスを使用して約13日間で訓練が完了しました。訓練の最終段階で使用されるデータの分布を変更することで、モデルがより高品質なソースから学習するように調整します。このアプローチにより、モデルは事前学習段階で扱ったデータとは異なる、新たに強調されたデータ領域に対して、より良く適応することができます。学習率の「崩壊スケジュール」(学習率を徐々に減少させていく戦略)を調整することで、訓練の終わりにかけてモデルの更新がより細かく、慎重に行われるようにします。これにより、モデルが過学習を避け、既存の知識を損なうことなく新しい情報を効率的に取り込むことが可能になります。
———————————
【AIと法律・規制】EUでデジタル市場の公平性と競争を促進のための法律「デジタル市場法(DMA)」開始
デジタル市場法(DMA)は、EUがデジタルセクターの公平性と競争を促進するために制定した法律です。DMAは、オンライン検索エンジンやアプリストアなどを提供する大手デジタルプラットフォーム(ゲートキーパー)を特定し、これらの企業が守るべきルールを定めています。ゲートキーパーとは、EUのデジタル市場法で定義された、大きな影響力を持つデジタルプラットフォームを運営する企業のことです。これらの企業は、例えばGoogleのような検索エンジンや、AppleのApp Storeのようなアプリストア、LINEやWhatsAppのようなメッセージングサービスを提供しています。ゲートキーパーには、第三者とのサービス連携を許可する、ビジネスユーザーが生成したデータへのアクセスを許可するなどの「やるべきこと」があり、自社製品を他社製品より優遇することの禁止などの「やってはいけないこと」が定められています。DMAは2022年に採択され、2023年5月から適用されました。この法律は、当初から存在する基本プラットフォームサービスにのみ適用されます。違反した企業には、年間総売上の最大10%の罰金や、繰り返し違反の場合は最大20%の罰金が科されることがあります。
———————————
【LLM新技術】LLMのアンサンブルアプローチは人間の群衆予測トーナメントと同等の予測精度
12個のLLMを用いたアンサンブルアプローチは、925人の人間の予測者の集合と比較して、未来の出来事に関する31の二項質問に対する予測で同等の性能を示しました。LLMは、人間の中央値予測を情報として取り入れることで予測精度を17%から28%向上させることができますが、人間と機械の予測を平均する方がより精度が高いです。「群衆の知恵」効果は、多くの人の予測を一つにまとめることで、未来の出来事についての予測精度を高めることができるというものです。これまでの研究では、LLMは、個々の予測者としては人間の集団に比べて予測能力が劣るとされていました。LLMが予測の集約を通じて人間の群衆予測トーナメントと同等の予測精度を達成できることが示され、LLMにおける「群衆の知恵」効果が確認されました。これにより、社会全体でさまざまな用途にLLMを使用する道が開かれました。
———————————
【LLM新技術】自動プロンプト最適化ツールのプロンプトは人間の予想外の内容
研究では、「ポジティブ思考」といった前向きな言葉をプロンプトに加えることがモデルのパフォーマンスにどのような影響を与えるかを定量的に調べ、これをシステム的にプロンプトを最適化する方法と比較しました。モデルに対して前向きな言葉や肯定的なメッセージをプロンプト(命令文や問いかけ文)に組み込むことで、多くの場合でモデルのパフォーマンスを向上させる効果があることを見出しました。自動プロンプト最適化ツールは、プロンプトを自動で調整し、モデルのパフォーマンスを向上させる最適な文言を見つけ出します。自動で最適化されたプロンプトは人間が通常考えるものとは大きく異なり、非常に特異で予想外の内容であることも発見されました。これは、自動最適化が従来の手法や直感とは異なる新たなアプローチを提示していることを意味します。
———————————
【その他生成AI】StabilityAI、0.5秒未満で単一の画像から高品質な3Dを再構築するモデル「TripoSR」
StabilityAIのTripoSRは、0.5秒未満で単一の画像から高品質な3Dを再構築するモデルです。このモデルは、変換器アーキテクチャを利用し、LRMネットワークアーキテクチャに基づいて改良を加えています。公開データセットでの評価は、他のオープンソース代替品と比較して、量的および質的に優れた性能を示しています。MITライセンスの下で公開され、研究者、開発者、クリエイティブな作業をサポートすることを目的としています。
———————————
【ニュース】Sam AltmanはOpenAIのCEOとして取締役会に戻る
【ニュース】OpenAIの取締役会に3人の新メンバーが加わる
OpenAIの取締役会特別委員会は、法律事務所WilmerHaleによる調査を完了しました。この調査は、OpenAIの運営とガバナンスに関する複数の問題を評価しました。Sam AltmanとGreg Brockmanのリーダーシップに全面的な支持を示し、AltmanはCEOとして取締役会に戻ります。また、取締役会に3人の新メンバーが加わりました。医療と非営利セクターのリーダーであるDr. Sue Desmond-Hellmann、法律と企業ガバナンスの専門家であるNicole Seligman、そして消費者技術業界のベテランであるFidji Simoです。取締役会は、企業ガバナンスガイドラインの更新、利益相反ポリシーの強化、内部通報ホットラインの設置、およびミッションと戦略に焦点を当てた新しい委員会の作成など、ガバナンス構造の重要な改善を導入しました。
———————————
【人間とAIの未来】90人以上の科学者が、AIを利用した生物学研究の危険性に関する合意書に署名
90人以上の科学者が、AIを利用した生物学研究が将来的に世界に害を及ぼさないようにするための合意書に署名しました。この取り組みは、AI技術の発展を阻止するのではなく、新しい遺伝子物質を製造するために必要な機器の使用を規制することを目的としています。合意に署名した科学者たちは、AI技術による新しいワクチンや薬品の開発など、技術の利益がリスクを上回ると主張しています。AnthropicのCEOは、AI技術の進展により、専門知識がない人でも大規模な生物学的攻撃が可能になる可能性があると議会に警告しました。
———————————
【新サービス】Visual Studio Codeの最新リリース エディターでの音声入力、多言語サポート、改善されたPythonインポート機能など
Visual Studio Codeの最新リリースでは、エディターでの音声入力、多言語サポート、改善されたPythonインポート機能など、多数の新機能と改善があります。アクセシビリティ機能が強化され、言語モデルへのアクセス管理に新APIが導入されました。エディターの利便性が向上し、デバッグやリモート開発の機能が強化されています。PythonやJupyterのサポートが改善され、GitHub Pull Requestsの管理がより便利になりました。拡張機能開発者向けには、新しいAPIやテストカバレッジの生成ツールが提供されています。
———————————
【新サービス】プログラミング作業を支援するAIツールの企業版「GitHub Copilot Enterprise」β版開始
GitHub Copilot Enterpriseは、プログラミング作業を支援するAIツールの企業版で、現在はテスト段階(beta版)で公開されています。このツールを試すためには、GitHub Enterpriseの契約が必要です。また、ウェイトリストに登録する必要があります。主な機能には、コードを理解し会話を行うチャット、ドキュメントの検索や要約、プルリクエストの内容を要約する機能などがあります。これらはプログラミング作業を効率化します。企業や組織単位でこのツールを有効にでき、GitHubのウェブサイト上で直接AIとチャットが可能になります。特定のリポジトリ(プロジェクトフォルダ)やドキュメントをAIに認識させ、それに基づいたチャットができるようになります。これにより、プロジェクト固有の情報に基づいたサポートを受けられます。リポジトリの内容を事前にAIが学習することで(インデックス生成)、より精度の高い情報検索や会話が可能になります。
プルリクエスト(コード変更の提案)に対する要約機能を使うことで、変更内容を簡潔に理解するのに役立ちます。
———————————
【国内ニュース】GITAI USAとKDDIはロボットを使った基地局アンテナ設置の実証実験に成功
GITAI USAとKDDIという企業が協力して、2023年12月7日に月面でモバイルネットワーク基地局のアンテナをロボットで設置するテストを行い、成功しました。5メートルの支柱に、地球外ローバーが運んだアンテナを2台のアーム型ロボットが設置し、そのアンテナを電源に接続する作業を行いました。宇宙ステーションでのロボットによる自律作業の成功経験を持つGITAIと、地上でモバイルネットワークを構築した経験を持つKDDIが協力し、月面でのモバイルネットワーク構築に向けて無人で基地局を設置する技術開発を進めています。
———————————
【技術まとめ】クラスメソッド データアナリティクス通信(機械学習編)
AWSのアップデートには、Amazon SageMakerのモデルトレーニング高速化、Amazon Rekognitionの新しいモデレーションラベルの追加、Amazon BedrockとAmazon PollyのUIと機能の改善が含まれます。
Google Cloudのアップデートでは、Vertex AI Geminiの一般提供開始、BigQuery MLからのVertex AI PaLM2 APIへのエンべディングの依頼機能、および時系列分析用の新関数の追加が目玉です。
2024/2/26~2024/3/3のTech Newsまとめ
【LLM新技術】Microsoft、各パラメータが-1、0、1のいずれかの値を取る1ビットLLM「BitNet b1.58」発表、論文解説、試してみた、実装
Microsoftの研究チームが「BitNet b1.58」という名前の1ビット大規模言語モデル(LLM)の新しいバージョンを開発しました。このモデルでは、LLMの各パラメータが-1、0、1のいずれかの値を取ります。この新しいモデルは、以前のモデルが使用していた全精度(FP16やBF16)と比較しても、モデルのサイズやトレーニングに使用されるトークンの数が同じであるにもかかわらず、計算の複雑さやタスクの遂行能力が同等です。また、処理速度、使用メモリ量、データ処理速度、エネルギー消費量の点で、以前のモデルよりも大幅に改善されています。さらに、この技術は新しい計算方法を可能にし、1ビットLLM専用に最適化されたハードウェアを設計するための新しい可能性を開きます。
———————————
【新サービス】モデルの学習やfine-tuningなしで自社のデータを使った分析ができる「Azure OpenAI On Your Data」正式リリース
「Azure OpenAI On Your Data」は、企業が持つデータを用いて、GPT-35-TurboやGPT-4のような高度なAIモデルで分析や対話を行うためのサービスです。このサービスを利用することで、モデルを新たにトレーニングしたり微調整したりすることなく、自社のデータを使った分析が可能になります。REST API、SDK、またはAzure OpenAI StudioのWebベースインターフェースを通じてアクセスできます。Azureのロールベースのアクセス制御を設定し、特定のデータソースを追加することによって、独自のデータをAzure OpenAIモデルと統合できます。キーワード検索、意味検索(セマンティック検索)、ベクトル検索を利用することで、データ検索と情報取得を最適化します。
———————————
【新サービス】日本IBMの生成AI基盤モデル「Granite」ビジネス関係のデータで学習
———————————
【新サービス】Google DeepMind、文章・画像・写真などから操作可能なゲームを生成するAI「Genie」
Genieは、インターネット上のラベル付けされていない動画から学んだ、ゲーム世界を作り出す技術です。この技術を使って、文章、画像、写真、スケッチなどを使い、様々な動きができる仮想世界を作ることができます。Genieは110億のパラメータを持ち、これにより非常に複雑な世界を作成する基盤となります。このシステムは、動画の時系列データを処理するツール、動きの予測をするモデル、そして簡単に拡張できる行動モデルから成り立っています。重要なのは、Genieが特別なデータやラベル無しで学習でき、ユーザーが作った世界で自由に動き回ることができる点です。
———————————
【新サービス】AIとリアルに音声で雑談できるチャットAI「Cotomo」無料で利用可能
———————————
【新サービス】あいおいニッセイら、国内初「生成AI専用保険」情報漏えい時の費用などを負担
———————————
【日本のTech産業の未来】「AIと著作権に関する考え方について(素案)」に関するパブリックコメントの結果について
———————————
【LLM新技術】人間の好みに応じてLLMをfine-tuningする手法 DPO、PPO、ΨPO、RSO
———————————
【技術解説】LLMを含む様々な処理をつなげる宣言型言語「LCEL (LangChain Expression Language)」
LCELは、LLMを含む様々な処理を「ブロックを組み合わせるように」簡単につなげることができる特別な方法です。通常のLangChainよりも、もっと直感的に、何をしたいかを「宣言する」だけで作業が進められます。LCELは、LangServeというツールを使ってプロトタイプから本番環境へと、変更することなく移行できるように設計されています、また、作業を効率的に進めるための便利な機能がたくさんあります。例えば、結果を少しずつ早く受け取れる「ストリーミング」、同時に多くの作業をこなせる「非同期サポート」、ステップを同時に進めることができる「並列実行」、失敗した時に自動でやり直す「リトライとフォールバック」などです。作業の入出力をチェックするためのルール(スキーマ)を自動で作ってくれたり、作業の各ステップを追跡して問題を見つけやすくする(トレーシング)機能があります。これは、仕事の流れをスムーズにし、問題があった時にすぐに対処できるようにするためです。
———————————
【ニュース】Apple, 電気自動車プロジェクト「Apple Car」中止へ
———————————
【ニュース】MicrosoftとMistral AIが提携発表 Azure上でLLM「Mistral Large」が使用可能に
2024/2/19~2024/2/25のTech Newsまとめ
【新サービス】Google、LLM「Gemini」ベースの、AIモデルを作るための新しいツール「Gemma」:「Gemma」はGoogleが開発した、AIモデルを作るための新しいツールです。これは、Googleが以前に作ったLLM「Gemini」の技術を基にしています。Gemmaには、2種類のモデルサイズ(2Bと7B)があり、それぞれ事前に学習させたバージョンと、特定の指示に応じて調整したバージョンが提供されます。Gemmaを使うことで、開発者はAIの開発をより簡単に、そして安全に行うことができるようになります。また、Gemmaは商業的なプロジェクトにも利用できます。このモデルは複数のプログラミングフレームワーク(JAX、PyTorch、TensorFlowなど)で利用でき、様々なデバイスやGoogle Cloudで効率的に動作するよう最適化されています。
———————————
【新サービス】 GoogleのLLM「Gemini」がビジネスや教育機関向けのGoogle Workspaceで利用可能に:Googleが作った強力なLLM「Gemini」がGoogle Workspace(ビジネスや教育機関向けのサービス。Gmail, ドキュメント、スプレッドシート、ドライブカレンダー、Meetなど)で使えるようになりました。どんなサイズの会社でも、高機能なEnterpriseプランか、もっと手頃な価格のBusinessプランから選べます。Businessプランは月額2,260円、より高度なEnterpriseプランは月額3,400円です。
———————————
【新サービス】Stability AI、新しいtext to imageモデル「Stable Diffusion 3」アルファベット生成の性能向上:Stability AIは「Stable Diffusion 3」という新しいテキストから画像を生成するモデルを発表しました。以前のモデルよりもさらに高い性能を持っており、とくにアルファベットや文字列を含むプロンプトに対する応答性が向上しています。このモデルは、800万から80億のパラメータを持つさまざまなバージョンがあり、ユーザーが必要に応じて選択できます。 不正使用を防ぐための対策が施されており、トレーニングからデプロイメントまで安全性が考慮されています。まだ一般には公開されていませんが、早期に試すことができる待機リストへの登録が開始されました。
———————————
【LLM新技術】LLMのアダプター「LoRA」を組み合わせるモデルマージング新手法「PEFT」:LLMのパフォーマンスを向上させるために、異なるモデルやアダプターを組み合わせる「モデルマージング」がよく使われます。PEFTは、特にLoRAと呼ばれるアダプターを組み合わせるための新しい手法を提供しています。LoRAは、モデルの特定の部分を微調整するためのアダプターです。(アダプターは、ベースモデルに特定のタスクや言語の知識を追加するために使用される小さな追加モジュールで、モデルの再学習なしに特定の機能や性能の向上を可能にします。)マージングには「結合」や「線形」、「SVD」などのいくつかの方法があります。
———————————
【AIツール】Intel製のCPUやGPUなどで効率的にAIモデルを動かすツール「openvino」:OpenVINOツールキットはAIの推論を高速化し、様々なデバイスに展開するためのオープンソースのツール群です。Intel製のCPUやGPUなどで効率的にAIモデルを動かせるようにすることが可能です。モデルを変換し、推論を行うためのランタイムライブラリ、さまざまなデバイス上での推論を加速するプラグイン群が含まれています。TensorFlowやONNXなど、一般的なモデル形式に広く対応しており、多くのオープンソースモデルを利用可能です。Apache 2.0ライセンスのもとで公開されており、開発者は自由に利用、改変、再配布が可能です。
———————————
【LLM新技術】情報を論理的な順序で提示することで、LLMの回答の正確性が大幅に向上
———————————
【AIツール】テキストデータを効率的に扱う「Mamba」を複数のPCで同時に学習できるツール「kotomamba」
【AIツール】ユーザーとアシスタントの会話をモデルが理解しやすい形に変換する「Hugging Face Chat Template」
———————————
【ニュース】世界の大手20社のTech企業が、2024年の選挙でのAI悪用阻止協定を結ぶ:世界の大手20社のテクノロジー企業が、2024年の選挙での偽情報や欺瞞を広めるAIコンテンツと戦うために協力することを約束しました。Adobe, Amazon, Anthropic, Arm, ElevenLabs, Google, IBM, Inflection AI, LinkedIn, McAfee, Meta, Microsoft, Nota, OpenAI, Snap Inc., Stability AI, TikTok, Trend Micro, Truepic, X
———————————
【DL技術】表データを効果的に学習、自己教師あり学習もでき、説明性があるモデル「TabNet」
———————————
【スキルアップ】AIと因果推論について学べる「Causal ML Book」PDF全文無料公開
2024/2/12~2024/2/18のTech Newsまとめ
【新サービス】マルチモーダル機能を備えたBrilliant LabsのAIグラス「Frame」
【新サービス】torchvision transforms V発表。画像タスク向け新機能追加、高速化
【新サービス】Google、サイバー防御イニシアチブとファイルタイプ識別システム「Magika」
【新サービス】会話やチャンネルの内容を要約「SlackAI」今冬開始
【新サービス】ChatGPTは、ユーザーとの全てのチャットを通じて情報を「記憶」する機能をテスト中
【新サービス】過去最大のアップデート「LamaIndex v0.10.0」データ処理フレームワークとしての機能強化
——————————
【新しいLLM】ローコストで開発された最高性能の日本語オープンモデル「KARAKURI LM」
【新しいLLM】Googleの次世代LLM「Gemini 1.5」、処理能力向上
【新しいLLM】101言語に対応したオープンソースのLLM「Aya」
【新しいLLM】京大言語メディア研究室のLLM「LLM-jp-13B v1.1」 モデル・データ公開
——————————
【動画生成AI】Apple、自然言語を使って静止画(SVGファイル)を動かすことができる「Keyframer」発表
【動画生成AI】OpenAI、テキスト指示をもとに1分の動画を生成するAI「Sora」
【画像生成AI】Stability AI、3段階でテキストから画像を生成する「Stable Cascade」
——————————
【新技術】Microsoft、Windowsで動くアプリの操作を自動化する「UFO」
——————————
【LLM新技術】感情的なプロンプトを使うことで、LLMのパフォーマンスが向上
【LLM新技術】LLMが自分で問題解決のための推論システムを作り出す「SELF-DISCOVER」
【LLM新技術】LLMにわざと間違わせてルールを学ばせるプロンプト技術「LEAP」
【技術解説】日本語LLMにおけるトークナイザーの重要性
【RAG】情報を探して答えを出し、答えを検証するRAG「Self-RAG」
【RAG】集めた情報の有効性を評価して性能改善するRAG「CRAG」
——————————
【DL技術】Meta、動画から特徴予測だけを使って学習する手法「V-JEPA」
【DL技術】CNNにおいてネットワークの不要な部分を効率よく削る「構造化Pruning」
【機械学習モデル】畳み込み処理と注意機構を融合させた、画像認識タスク向けの新しいモデル「CoAtNet」
——————————
【人間とAIの未来】すべての製品にセキュリティ対策の実施を義務付ける「EUサイバーレジリエンス法」
【人間とAIの未来】OpenAIはMicrosoftと共同で、国家支援のサイバー攻撃者5組織の活動を阻止
——————————
【国内ニュース】JAXAのH3ロケット試験機2号機、打ち上げ成功
2024/2/5~2024/2/11のTech Newsまとめ
【新サービス】BardからGeminiへ:Ultra 1.0とアプリ発表:Googleの新しいサービスGemini Advancedは、高性能AIモデルUltra 1.0を搭載し、Google One AI Premium Planの一部として月額19.99ドルで提供されます。また、GoogleはAndroidとiOS用の新しいGeminiアプリを発表しました。
【新サービス】Docker設定省力化の「Docker Init」リリース:docker initは、プロジェクトに最適なテンプレートを提案し、選択したテンプレートに基づき必要なDockerfileやComposeファイルなどのDockerリソースを自動生成することで、アプリケーションのコンテナ化プロセスを容易にするDocker Desktopの新しいコマンドラインツールです。
【新サービス】Microsoft「Copilot」をアップデート 微調整モデル「Deucalion」搭載:MicrosoftはCopilotの1周年を記念して、新しいベースモデル「Deucalion」を採用し、Web、Android、iOSアプリに対して「よりバランスよく」機能するよう微調整しました。
【新サービス】Windows 11にLinuxスタイル「Sudo」コマンド追加:Windows 11 Insider Preview Build 26052で登場した「Sudo for Windows」は、特別な管理者権限が必要な作業(昇格コマンドと呼びます)を、より簡単に行えるようにする新機能です。
【新サービス】Appleの新言語「Pkl」オープンソース公開:Appleが開発した新しい言語「pkl」は、コードとしての設定を可能にし、豊富な検証機能とツールを提供する設定専用言語です。静的な設定フォーマット(JSON、YAML、XMLなど)は単純な設定ニーズには適していますが、読み書きのしにくさ、大きなファイルを複数の小さなファイルに分割できないなどの欠点があり、Pklはこれらの欠点を解決します。
——————————
【AIと法律・規制】Google, OpenAI, Metaの「デジタルコンテンツ来歴情報付与」への取り組み:Google, OpenAI, Metaは、デジタルコンテンツの透明性を高め、誤情報やディープフェイクに対抗するため、C2PA(コンテンツの出所と真正性に関する連合)に参加し、デジタルコンテンツの来歴情報の標準化と信頼性向上に取り組んでいます。C2PAはデジタルコンテンツの作成や変更履歴に関する信頼できるメタデータを提供し、その出所と真正性を証明する技術標準を開発、推進する団体です。
——————————
【新しいLLM】中国Abacus AIの「Smaug-72B」が世界最高のオープンソースLLMに:Smaug-72Bは、Abacus AIによって公開された新しいオープンソース言語モデルで、Qwenによって数ヶ月前にリリースされた「Qwen-72B」をベースにした改良版です。Hugging Faceの最新ランキングによると世界で最も優れたモデルと評され、高い性能を誇ります。
【新しいLLM】春に登場する国産「小さいLLM」、LLM利用の需要を開拓するか:2024年にNTTの「tsuzumi」とNECの「cotomi」をはじめとする国産大規模言語モデル(LLM)が提供されますが、これらはOpenAIの「GPT」などに比べ相対的に小さいLLMであり、この小規模な設計が新たなオンプレミス環境でのLLM利用の需要を開拓するための勝ち筋と見なされています。
【新しいLLM】完全にオープンソースなLLM「OLMo-7B」:AI2がリリースしたOLMo 7Bは、プレトレーニングデータとトレーニングコードを含む真にオープンな最先端の大規模言語モデルで、研究者と開発者が共同で言語モデルの科学を進歩させることを可能にします。
——————————
【LLM新技術】LLM訓練では事前学習とfine-tuningのデータ関連性が性能向上の鍵:大規模言語モデル(LLM)を訓練する際に、プレトレーニング(基礎学習)に使用するデータと、その後のファインチューニング(特定タスクへの適応学習)に使用する下流タスクのデータとの間の関連性が、モデルの性能向上において重要な役割を果たすことが明らかになりました。
【LLM新技術】LLM同士が互いの知識を検証する手法:回答に必要となる知識は随時更新されていきますが、大規模言語モデル(LLM)には知識の欠落や古い情報が残る可能性があります。ワシントン大学やUCバークレーの研究者らは、LLM同士が互いの知識を検証し合い、信頼性の低い回答を控えさせる手法を提案しました。
【LLM新技術】LLMの検索結果を正確にする手法「CRAG」:大規模言語モデル(LLM)は固有の知識だけでは生成テキストの正確性を保証できず、幻覚を示すことが避けられません。Corrective Retrieval Augmented Generation(CRAG)では検索結果の品質を評価し、適切な知識検索を行う軽量な評価器を導入し、無関係な情報をフィルタリングするアルゴリズムを採用しています。
——————————
【LLMの活用】AIによるポケモンバトルで勝率56%「PokeLLMon」:米ジョージア工科大学の研究者らによって提案された、大規模言語モデル(LLM)を搭載した自律型AIエージェントです。インコンテキスト強化学習、知識拡張生成、一貫性あるアクション生成という3つの戦略を用いて、人間のプレイヤーのように振る舞い、戦術的な意思決定を可能にしています。
【LLMの活用】AIが生んだ芥川賞「東京都同情塔」:九段理江さんの芥川賞受賞作「東京都同情塔」では、生成AIがキャラクターとの対話シーンの表現に利用され、AIによるアイデア出しや文章表現の評価・添削に活用されており、生成AIとの実際の対話が作品の構想の土台となっています。
——————————
【DL技術】立教大、大量メモリ不要の新画像認識手法開発:立教大学が開発した新しい画像認識手法は、「フーリエ変換」を使用して「グローバルフィルタ」と「注意機構」の利点を組み合わせ、大量のメモリを必要とせずに高解像度の画像を効率的に認識できる技術です。
【画像生成AI】AppleとUCSB、テキストベース画像編集「MGIE」発表:MGIE(MLLM-Guided Image Editing)は、Appleとカリフォルニア大学サンタバーバラ校の研究により開発された、マルチモーダル大規模言語モデル(MLLM)を使用してテキストプロンプトに基づく画像編集を可能にするツールです。画像のトリミング、サイズ変更、フィルター追加や、特定の部分に対する具体的な変更など、詳細な指示に応じた編集操作を実行する能力を持っています。
——————————
【RAG】RAG実案件の知見まとめ:RAGはLLMが元々持っていない知識や社内情報に基づく質問に対しても正確な回答を生成できます。しかし、社内知識や暗黙知を必要とする質問への対応が難しく、これらを解決するためにはシステムの構成要素を細かく調整し、暗黙知やメタデータをプロンプトに含めるなどの改良が必要となります。
——————————
【開発技術】アプリエンジニアの「監視」重要性:アプリケーションエンジニアにとって「監視」は、デプロイ後のアプリケーションの動作を確認し、問題を早期に発見することです。これによって開発したコードの質を多角的に評価し、改善へのフィードバックが可能になります。また、良いコードへの理解が深まり、開発の手応えと成果が得られます。
2024/1/29~2024/2/4のTech Newsまとめ
【新サービス】Googleが「Imagen 2」ベースの画像生成AIツール「ImageFX」をリリース:テキストプロンプトを使って多様な画像バリエーションを生成できる新しいユーザーインタフェースを特徴としています。
【新サービス】AppleのVR/MRヘッドセット「Vision Pro」:Apple Vision Proはスタンドアローン型ヘッドセットであり、その重心の問題、内蔵されたM2とR1プロセッサ、開放型スピーカー、優れたパススルー品質、限定的な視野角、高精度の手と視線追跡機能を備えています。
【新サービス】GPT-4無料「リートン」が「GPT-4 Turbo」と「SDXL」を公開:株式会社リートンテクノロジーズジャパンは、無料で無制限に「GPT-4」を使用できるプラットフォーム「リートン」において「GPT-4 Turbo」や「Stable Diffusion XL」などの複数の新AIモデルの利用が可能になるアップデートを公開しました。
【新しいLLM】Metaのコード生成AIモデル「Code Llama 70B」リリース:Code Llama 70Bは、コード生成やコードに関する自然言語の生成が可能な最大かつ最高性能のモデルであり、研究や商業用途で無料で利用可能で、Python専用モデルや自然言語指示を理解するためにファインチューニングされたモデルを含む3つのバージョンが提供されています。
——————————
【生成AI技術】「SegMoE (Segmind Mixture of Diffusion Experts)」 概要:SegMoEはトレーニングなしで数分以内に安定した拡散モデルを専門家の混合に動的に組み合わせるための強力なフレームワークです。
【生成AI技術】MoE (Mixture of Experts Explained):MoEは複数の専門家ネットワークを使用して問題空間を均質な領域に分割する機械学習手法であり、各入力に対して1つまたは少数のエキスパートモデルのみが実行される点でアンサンブル手法とは異なります。
——————————
【LLM新技術】LLMのサイズを効率的に小さくする「SliceGPT」:不要な部分を剪定してLLMのサイズを効率的に圧縮し、計算資源とメモリ使用量を減らしつつ、高性能を維持する新技術であり、剪定後の再微調整なしで下流タスクにおける性能を保つことが可能です。
——————————
【技術解説】LLMに外部知識を取り入れる手法「fine-tuning」と「RAG」の比較:LLMにおいて、新しい情報を取り入れることや既存の情報の能力を精緻化する技術として、教師なしファインチューニングと検索拡張生成(RAG)の二つのアプローチを比較したところ、RAGが一貫して優れた性能を示すことを発見しました。
——————————
【ニュース】Appleのティム・クックCEOが生成AI機能の詳細発表予定を明かす:AppleのCEO、Tim Cookは四半期決算の会議で、今年後半に顧客に提供される予定の生成AIソフトウェア機能をiOS、iPadOS、macOSに統合する計画を示唆しました。
【ニュース】Apple、EUで外部ストア解放への影響と展望:AppleはEU圏でのデジタル市場法対策として、外部アプリストアの許可や決済手数料の変更を実施し、全世界のApp Storeでもストリーミングゲームやミニアプリの提供を認める新ルールを導入します。
【ニュース】ドコモ、ネットワーク品質「大幅改善」報告:NTTドコモは、2023年に実施した通信サービス品質の集中対策により、都市部での接続問題や速度低下を大幅に改善し、対策対象の90%以上で改善措置を完了したと報告した。
【ニュース】ユニバーサルミュージック、TikTokとの契約打ち切り:ユニバーサルミュージックグループ(UMG)は、アーティストへの不当な報酬額、AI音楽の容認、権利侵害への不十分な対応などの理由から、2024年1月31日をもってTikTokとの契約を更新せず、TikTokおよびTikTok Musicへの楽曲ライセンス供与を停止することを決定しました。
【ニュース】Amazon、iRobot買収断念:Amazonは、iRobotの買収計画をEU規制当局の承認が得られなかったために断念し、iRobotとの契約終了を発表しました。同時に、iRobotはフロア掃除事業に集中し、CEO退任と事業再建策を発表し、約350人の人員削減を行うことを明らかにしました。
——————————
【通信技術】NTTの光電融合デバイス研究強化とIOWN技術:NTTは、IOWN(光通信技術を中心にした次世代ネットワークを構築するプロジェクト)の一環として、広帯域・低遅延のネットワークと電力効率を向上させる3点の技術の研究を進めることを決定しました。
——————————
【日本のTech産業の未来】国産生成AI基盤モデル開発を政府が支援「GENIAC」:経済産業省は、国内外の競争力強化を目指し、ABEJAや東京大学など複数の企業・機関が参加して基盤モデル開発のための計算資源支援や連携促進を行います。
——————————
【スキルアップ】2023年話題のAIツール体験:このLTでは、AIによる問題解決が加速する新時代に向けて、2023年に話題になったChatGPTやGPTのマルチモーダル機能などのAIツールを紹介します。
2024/1/22~2024/1/28のTech Newsまとめ
——————————
【新サービス】Microsoft、Teamsでメタバース会議システム「Mesh」
【新サービス】OpenAI、GPT-4の性能向上&新モデル追加&使用状況をAPIキーの管理方法の改善など
——————————
【ニュース】OpenAIアルトマンCEO、AIチップ工場建設のため資金調達計画
【ニュース】Google、生成AIトレーニング下請けAppen解約
【ニュース】国内初「Wi-Fi 7」ルーター、バッファロー2月発売
【ニュース】JAXA、SLIMの撮影・データ送信成功
【ニュース】Google CloudとHugging FaceのAI開発者向け提携
【ニュース】日本のスペースワン、カイロスロケット初号機を3月9日に打ち上げ
——————————
【DL技術】Fujitsu、AIモデルの公平性の検証や改善する技術を一般公開
【DL技術】分類モデルの出力値を実際の確率に近づける手法「Probability Calibration」
——————————
【動画生成AI】Googleの動画生成AI「Lumiere」発表
——————————
【新しいLLM】OrionStarAIの多言語対応LLM「Orion-14B」
【新しいLLM】NVIDIA、GPT-4レベルの質問応答LLM「ChatQA」
【新しいLLM】マルチモーダルな小規模言語モデル「imp-v1-3B」
——————————
【LLM新技術】自己報酬型言語モデルの開発、米Metaが発表
【LLM新技術】大規模言語モデルの「幻覚」軽減のテクニック
【LLM新技術】LLMによるコード生成の精度向上「AlphaCodium」
【LLM新技術】Google開発、LLM内部動作説明手法「Patchscopes」
【LLM新技術】既存LLM融合による「知識融合」手法開発
【技術解説】マルチモーダルLLMの技術とトレンド
——————————
【AIと法律・規制】OpenAI、大統領選候補者なりすましチャットボット削除
【AIと法律・規制】EUのAI法案に関するAIガバナンスのコスト試算
【AIと法律・規制】「AIに関する音楽団体協議会」設立
——————————
【新技術】ディズニーが開発した動く床「ホロタイル」
——————————
【開発技術】「Docker Build Cloud」でビルド最大40倍高速化
——————————
【スキルアップ】机から離れた状態で論文を大量に読む方法
2024/1/15~2024/1/21のTechニュースまとめ
【新サービス】マイクロソフトが月額20ドルの「Copilot Pro」を開始
【新サービス】グーグル「かこって検索」新機能登場
——————————
【新しいLLM】オープンソースLLM Mixtral 8x7B、GPT-3.5に匹敵
【新しいLLM】Stability AIの新コーディングAI「Stable Code 3B」リリース
【新しいLLM】DeepMindが幾何学問題解決AI「AlphaGeometry」開発
【新しいLLM】Google医療面接特化AI「AMIE」の研究結果
——————————
【LLM新技術】「プロンプトのバタフライ効果」LLMへの影響調査結果
【LLM新技術】RLHF (人間フィードバック学習)の具体例を考察
【LLM新技術】オープンソースLLMをCPUでファインチューニング
【LLM新技術】CoTの推論ステップ数がLLMの推論能力に及ぼす影響
【LLM新技術】GoogleとMIT、AI生成の文章/画像だけで学習する手法開発
【LLM新技術】LLMバックドア攻撃の現在の安全対策調査
【LLM新技術】Meta研究者らが自己報酬言語モデルを開発
【LLM新技術】「Flash Attention」で効率的にLLMをフルファインチューニング
【LLM新技術】LLMマルチエージェントフレームワーク「AutoGen」入門
【LLM新技術】高スループットでLLMの推論実行「SGLang」体験
——————————
【LLMのツール】LM StudioでLLMをローカル環境で動かす手順
——————————
【LLMの比較】2024年共通テスト:ChatGPT vs Bard vs Claude2
——————————
【IT・AIの活用】KDDIとつくば市、遠隔ロボによる投票実験
【IT・AIの活用】AIパートナーと恋愛するアプリ「恋するAI」
【IT・AIの活用】芥川賞・九段理江さん、チャットGPT駆使で受賞
【IT・AIの活用】被災地支援にロボット犬、陸自が運用
——————————
【人間とAIの未来】OpenAI、ChatGPTポリシーから軍事使用禁止削除
【人間とAIの未来】OpenAI、世界選挙イヤーに向けての取り組み
【人間とAIの未来】イラストAI学習防止ツール「emamori」サービス開始
【人間とAIの未来】MetaザッカーバーグCEO、AGI開発宣言
【人間とAIの未来】世界リスク「虚偽情報」、AI台頭で増大の可能性
【人間とAIの未来】特訓AIモデルが潜伏工作員のように情報漏洩の可能性
【AIと法律・規制】「AI事業者ガイドライン案」のパブコメ募集開始
——————————
【日本のTech産業の未来】Sakana AIの45億円資金調達とNTTの筆頭株主就任、AIドリームチーム「Sakana.ai」が人材募集
【日本のTech産業の未来】生成AI業界団体「Generative AI Japan」発足
【日本のTech産業の未来】AWSが国内クラウドインフラに巨額投資
——————————
【AWS】2023年12月のAWS最新情報ブログキャッチアップ
——————————
【新技術】Google兄弟会社「Wing」、大型ドローン発表
——————————
【通信技術】SpaceXと農業機械のDeere、インターネット接続契約締結
【開発技術】モダンCSSのまとめ 、2024年に役立つCSSの新機能
【Web技術】サードパーティーCookie廃止後のウェブマーケティング変化
——————————
【ロボット】テスラの人型ロボット「Optimus」のTシャツたたみ動画
——————————
【ニュース】中国、米禁止のNVIDIA製半導体を購入
【ニュース】Yahoo!天気に避難所情報機能追加
【ニュース】富士通株急落、英国郵便冤罪事件の影響
【ニュース】EUがAmazonの「iRobot」買収計画阻止の報道
【ニュース】日本初「SLIM」月面着陸に成功、太陽光パネルは発電せず
——————————
【科学技術】グラフェンからの初半導体作成成功
——————————
【マネジメント】エンジニアの最小コミュニケーション術
【マネジメント】techtekt 新卒研修2023 研修資料公開
【マネジメント】生成AI導入時の社内ガイドライン作成法解説
——————————
【スキルアップ】つよつよエンジニアは「努力」するよりも「楽しむ」
【スキルアップ】「ITエンジニア本大賞2024」発表
【スキルアップ】LT会の面白いやり方と内容公開
【スキルアップ】最年少「基本情報技術者試験」合格者の学習法
——————————
2024/1/8~2024/1/14のTechニュースまとめ
【新サービス】【OpenAI】ChatGPT新プラン「Team」、月額30ドル
【新サービス】【OpenAI】「GPT Store」開始、ChatGPTアプリ公開可
——————————
【NN技術】一般的な視覚認識タスク向けの汎用的Transformer「CSWin Transformer」
【データ前処理】統合データ処理ライブラリ「Ibis」100本ノック
【分析技術】Group-Hot Encodingの活用法
【分析技術】PyTorchとPythonのバージョン更新手順
【分析技術】sklearnの「SimpleImputer」で欠損値を補完する
——————————
【IT・AIの活用】猫の痛み判別AI「CatsMe!」の開発
【IT・AIの活用】Science誌, AIで不正画像チェック
【IT・AIの活用】JR各社の作業ロボットによる保守革命
——————————
【人間とAIの未来】【AIと法律・規制】文化庁「AIと著作権に関する考え方について(素案)」についての考察
——————————
【新しいLLM】東工大と産総研、日本語対応の言語モデル「Swallow」無償公開
【新しいLLM】企業のドキュメントをLLMで読み込む「DocLLM」
【新しいLLM】【特化型LLM】JPモルガン、請求書、領収書などに特化したLLM「DocLLM」開発
【SLM】【技術解説】小規模LLMの限界と改善策
【LLM技術】自分の過去と対戦することでLLMの性能を向上させる手法「SPIN」
【LLM技術】HuggingFaceより高速なfine-tuning用ライブラリ「Unsloth」と「TRL」
【LLM技術】【高速化・効率化】LLM用高速推理ライブラリ「vLLM」
【LLM技術】複数のLLMモデルを一つにマージするツール「mergekit」の解説
【LLM技術】LLMパラメータ数とGPUメモリの分析
【LLM技術】【技術解説】LLMトレーニングの「分散学習」
【LLM技術】LLMの知識を直接編集して効果的に最適化する手法「Knowledge Editing」
【LLM技術】【プロンプトエンジニアリング】Google開発、表データ特化プロンプトエンジニアリング「Chain of Table」
【LangChain】LangChain初の安定版リリース
——————————
【生成AI】Getty ImagesとNVIDIAの画像生成AIサービス開始
【生成AI】テキスト・画像・動画からの音楽生成「M2UGen」
【生成AI】テキスト・画像から動画を生成する「DragNUWA」
——————————
【AWS】【データ分析】クラスメソッド データアナリティクス通信2024年1月号 機械学習編 AWSデータ分析編
【AWS】AWSの最新情報とトレンドチェック
——————————
【データ基盤】【Snowflake】2023年12月のSnowflake新機能・変更点まとめ
——————————
【デバイス】【XR】ソニー、コンテンツ制作特化XRヘッドマウントディスプレイ 、ソニーの4K HMD没入型コンテンツ制作システム体験
【デバイス】【XR】空間コンピューティング向けARグラス「XREAL Air 2 Ultra」
【デバイス】【XR】Apple Vision Pro、米国発売予定
——————————
【GPU・AIチップ】NVIDIAの新GPU「RTX 4080 SUPER」シリーズ発表
——————————
【通信技術】Wi-Fi CERTIFIED 7の正式発表とその特徴
【Web技術】Chrome、サードパーティCookie廃止とその影響
——————————
【新しい技術】他人が装着するイヤフォンへの音楽注入システムの開発
——————————
【ニュース】富士通の会計システム欠陥による英大規模冤罪
【ニュース】Gmail迷惑メール対策強化の詳細
【ニュース】AWS認定試験の値上げ情報
【ニュース】Windows 10更新問題とMicrosoftの対策
【未来予測】デジタル経済 2023年の予測と結果、2024年の予測
——————————
【マネジメント】チーム中心の組織作りのための6つのチーム設計原則
【マネジメント】テスト実施者の名前を記録しない仕組みづくり
【マネジメント】QAのテストプロセスが自走するチーム体制づくり
【マネジメント】エンジニアリングマネージャー (EM) のセルフ評価解説
【マネジメント】新規プロダクト開発のBadプラクティス
——————————
【スキルアップ】2024年版:データエンジニア向け推薦本リスト
【スキルアップ】GitHub資格認定プログラムが一般ユーザに開放
【スキルアップ】Microsoft、初心者向け生成AI学習教材の無償公開
【スキルアップ】西谷流・育児中のエンジニア勉強法
【スキルアップ】おすすめのコマンドラインツール集
——————————
【つくってみた】【やってみた】AITuberを創る
【つくってみた】ひとりで作ったタスク管理ツールの進化
——————————
【科学技術】コーヒー豆を挽く前に水で濡らすとおいしくなる
【科学技術】H-IIAロケット打ち上げ成功
2024/1/1~2024/1/7のTechニュースまとめ
- AI・データ分析
- LLM(大規模言語モデル)
- その他
- OpenAI
- ITの活用と未来
- ニュース・生成AI
2023/12/25~2023/12/31のTechニュースまとめ
- LLM(Large Language Models)
- マルチモーダルLLM「Unified-IO 2」
- AGIベンチマーク「MMMU」の成績
- 日本語LLMのPPOファインチューニング
- プロンプトの原則26ヶ条の報告
- LLMの高速推論のライブラリ「vLLM」
- LLMのRAG(強化知識検索)の調査報告
- GeminiとGPT-4Vの画像認識能力比較
- Kohya TrainerによるLoRA学習の試用結果
- Lightblue、商用日本語LLM「Karasu」「Qarasu」の公開
- 日本語LLM「ELYZA-japanese-Llama-2-13b」の公開
- LLMチューニング手法「LoRA」のポイントと活用例
- 消費者向けGPUでLLMを動かす「PowerInfer」
- AI・データ分析
- ITの活用と未来
- その他
- ニュース
2023/12/18~2023/12/24のTechニュースまとめ
- AI・データ分析
- LLM
- ITの活用と未来
- ニュース
- その他
2023/12/11~2023/12/17のTechニュースまとめ
- AI技術とデータ分析
- ITの活用と未来
- LLM(大規模言語モデル)
- ニュース
- その他
2023/12/4~2023/12/10のTechニュースまとめ
- AI・データ分析
- 人物動画生成モデル「Animate Anyone」の論文要約
- 中国アリババの「Animate Anyone」
- AWS re:Invent 2023のSageMaker更新
- 機械学習の効率化とベイズ最適化
- 生成AIと対照学習の超入門
- 因果推論手法のチートシート
- ディープマインド 700以上の新素材発見AI
- 東大のAI「敵対的攻撃」防御法
- Apple MLチームが「MLX」を公開
- Modern Data Stackの最新情報
- Metaの無料画像生成AI「Imagine」
- Googleのプログラミング特化AI「AlphaCode 2」
- 自己条件付き画像生成の論文要約
- Googleの論文作成支援AI「NotebookLM」公開
- AWS
- ITの活用と未来
- LLM
- ニュース
- その他
- OpenAI
- Snowflake
2023/11/27-2023/12/3のTechニュースまとめ
- AI技術と開発
- LLM技術
- LLMの信頼性評価法「Arthur Bench」
- LLMから本番実装への移行
- 大規模言語モデル「OpenChat」の検証
- Starling-7B – RLAIFによるLLM改善
- 新手法「ControlPE」のプロンプトエンジニアリング
- インターネット最新情報対応LLM「pplx-7b-online」
- アリババのチャットAI「Qwen-72B」公開
- Amazon Bedrock全LLMの日本語能力比較
- ChatGPTの1周年とオープンソースLLM進展
- LangChainの新記法「LCEL」入門
- 医療特化のオープンソースLLM「Meditron」
- GPU非搭載PCでも使える言語モデル実行環境「LM Studio」
- AWS関連
- ITの活用と未来
- その他技術・産業関連
- ニュース
2023/11/20~2023/11/26のTechニュースまとめ
- AIとデータ分析
- ITの活用と未来
- LLM関連
- OpenAI関連
- その他のテクノロジー
2023/11/13~2023/11/19のTechニュースまとめ
- OpenAIとLLM技術
- ITの活用と未来
- 生成AIとデータ分析
- グローバルニュースと政策
2023/11/6~2023/11/12のTechニュースまとめ
毎日のニュースピックアップはこちら
この週の主要な技術関連ニュースをまとめました。
- AI技術と開発
- 企業のAI戦略
- LLMの進展と応用
- データ保護と政策
- 新技術と製品
リンク
- 【Snowflake】 2023-11-07 “2023年10月にリリースされたSnowflakeの新機能・変更点のまとめ #SnowflakeDB” https://dev.classmethod.jp/articles/snowflake-latest-info-202310/
- 【OpenAI】 2023-11-07 “[速報]OpenAI DevDayの発表内容をまとめる!GPT VisionのAPI提供やGPT-4 turboのリリースなど | DevelopersIO”https://dev.classmethod.jp/articles/openai-devday-release-note/
- 【OpenAI】 2023-11-09 “OpenAI「GPT Builder」で何が作れるのか? 早くも発表当日・翌日に作られた「オリジナルGPT」5例を見てみた – BRIDGE(ブリッジ)テクノロジー&スタートアップ情報”https://thebridge.jp/2023/11/what-can-you-make-with-openais-gpt-builder-5-early-examples
- 【ITの活用と未来】【Git】 2023-11-09 “GitHub、Copilotの将来像となる「Copilot Workspace」発表。人間がコードを書くことなく、Copilotが仕様作成からコード作成、デバッグまで実行。GitHub Universe 2023”https://www.publickey1.jp/blog/23/githubcopilotcopilot_workspacecopilotcopilotgithub_universe_2023.html
- 【ITの活用と未来】 2023-11-11 “身につけるAI 新たな小型ウェアラブル「Humane Ai Pin」”https://www.watch.impress.co.jp/docs/news/1546294.html
- 【ニュース】【プロンプトエンジニアリング】 2023-11-07 イーロン・マスクの人工知能企業xAIがプロンプトエンジニアリング用統合開発環境「PromptIDE」を発表https://gigazine.net/news/20231107-xai-prompt-ide/
- 【ニュース】 2023-11-08 BaiduがHuaweiにAIチップを発注してNVIDIA製のチップから乗り換えていることが報じられるhttps://gigazine.net/news/20231108-baidu-ai-huawei-nvidia/
- 【ニュース】 2023-11-09 “SamsungがChatGPTのように会話やコードや画像を生成できる独自のAI「Samsung Gauss」を発表”https://gigazine.net/news/20231109-samsung-gauss/
- 【ニュース】 2023-11-09 “国民の暗号化された通信内容を政府が傍受可能にする条文がEUの新たな標準規則「eIDAS 2.0」に盛り込まれようとしている”https://gigazine.net/news/20231109-eu-eidas-spy-https-connections/
- 【その他】 2023-11-07 【EMの業務解剖・選考】候補者ジャーニーマップから面接官の選定まで。選考の効果最大化のためにEMができる6のことhttps://levtech.jp/media/article/column/detail_332/
- 【その他】2023-11-5 優秀なエンジニアをどう集めるべきか?日本で最も多くの「Kaggle Grandmaster」を抱えるRistの担当者に聞いた、エンジニアの採用と育成のヒントhttps://dime.jp/genre/1680162/
- 【AI・データ分析】【生成AI】 2023-11-06 不正競争防止法と個人情報保護法の観点で解説する、生成AIに関する情報管理・漏洩の法的問題https://levtech.jp/media/article/column/detail_330/
- 【ITの活用と未来】【LLM】 2023-11-06 【西田宗千佳のイマトミライ】NTT版LLM「tsuzumi」に見る国産LLMの意義と戦略https://www.watch.impress.co.jp/docs/series/nishida/1544492.html
- 【ITの活用と未来】 2023-11-05 イーロンマスクのxAIが新AIモデル「Grok」 「反抗的でリアルタイムな知識」https://www.watch.impress.co.jp/docs/news/1544485.html
- 【その他】 2023-11-06 全国銀行データ通信システムの障害に関する取り組みについてhttps://www.nttdata.com/global/ja/news/release/2023/110601/
2023/10/30~2023/11/5のTechニュースまとめ
毎日のニュースピックアップはこちら
この週の主要な技術関連ニュースをまとめました。
- AIとデータ分析:
- LLM
- 大規模言語モデルの活用技術
- AI、ML、DL、生成AI、LLMの歴史と課題
- メタ学習を用いた高度な生成AIの開発
- 約1.7万件のLLM論文のトレンド調査結果
- MacでのLLM実行方法
- LLMの網羅的評価分析
- KDDIやNTTによる大規模言語モデルの最適化と投資
- Stability AI Japanの新しい日本語LLMのリリース
- AWS
リンク
- 【AI・データ分析】 2023-10-31 2023年版「データサイエンティストスキルチェックリスト」が無料公開 生成AIの利活用スキルなどを追加https://www.itmedia.co.jp/news/articles/2310/31/news183.html
- 【AI・データ分析】 2023-11-03 P#NP予想からAI,機械学習の実装の方向性を考えるhttps://qiita.com/Q11Q/items/9c3ac4459b9be2fc32f7
- 【Mojo】 2023-10-30 Mojoプログラミング言語の特徴とは?将来性は?よく分かる入門資料まとめhttps://freelance.levtech.jp/guide/detail/1643/
- 【LLM】 2023-10-30 IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」https://speakerdeck.com/1never/ibis2023tiyutoriaru-da-gui-mo-yan-yu-moderuhuo-yong-ji-shu-nozui-qian-xian
- 【LLM】【生成AI】 2023-10-31 AI、ML、DL、生成AI、LLMの歴史と課題(記事作成中)https://qiita.com/mixtest/items/ed5ea67c1f207c5b7787
- 【LLM】【生成AI】 2023-10-30 従来の小さなニューラルネットワークでも「メタ学習」でChatGPTを凌駕するほど高度な生成AIができるとの報告、Nature誌https://aiboom.net/archives/57838
- 【LLM】 2023-11-01 約1.7万件におよぶLLM論文を調査した結果からわかる現在のLLM研究トレンド arXiv運営のコーネル大より発表https://aiboom.net/archives/58006
- 【LLM】2023-11-01 “MacでLocalでLLMを走らせるならLM Studioが楽。”https://qiita.com/ponnhide/items/b46a95228d0b832f1770
- 【LLM】2023-11-02 現時点でのLLMに対する網羅的な評価分析が行われましたhttps://aiboom.net/archives/58149
- 【LLM】 2023-11-02 大規模言語モデルを企業ごとに最適化 KDDIが数十億円規模投資https://www.itmedia.co.jp/news/articles/2311/02/news167.html
- 【LLM】 2023-11-01 NTT版LLM「tsuzumi」 図表読解、GPU不要の超軽量版もhttps://www.watch.impress.co.jp/docs/news/1543861.html
- 【LLM】 2023-11-02 サイバーエージェント、70億パラメータの日本語LLM 5万文字を一度に処理https://www.watch.impress.co.jp/docs/news/1544243.html
- 【LLM】 2023-11-02 大規模言語モデル「Phind」がコーディングにおいてGPT-4を上回るhttps://gigazine.net/news/20231102-phind-gpt-4/
- 【LLM】 2023-11-02 “日本語大規模言語モデル「Japanese Stable LM Beta」シリーズをリリースしました — Stability AI Japan”https://ja.stability.ai/blog/japanese-stable-lm-beta
- 【AWS】 2023-10-31 “AWSのセキュリティを学ぶためのコンテンツがまとめられた「AWS Ramp-Up Guide: Security, Identity and Compliance」を調べてみた”https://dev.classmethod.jp/articles/aws-ramp-up-guide-security-shirabetemita/
- 【AWS】 2023-11-01 “2023年10月くらいのAWS最新情報ブログとかをキャッチアップする – AWSトレンドチェック勉強会用資料”https://dev.classmethod.jp/articles/aws-trendcheck-202310/
2023/10/25~2023/10/29のTechニュースまとめ
毎日のニュースピックアップはこちら
2023年10月のテクノロジーニュースピックアップ!(できるだけ毎日更新)
——————————
この週の主要な技術関連ニュースをまとめました。
- LLM
- AI・データ分析
- ITの活用と未来
- プログラミング言語
- データツール
リンク
- 【LLM】 2023-10-25 LLMのプロンプト技術まとめhttps://qiita.com/fuyu_quant/items/157086987bd1b4e52e80
- 【LLM】 2023-10-25 マルチモーダルモデル(LMM)の中身についてわかりやすく説明しますhttps://qiita.com/xxyc/items/879fff638eb4b7acf65c
- 【LLM】【Databricks】 2023-10-28 DatabricksにおけるLLMOpshttps://qiita.com/taka_yayoi/items/10106bdc8c39b0582d63
- 【LLM】【LangChain】 2023-10-29 LLMアプリ開発を体系的に学ぶには最適の入門書「ChatGPT/LangChainによるチャットシステム構築[実践]入門」https://dev.classmethod.jp/articles/review-chatgpt-langchain-chatsystem/
- 【LLM】【Google】 2023-10-29 Googleから学ぶプロンプトエンジニアリングのTips集https://qiita.com/Shisa_07/items/9bfea139389fdb61605e
- 【AI・データ分析】 2023-10-25 機械学習で一度40個以上のモデルをトレーニングできるライブラリ:lazypredicthttps://qiita.com/xxyc/items/0fda6e9f5798af41266c–
- 【ITの活用と未来】2023-10-24 日本にも“社内GPT”の導入相次ぐ 日本マイクロソフトが語る最新動向https://www.itmedia.co.jp/news/articles/2310/24/news144.html
- 【Mojo】 2023-10-23 高速なPython互換言語「Mojo」のMac版登場、Appleシリコンにネイティブ対応。Pythonの9万倍、C言語に比肩する高速性https://www.publickey1.jp/blog/23/pythonmojomacapplepython9c.html
- 【dbt】 2023-10-23 “dbtのカンファレンスイベント『Coalesce 2023』基調講演オンライン視聴レポート #dbtCoalesce #Coalesce23”https://dev.classmethod.jp/articles/report-dbt-coalecse-2023-keynote/
- 【Python】 2023-10-26 新卒向け「テストコード」の研修資料 Sansanが無料公開 Python上でのテスト方法を解説https://www.itmedia.co.jp/news/articles/2310/26/news122.html
- 【その他】 2023-10-25 “「世界一流エンジニアの思考法」は強いエンジニアの習慣がいい感じに言語化されていてよかった件 – Lean Baseball”https://shinyorke.hatenablog.com/entry/how-world-class-engineers-think
2023/10/16~2023/10/22のTechニュースまとめ
毎日のニュースピックアップはこちら
2023年10月のテクノロジーニュースピックアップ!(できるだけ毎日更新)
——————————
この週の主要な技術関連ニュースをまとめました。
- 開発技術
- AI・データ分析の進展
- LLM関連
- ITの活用と未来
- その他の重要なニュース
リンク
- 2023/10/20 【開発技術】Java 21の概要 / outline of Java 21
- 2023/10/21 【AI・データ分析】Import を変更するだけで高速化!? Pandas 互換ライブラリ FireDucks を検証する
- 2023/10/21 【ニュース】さまざまなチャットAIを簡単にローカル環境で動かせるアプリ「Ollama」の公式Dockerイメージが登場
- 2023/10/20 【ニュース】“政府認定クラウドサービス”登録で開示される情報・されない情報 リスト入りを目指すときの注意点
- 2023/10/20 【AI・データ分析】State of AI Report 2023
- 2023/10/19 【LLM】AnthropicのAIチャット「Claude 2」、日本語に対応
- 2023/10/19 【LLM】LLMにナレッジグラフ(知識グラフ)を連携させることで、タスク遂行能力を大幅に向上させるフレームワーク『Graph Neural Prompting(GNP)』
- 2023/10/17 【Mojo】Pythonの高速スーパーセット「Mojo」がAppleシリコン搭載Macに対応間近。Windowsより先に
- 2023/10/17 【LLM】AlpacaEval の概要
- 2023/10/17 【AI・データ分析】PFN、深層学習専用チップを材料探索クラウドに実装
- 2023/10/17 【LLM】最近話題の マルチモーダルLLM まとめ
- 2023/10/16 【LLM】LLMのfinetuning手法「LoRA」について
- 2023/10/16 【ITの活用と未来】生成AIとクリエイターはどう共存するのか アドビが考える透明性と法律
- 2023/10/15 【ITの活用と未来】日本のスタートアップの現状と今後の展望
- 2023/10/14 【dbt】24時間365日動き続けるデータシステムの設計手法 : 「データ指向アプリケーションデザイン」実践編
- 2023/10/14 【AWS】Amazon Bedrock で使用できるモデル(LLM)仕様を比較・整理してみた
2023/10/9~2023/10/15のTechニュースまとめ
毎日のニュースピックアップはこちら
2023年10月のテクノロジーニュースピックアップ!(できるだけ毎日更新)
——————————
この週の主要な技術関連ニュースをまとめました。
- AI・データ分析の進展
- LLM関連の技術進歩
- 遺伝的アルゴリズムを用いた『Promptbreeder』の開発
- LLMが理解する世界モデルの可能性
- 画像分析を可能にするオープンソースLLM『LLaVA-1.5』の登場
- 企業と技術の動き
- 金融とITセキュリティ
- 新しい技術開発
リンク
- 2023/10/9 【AI・データ分析】ケモインフォマティクス入門書
- 2023/6/14 【ニュース】Mistral AI、大規模言語モデルと生成AIでOpenAIに対抗するため1億1300万ドルのシードラウンドを確保
- 2023/10/9 【ニュース】生成AI共通ルール作りへ 米IT企業が安全性確保など協力の意向
- 2023/10/9 【実践】構造方程式モデリング
- 2023/10/9 【LLM】プロンプトを遺伝的アルゴリズムで自動最適化するプロンプトエンジニアリング手法『Promptbreeder(プロンプトブリーダー)』
- 2023/10/10 【ニュース】Meta Quest 3は前世代のQuest 2から何が大きく変わったのか?見た目や装着感を比較してみたレビュー
- 2023/10/10 【ニュース】Microsoftはコード補完AIツール「GitHub Copilot」でユーザー1人あたり月額3000円近くの損失を出しているという報告
- 2023/10/10 【OpenAI】ChatGPTのアプリ収益が月間6億8000万円に到達するも伸びは鈍化
- 2023/10/10 【Google】Googleが生成AIを使用してさまざまなデータソースを横断的に検索できるVertex AI Searchの医療関係者向けの新機能を発表
- 2023/5/6 【AI・データ分析】Streamlit代替となる、データアプリを作成するためのオープンソースのフレームワーク・「Streamsync」
- 2023/10/10 【AI・データ分析】Streamlitのパフォーマンスに対処するフレームワークStreamsyncについて
- 2023/10/10 【AI・データ分析】ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント
- 2023/10/10 【LLM】LLMは「物事がどのように位置づけられ、時間がどのように進行するか」を理解する世界モデルを持つ可能性
- 2023/10/11 【ニュース】「全銀ネット」障害2日目、復旧のめど立たず 11行で振込遅延
- 2023/10/11 【ニュース】Googleアカウントで「パスキー」認証がデフォルトに、パスワードレスがさらに加速
- 2023/10/11 【ニュース】AMDがAIソフトウェア開発企業のNod.aiを買収、NVIDIAに対する競争力強化の狙いか
- 2023/10/11 【ニュース】日本主導による「ドローン衝突回避」の国際規格
- 2023/10/11 【LLM】画像分析機能を持つオープンソースLLM『LLaVA-1.5』登場。手持ちの画像を分析可能。GPT-4Vとの違い
- 2023/10/11 【AI・データ分析】ブラウザ版「Illustrator」、β版を一般公開 テキストからベクター画像を生成するAI機能も搭載へ
- 2023/10/11【AI・データ分析】 画像生成AI「Stable Diffusion XL」が簡単に使える「Fooocus」。便利な新機能が大量に出たのでまとめて紹介します
- 2023/10/11 【AI・データ分析】Adobeの画像生成AI「Firefly」のAIモデルが「Firefly Image 2 Model」など3モデルにアップデート、人間のレンダリングが向上しよりリアルな表現が可能に
- 2023/10/12 【ニュース】全銀ネット 遅れ出ていた振り込み処理もすべて完了 運営団体
- 2023/10/12 【ニュース】「修理する権利」を認める法律にカリフォルニア州知事が署名し2024年7月1日からカリフォルニア州で施行
- 2023/10/12 【その他】日立の人:データ分析の世界大会で3位 生涯現役めざすデータサイエンティスト
- 2023/10/12 【その他】LINEヤフーがリスキリング本格展開 未経験からITエンジニアに「テックアカデミー」
- 2023/10/12 【科学技術】NASAの探査機が回収した小惑星「ベンヌ」のサンプルに生物に不可欠な炭素と水が豊富に含まれていたことが明らかに
- 2023/10/12 【科学技術】脳を3Dプリンタで印刷、原料はヒトの細胞 マウスの脳に移植し正常に機能 英オックスフォード大が開発【研究紹介】
- 2023/10/12 【開発技術】Dockerがコードネーム「Docker Debug」発表 コンテナ内に任意のデバッグツール群を一括導入、効率的なデバッグを実現
- 2023/10/12 【開発技術】Docker、ビルドを約40倍高速にする次世代のDocker Buildを開発中 Mastodonのビルドが2時間25分→3分40秒に
- 2023/10/12 【開発技術】生成AIがDockerを使った開発の質問に答えてくれる「Docker AI」発表、Dockerfileのエラーなども修正。VSCode対応。DockerCon 23
- 2023/10/11 【LLM】LLMの開発は難しい?簡単?Stability AIの現場から (2023/10/11, W&B Fully Connected)
- 2023/10/12 【AI・データ分析】会話ロボ「Romi」、LLMで会話力アップした独自AI
- 2023/10/12 【ニュース】MicrosoftがVBScriptを段階的に廃止へ、マルウェアの配信をブロックするため
- 2023/10/12 【ニュース】Microsoftが国内初のAI・IoT拠点、企業のデジタル化支援
- 2023/10/12 【その他】「みんなにめちゃめちゃ嫌がられた」 “データドリブン行政”に向け庁内のあらゆるデータを棚卸 三重県のDX担当者に聞く苦悩と希望
- 2023/10/12 【LLM】LLMが真の推論能力を発揮するには時折「一時停止」させるのが重要との報告
- 2023/10/13 【ニュース】大手半導体メーカーのQualcommが全従業員の2.5%に相当する1200人超の従業員を解雇する予定
- 2023/10/13 【ニュース】Firefoxにプライバシーを保護しつつブラウザ使用状況を集めるシステム「Oblivious HTTP(OHTTP)」と「Distributed Aggregation Protocol(DAP)」が導入される予定
- 2023/10/13 【科学技術】人間の神経や骨格と結び付いて思い通りに操作可能&幻肢痛も軽減できる画期的な義手が開発される
- 2023/10/13 【開発技術】DockerがWebGPUを用いてGPUを抽象化、AI処理などGPUを使ったコンテナ化アプリのポータビリティを実現する技術を開発中。DockerCon 23
- 2023/10/13 【ニュース】CTC、rinnaと協業 企業専用生成AIの構築支援を拡充
- 2023/10/13 【AI・データ分析】移動家具ロボ「カチャカ」、LLM対応 ”リビング、ゴミ”でも命令理解
- 2023/10/13 【ニュース】アマゾンの衛星インターネット「Project Kuiper」試験衛星の打ち上げに成功
- 2023/10/13 【ニュース】AWS、MariaDBの最上位スポンサーになったと発表。なぜMariaDBの大口スポンサーに?
- 2023/10/13 【Google】Google、検索フォームからAI生成画像 文章の下書き依頼も
- 2023/10/13 【Google】Google検索バーからAI画像を生成できる「Search Generative Experience」が登場
- 2023/10/13 【ITの活用と未来】LINEヤフー、エンジニア業務に「GitHub Copilot」導入 対象者7000人 コーディングを最大2時間削減
- 2023/10/13 【LLM】LLMエージェントは同調圧力に弱く考えに固執する傾向があるため、ディベートでバイアスを和らげるのが重要との報告。導入ツールも公開
- 2023/10/12 【LLM】Flappy:AI統合を単純化するための言語学習モデル(LLM)エージェントSDK
- 2023/10/13 【AI・データ分析】ICCV 2023速報
- 2023/10/14 【ニュース】Meta Quest 3 アプリ開発ガイド
- 2023/10/14 【LLM】LLM推論のパフォーマンスエンジニアリング:ベストプラクティス
2023/10/2~2023/10/8のTechニュースまとめ
毎日のニュースピックアップはこちら
2023年10月のテクノロジーニュースピックアップ!(できるだけ毎日更新)
——————————
この週の主要な技術関連ニュースをまとめました。
- 科学技術とヘルスケア
- コロナワクチンに関係する技術でカリコ氏らがノーベル生理学・医学賞を受賞
- 量子ドットの発見でノーベル化学賞
- AI・データ分析の進展
- 開発技術の進展
- 企業とテクノロジーの動向
- ITの活用と未来
- LLM関連
リンク
- 2023/10/2 【科学技術】ノーベル生理学・医学賞にカリコ氏ら コロナワクチン開発 貢献
- 2023/10/2 【ニュース】【Apple】Appleは独自の検索エンジン「ペガサス(Pegasus)」を開発中で間もなくApp Storeに導入予定、アプリの検索機能だけでなくGoogle検索に取って代わる可能性も
- 2023/10/2 【ITの活用と未来】【Meta】「数十億人が使うAI」を目指すMeta Googleの“次”を固めるBing
- 2023/10/2 【LLM】LLMをより賢く使うための論文8選[2023年9月最新版]
- 2023/10/2 【AI・データ分析】大規模モデルを単一GPUで効率的に学習する方法
- 2023/10/3 【その他】プログラミング初心者がゲーム感覚で楽しく学べる無料サービス16選
- 2023/10/3 【科学技術】トコジラミを駆除する方法&自宅に持ち込まない予防法まとめ
- 2023/10/3 【開発技術】Reactベースのフレームワーク「Next.js 13.5」正式リリース。使用メモリ40%削減、ローカルサーバ起動の高速化など性能向上
- 2023/10/3 【開発技術】FigmaからコピペでWebサイトが完成! HTMLもCSSも書かないノーコードツール「STUDIO」がスゴすぎる
- 2023/10/2 【開発技術】Bunかる〜く触ってみた[Bunの実行, nodeとの比較]
- 2023/9/11 【開発技術】JavaScriptランタイム「Bun 1.0」正式リリース。Windows版もまもなく登場へ
- 2021/12/14 【dbt】データエンジニア界隈で話題のdbt(data build tool)のまとめ
- 2020/9/4 【dbt】データ変換処理をモダンな手法で開発できる「dbt」を使ってみた
- 2023/10/4 【科学技術】ノーベル化学賞「量子ドット」発見のアメリカの研究者ら3人に
- 2023/10/4 【ニュース】サイバーエージェント、ゲームとアニメのAI研究機関を新設 各制作フローで生成AIの活用法探求
- 2023/10/4 【AI・データ分析】無料でアニメ風イラストも実写風画像も簡単に生成できるMicrosoft公式機能がBingチャットに追加されたので使ってみた、OpenAIのDALL-E 3で超高精細な画像生成が可能
- 2023/10/2 【AI・データ分析】ChatGPT で Python プログラミング ケーススタディ:ケモインフォマティクス入門1
- 2023/10/3 【AI・データ分析】ChatGPT で Python プログラミング ケーススタディ:ケモインフォマティクス入門2
- 2023/10/4 【AI・データ分析】ChatGPT で Python プログラミング ケーススタディ:ケモインフォマティクス入門3
- 2023/10/5 【AI・データ分析】【Google】Pixel 8だけじゃない、Googleイベントで発表の生成AI機能まとめ
- 2023/10/5 【ITの活用と未来】AIを「空気の読めるパートナー」に NTTデータがインド企業と実証実験 ChatGPTで非定型業務を自動化
- 2023/10/6 【ITの活用と未来】【Microsoft】Microsoft、日本のAIガバナンスに関するレポート公開 「日本のリーダーシップを多くの国が期待」
- 2023/10/6 【Microsoft】リポジトリ全体のコーディング作業を一気に自動編集する生成AI「CodePlan」 米Microsoftが開発
- 2023/10/6 【OpenAI】ChatGPTを開発するOpenAIが独自のチップ開発へ動いていると報じられる
- 2023/10/6 【ニュース】【Amazon】Amazon、Starlink競合の「Project Kuiper」初衛星を10月6日に打ち上げ
- 2023/10/6 【AWS】AWSの“オンプレクラウド”って実際どうなの? ラックを日本初導入したNTTコムに話を聞く
- 2023/10/6 【ITの活用と未来】ChatGPTは「鉄の発明」よりも圧倒的にインパクトが大きい 経済崩壊レベルの「相当やばい現象」が起こり得る生成系AIの進化
- 2023/10/6 【AI・データ分析】拡散モデルに至るまでの画像生成AIについて解説をしてみた
2023/9/25~2023/10/1のTechニュースまとめ
毎日のニュースピックアップはこちら
2023年9月のおもしろいIT・AI・科学記事一覧(できるだけ毎日更新)
2023年10月のテクノロジーニュースピックアップ!(できるだけ毎日更新)
——————————
この週の主要な技術関連ニュースをまとめました。
- LLMとAI技術
- 開発技術の進展
- 企業とテクノロジーの動向
- 科学技術とヘルスケア
- ITの活用と未来
リンク
- 2023/9/25 【LLM】RAGのGが必要か不要かに関する一考察
- 2023/9/25 【開発技術】OSSコードリーディングのすゝめ
- 2023/9/25 【AWS】AWS アーキテクチャ図を書くときの 公式ルールをまとめてみた
- 2023/9/25 【ニュース】【Meta】Metaはさまざまな性格を持ったAIチャットボット「Gen AI Personas」を開発中、若者向けの「生意気なロボット」など
- 2023/9/25 【ITの活用と未来】シェアを拡大し続ける中国のAIユニコーン「iFLYTEK(科大訊飛)」。革新的な製品で見せるエドテックの未来
- 2023/9/25 【LLM】LLMを用いたLLMの自動評価について 〜可能性と注意点〜
- 2023/9/25 【ITの活用と未来】アマゾンとマイクロソフト、ビッグテックのAI戦略に見る「次のフェーズ」
- 2023/9/25 【LLM】GPT-4などのLLMをエージェントとして既存ゲームシステムに導入し、NPCをAI化するツール『MindAgent』登場
- 2023/9/24 【LLM】大規模言語モデルとナレッジグラフに関する研究
- 2023/9/26 【ニュース】SpotifyのPodcast、OpenAIの技術で本人の声での多言語吹き替えが可能に
- 2023/9/26 【AI・データ分析】安全に商用利用可能なAI画像生成サービス「生成AI by Getty Images powered by NVIDIA」をフォトストックサービスのGetty Imagesが発表
- 2023/9/25 【ニュース】【Amazon】Amazon、OpenAI競合のAnthropicに最大40億ドル投資 AWSでモデル開発
- 2023/9/26 【OpenAI】ついにChatGPTが「見る」「聞く」「話す」に対応、人間と同じように音声で会話したり写真の内容について質問したりできる
- 2023/9/26 【OpenAI】OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化
- 2023/9/27 【科学技術】「逆ワクチン」が多発性硬化症などの自己免疫疾患を治療し根絶できる可能性を示す
- 2023/9/27 【ITの活用と未来】日立、生成AIベンチャーと協業模索 年末に向け事業化目指す
- 2023/9/27 【ITの活用と未来】VTuberなら知っておきたい「ゲーム配信の著作権」 ガイドラインとの正しい向き合い方は? “切り抜き動画”にも注意点
- 2023/9/27 【ITの活用と未来】「AIが人類を支配したら?」が現実味を帯びてきた件 加速する“AIアライメント”議論の現在地
- 2023/9/27 【ITの活用と未来】【OpenAI】OpenAIのサム・アルトマンとiPhoneのデザイナーだったジョナサン・アイブが新AIハードウェアについて会合、ソフトバンクの孫正義も関与か
- 2023/9/27 【LLM】Open Interpreterのアップデート – 2023年9月26日
- 2023/9/27 【ITの活用と未来】映画の脚本をAI学習に流用する代わりに使用料を脚本家に払うことで暫定的な合意に至ったことがハリウッドのストライキ問題で明らかに
- 2023/9/28 【その他】ついに施行が始まるインボイス制度は何が利点で何が問題なのか?
- 2023/9/28 【科学技術】物質と対の性質を持つ「反物質」が重力に従って落ちることがCERNの実験で判明して反重力が否定される
- 2023/9/28 【LLM】PFNが生成AI新会社「Preferred Elements」設立へ 130億パラメータの和製LLMもオープンソースで公開
- 2023/9/28 【LLM】PFN、日英言語対応で世界トップレベルのLLM「プラモ」
- 2023/9/28 【LLM】本当にオープンソースのライセンスで利用&検証できる大規模言語モデル「Mistral 7B」が登場、「Llama 2 13B」や「Llama 1 34B」を上回る性能のAI開発が可能
- 2023/9/28 【ニュース】【Meta】MetaがLlama 2を基盤にしたチャットボットAI「Meta AI」を発表、スマホ・Quest 3・スマートサングラスからアクセスできて画像生成も可能
- 2023/9/28 【ITの活用と未来】ChatGPT商用利用時、規約上の注意点3つ|元ITエンジニアの弁護士が徹底解説
- 2023/9/29 【ITの活用と未来】AIビジョンのバイアス低減へ、ソニーとメタが新ツール
- 2023/9/29 【その他】教科書制作からYouTuberに転身し、ヒットを連発。人気チャンネル「ゲームさんぽ」の着眼点
- 2023/9/29 【OpenAI】ChatGPTの10ヶ月と開発トレンドの現在地
- 2023/9/29 【OpenAI】【Microsoft】Azure OpenAI Serviceの日本語記事まとめ
- 2023/9/29 【AWS】Amazon Bedrock正式リリースの公式ブログを日本語で簡潔にまとめました
- 2023/9/29 【AWS】Amazon Bedrockのモデル仕様やその料金について整理してみた
- 2023/9/30 【その他】【学生必見】メンターが見た学生向け夏インターン2023(ドコモハッカソン)の裏側
コメント