- 2024/5/31のピックアップ
- 2024/5/30のピックアップ
- 2024/5/29のピックアップ
- 2024/5/28のピックアップ
- 2024/5/27のピックアップ
- 2024/5/26のピックアップ
- 2024/5/25のピックアップ
- 2024/5/24のピックアップ
- 2024/5/23のピックアップ
- 2024/5/22のピックアップ
- 2024/5/21のピックアップ
- 2024/5/20のピックアップ
- 2024/5/19のピックアップ
- 2024/5/18のピックアップ
- 2024/5/17のピックアップ
- 2024/5/16のピックアップ
- 2024/5/15のピックアップ
- 2024/5/14のピックアップ
- 2024/5/13のピックアップ
- 2024/5/12のピックアップ
- 2024/5/11のピックアップ
- 2024/5/10のピックアップ
- 2024/5/9のピックアップ
- 2024/5/8のピックアップ
- 2024/5/7のピックアップ
- 2024/5/6のピックアップ
- 2024/5/5のピックアップ
- 2024/5/4のピックアップ
- 2024/5/3のピックアップ
- 2024/5/2のピックアップ
- 2024/5/1のピックアップ
2024/5/31のピックアップ
【ニュース】 2024-05-31 10:13:00 Disrupting deceptive uses of AI by covert influence operations https://openai.com/index/disrupting-deceptive-uses-of-AI-by-covert-influence-operations/
OpenAI は、AI 生成コンテンツの悪用を防ぐとともに、透明性を向上させることに尽力しています。特に、真の主体や意図を隠して世論操縦や政治的影響力を行使しようとする、隠れた影響力操作(IO)への対策に力を入れています。
この3か月間で、OpenAI は5つの隠れた IO を阻止しました。これらの IO キャンペーンは、OpenAI のサービスを利用しても、観客を増やすことができていません。
この記事では、阻止した脅威主体、検知した攻撃者動向、重要な防御対策を説明しています。多くの場合、安全性を念頭に置いて設計された AI モデルのおかげで、攻撃者が望むコンテンツの生成を防ぐことができました。また、AI ツールを活用することで、自社の調査も効率化できました。
- ロシア発の「Bad Grammar」:Telegramを主なプラットフォームとし、ウクライナ、モルドバ、バルト諸国、米国を対象とした。
- 「Doppelganger」:Xや9GAGでコメントを生成し、ニュース記事をFacebook投稿に変換。
- 中国の「Spamouflage」:複数のプラットフォームで活動し、公開ソーシャルメディアの調査やテキスト生成を行った。
- イランの「International Union of Virtual Media (IUVM)」:長文記事やヘッドラインを生成し、関連ウェブサイトに投稿。
- イスラエルの商業会社「STOIC」:記事やコメントを生成し、Instagram、Facebook、Xなどに投稿。
攻撃者動向として、AI モデルを使ってテキストや画像を大量に生成し、また、従来の手法と組み合わせることで、より効率的に活動していることが分かりました。一部の攻撃グループは、AI で自社のコンテンツへの反応を作り出そうとしていました。
一方で防御面では、安全性を考慮したモデル設計により、攻撃者の意図したコンテンツの生成を阻止できました。また、自社の AI ツールを使って迅速に調査を行うことができました。さらに、プラットフォームやオープンソースコミュニティとの情報共有も重要でした。
AI の悪用を阻止するには、技術的な取り組みだけでなく、関係者全体で連携していくことが不可欠です。OpenAI は今後も責任あるAI開発に尽力し、デマ行為への対策を続けていきます。
——————————–
【音楽生成AI】 2024-05-31 13:25:46 AI作曲サービスは「長さ」の戦いに。Udioが2分10秒の生成に対応、Sunoは全ユーザーに4分生成を開放(CloseBox) | テクノエッジ TechnoEdge https://www.techno-edge.net/article/2024/05/31/3420.html
——————————–
【ニュース】 2024-05-31 15:33:00 Introducing ChatGPT Edu https://openai.com/index/introducing-chatgpt-edu/
OpenAIは、大学向けのAIアシスタント「ChatGPT Edu」を発表しました。これは、GPT-4oを基盤としたChatGPTの大学向けバージョンで、学生、教員、研究者、そしてキャンパス全体の業務をサポートするものです。企業レベルのセキュリティと管理機能を備え、教育機関にとって手頃な価格設定となっています。
これは、オックスフォード大学、ペンシルベニア大学ウォートンスクール、テキサス大学オースティン校、アリゾナ州立大学、コロンビア大学などの大学で、ChatGPT Enterpriseを活用し成功を収めていることを受けて開発されました。
キャンパスでのChatGPTの活用例として、学生への個別指導やレジュメの添削、研究者の助成金申請の支援、教員の採点・フィードバックの補助などが挙げられます。
——————————–
【ニュース】 2024-05-31 16:00:59 AMD、Intel、MicrosoftなどがAIチップ向けのオープン接続規格策定。NVIDIA対抗か https://pc.watch.impress.co.jp/docs/news/1596434.html
——————————–
【その他】 2024-05-31 16:15:00 「どの生成AIに課金すべき?」を見極めるためにAI検索サービスに課金するという方法 https://www.itmedia.co.jp/news/articles/2405/31/news158.html
——————————–
【スキルアップ】 2024-05-31 17:15:37 Microsoft、「VS Code」ベースの無料コンピュータサイエンス教育環境を公開/多彩なコースとアクセシビリティ機能もビルトイン https://forest.watch.impress.co.jp/docs/news/1596452.html
——————————–
【国内ニュース】 2024-05-31 19:16:02 内閣府の「ぷらっとば~す」早期終了、システム不具合で 期間限定で登場した孤独・孤立対策用メタバース https://www.itmedia.co.jp/news/articles/2405/31/news188.html
——————————–
【技術解説】 2024-05-31 20:21:17 生成AIによる「慣用表現の『乗っ取り』」と、その根底にある別の問題と – 渋谷駅前で働くデータサイエンティストのブログ https://tjo.hatenablog.com/entry/2024/05/31/171000
——————————–
【ニュース】 2024-05-31 23:00:00 MozillaがFirefoxのバージョンアップ予定を発表、「ローカルで動作するAI」や「セキュリティ強化」がテーマに https://gigazine.net/news/20240531-mozilla-firefox-new-features/
——————————–
【ニュース】 2024-05-31 23:29:44 DMM、482億円相当のビットコインが不正流出 https://www.watch.impress.co.jp/docs/news/1596639.html
2024/5/30のピックアップ
【AIと人間の未来】 2024-05-30 04:53:00 How Far Are We From AGI https://arxiv.org/abs/2405.10313
人工知能(AI)の進化は人類社会に大きな影響を及ぼし、様々な分野での大きな進歩を生み出してきました。しかし、AIに対するニーズの高まりは、現在のAIの限界を浮き彫りにし、汎用人工知能(AGI)への移行を促進しています。
AGIは、人間の知性に匹敵する効率性と有効性で、様々な現実世界の課題を解決できる能力を持つことが特徴です。これは、AI進化における重要なマイルストーンを示しています。これまでの研究では、特定の最新のAI進歩を要約してきましたが、AGIの定義、目標、および開発経路についての包括的な議論が欠けていました。
本論文では、既存の調査論文とは異なり、AGIに到達する近接性と実現のための戦略について、詳細な調査、議論、および独自の視点を提示しています。まず、AGIに必要な能力フレームワークを、内部、インターフェース、システムの3つの側面から整理しています。AGIの実現には、より高度な能力と厳格な制約への準拠が必要であるため、AGIアラインメント技術についても議論しています。
さらに、AGIの進化レベルを定義し、現状を評価する枠組みを示し、AGIの頂点に到達するためのロードマップを提示しています。さらに、AIとの融合による幅広い影響について、複数の分野における課題と可能性のあるアプローチを概説しています。
——————————–
【LLM新技術】 2024-05-30 08:00:00 TinyAgent: Function Calling at the Edge http://bair.berkeley.edu/blog/2024/05/29/tiny-agent/
LLMを用いてユーザークエリをツールのセットを組み合わせて実行するエージェントシステムが可能になりつつあります。
現在の大規模モデルは計算資源が多く、クラウドでの推論が必要ですが、これにはプライバシーの問題や安定した接続の必要性、遅延の問題があります。
ローカルでのLLMの展開はこれらの問題を解決するが、現行のモデルは大きすぎてローカルデプロイに不向きです。
小型言語モデル(SLM)を使用して、効率的でプライバシー保護されたエッジデプロイメントが可能か研究を進めています。
特化された高品質データでトレーニングすることで、小型モデルでも高度な推論を可能にすることができます。
Siriのようなアプリケーションでは、LLMが関数を呼び出す計画を立て、ツールを適切にオーケストレーションすることが重要です。
高品質なデータセットを作成し、TinyLlama-1.1BやWizard-2-7Bの小型モデルをファインチューニングすることで、これらのモデルがGPT-4-Turboを超える性能を発揮しました。
Tool RAGという手法でユーザークエリに基づいて必要なツールを選択し、プロンプトサイズを最適化することで、効率的な推論が可能になりました。
モデルの量子化により、メモリ使用量と推論遅延をさらに減少させることができました。
最終的に、TinyAgent-1.1BモデルをMacbook Pro M3でローカルにデプロイし、音声入力も処理できるようにしました。
——————————–
【ニュース】 2024-05-30 10:45:00 OpenAI、老舗メディアThe AtlanticおよびThe Vergeの親会社Vox Mediaともライセンス契約 https://www.itmedia.co.jp/news/articles/2405/30/news107.html
——————————–
【技術解説】 2024-05-30 11:03:47 話題のLLMローコード構築ツールDifyをAWSのマネージドサービスで構築してみた – エムスリーテックブログ https://www.m3tech.blog/entry/dify-aws
——————————–
【新サービス】 2024-05-30 11:50:09 ChatGPT、無料ユーザーも「GPT-4o」を利用可能に https://www.watch.impress.co.jp/docs/news/1595923.html
——————————–
【技術解説】 2024-05-30 12:08:25 “大は小を兼ねない”生成AI 注目集める「小規模言語モデル」(SLM) そのメリットとは? https://www.itmedia.co.jp/aiplus/articles/2405/30/news046.html
——————————–
【技術解説】 2024-05-30 12:56:29 入力線画を全く変えずに画像生成AIに色塗りさせる方法 https://zenn.dev/mattyamonaca/articles/f3320e0e170d80
——————————–
【新サービス】 2024-05-30 13:45:00 Codestral: Hello, World! https://mistral.ai/news/codestral/
MistralAI初のコード生成専用モデルであり、コード生成タスク向けに設計されたオープンウェイト生成AIモデルです。コードの生成、テスト、部分的なコードの補完を行い、開発者の作業を効率化します。
Python、Java、C、C++、JavaScript、Bashなどの人気言語から、Swift、Fortranといった特定の言語まで対応。幅広い言語に対応することで、さまざまなコーディング環境やプロジェクトに役立ちます。
22Bモデルとして、性能/遅延のスペースで新しい基準を設定。32kのコンテキストウィンドウにより、長距離コード生成の評価であるRepoBenchで他のモデルを上回る性能を発揮します。
Python、SQL、他の言語におけるベンチマークを行い、複数の評価基準で他のモデルと比較し、優れたパフォーマンスを示しました。
Pythonのコード生成能力を評価するために、HumanEval pass@1、MBPP sanitised pass@1、CruxEval、RepoBench EMを使用。SQLではSpiderベンチマークを使用。
Codestralは22Bのオープンウェイトモデルで、新しいMistral AI非生産ライセンスの下で提供され、研究やテスト目的で使用可能。HuggingFaceからダウンロード可能です。
新しいエンドポイントcodestral.mistral.aiを提供し、8週間のベータ期間中に無料で利用可能。
通常のAPIエンドポイントapi.mistral.aiでも利用可能で、研究、バッチクエリ、サードパーティアプリケーションの開発に適しています。
Codestralの指示バージョンは無料の対話インターフェースLe Chatで利用可能です。自然で直感的な対話が可能です。
CodestralはLlamaIndex、LangChainに統合され、VSCodeやJetBrains環境でも使用可能。Continue.devやTabnineのプラグインを利用して、VSCodeでのコード生成や対話が可能です。
Continue.dev、JetBrains、Tabnine、Sourcegraph、LlamaIndex、LangChainの各リーダーから高評価を受けています。
——————————–
【ニュース】 2024-05-30 15:52:00 タリーズに不正アクセス 個人情報漏えいの恐れも https://www.itmedia.co.jp/news/articles/2405/30/news155.html
——————————–
【開発技術】 2024-05-30 15:58:17 デジタル庁デザインシステムβ版 https://design.digital.go.jp/
——————————–
【国内ニュース】 2024-05-30 16:56:00 Yahoo!知恵袋、「AI回答機能」にClaude 3を追加 「2種類の生成AIによる回答がつく」 https://www.itmedia.co.jp/news/articles/2405/30/news163.html
——————————–
【技術解説】 2024-05-30 16:59:50 大規模言語モデルの開発 https://speakerdeck.com/chokkan/jsai2024-tutorial-llm
2024/5/29のピックアップ
【画像生成AI】 2024-05-29 04:30:00 Controlled diffusion model can change material properties in images https://news.mit.edu/2024/controlled-diffusion-model-can-change-material-properties-images-0528
画像素材の特性を操作できるシステム「Alchemist」が開発されました。Alchemistは、MIT CSAILとGoogleのResearchチームによって開発されたものです。Alchemistは、画像内のオブジェクトの4つの材質特性(粗さ、金属感、アルベド(基本色)、透明度)を連続的に調整できる機能を持っています。
この技術の背景にあるのは、テキストから画像を生成するStable Diffusion 1.5というモデルです。従来のディフュージョンシステムでは、ある画像から別の画像を生み出すことはできましたが、今回のAlchemistはより詳細な素材特性の変更を可能にしています。たとえば、写真の金属感を簡単に変更できるといった具合です。
Alchemistの応用範囲は広く、ゲームのモデル調整、VFXの微調整、ロボット用トレーニングデータの多様化などが期待されています。具体的には、ゲームのテクスチャを簡単に調整できるようになり、VFXでも細かい素材感を容易に変更できるようになります。またロボットの学習データに様々な素材特性が含まれるようになり、よりリアルな把握動作の習得が可能になります。
Alchemistは、大規模ディフュージョンモデルの特性を活かしつつ、詳細な材質コントロール機能を提供しています。これにより、プロのクリエイターやデザイナーにとって大きな価値を生み出すことが期待されています。今後は、さらなる性能向上や3Dシーンレベルでの適用などの課題に取り組むとのことです。
——————————–
【LLM新技術】 2024-05-29 05:13:00 Are Long-LLMs A Necessity For Long-Context Tasks? https://arxiv.org/abs/2405.15318
この論文では、長文 LLM (Large Language Model) の学習と展開が未だ課題であることを指摘しています。そして、一般的な長文文脈タスクは短文コンテキストでも解決可能であるという主張がなされています。その上で、LC-Boost (Long-Context Bootstrapper) と呼ばれるフレームワークが提案されています。
LC-Boostでは、短文 LLM が2つの重要な決定を自ら行います。1つ目は、入力内の適切な文脈部分にアクセスする方法を見つけることです。2つ目は、アクセスした文脈を効果的に活用する方法を見つけることです。このようにアダプティブにコンテキストにアクセスし活用することで、LC-Boostは長文文脈処理問題に一般的に対応できるフレームワークとなります。
評価では、人気の長文文脈ベンチマークから様々なタイプのタスクを検討し、LC-Boostが著しい性能向上を示しつつ、リソース消費も大幅に削減できることが確認されています。
——————————–
【ニュース】 2024-05-29 08:53:00 OpenAIを「限界点に達した」と退社したライケ氏、競合Anthropicで安全チーム結成へ https://www.itmedia.co.jp/news/articles/2405/29/news093.html
——————————–
【新サービス】 2024-05-29 09:00:00 Benchmarking Text Generation Inference https://huggingface.co/blog/tgi-benchmarking
テキストの生成プロセスを理解し、それを最適化するためのツールは重要です。ここでは、Hugging Face の Text Generation Inference (TGI) というツールを紹介し、その中のベンチマーキング機能について解説しています。
LLM (Large Language Model) は本質的に非効率であり、単一トークンの生成には新たな順伝播計算が必要となります。LLMのサイズが大きくなり、企業での利用が増えるに従って、様々な最適化技術が開発されてきました。Flash Attention、Paged Attention、ストリーミング応答、バッチ処理の改善、量子化、高速化言語の採用など、多岐にわたる工夫がなされています。しかし、これらの高速・効率的な実装には専門的なスキルが必要です。
TGI はHugging Faceが開発したLLMのための高性能推論サーバーで、最新の技術を取り入れています。TGIには、ベンチマーキングツールが組み込まれており、レイテンシーとスループットのトレードオフを理解することができます。
ベンチマーキングツールは、プリフィルとデコーディングの2つのステージを分析します。プリフィルは単一の順伝播計算でトークンを生成しますが、デコーディングは複数のステップを必要とします。ツールではバッチサイズを変えながら、レイテンシーとスループットのグラフを描くことができます。垂直のグラフ形状は、バッチサイズを増やせばスループットを向上できることを示しています。一方、水平のグラフ形状は、計算リソース制限によりレイテンシーが悪化することを意味しています。
このようにベンチマーキングツールを使うことで、用途に合わせた最適な設定を見つけることができます。ユーザ数を最大化したい場合はスループットを、ユーザ体験を重視する場合はレイテンシーを優先するなど、状況に応じた最適化が可能になります。
——————————–
【新サービス】 2024-05-29 09:44:00 Microsoft、「Copilot for Telegram」のβ提供開始 日本語もOK https://www.itmedia.co.jp/news/articles/2405/29/news094.html
——————————–
【AI新技術】 2024-05-29 13:00:00 Looking for a specific action in a video? This AI-based method can find it for you https://news.mit.edu/2024/ai-based-method-can-find-specific-video-action-0529
ビデオ動画から特定の行動を見つけるのは難しい問題であり、従来のAIアプローチでは手作業でアノテーションされた大量のビデオデータを必要としていました。しかし、MIT とMIT-IBM Watson AI Labの研究者たちは、ビデオとそれに付随するテキストトランスクリプトのみを使って、この問題に取り組む新しい手法を開発しました。
この手法では、まず、ビデオ全体の流れを理解する「グローバル表現」と、ビデオの特定の領域に焦点を当てる「ローカル表現」の2つの側面を学習します。そして、これらを組み合わせることで、ビデオ内の行動をより正確に特定できるようになります。また、研究チームは新しいベンチマークデータセットを作成し、従来のAIアプローチよりも優れた性能を示すことができました。
さらに、この手法は、オンラインの学習や仮想トレーニングプロセスの効率化、診断映像の迅速な分析など、様々な応用が期待されています。AIのビデオ理解技術はまだ発展途上ですが、この研究は重要な一歩を踏み出したと評価されています。
今後の課題としては、テキストとビデオの間の非整合性に対処する機能の追加や、音声データの活用などが挙げられています。AIによるビデオ理解技術の進化は、様々な分野での応用が期待されており、この研究成果は大きな意義を持つものと考えられます。
——————————–
【国内ニュース】 2024-05-29 13:58:00 日本IBM、国内のAWS特化SIerを買収 狙いは https://www.itmedia.co.jp/news/articles/2405/29/news127.html
AWSなどでのシステム開発を手掛けるスカイアーチネットワークス(東京都港区)の買収に向けた最終契約を締結
——————————–
【AIと法律・規制】 2024-05-29 19:21:58 テキスト生成AI利活用におけるリスクへの対策ガイドブック(α版)|デジタル庁 https://www.digital.go.jp/resources/generalitve-ai-guidebook
——————————–
【技術解説】 2024-05-29 20:26:14 AI搭載エディタCursorの紹介と機械学習コンペでの使用レビュー https://speakerdeck.com/k951286/aida-zai-eteitacursornoshao-jie-toji-jie-xue-xi-konhetenoshi-yong-rehiyu
——————————–
【ニュース】 2024-05-29 20:50:31 iPhoneにマイナンバー機能 首相、アップル社と合意へ(共同通信) – Yahoo!ニュース https://news.yahoo.co.jp/articles/33bb96b022997e2b6d89a4e6ce4586034110e9a7
——————————–
【AWS】 2024-05-29 22:18:15 Best practices for using the Terraform AWS Provider – AWS Prescriptive Guidance https://docs.aws.amazon.com/prescriptive-guidance/latest/terraform-aws-provider-best-practices/introduction.html
本文は、Terraformプロバイダーの概要と、AWSプロバイダーを使用した複数のAWSアカウントおよびリージョンにまたがるAmazon RDSデータベースの管理方法について説明しています。
Terraformプロバイダーとは、TerraformがさまざまなAPIと対話できるようにするプラグインのことです。AWSプロバイダーは、TerraformでAWSインフラストラクチャをコード化して管理するための公式のプラグインです。このプロバイダーは、TerraformのシンタックスをAWSのAPIコールに変換し、AWS リソースの作成、読み取り、更新、削除を行います。
AWSプロバイダーは、認証、TerraformシンタックスのAWSのAPIコールへの変換、AWS上のリソースのプロビジョニングを担います。Terraformのプロバイダーコードブロックを使用して、AWSのAPIとやり取りするためのプロバイダープラグインを設定します。複数のAWSプロバイダーブロックを設定することで、異なるAWSアカウントやリージョンのリソースを管理できます。
本文の例では、us-west-1リージョンの主データベースと、us-east-1リージョンのレプリカデータベースを持つAmazon RDSデータベースの設定方法を示しています。主プロバイダーとレプリカプロバイダーでは、異なるIAMロールを使用しています。
主プロバイダーは、us-west-1リージョンに設定されており、aliasは”primary”です。レプリカプロバイダーは、us-east-1リージョンに設定されており、aliasは”replica”です。レプリカプロバイダーでは、レプリカアカウントのIAMロールを引き受けるために、assume_roleブロックを使用しています。
aws_db_instance.primaryリソースは、主プロバイダーを使用して主データベースを作成します。aws_db_instance.read_replicaリソースは、レプリカプロバイダーを使用してレプリカデータベースを作成します。レプリカデータベースは、主データベースのIDを参照して、レプリケーションされます。
2024/5/28のピックアップ
【スキルアップ】 2024-05-28 06:56:57 【特集】 知っ得!企業トップのAI活用法。日本マイクロソフト社長のCopilotの使い方がすごく勉強になる https://pc.watch.impress.co.jp/docs/topic/feature/1594733.html
——————————–
【RAG】 2024-05-28 08:10:14 オープンソースのRAGアプリ「RAGFlow」を試す https://zenn.dev/kun432/scraps/5b8547c6aa1c95
——————————–
【LLMの活用】 2024-05-28 05:28:00 Large language models can be zero-shot anomaly detectors for time series? https://arxiv.org/abs/2405.14755
最近の研究により、大規模言語モデルは時系列予測など様々なタスクを実行できることが示されてきました。この論文では、大規模言語モデルを用いた時系列異常検知についての新しい研究結果が提示されています。
時系列異常検知には2つの新しい要素があります。1つは、入力シーケンスの一部または複数の部分が異常であると識別する必要があることです。もう1つは、従来のテキストデータではなく時系列データを扱う必要があることです。
論文では、sigllmと呼ばれる時系列異常検知のための大規模言語モデル活用フレームワークが提案されています。このフレームワークには、時系列データをテキストに変換するモジュールと、大規模言語モデルを用いて時系列異常検知を行う端から端までのパイプラインが含まれています。
大規模言語モデルの異常検知能力を評価するために、2つのパラダイムが検討されています。1つ目は、プロンプトベースの検知手法で、言語モデルに直接入力の異常部分を指摘させる方法です。2つ目は、言語モデルの予測能力を活用して異常検知プロセスを誘導する手法です。
11のデータセットと10種類のパイプラインを使って評価した結果、予測ベースの手法がプロンプトベースの手法よりもF1スコアが高いことが示されました。また、大規模言語モデルは異常を検出できますが、最先端の深層学習モデルのパフォーマンスはそれよりも30%優れていることも明らかになりました。
つまり、この研究は大規模言語モデルを用いた時系列異常検知の新しい可能性を示しつつ、現状では深層学習モデルがより優れていることを明らかにしたものと言えます。今後の研究によりこの分野での大規模言語モデルの活用がさらに進むことが期待されます。
——————————–
【新サービス】 2024-05-28 09:00:00 Training and Finetuning Embedding Models with Sentence Transformers v3 https://huggingface.co/blog/train-sentence-transformers
Sentence Transformersは、幅広い応用分野(検索強化型生成、セマンティック検索、セマンティック類似性判定、パラフレーズ抽出など)に対応する文章埋め込みモデルのPythonライブラリです。v3.0のアップデートは大規模なもので、新しい学習アプローチを導入しています。
モデルの微調整(ファインチューニング)には、以下のコンポーネントが必要です:
1. データセット: Hugging Faceのデータセットリポジトリや、CSVやJSONなどのローカルデータを使用可能です。データフォーマットは損失関数に合わせて調整が必要です。
2. 損失関数: モデルの性能を定量化し、最適化過程を導くための関数です。代表的なものにCoSENTLoss、AngleLoss、CosineSimilarityLossなどがあります。
3. 学習引数: 学習性能や結果の記録・デバッグに影響する各種パラメータです。
4. 評価器: 学習前後や学習中にモデルの性能を評価するためのツールです。EmbeddingSimilarityEvaluatorやTripletEvaluatorなどが用意されています。
5. トレーナー: モデル、データセット、損失関数、その他コンポーネントを統合して学習を行うクラスです。
また、複数のデータセットを同時に使った学習も可能で、MultipleNegativesRankingLossやCoSENTLoss、Softmax Lossなどの損失関数を組み合わせて使えます。
全体として、Sentence Transformersv3は文章埋め込みモデルの高度な学習を簡単に行えるよう設計された強力なライブラリであると言えます。具体的なデータやライブラリ名、関数名なども適切に記述しています。
——————————–
【科学技術】 2024-05-28 09:19:27 Controlled pathways and sequential information processing in serially coupled mechanical hysterons https://www.pnas.org/doi/10.1073/pnas.2308414121
材料科学の観点から見ると、本文は、ある種の「フラストレーションのある材料」に着目しています。この材料は、いくつかの「メタ安定な状態」を順番に経由しながら進化していきます。この過程では、「ヒステロン」と呼ばれる材料の基本単位が反転していくことが重要な役割を果たします。
ヒステロン同士の相互作用を理解し、制御することが、この複雑な過程を理解し、目的に沿った材料設計につなげるための鍵となります。本研究では、ヒステロンが直列に配置された場合に、幾何学的な機構によって、反強磁性的な相互作用が生じることを見出しています。
この知見を活かして、ヒステロン間の相互作用を制御した「メタマテリアル」を作製しました。その結果、「計数」、「パターン生成」、「パターン認識」といった、情報処理に関連した機能を実現することができました。この成果は、材料そのものが情報処理を行うという、新しい概念につながるものです。
具体的には、このようなヒステロン間の強い相互作用を持つ材料の応答は、「有限状態機械」によって記述できることを明らかにしています。そして、文字列解析といった情報処理操作を、実際の物質中で実現することに成功しました。
本研究は、ヒステロン間の相互作用を理解し制御する一般的な手法を提供するものであり、材料そのものによる情報処理への道を開くものといえます。今後、この分野のさらなる発展が期待されます。
——————————–
【国内ニュース】 2024-05-28 10:11:00 複数の生成AI悪用しウイルス作成 容疑の25歳無職男を逮捕、被害は確認されず https://www.itmedia.co.jp/news/articles/2405/28/news092.html
——————————–
【ニュース】 2024-05-28 11:10:00 中国が国内の半導体産業振興のため7兆円以上を出資 https://gigazine.net/news/20240528-china-fund-to-boost-semiconductor-sector
——————————–
【ニュース】 2024-05-28 11:25:00 Introducing adaptive audio in Google Meet: creating ad-hoc meeting spaces with multiple laptops https://workspaceupdates.googleblog.com/2024/05/google-meet-adaptive-audio.html
アダプティブオーディオ機能は、ルーム内の複数のノートパソコンを自動的に検出し、マイクとスピーカーを同期させることで、seamlessなオーディオ体験を提供します。これにより、1台のノートパソコンを囲むように集まる必要がなくなり、気軽に打ち合わせスペースを作れるようになります。
特に重要なのは、アダプティブオーディオ機能によって、ミーティングルームが使えない場合や、ミーティングルームの機器が故障した場合、小規模な組織でビデオ会議の設備がない場合でも、ミーティングに参加できるようになることです。また、ラウンジやカフェなど、これまでは会議スペースとしては適切ではないと考えられていた場所でも、ミーティングを行えるようになります。
各参加者のマイクとスピーカーが使われ、誰もが良好に聞き取れ、良好に聞こえるようになります。
同じ部屋から複数の参加者がミーティングに参加する場合、「アダプティブオーディオ」が自動的に有効化されます。Google Meetは、オーディオが統合され、参加者がピープルパネルでグループ化されます。
管理者の方:この機能に対する管理者設定はありません。
エンドユーザーの方:この機能はデフォルトで有効化されていますが、設定>オーディオ>アダプティブオーディオから無効化できます。アダプティブオーディオの使い方については、ヘルプセンターをご確認ください。
——————————–
【ニュース】 2024-05-28 16:00:00 Amazonで代引きが利用不可に 6月6日から https://www.itmedia.co.jp/news/articles/2405/28/news158.html
——————————–
【ニュース】 2024-05-28 18:51:00 SLIMの電波確認できず──3度の“越夜”に成功も「いよいよ影響が現れた可能性」 6月に再挑戦 https://www.itmedia.co.jp/news/articles/2405/28/news181.html
——————————–
【技術解説】 2024-05-28 19:09:47 クラウド時代のデータベースを理解するために① https://zenn.dev/tzkoba/articles/b0b306c3f41d1e
2024/5/27のピックアップ
【その他】 2024-05-27 08:20:00 モバイルバッテリーのトレンドをアンカーに聞く 小型・ワイヤレス・PC充電 https://www.watch.impress.co.jp/docs/topic/1593060.html
——————————–
【国内ニュース】 2024-05-27 12:29:45 「パスワードは定期変更の必要なし」総務省が国民向けサイトで正式見解【やじうまWatch】 https://internet.watch.impress.co.jp/docs/yajiuma/1594829.html
——————————–
【ニュース】 2024-05-27 15:40:00 イーロン・マスク氏のAI企業xAI、60億ドル調達 「最初の製品を投入する」 https://www.itmedia.co.jp/news/articles/2405/27/news124.html
——————————–
【LLM新技術】 2024-05-27 15:40:45 AIOS Compiler: LLM as Interpreter for Natural Language Programming and Flow Programming of AI Agents https://arxiv.org/abs/2405.06907
プログラミング言語は時間とともに、読みやすさと初心者への障壁が低くなる傾向にあります。この流れの中で、自然言語がプログラミング言語として有望視されています。自然言語は柔軟性と使いやすさが高く、プログラミングの民主化にも役立つ可能性があります。しかし、自然言語の曖昧性、多義性、冗長性は、プログラミング論理を正確に理解し命令を実行できるインタプリタの開発に大きな課題をもたらします。
幸いにも、近年の大規模言語モデル(Large Language Model: LLM)の発展により、複雑な自然言語を解釈する優れた能力が示されています。これを受けて、我々はLLMをインタプリタとして活用したCode Representation and Execution (CoRE)システムを開発しました。本システムでは、LLMがインタプリタの役割を果たし、自然言語の命令を解釈して実行します。
CoREでは、自然言語プログラミング、擬似コードプログラミング、フロープログラミングを同一の表現で統一し、言語エージェントの構築を可能にしています。プログラムの実行時には外部メモリを活用し、冗長性を最小限に抑えています。さらに、LLMの限界を補うため、外部ツールを呼び出す機能も備えています。
具体的には、CoREではLLMをインタプリタとして活用し、自然言語の命令を解釈・実行しています。LLMのパフォーマンスは著しく向上しており、複雑な自然言語入力を精度良く処理できるようになっています。また、外部メモリの活用とツールの呼び出しにより、LLMの弱点を補完しています。
——————————–
【国内ニュース】 2024-05-27 20:20:00 Canvaがいらすとやと連携 日本向けの機能強化 https://www.itmedia.co.jp/news/articles/2405/27/news157.html
2024/5/26のピックアップ
【ニュース】 2024-05-26 13:18:00 1996年誕生のIMサービス「ICQ」、6月26日に終了へ https://www.itmedia.co.jp/news/articles/2405/26/news061.html
——————————–
【スキルアップ】 2024-05-26 17:20:00 自分がどれくらいニューラルネットワークを理解しているかを確かめられるゲーム「Graph Game」 https://gigazine.net/news/20240526-graph-game/
2024/5/25のピックアップ
【その他】 2024-05-25 14:06:17 AI導入で企業が挫折するのはなぜ?―AI「以外」の壁にどう立ち向かうか|Dory https://note.com/dory111111/n/na817a0544da3
——————————–
【音楽生成AI】 2024-05-25 16:04:47 AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に(CloseBox) | テクノエッジ TechnoEdge https://www.techno-edge.net/article/2024/05/25/3401.html
2024/5/24のピックアップ
【AIの活用】 2024-05-24 08:00:00 Grounded language acquisition through the eyes and ears of a single child https://www.science.org/doi/10.1126/science.adi1374
この研究では、6カ月から25カ月の1人の子どもの視点から撮影された動画データを使用して、機械学習のアプローチを適用しました。具体的には、「Child’s View for Contrastive Learning (CVCL)」モデルを提案し、発話された単語と同時に撮影された動画フレームを対応付けることで、単語と視覚情報の関連性を学習しました。
このモデルは、視覚的に類似した事物を一つの概念(例えば、パズル)の中で異なるサブクラスターに分類することができます。これにより、言語習得の研究や理論における欠落を埋めることができます。
実際のデータから61時間分の視覚-言語の相関データを使用して学習した結果、このモデルは子どもの日常経験の中にある多くの単語-指示対応を獲得することができました。さらに、新しい視覚的な指示対象に対しても、ゼロショット学習による一般化が可能でした。つまり、強い事前バイアスを必要とせずに、単なる特徴表現と関連学習からでも、重要な語意の獲得が可能であることが示されたのです。
この研究は、子どもの初期語彙習得過程について新たな知見を提供するものであり、単語と物体の関連付けに関する理解を深めるうえで大変興味深い成果だと言えるでしょう。機械学習の手法を活用することで、実世界の状況における言語習得過程を分析することができ、今後の発展が期待されます。
——————————–
【LLMのセキュリティ】 2024-05-24 09:00:00 CyberSecEval 2 – A Comprehensive Evaluation Framework for Cybersecurity Risks and Capabilities of Large Language Models https://huggingface.co/blog/leaderboard-llamaguard
CyberSecEval 2は、LLMのサイバーセキュリティ上の脆弱性を包括的に評価するための基準を提供しています。主な内容は以下の通りです。
1. 安全でないコーディング実践の生成テスト:Common Weakness Enumeration の定義に基づき、LLMがリスクの高いセキュリティ上の弱点を提案する割合を測定します。コード自動補完や命令コンテキストでの結果を報告します。
2. プロンプト・インジェクション攻撃への感受性テスト:LLMベースのアプリケーションが、不正なプロンプトによって望ましくない動作をする可能性を評価します。プロンプト・インジェクションに対するLLMの認識力と耐性レベルを報告します。
3. サイバー攻撃への協力要請に対する遵守率テスト:LLMに訓練目的外の要求(合法的なサイバーセキュリティ活動への協力依頼など)をした際の遵守率を測定します。誤拒否率と攻撃遂行率のトレードオフを報告します。
4. コード・インタプリタの悪用テスト:LLMにマルウェアを実行させるなど、システムへの不正アクセスや情報収集を試みるテストです。LLMの協力率を報告します。
5. 自動化された攻撃的サイバーセキュリティ能力テスト:CTFスタイルのセキュリティテストケースを使い、LLMがセキュリティ上の脆弱性を発見・攻撃できるかを評価します。SQLインジェクションやバッファーオーバーフローなどの基本的な攻撃手法の実行率を報告します。
評価の結果、業界全体としてサイバー攻撃への協力率が改善されていることがわかりました。一方で、プロンプト・インジェクションへの対策やコード・インタプリタの悪用防止は未解決の課題として残されています。総合的に見ると、LLMは現時点では高度なサイバー攻撃を自動化するには至っていません。
CyberSecEval 2の一連のベンチマークは、オープンソースで公開されており、LLMのサイバーセキュリティ強化に向けてコミュニティが貢献できる仕組みが整備されています。
——————————–
【その他】 2024-05-24 09:00:57 有力AI企業が東京に拠点を設けるワケ 「日本は機械学習パラダイス」 https://www.itmedia.co.jp/business/articles/2405/24/news038.html
——————————–
【ニュース】 2024-05-24 11:25:00 Improving connectivity and accelerating economic growth across Africa with new investments https://cloud.google.com/blog/products/infrastructure/investing-in-connectivity-and-growth-for-africa/?hl=en
Googleは、アフリカにおける電子基盤と安全保障の強化を目的とした新たな投資を発表しました。その一環として、ケニアを発信地として、ウガンダ、ルワンダ、コンゴ民主共和国、ザンビア、ジンバブエ、南アフリカを経由し、オーストラリアまでつながるUmojaと呼ばれる新しい光ファイバー ケーブルルートを建設します。Umojaは、アフリカとオーストラリア、そして世界を結ぶ重要な接続点となり、地域の経済成長と強靭性の向上に貢献します。
さらに、ケニアの情報通信デジタル経済省と協力し、サイバーセキュリティの強化、データ駆動型のイノベーション、デジタルスキルの向上、AIの責任ある展開などに取り組みます。特に、ケニア移民・市民サービス省がGoogle Cloudの CyberShield ソリューションとMandiant の専門知識を活用して、eCitizenプラットフォームのサイバー防御能力を強化することを検討しています。
Googleは、アフリカにおける安全な技術インフラへの投資が、コミュニティの接続、教育の拡大、健全な経済発展に重要な役割を果たすと考えています。2021年に5年間で10億ドルの投資を表明して以来、900億ドル以上をアフリカに投資しています。また、アフリカのインターネット経済が2025年までに1800億ドルに成長する可能性があると予測されており、Umojaをはじめとするインフラ投資と人材育成により、アフリカのデジタル変革、経済成長、イノベーションを後押ししていきます。
例えば、Googleのハッスルアカデミーでは2022年に3,500名以上の中小企業を支援し、ケニアでは母体保健の改善に取り組んでいます。Googleは、アフリカコミュニティ、企業、政府と協力し、さらなるイノベーションの創出を目指していきます。
——————————–
【AIと法律・規制】 2024-05-24 14:00:00 A Call to Action to Combat Image-Based Sexual Abuse https://www.whitehouse.gov/gpc/briefing-room/2024/05/23/a-call-to-action-to-combat-image-based-sexual-abuse/
画像を悪用した性的暴行は近年急増しており、主に女性、女児、LGBTQI+に対して行われています。この被害は深刻で、被害者の生活を狂わせ、教育や経歴に影響を及ぼし、うつ、不安、PTSD、自殺リスクの高まりにつながります。
バイデン大統領は、AIの安全で確実な開発と利用に関する大統領令で、AIのリスクを管理し、その恩恵を享受することの重要性を明確にしています。画像を悪用した性的暴行は、現在最も急速に広がっている有害なAIの用途の1つです。この問題を解決するには、官民が協力して取り組む必要があります。
そのため、ホワイトハウスは、テクノロジー企業や市民社会に対して、この蔓延する問題に取り組むよう呼びかけています。具体的には以下のような取り組みを求めています。
– 支払処理企業やモバイルアプリストアなどが、画像を悪用した性的暴行を主な事業とするウェブサイトやアプリへのアクセスを制限すること
– クラウドサービスプロバイダやモバイルアプリストアが、同意なしに性的画像を作成・改変するためのウェブサービスやアプリの提供を制限すること
– モバイルアプリや OS 開発者が、デバイス上のコンテンツの保護や画像共有の同意に関する技術的保護を実装すること
– プラットフォームや業界関係者が、被害者が非consensual な画像を簡単かつ確実に削除できるサービスに参加・協力すること
さらに、ホワイトハウスは議会に対し、被害者への支援や法的保護の強化を求めています。
テクノロジー企業や関係者の主体的な取り組みと、法整備による支援が、この問題の解決につながると期待されています。ホワイトハウスは、官民が一丸となって、この深刻な課題に迅速に取り組むことを呼びかけています。
——————————–
【新サービス】 2024-05-24 15:12:36 Canva、「いらすとや」など日本向け機能を強化 https://www.watch.impress.co.jp/docs/news/1594425.html
——————————–
【国内ニュース】 2024-05-24 17:06:47 猫配膳ロボのPUDU、工場用ロボット市場に進出 https://www.watch.impress.co.jp/docs/news/1594487.html
2024/5/23のピックアップ
【AIエージェント】 2024-05-23 05:47:00 Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents https://arxiv.org/abs/2405.10467
基盤モデルを利用した生成AIは、エージェントの開発と実装を容易にしています。エージェントはユーザーの目標達成のために、優れた推論及び言語処理機能を活用して、主体的かつ自律的に行動することができます。しかしながら、目標追及に関する課題(目標や計画の生成、基盤モデルの誤作動、推論過程の説明可能性、複雑な説明責任等)を解決するための体系的な知識が不足しています。
そこで本研究では、基盤モデルベースのエージェントとそのエコシステムに関する最新の研究動向を把握するために、体系的文献レビューを行いました。その結果、16個の建築パターンからなるパターンカタログを提案しています。各パターンには、背景、影響因子、トレードオフなどの分析が含まれており、基盤モデルベースのエージェント設計を効果的にサポートするものとなっています。
——————————–
【ニュース】 2024-05-23 06:45:00 NVIDIA、AI需要で過去最高の売上高 「次の産業革命が始まった」とファンCEO https://www.itmedia.co.jp/news/articles/2405/23/news104.html
——————————–
【ニュース】 2024-05-23 07:47:00 OpenAI、Wall Street Journalなどを擁するNew Corpともライセンス契約 https://www.itmedia.co.jp/news/articles/2405/23/news106.html
2024/5/22のピックアップ
【新サービス】 2024-05-22 07:14:00 Microsoft、マルチモーダルなSLM「Phi-3-vision」をプレビュー https://www.itmedia.co.jp/news/articles/2405/22/news090.html
——————————–
【技術解説】 2024-05-22 08:58:38 New models added to the Phi-3 family, available on Microsoft Azure https://azure.microsoft.com/en-us/blog/new-models-added-to-the-phi-3-family-available-on-microsoft-azure/
新しい Phi-3 ファミリーのモデルがマイクロソフト Azure で利用可能になりました。
Phi-3 モデルファミリーは、同等サイズや大きいモデルと比べて、言語、推論、コーディング、数学の各ベンチマークで優れた性能を発揮する、最もコストパフォーマンスが高い小規模言語モデル(SLM)です。高品質のデータを使って訓練されており、安全性や責任あるAI基準に沿って開発されています。
新たに追加された Phi-3-vision は、4.2Bパラメーターの多モーダル(言語と視覚)モデルで、画像からテキストを抽出したり、チャートやダイアグラムの理解・分析に使えます。既存の Phi-3-mini、Phi-3-small、Phi-3-medium も Azure 上で利用可能になりました。
これらの Phi-3 モデルは、デバイスやプラットフォームを問わず最適化されており、NVIDIAのNIMインフェレンスサービスでも提供されています。開発者は、ITC社のファーマー支援 AI アシスタントや、Khan AcademyのKhanmigoなど、さまざまな分野で Phi-3 を活用しています。
Phi-3 モデルは、計算リソースが限られた環境でも高度な推論を行え、迅速な応答が必要なアプリケーションに適しています。用途に応じて Phi-3-mini、Phi-3-small、Phi-3-medium から最適なモデルを選択できます。Phi-3-visionは、テキストと画像の両方を扱うタスクに最適です。
Phi-3 モデルは、マイクロソフトの責任あるAI基準に沿って開発・評価されており、安全性も重視されています。開発者は Azure AI のツールを使ってより安全で信頼できるアプリケーションを構築できます。
Phi-3 モデルファミリーを体験するには、Azure AI Playground や Azure AI Studioを活用してください。
——————————–
【開発技術】 2024-05-22 09:43:58 CSSはどんどん進化している! マグネットのようにくっつくエフェクトを実装するテクニック -CSS Anchor Positioning https://coliss.com/articles/build-websites/operation/css/css-only-magnetic-link-effect.html
——————————–
【国内ニュース】 2024-05-22 11:03:00 ソニーの人工衛星「EYE」、天上からオーロラの撮影に成功していた 太陽フレアの影響は? https://www.itmedia.co.jp/news/articles/2405/22/news103.html
——————————–
【ニュース】 2024-05-22 11:28:00 Google、「AI Overview」の上下に広告を表示させるテストを米国で開始へ https://www.itmedia.co.jp/news/articles/2405/22/news109.html
——————————–
【技術解説】 2024-05-22 11:40:43 新Surfaceが「Copilot+ PC」で変えるPCの姿 MacBook Airへの対抗 https://www.watch.impress.co.jp/docs/topic/1593482.html
——————————–
【技術解説】 2024-05-22 13:15:00 Mapping the Mind of a Large Language Model https://www.anthropic.com/research/mapping-mind-language-model
Anthropic社がリリースしている大規模言語モデル「Claude Sonnet 3.0」の内部表現を解析しました。
従来の大規模言語モデルは「ブラックボックス」と呼ばれ、入力に対する出力は理解できても、内部の動作原理は不明でした。しかし、この研究では、モデルの中間層で表現されている数百万もの概念を特定することに成功しました。これは、大規模言語モデルの内部表現を初めて詳細に解明した研究成果です。
具体的には、単語や固有名詞、プログラミング構文といった具体的な概念から、バグ、性別バイアス、機密保持といった抽象的な概念まで、様々な概念が内部に表現されていることが明らかになりました。さらに、これらの概念表現間の関係性も解明されており、人間的な直感に沿った概念的な近さが確認されました。
この解析手法を活用することで、大規模言語モデルの内部状態を操作し、モデルの挙動を変化させることも可能です。例えば、詐欺メールを生成する機能を人工的に活性化させたり、過剰な賞賛的な出力を引き起こしたりすることができます。
Anthropic社は、これらの解析手法を活用して、バイアスの軽減や真実性の確保、悪用の防止など、大規模言語モデルの安全性向上に取り組んでいきたいと述べています。また、この研究成果は、安全性に関するベンチマークとしての活用も期待されています。
——————————–
【AIと人間の未来】 2024-05-22 13:35:00 Historic first as companies spanning North America, Asia, Europe and Middle East agree safety commitments on development of AI https://www.gov.uk/government/news/historic-first-as-companies-spanning-north-america-asia-europe-and-middle-east-agree-safety-commitments-on-development-of-ai
世界の主要なAI企業16社が、AI技術の安全な開発に向けて同意した重要な「フロンティアAIセーフティ・コミットメント」は、英国、韓国政府と、アメリカ、中国、中東などからAI企業が参加し、史上初の取り組みであることが特徴です。参加企業には、Amazon、Anthropic、Google/Google DeepMind、Meta、Microsoftなど、世界をリードする主要なAI企業が含まれています。
企業は、これらの「コミットメント」に署名することで、以下の2つの重要な約束をしました。
1. 自社のAIモデルのリスクを十分に軽減できない場合は、そのモデルを開発・展開しないこと。リスクのしきい値を超える場合は、モデルの開発・展開を中止するとしています。
2. AIの安全性確保に向けた枠組みを公開し、モデルのリスク評価や管理体制などの透明性を高めること。
具体的には、これらの企業は、悪意のある第三者によるAIの悪用など、フロンティアAIに内在するリスクを徹底的に評価し、一定のしきい値以上のリスクが許容できない場合は、そのAIモデルの開発・展開を行わないと約束しました。
また、リスク評価の方法や管理体制について、各社がフレームワークを公開し、政府や外部有識者の意見を得ながら、透明性の高い取り組みを行うことも合意しています。
この合意は、2024年5月に開催されたAI Seoul Summitにおいて発表されたものです。英国のRishi Sunak首相や韓国のLee大臣、さらにAI分野の著名な専門家らも、この取り組みの重要性を高く評価しています。
今回のコミットメントは、昨年のブレッチリーパーク合意を踏まえ、さらに参加企業を拡大した上で、より具体的な安全性確保の枠組みを定めたものです。これにより、急速に進化するフロンティアAIの開発プロセスにおいて、安全性の確保が担保されることが期待されます。
——————————–
【新サービス】 2024-05-22 13:46:57 ローカルAIを選び、試し、アプリに組み込める「AI Toolkit for VS Code」をMicrosoftが発表/既存の「Windows AI Studio」をクロスプラットフォーム拡充、発展させる https://forest.watch.impress.co.jp/docs/news/1593578.html
——————————–
【新サービス】 2024-05-22 15:00:00 Introducing GitHub Copilot Extensions: Unlocking unlimited possibilities with our ecosystem of partners https://github.blog/2024-05-21-introducing-github-copilot-extensions/
GitHub Copilot Extensions は、開発者体験を向上させ、開発者が作業中のツールからより離れずに作業できるようにするため、様々なパートナーとのエコシステムを通じて、開発者の自然な言語での操作を可能にする機能です。
2024年5月21日、GitHub はこの新機能を発表しました。このExtensionsにより、開発者はGitHub Copilotを使ってクラウドへのビルドやデプロイを自然言語で行うことができ、IDEやGitHub.comから離れる必要がありません。GitHub Copilotとこのエクステンションを使うことで、開発者はより長時間集中して作業でき、スキルアップと迅速なイノベーションが可能になります。
現在、DataStax、Docker、LambdaTest、LaunchDarkly、McKinsey & Company、Microsoft Azure and Teams、MongoDB、Octopus Deploy、Pangea、Pinecone、Product Science、ReadMe、Sentry、Stripeなどのパートナーが提供するExtensionsが利用できます。これらのExtensionsは、GitHub Copilot Chatや、Visual Studio、VSCodeでサポートされています。
GitHub MarketplaceでオープンのExtensionsが提供される一方で、企業内の開発ツールに合わせたプライベートなExtensionsの作成も可能です。これにより、API群やカスタムモニタリングシステムなどの社内リソースをすぐに活用できるようになります。
例えば、データベースの不具合によるインシデントに遭遇した開発者が、GitHub Copilot Chatから様々なツールを呼び出し、背景情報の確認、原因の特定、修正の適用、デプロイまでを一貫して行うことができます。これにより、コンテキストの切り替えが大幅に削減されます。
LaunchDarklyのエクステンションを使えば、ドキュメントや最良実践を参照しながら開発できるし、Sentryのエクステンションを使えば自然言語でパイプラインの問題を解決できます。また、Microsoft Azureのエクステンションでは、Azureサービスの選択やアプリケーションのデプロイなどをGitHub Copilotで支援してくれます。
今回の発表は、GitHub Copilotが開発の生産性をさらに高められるようになることを示しています。今後、より多くのパートナーによるExtensionsが登場し、開発者の自然な言語操作を通じた効率的な開発が実現されると期待されます。
——————————–
【スキルアップ】 2024-05-22 18:51:21 サイバーエージェント、新卒エンジニアの研修資料を2つ無料公開 「システム運用」と「オブザーバビリティ」を解説 https://www.itmedia.co.jp/news/articles/2405/22/news174.html
——————————–
【AIの活用】 2024-05-22 19:00:00 Building an AI game studio: what we’ve learned so far https://braindump.me/blog-posts/building-an-ai-game-studio
Braindumpは、大規模言語モデル(LLM)やジェネレイティブAIの台頭を受けて、ゲーム制作プロセスを革新することを目指しています。ユーザーは自然言語の入力プロンプトを使って、ゲームの設計や3Dモデル生成、ゲームルールの定義などを行うことができます。例えば、「ピンク色で毛糸のようなオークを作って」と入力すれば、Braindumpが3Dモデルを生成し、関連するゲームデータやスクリプトを自動的に作成してくれます。
LLMを使ったゲーム制作には2つの大きな課題があります。1つ目は、LLMに常に期待通りの動作をさせるにはどうすればよいか、2つ目は、LLMとのユーザーインタフェースをどのように設計すればよいかです。Braindumpでは、一括でゲームを生成するのではなく、段階的にゲームを構築していく「反復型アプローチ」を採用しています。これにより、必要に応じて詳細を追加したり、修正したりできるようになりました。また、モデル・ブループリント・ルールといった明確な構造を持つゲームAPIを定義し、LLMがこれに従うようにすることで、より適切なコードを生成できるようになっています。
さらに、Braindumpでは複数人によるコラボレーティブ編集にも対応しています。ユーザーがそれぞれ別の場所で編集を進められるよう、「スレッド」と呼ばれる機能を実装しています。スレッドでは、ゲームの現在の状態を共有しつつ、個別に編集を行えます。
Braindumpの開発では、LLMの性能評価とテストも重要な取り組みです。ベンチマークツールを使って、さまざまなシナリオでプロンプトの成功率を測定し、LLMの挙動を分析しています。最近のGPT-4の登場により、テストの成功率が80%から91%に向上したことが分かりました。
Braindumpを開発する背景には、ゲームやクリエイティビティへの情熱があります。ジェネレイティブAIは生産性を飛躍的に高める次なる一歩であり、個人やグループでも夢のようなゲームを実現できるようになることが期待されています。今後は、より大規模なプロンプトへの対応や、LLMによる自己批評機能の強化、ゲームエンジン機能の拡充など、さらなる機能拡張を目指していきます。
——————————–
【ニュース】 2024-05-22 20:00:00 Our first offsite heat recovery project lands in Finland https://blog.google/around-the-globe/google-europe/our-first-offsite-heat-recovery-project-lands-in-finland/
このテキストは、Google が長年連携しているフィンランドの街、Hamina において、自社のデータセンターの廃熱を同市の地域暖房ネットワークに提供するプロジェクトに関する情報を伝えるものです。
プロジェクトの概要は以下のとおりです。
• Google の Hamina データセンターでは、現在、炭素フリーの再生可能エネルギーで97%の運営を行っています。
• このデータセンターから発生する廃熱を地域暖房に活用することで、Hamina 市内の家庭、学校、公共施設の年間熱需要の80%をカバーできる見込みです。
• データセンターから排出される廃熱は、97%が炭素フリーであるため、地域暖房のCO2排出量削減にも貢献します。
• この取り組みは、Google が2030年までにグローバルな事業活動と価値連鎖全体でネットゼロ排出を目指す取り組みの一環でもあります。
Hamina 市長は、同市と Google の長年の良好な関係を称え、「Google は持続可能な未来に向けた優れた企業の一例である」と述べています。
このように、Google は自社のデータセンターの廃熱を地域暖房に活用することで、地域の環境に貢献するとともに、自社の脱炭素化目標の達成にもつなげようとしています。
——————————–
【国内ニュース】 2024-05-22 21:48:00 NHK技研、柔軟で伸縮するフルカラーLEDディスプレイを開発 https://www.itmedia.co.jp/news/articles/2405/22/news190.html
2024/5/21のピックアップ
【LLMの評価】 2024-05-21 05:29:00 MileBench: Benchmarking MLLMs in Long Context https://arxiv.org/abs/2404.18532
近年、マルチモーダル大規模言語モデル(MLLM)の性能は著しく向上し、ベンチマークでの成績も非常に優れています。しかし、実際の長文脈や複数画像を含むタスクでの有効性は明らかではありません。従来のベンチマークは単一画像や短文のサンプルに焦点を当てており、複数画像タスクを評価する場合でも画像数が限られたり特定のタスク(例:時系列キャプショニング)に特化しているため、MLLM のパフォーマンス上の課題が見えにくくなっています。
これらの限界を克服するために、本研究では「MileBench」と呼ばれる新しいベンチマークを紹介しています。MileBench は、マルチモーダルな長文脈を含み、理解と生成の両方を要求するさまざまなタスクで構成されています。また、MLLMsの長文脈適応能力と長文脈シナリオでのタスク遂行能力を体系的に評価するために、診断用と現実的なの2つの異なる評価セットを設定しています。
22のモデルをテストした実験の結果、非公開の GPT-4o は他のモデルを上回りましたが、ほとんどのオープンソースのMLLMsは長文脈の状況で苦戦していることが明らかになりました。特に興味深いことに、画像数が増えるほど、パフォーマンスの差が広がる傾向にあることが分かりました。
——————————–
【その他】 2024-05-21 06:50:54 フルリモート勤務者はお先真っ暗? 突きつけられた「出社要請」への向き合い方 – エンジニアtype | 転職type https://type.jp/et/feature/25960/
——————————–
【その他】 2024-05-21 08:12:18 かつてNVIDIAを救った日本人「入交昭一郎」とは? https://gigazine.net/news/20240521-sega-irimajiri-nvidia-stock/
——————————–
【新サービス】 2024-05-21 10:16:39 マイクロソフト、ARM版の新型Surfaceと『Copilot+ PC』発表。全部覚えるRecallなどWindows 11のローカルAI強化 | テクノエッジ TechnoEdge https://www.techno-edge.net/article/2024/05/21/3378.html
——————————–
【ニュース】 2024-05-21 10:21:19 「GPT-4o」の声、スカーレット・ヨハンソン激似に本人激怒 「アルトマン氏のオファー断った」ため似た声優で再現か https://www.itmedia.co.jp/news/articles/2405/21/news102.html
——————————–
【国内ニュース】 2024-05-21 10:24:24 【サービス名変更のお知らせ】「Scrapbox」は「Helpfeel Cosense(ヘルプフィール コセンス)」に変わります https://prtimes.jp/main/html/rd/p/000000323.000027275.html
——————————–
【国内ニュース】 2024-05-21 11:38:00 任天堂、米ゲーム移植企業を買収 「ホグワーツ・レガシー」など手掛ける https://www.itmedia.co.jp/news/articles/2405/21/news119.html
——————————–
【新サービス】 2024-05-21 12:41:00 MicrosoftがWindows 11の新AI機能「Recall」を発表、PCで見たもの行ったことをすべて記録しあとから検索できるパワフルすぎるAI検索機能 https://gigazine.net/news/20240521-microsoft-copilot-plus-pc-recall/
——————————–
【新サービス】 2024-05-21 14:12:46 「Excel」に正規表現の新関数が3つ導入へ ~「XLOOKUP」「XMATCH」にも対応予定/まずはデスクトップ版「Excel」で試験導入 https://forest.watch.impress.co.jp/docs/news/1593174.html
——————————–
【技術解説】 2024-05-21 14:14:24 「Copilot+ PC」とはなにか マイクロソフトが狙うUX変化とWindowsの再設計 https://www.watch.impress.co.jp/docs/news/1593239.html
——————————–
【ニュース】 2024-05-21 14:51:37 iOS 17.5.1公開 「削除した写真が復活する」問題を修正 https://www.watch.impress.co.jp/docs/news/1593273.html
——————————–
【マネジメント】 2024-05-21 15:33:27 まわりからの期待を見える化して、個人の力を引き出すエンジニア組織づくり https://techblog.tebiki.co.jp/rolemap-525635775834
——————————–
【AIの活用】 2024-05-21 15:56:01 しまむら、AIモデル「るな」起用 20歳の服飾専門学生(という設定) https://ascii.jp/elem/000/004/199/4199817/
2024/5/20のピックアップ
【技術解説】 2024-05-20 09:50:12 SPAは万能じゃない。「革新的」と言われているPWAはどこがすごいのか? https://levtech.jp/media/article/column/detail_436/
——————————–
【新技術】 2024-05-20 10:35:44 Iterative Reasoning Preference Optimization https://arxiv.org/abs/2404.19733
最近、反復的な嗜好最適化手法が一般的な指示チューニングタスクで良好なパフォーマンスを示してきましたが、通常は推論タスクではほとんど改善されません。このテキストでは、正解につながる推論ステップの勝利と敗北を最適化することで、競合する生成されたChain-of-Thought (CoT)候補の嗜好を最適化する反復的なアプローチを開発しています。
具体的には、追加の負の対数尤度項を含む修正されたDPOロス関数を使ってトレーニングを行っており、これが非常に重要であることがわかりました。このスキームを繰り返し適用することで、推論精度が向上することを示しています。トレーニングセット内の例のみを使用しているにもかかわらず、Llama-2-70B-Chatモデルの精度はGSM8K、MATH、ARC-Challengeで向上し、追加のデータセットを利用しないLlama-2ベースのモデルを上回っています。たとえば、GSM8Kでは55.6%から81.6%への大幅な改善が見られ、32サンプルを使った多数決では88.7%の精度を達成しています。
——————————–
【技術解説】 2024-05-20 12:12:10 自分好みのAIチャット相手を簡単に作れる「Dify」が面白い (1/4) https://ascii.jp/elem/000/004/199/4199392/
——————————–
【国内ニュース】 2024-05-20 13:56:26 長期化するグリコ出荷停止 需要期前に不安の声 Aコープは他社製品で代替 / 日本農業新聞公式ウェブサイト https://www.agrinews.co.jp/news/index/233018
——————————–
【ニュース】 2024-05-20 14:17:00 Reflections on our Responsible Scaling Policy https://www.anthropic.com/news/reflections-on-our-responsible-scaling-policy
人工知能の急速な進歩に伴い、AIの深刻な事故や悪用に対する懸念が高まっている中、アンソロピックは2023年に「責任あるスケールアップ方針」を発表しました。この方針では、カタストロフィックな安全上のエラーや先端的なAIモデルの悪用を防ぐための具体的な対応策が示されています。
アンソロピックは、この方針の実践を通じて多くの重要な知見を得ています。まず、明確な方針を設けることで、プロジェクトのタイムラインや人員配置、脅威モデルの検討、トレードオフの整理など、組織の優先事項を明確にする枠組みが得られました。また、方針の実装プロセスでは、さまざまな重要な課題や依存関係が明らかになり、早期に着手できるようになりました。
一方で、強固なコミットメントと研究途上の不確定性との間のバランスを取ることは難しい課題です。政策には曖昧な部分もあり、オープンな研究課題がある場合は過度に具体的な要件を設けるのは適切ではありません。ただし、商業的な圧力が高まる中、自主的なコミットメントから業界標準、そして適切な規制へと移行していくことが重要だと考えています。
AIの脅威モデリングと評価手法の構築では、原子力安全、バイオセキュリティ、システムの安全性、自動運転、宇宙航空、サイバーセキュリティなど、他分野の知見を取り入れることが欠かせません。アンソロピックでは、これらの分野から最も関連性の高い実践を統合するために、学際的なチームを構築しています。
具体的な取り組みとしては、5つの高レベルのコミットメントが挙げられます。
1. 「レッドライン機能」の特定
2. 「フロンティアリスク評価」によるレッドライン機能のテスト
3. レッドライン機能に対応可能な「ASL-3標準」の策定と実装
4. 新たなレッドラインの特定と評価プロセスの継続的な拡張
5. 評価プロセスや安全対策の有効性を検証する「保証メカニズム」の導入
このような取り組みを通じて、アンソロピックは先端的なAIシステムの責任あるスケールアップを目指しています。今後も継続的に方針の改善を行い、業界全体での取り組みの醸成に貢献していきたいと考えています。
【国内ニュース】 2024-05-20 14:20:25 電気の力で塩味増強 「エレキソルトスプーン」発売 キリンの新事業 https://www.itmedia.co.jp/news/articles/2405/20/news112.html
——————————–
【その他】 2024-05-20 14:23:36 脳に収まるコードの書き方 https://www.oreilly.co.jp//books/9784814400799/
——————————–
【新サービス】 2024-05-20 16:33:31 「Chrome 125」の開発者ツールに「Gemini」が統合 ~AIが警告の内容をかみ砕いて説明/実験的機能、「英語」(米国)より提供開始 https://forest.watch.impress.co.jp/docs/news/1592873.html
——————————–
【技術解説】 2024-05-20 17:18:07 最近ローカルLLMがアツいらしい https://soysoftware.sakura.ne.jp/archives/3903
——————————–
【国内ニュース】 2024-05-20 18:48:15 クレカ情報1.5万件、平文で流出か 美容室向けECサイト「fofo」に不正アクセス https://www.itmedia.co.jp/news/articles/2405/20/news166.html
——————————–
【データセット】 2024-05-20 19:00:00 Sakuga-42M Dataset: Scaling Up Cartoon Research https://arxiv.org/abs/2405.07425
近年、CLIP、SVD、Soraなどの大規模なデータセットを使った深層学習モデルが自然動画の理解と生成に優れた成果を上げてきました。しかし、これらのモデルは手描きのアニメーションなどのカートゥーンには適していません。その理由は、カートゥーンの表現が自然動画とは大きく異なるためです。この課題に取り組むべく、著者たちは、「Sakuga-42M Dataset」と呼ばれる大規模なカートゥーンデータセットを提案しています。
Sakuga-42Mデータセットは、4,200万フレームにも及ぶ手描きアニメーションを収録しています。さまざまなアーティスティックなスタイル、地域、年代をカバーし、動画とテキストの説明ペア、アニメタグ、コンテンツ分類などの豊富な言語的アノテーションが付与されています。著者たちは、このデータセットを使って、Video CLIP、Video Mamba、SVDなどの最新のモデルをファインチューニングし、カートゥーン関連のタスクで優れた性能を達成しています。
2024/5/19のピックアップ
【ニュース】 2024-05-19 08:08:00 OpenAI、退社したライケ氏のAGI警鐘に応じるも具体策は明示せず https://www.itmedia.co.jp/news/articles/2405/19/news055.html
OpenAIが、前日に退社したヤン・ライケ氏の警鐘に応えるものの、具体的な対策は明示していないという内容を要約しました。OpenAIのグレッグ・ブロックマン社長とサム・アルトマンCEOは、ライケ氏の退社理由について説明する長文ポストを公開しました。
ライケ氏は、人間を遥かに上回る知能を持つ「Superintelligence」(超知能)の制御を目指す「Superalignmentチーム」の共同トップでしたが、OpenAIの幹部チームが「安全性を製品開発より後回しにしている」という方針に同意できず退社したと述べています。
ブロックマン氏は、OpenAIのAGI(人工一般知能)対策として「拡張性のある監視ソリューション」や「密接なフィードバックループ」、「厳格なテスト」などの言葉を使っていますが、具体的な詳細は示していません。また、Superalignmentチームのほとんどのメンバーが解雇または退社し、チームは消滅したと報じられています。
一方で、サツケバー氏やライケ氏は、OpenAIが正しい道を歩むことを期待しているとしています。Voxの報道によると、退職合意書には生涯にわたって元雇用主を批判することを禁じる条項があり、これにより退社する従業員は批判を控える傾向にあるということです。
アルトマン氏は、このような退職合意書の存在を知らなかったが、改定中だと述べています。OpenAIは、AIの安全性確保に向けて取り組んでいますが、具体的な対策については十分な情報を提供できていないようです。今後の動向に注目が集まっています。
——————————–
【スキルアップ】 2024-05-19 20:00:00 わかりにくい線形代数を操作可能な図で表現することで簡単に理解できる無料の教科書「Immersive Math」 https://gigazine.net/news/20240519-immersive-math/
2024/5/18のピックアップ
【ニュース】 2024-05-18 08:44:18 OpenAIのAI危険対策チームトップが「限界に達し」退社 「安全確保が後回しになっている」 https://www.itmedia.co.jp/news/articles/2405/18/news062.html
OpenAIにおいて超知能の制御を目指すSuperalignmentチームのトップを務めていたヤン・ライケ氏が、5月17日に退社を発表しました。ライケ氏は、OpenAIの幹部チームと中核的優先事項について意見の相違があり、限界点に達したため退社を決意したと述べています。
Superalignmentチームは、ライケ氏とイリヤ・サツケバー氏が率いてきましたが、サツケバー氏も14日に退社を発表しています。ライケ氏は、「超知能の構築は本質的に危険な取り組み」であり、「OpenAIは人類全体に大きな責任を担っているが、安全性が後回しになっている」と警鐘を鳴らしています。
OpenAIは2月に、AGI(Artificial General Intelligence;汎用人工知能)を「一般的に人間より賢いAIシステム」として定義し、リスク軽減策について説明しました。Superalignmentチームの結成はその一環でした。
ライケ氏は、OpenAIに対し「AGIの重要さを実感してください。AGIにふさわしい厳粛な態度で臨んでください」「私も世界中も、あなたたちを信頼しています」というメッセージを残しました。
サム・アルトマンCEOは、ライケ氏の退社について「非常に残念だ」と述べ、「彼の言う通り、やるべきことはまだたくさんある」と述べて、数日中に詳細について説明すると発表しました。
——————————–
【開発技術】 2024-05-18 12:54:31 少しの記述でユーザビリティやアクセシビリティを向上させるHTML/CSSテクニック集 – TAKLOG https://www.tak-dcxi.com/article/html-css-techniques-to-improve-usability-and-accessibility-with-minimal-code/
——————————–
【国内ニュース】 2024-05-18 14:10:00 ペット口実にLINEアカウント乗っ取り 外部SNS使った手口に注意 https://www.itmedia.co.jp/news/articles/2405/18/news050.html
LINEの公式Xアカウントは、他のSNSで偽の「かわいいペットに投票してください」といったDMを送信し、偽のログイン画面に誘導して認証情報を入手する手口を確認したと報告しています。これは、ペットの選挙企画を利用したフィッシング攻撃だと考えられます。
「みんなのワンちゃんグランプリ」の運営事務局も同様の手口に注意を呼びかけています。この企画では、犬の動画を募集し、視聴による広告収入を犬の支援活動に使っています。しかし、LINEなどのSNSへのログインを誘導するようなことは行っておらず、DMでの個別の投票誘導もないと述べています。
つまり、この手口は、ペットに関する選挙企画をフィッシング攻撃の口実にしているということです。ユーザーは、SNSでの投票依頼や個人情報の入力を求める偽のログイン画面には十分注意が必要だと言えるでしょう。公式の企画であれば、通常のブラウザでのGoogleアカウントログインのみを求めるはずです。
2024/5/17のピックアップ
【ニュース】 2024-05-17 08:46:00 OpenAI and Reddit Partnership https://openai.com/index/openai-and-reddit-partnership/
この記事では、オープンAIとRedditの提携について説明しています。
オープンAIは、RedditのData APIにアクセスすることで、Redditのコンテンツをより良く理解し、ChatGPTやその他の製品に活用できるようになります。これにより、ユーザーはRedditのコミュニティをより発見し、活用することができます。一方、Redditは、オープンAIのAIモデルを活用して、新しいAI機能をredditorやmodに提供することができるようになります。
また、この提携によって、オープンAIはRedditの広告パートナーにもなります。
オープンAIのCOOであるBrad Lightcapは、この提携によって、ChatGPTにRedditのタイムリーで関連性の高い情報を取り入れることができ、また、RedditのエクスペリエンスをAI機能で豊かにできると述べています。
このようにオープンAIとRedditの提携は、両者のユーザー層にとって良い影響をもたらすことが期待されています。RedditのコンテンツをオープンAIのツールで活用することで、よりユーザーニーズに合った情報提供ができるようになり、また新しいAI機能をRedditに実装することで、Redditユーザーの体験を向上できると考えられます。
ここで特に重要なのは、オープンAIがRedditのData APIにアクセスすることで、Redditのコンテンツをより深く理解できるようになるという点です。この API を使うことで、最新のトピックに関する情報を効果的に把握し、ChatGPTなどのツールに活用できるようになります。また、RedditがオープンAIのAIモデルを活用して新機能を開発できるようになるのも大きな意味を持ちます。
——————————–
【ニュース】 2024-05-17 11:00:00 Improvements to data analysis in ChatGPT https://openai.com/index/improvements-to-data-analysis-in-chatgpt/
ChatGPT は自然言語を理解し、データ分析を行うことができる優れたツールです。 最近の機能アップデートにより、さらに便利な機能が追加されました。
まず、Google Drive や Microsoft OneDrive から直接ファイルをアップロードできるようになりました。これにより、複雑なデータセットをより素早く分析できるようになります。
また、分析対象のデータをインタラクティブなテーブル形式で表示できるようになりました。そこから特定の部分をクリックして、さらに詳細な分析を行うことができます。たとえば、月次の経費データを集計してカテゴリ別のピボットテーブルを作成するなどの処理が可能です。
さらに、バー、ライン、円、散布図などの様々なチャートを作成・カスタマイズして、プレゼンテーションや文書に使用できるようになりました。ユーザーはチャートの要素をクリックして追加の質問をしたり、色などのデザインを変更したりできます。
これらの新機能は、データ分析初心者でも簡単に活用できるようになっています。一方で、データのプライバシーと安全性も確保されており、企業ユーザーでも安心して利用できます。
今後、ChatGPT の分析機能は、ビジネスユーザーを中心に幅広く活用されていくでしょう。データ活用の高度化と生産性の向上に大きな効果を発揮するツールとなると期待されています。
——————————–
【国内ニュース】 2024-05-17 17:15:00 自民、能動的サイバー防御の議論本格化 早期導入目指すも公明とは温度差 https://www.itmedia.co.jp/news/articles/2405/17/news179.html
自民党が「能動的サイバー防御」の導入を検討していることについて説明しています。「能動的サイバー防御」とは、サイバー攻撃に先手を打ち、被害を未然に防ぐ対策のことです。具体的には、攻撃情報を検知するための監視や相手側サーバーに侵入して無害化する対応などが想定されています。
自民党は、この能動的サイバー防御の導入に向けて合同会議を開き、議論を本格化させています。政府も有識者会議を立ち上げる予定で、自民党は法整備の課題を整理し、提言をまとめる計画です。一方、公明党は「これから方針を検討する」としており、与党内では温度差があるようです。
この能動的サイバー防御の導入には、いくつかの技術的な課題があります。まず、「通信の秘密」や不正アクセス禁止法との整合性が課題となっています。また、G7の中で日本だけが国際標準を備えていないことも指摘されています。
そのため、自民党は、国民の不安を払拭しながら、迅速に導入を進めていきたいと考えています。一方、公明党は、重要性は理解しつつも、具体的な方針は「これから検討していく」としています。
この能動的サイバー防御の導入に向けて、自民党は有識者会議の設置や、与党協議を進める予定です。ただし、装備移転に関する与党協議などで時間がかかっているため、対応が遅れている面もあるようです。
——————————–
【AIの安全性】 2024-05-17 23:00:00 Introducing the Frontier Safety Framework https://deepmind.google/discover/blog/introducing-the-frontier-safety-framework/
Google DeepMindは、大規模なAIモデルの開発を通して、AIの可能性を大きく拡大してきました。これらのモデルは、気候変動対策やドラッグ開発、経済生産性の向上など、重要な課題に取り組む上で非常に役立つツールを提供してくれると期待されています。しかし同時に、現在のAIモデルを超える新たなリスクが生まれる可能性も認識されています。
そこで、GoogleはFrontier Safety Frameworkを発表しました。これは、将来的に深刻な被害をもたらしうる先端的なAI能力を事前に特定し、それらを監視・抑制するための枠組みです。このフレームワークには3つの主要な要素があります。
1. 潜在的な危険性の高い分野(自律性、バイオセキュリティ、サイバーセキュリティ、機械学習研究開発など)を特定し、そこで深刻な被害を引き起こすために必要な「クリティカルな能力レベル(CCL)」を定義すること。
2. 定期的に先端モデルを評価し、CCLに達しつつあることを早期に検知する「早期警報評価」を行うこと。
3. CCLを超えたモデルに対して、セキュリティ面(モデルの流出防止)と展開面(重要な能力の悪用防止)での緩和策を適用すること。
このフレームワークの策定には、GoogleのAI原則に則り、リスクと便益のバランスを慎重に検討することが重要です。また、産学官の協力の下、継続的な改善を重ねていく予定です。2025年初頭までにこの初期版の完全な実装を目指します。
2024/5/16のピックアップ
【AIの活用】 2024-05-16 13:00:00 Scientists use generative AI to answer complex questions in physics https://news.mit.edu/2024/scientists-use-generative-ai-complex-questions-physics-0516
MITの研究者たちは、人工知能(AI)のジェネレーティブモデルを活用して、物理学における複雑な問題を解決することができるようになりました。MIT(マサチューセッツ工科大学)とスイスのバーゼル大学の研究チームが開発した新しい手法は、物理システムの相転移を自動的に分類することができます。これは既存のマシンラーニングアプローチよりも効率的であり、物質や物理システムの新しい物性を発見する上で役立つ可能性があります。
この手法の中心となるのは、ジェネレーティブAIモデルを活用して物理システムの確率分布を直接的に推定する点です。この確率分布を用いて、相転移を検出するための効率的な分類器を構築することができるのです。これにより、人の専門知識に頼ることなく、未知の物理システムの相図を自動的に作成することが可能になります。
例えば、ある物質が通常の導体から超伝導体へと相転移するような場合、その相転移を検出するためには「秩序変数」と呼ばれる重要な物理量の変化を見つける必要があります。従来はこの秩序変数を見つけるのに物理学の専門知識が必要でしたが、この新しい手法を使えば、膨大な教師データを必要とせずに、自動的に相転移を特定できるのです。
この手法は、量子系の量子もつれの検出や、大規模言語モデルの性能改善など、さまざまな物理システムの二値分類問題に応用できる可能性があります。今後は、相転移を効果的に検出するために必要な計測データの量や、計算コストについての理論的な保証を明らかにしていく予定だそうです。
——————————–
【RAG】 2024-05-16 19:31:37 Seven Failure Points When Engineering a Retrieval Augmented Generation System https://arxiv.org/abs/2401.05856
近年、ソフトウェアエンジニアは、Retrieval Augmented Generation (RAG)と呼ばれる手法を用いて、アプリケーションにセマンティック検索機能を追加しつつあります。RAGシステムは、クエリに関連するドキュメントを検索し、それらをChatGPTのようなLarge Language Model (LLM)に渡して、適切な回答を抽出する手法です。RAGシステムの目的は、a) LLMによる虚偽の回答を減らすこと、b) 生成された回答にソースや参考文献を追加すること、c) ドキュメントへのメタデータ付与の必要性を排除することです。しかし、RAGシステムには情報検索システムに固有の限界と、LLMへの依存性から生じる問題点があります。
本論文では、研究、教育、および生物医学の3つの事例から得られた教訓をもとに、RAGシステムの7つの失敗ポイントを紹介しています。主な教訓は以下の2点です。1) RAGシステムの検証は運用中にしか行えない、2) RAGシステムの堅牢性は設計時から段階的に進化する必要がある。最後に、ソフトウェアエンジニア向けのRAGシステムに関する研究の方向性が示されています。
——————————–
【AIの活用】 2024-05-16 19:40:00 「いつものやつ持ってきて」──PFNの荷物運びロボット、あいまいな指示にも対応可能に LLMの活用で https://www.itmedia.co.jp/news/articles/2405/16/news189.html
PFNの子会社であるPreferred Roboticsが開発した自動搬送ロボット「カチャカ」に、大規模言語モデル(LLM)を活用した新機能を追加したことが報告されています。
この新機能により、これまで必要だった「(物)を(場所)に持ってきて」といった定型のコマンドを使わずに、「いつものやつ持ってきて」といった曖昧な指示にも対応できるようになりました。カチャカは過去の会話を記憶し、それをもとに人の指示を理解することができます。例えば「(ユーザー名)さん、いつもの仕事道具シェルフを仕事部屋にお持ちしますね」と応答し、自律移動を始めるそうです。
また、利用時に困ったことについても、カチャカに話しかけると解決策を提示してくれるため、FAQなどを調べる必要がないとのことです。
Preferred Roboticsは、2024年5月22日から開催される「exTech Week 2024 AI・人工知能EXPO」でこの新機能を紹介する予定だとしています。
カチャカは2023年5月に発売された自律移動ロボットで、2月には法人向けに機能とサービスを特化した「カチャカプロ」も追加されています。この度の大規模言語モデルの活用によって、人とのよりスムーズなコミュニケーションが可能となり、ロボットの利便性が高まることが期待されます。
2024/5/15のピックアップ
【LLM新技術】 2024-05-15 00:30:00 Using ideas from game theory to improve the reliability of language models https://news.mit.edu/2024/consensus-game-elevates-ai-text-comprehension-generation-skills-0514
MIT CSAIL研究者らは、言語モデルの理解力と生成力を高める「コンセンサスゲーム」と呼ばれる新たなアプローチを開発しました。このアプローチでは、言語モデルの生成部と判別部が協力してゲームのルールに従いながら、正しい答えに収束していきます。
従来の言語モデルは、生成的な問い合わせと判別的な問い合わせを別々に行うため、互いに矛盾した結果が出ることがありました。例えば、「アメリカ大統領は誰ですか?」という質問に対して、生成的なアプローチでは「ジョー・バイデン」と答えますが、判別的なアプローチでは「バラク・オバマ」と答える可能性がありました。
コンセンサスゲームでは、生成部と判別部がお互いに「ゲーム」を行い、最終的に一致した答えを導き出します。この「均衡ランキング」アルゴリズムを使うことで、読解力、常識推論、数学問題解決、対話などの様々なタスクで、大規模モデルを上回る性能向上が確認されました。
この取り組みの背景には、2022年にOpenAIが発表した「Cicero」というAIエージェントの開発があります。Ciceroは、戦略性とコミュニケーション能力が必要な7人プレイの「外交」ゲームで、人間レベルの実力を発揮しました。このようなゲーム理論アプローチの可能性が、コンセンサスゲームの開発につながったのです。
実装上の課題もありますが、この手法は言語モデルの信頼性と一貫性を向上させる可能性があり、ChatGPTなどの日常的に利用されるモデルの性能向上に役立つと期待されています。ゲーム理論とアプリケーションの融合は、言語モデルの新たな飛躍につながるかもしれません。
——————————–
【電子透かし】 2024-05-15 02:56:49 Watermarking AI-generated text and video with SynthID https://deepmind.google/discover/blog/watermarking-ai-generated-text-and-video-with-synthid/
AI生成のテキストやビデオに対して電子透かし付けを行う新しい手法である「SynthID」について説明しています。
大規模言語モデル(LLM)を使ったジェネレーティブAIツールが広く利用されるようになってきていますが、それに伴い誤情報の拡散やフィッシング攻撃など、有害な利用のリスクも高まっています。そこで、昨年立ち上げたSynthIDは、AIジェネレーションされたコンテンツに目に見えないマークを付与し、そのコンテンツが本物かどうかを判別できるようにする仕組みです。
今回、SynthIDの機能拡張として、AIテキスト生成アプリのGeminiと、高度な動画生成モデルのVeoにおける電子透かし付与が発表されました。
テキストの電子透かしは、既存のLLMとの互換性を持ち、大規模な展開が可能です。一方、動画の電子透かしは、画像・音声の電子透かし手法を応用して、生成された動画の全フレームにマークを付与するというイノベーティブな手法です。どちらの手法も、コンテンツの品質や正確性、創造性、生成スピードに影響を与えることなく、目に見えないマークを埋め込むことができます。
SynthIDは、AIジェネレーションコンテンツの特定に役立つ重要な基盤技術ですが、完全な解決策ではありません。今後は、開発者がこの技術を活用し、自身のモデルに組み込めるよう、テキスト電子透かしをオープンソース化する予定です。
このように、SynthIDは、AIジェネレーションコンテンツの誤用を防ぐ上で重要な役割を果たすことが期待されています。
——————————–
【新サービス】 2024-05-15 02:57:00 New generative media models and tools, built with and for creators https://deepmind.google/discover/blog/new-generative-media-models-and-tools-built-with-and-for-creators/
Googleは最高画質の動画生成モデル「Veo」と最高品質の文字からイメージを生成するモデル「Imagen 3」を発表しています。また、ミュージシャンやクリエイターとのコラボレーションで開発された音楽AIツール「Music AI Sandbox」についても触れています。
Veoは、広範囲のシネマティックスタイルの1080p解像度の動画を生成でき、自然言語とビジュアルのセマンティクスを理解しているため、より創造的なビジョンを表現できるとのことです。Imagen 3は、より高い品質と精細さでフォトリアルな画像を生成でき、テキストの表現力も向上したと述べられています。
さらに、著者はこれらのツールの責任あるデプロイにも取り組んでいると説明しています。AIによって生成されたコンテンツの信頼性を高めるため、安全性テストの実施や、SynthIDによる電子透かしの埋め込みなど、様々な取り組みを行っているとのことです。
——————————–
【新しいLLM】 2024-05-15 02:58:00 Gemini breaks new ground: a faster model, longer context and AI agents https://deepmind.google/discover/blog/gemini-breaks-new-ground-a-faster-model-longer-context-and-ai-agents/
GoogleのGemini は、より高速なモデル、長いコンテキスト、AIエージェントなど、一連のアップデートを発表しました。
まず、Gemini 1.5 Flashを紹介します。これは、Gemini ファミリーの中で最も高速なモデルで、高容量・高頻度のタスクに最適化されています。大量の情報に対する multimodal な推論が可能で、サイズが小さいながらも優れた性能を発揮します。この Gemini 1.5 Flashは要約、チャットアプリ、画像・ビデオキャプショニング、長文書やテーブルからのデータ抽出などに適しています。
次に、Gemini 1.5 Proについて説明します。このモデルの性能は大幅に向上しており、コンテキストウィンドウが200万トークンにまで拡大しました。また、コードgeneration、論理的推論、planning、マルチターンconversation、オーディオ・画像理解などの機能が強化されています。
ユーザーが特定のユースケースに合わせてモデルの振る舞いをコントロールできるようになったほか、オーディオ理解機能も追加されました。Gemini 1.5 ProはワークスペースアプリなどのGoogleプロダクトにも統合されています。
Gemini Nanoは、これまでのテキストのみから、画像入力にも対応しました。
また、オープンモデルのGemma 2が発表され、新アーキテクチャとより高性能・効率的なモデルサイズが用意されます。さらに、vision-languageモデルのPaliGemmaも登場し、Responsible Generative AI Toolkitも拡充されました。
最後に、GoogleDeepMindが取り組む「Project Astra」について紹介します。これは、multimodal な情報を理解し、コンテキストを把握しながら迅速に対応できる、未来のAIアシスタントの姿を描いたものです。ビデオフレームの継続エンコーディングやスピーチモデルの強化などにより、より自然な対話を実現しています。
——————————–
【新サービス】 2024-05-15 08:22:51 Experience Google AI in even more ways on Android https://blog.google/products/android/google-ai-android-update-io-2024/
Android OSにGoogleのAI技術が深く統合されることで、スマートフォンとの新しい形のインタラクションが実現されつつあります。
まずは、「Circle to Search」機能が学生の宿題支援に活用されるようになります。画面上の内容をサークル描画するだけで、物理や数学の単語問題の解き方を学べるようになります。今後はより複雑な問題にも対応できるようLearnnLMモデルの強化が行われる予定です。この機能は既に1億台以上のデバイスに搭載されており、今年中には2倍の対応台数に拡大する見込みです。
次に、統合型アシスタント「Gemini」の機能が強化されます。Geminiはアプリの文脈を理解して、より使いやすい支援を提供するようになります。例えば、アプリ上のPDFやYouTube動画の中の情報を尋ねることができるようになります。また、PixelなどのスマートフォンにはマルチモーダルなGemini Nanoが導入される予定で、画像や音声の理解も可能になります。
そして、画像の認識精度向上によりTalkBack機能のユーザー体験も改善されます。さらに、Gemini Nanoを使ったリアルタイムの詐欺検出アラート機能も検討されています。このように、GoogleのオンデバイスAI技術を活用した新たな体験がAndroidユーザーに提供されていきます。
——————————–
【新しいLLM】 2024-05-15 09:37:02 PaliGemma – Google’s Cutting-Edge Open Vision Language Model https://huggingface.co/blog/paligemma
Google は、新しい「PaliGemma」という視覚言語モデルファミリーを公開しました。PaliGemma は、画像と文章を入力として受け取り、文章を出力することができます。このモデルは、事前学習された(pt)モデル、ミックス(mix)モデル、fine-tuned(ft)モデルの3種類で構成されています。各モデルには、解像度 (224×224、448×448、896×896)と精度(bfloat16、float16、float32)の違いがあります。
PaliGemma の内部アーキテクチャは、SigLIP-So400m という画像エンコーダと、Gemma-2B という文章デコーダで構成されています。SigLIP は、画像と文章の両方を理解できる最先端のモデルで、CLIP のような構造になっています。一方、Gemma は、文章生成のためのデコーダモデルです。この2つのモデルを組み合わせたのが PaliGemma となります。
PaliGemma モデルには、用途に合わせて3つのタイプが用意されています。事前学習済みの(pt)モデルは、タスク固有のfine-tuningが可能です。ミックス(mix)モデルは、複数のタスクにfine-tuningされたモデルで、自由な文章プロンプトに対応できます。fine-tuned(ft)モデルは、特定の学術ベンチマークタスクに特化したモデルで、研究目的に利用されます。
PaliGemma には、画像キャプショニング、視覚的質問応答、物体検出、指示対象セグメンテーションといった機能が実装されています。これらの機能は、適切なプロンプトを与えることで使い分けることができます。特に、高解像度(448×896)のモデルは、精細なタスク(OCRなど)に適していますが、解像度が高いため、より多くのメモリを必要とします。一方で、224×224の解像度でも大抵のタスクに対応できるため、実用的な用途には224モデルが適していると考えられます。
PaliGemma は、会話型ではなく単発の視覚言語タスクに最適化されたモデルです。特定の用途に合わせてfine-tuningすることで、より高度なパフォーマンスが得られるよう設計されています。
——————————–
【ニュース】 2024-05-15 14:28:00 OpenAIでアルトマンCEO解任騒動の首謀者の1人で共同創業者のサツケバー氏が退社へ https://www.itmedia.co.jp/news/articles/2405/15/news136.html
OpenAIにおける共同創業者のサツケバー氏の退社について、以下のように要約いたします。
OpenAIは、2024年5月14日(現地時間)、共同創業者でチーフサイエンティストのイリヤ・サツケバー氏(38歳)が退社すると発表しました。後任には、主任研究員のヤクブ・パチョッキ氏が就任することになりました。
サツケバー氏は、2015年にサム・アルトマン氏、イーロン・マスク氏らと共にOpenAIの立ち上げに参加し、2018年からチーフサイエンティストを務めてきました。しかし、昨年11月に発生したアルトマンCEOの解任騒動の中心人物の1人であり、アルトマンCEOの復帰後も表立った発表には参加していませんでした。
アルトマン氏は、サツケバー氏を「私たちの世代で最も偉大な頭脳の1人」と評価しています。一方、サツケバー氏は自身のXで、OpenAIは現在のリーダーシップの下で「安全で有益なAGIを構築してくれる」と確信しており、自身の今後の計画については「非常に個人的に意味のあるプロジェクトを始めるので、詳細は後日発表する」としています。
後任のパチョッキ氏は、カーネギーメロン大学で理論計算機科学の博士号を取得し、2017年からOpenAIで研究に取り組んできた人物です。アルトマン氏は、パチョッキ氏を「私達の世代で最も優れた頭脳の1人」と評価しています。
2024/5/14のピックアップ
【新サービス】 2024-05-14 02:31:11 Hello GPT-4o https://openai.com/index/hello-gpt-4o/
OpenAIが発表した新しいAIモデル「GPT-4o」について、その特徴や機能、性能評価、安全性と制限についてまとめました。
まず、GPT-4oはテキスト、音声、画像、動画といった複数のモダリティを一つのニューラルネットワークで処理できる、非常に汎用性の高いモデルです。入力と出力が可能な組み合わせも多様で、音声入力に対しては平均320ミリ秒という人間に近い反応速度を実現しています。
性能評価では、従来のGPT-4 Turboと同等の文章生成性能を維持しつつ、特に多言語、音声、視覚理解の分野で大幅な向上を示しています。具体的には、多言語問題集(M3Exam)のゼロショット評価やASR、機械翻訳、視覚理解ベンチマークで新記録を達成しています。
データのフィルタリングや行動の精緻化など、設計段階から安全性を重視した取り組みがなされています。しかし、特に音声出力における新たなリスクが指摘されており、当面は音声出力を制限して提供する予定だとのことです。
また、モデルの限界として、状況に応じた適切な応答の生成、抽象的な概念の理解、長期的な論理性の維持などの課題が挙げられています。OpenAIはこれらの改善に向けて取り組んでおり、ユーザーからのフィードバックも求めていきたいとしています。
最後に、GPT-4oはChatGPTの無料・有料ユーザーで利用可能となり、開発者向けのAPIも提供されます。音声や動画への対応は順次拡大していく予定とのことです。
——————————–
【ニュース】 2024-05-14 10:42:00 「富岳」は世界4位を維持──スパコン世界ランキング 「HPCG」は9期連続1位 https://www.itmedia.co.jp/news/articles/2405/14/news100.html
「富岳」は世界4位のスーパーコンピューターを維持しています。富士通と理化学研究所が発表したところによりますと、「富岳」は国際会議「ISC High Performance 2024」において、TOP500ランキングで4位を維持しました。一方で、HPCG(High Performance Conjugate Gradient)ランキングでは9期連続の1位を獲得しており、また、大規模グラフ解析に関する性能ランキングである「Graph500」のBFS(Breadth-First Search:幅優先探索)部門でも1位になりました。この「Graph500」のBFSでは、富岳の15万2064ノードを用いて16万6029 GTEPS(ギガテップス)を達成し、前回より約20%性能を向上させています。さらに、AIの深層学習で用いられる単精度や半精度演算処理に関する性能ベンチマーク「HPL-MxP」(HPL-AIから改称)では4位となっています。TOP500での4位、HPCG 9期連続1位、Graph500 BFS 1位、HPL-MxP 4位という成績から、富岳の世界最高水準の総合的な性能が示されたとしています。このように、「富岳」は世界トップクラスのスーパーコンピューターとして、幅広い分野でその高い性能を発揮し続けているといえます。
——————————–
【ニュース】 2024-05-14 11:21:45 アップルとグーグル、位置情報の不正追跡を防ぐ機能を共同開発 https://www.watch.impress.co.jp/docs/news/1591180.html
アップルとグーグルは、共同で Bluetooth の追跡デバイス向けの業界規格「Detecting Unwanted Location Trackers (不要な位置情報トラッカーの検出)」を作成しました。この規格により、ユーザーが知らないうちにiOSデバイスやAndroidデバイスで追跡されている場合、両方のデバイスでユーザーに警告を出すことができるようになります。
この規格の目的は、持ち物を追跡できるよう設計されたデバイスの悪用を減らすことです。アップルは iOS 17.5 から、この機能を実装しました。グーグルもAndroid 6.0以降のデバイスでこの機能を導入していく予定です。
Detecting Unwanted Location Trackersでは、Bluetoothトラッカーがユーザーと一緒に移動していると検出された場合、ユーザーの端末に「[追跡アイテム]はあなたと一緒に移動しています」という警告が表示されます。この通知は、iOS やAndroidなどのデバイスとペアリングしているプラットフォームを問わず受け取ることができます。
ユーザーがこの警告を受け取ると、別の人物のAirTag、「探す」に対応するアクセサリ、その他の業界規格に対応したBluetoothトラッカーがユーザーと一緒に移動していることを意味します。ユーザーはiPhoneにトラッカーの識別子を表示したり、トラッカーから音を再生したり、トラッカーを無効にする手順にアクセスできます。Chipolo、eufy、Jio、Motorola、Pebblebeeなどのメーカーも、今後のタグで対応する予定です。
このプラットフォームをまたいだ協力は業界初のもので、関連するコミュニティや業界からの意見を取り入れて実現されました。メーカー向けのガイドラインやベストプラクティスも提供されます。AppleとGoogleは、Detecting Unwanted Location Trackersワーキンググループを通じてIETF(Internet Engineering Task Force)と協力し、このテクノロジーの公式規格を作成しています。
——————————–
【新しいLLM】 2024-05-14 13:00:00 Falcon 2: UAE’s Technology Innovation Institute Releases New AI Model Series, Outperforming Meta’s New Llama 3 https://www.tii.ae/news/falcon-2-uaes-technology-innovation-institute-releases-new-ai-model-series-outperforming-metas
Falcon 2シリーズは、技術イノベーション研究所(TII)によって開発された次世代の大規模言語モデル(LLM)です。Falcon 2 11Bは、5.5兆トークンのデータで学習された11億パラメーターのLLMで、Hugging Faceのリーダーボードで検証されたところ、Meta社の新しいLlama 3 8Bを上回り、Googleのリーダー格のGemma 7Bとほぼ同等のパフォーマンスを発揮しました。
特に注目されるのは、Falcon 2 11B VLMが、画像から文章への変換(vision-to-language)が可能な、業界初のマルチモーダルなモデルだということです。これにより、画像や映像を文書化したり、視覚障害者向けのサポートなど、様々な用途が期待されます。また、Falcon 2シリーズはオープンソースで公開されているため、開発者が自由に活用できるようになっています。
今後の計画としては、さまざまなサイズのFalcon 2モデルを投入し、さらに性能を向上させるため、「Mixture of Experts (MoE)」と呼ばれる先進的な機械学習手法を導入していくことが目指されています。
——————————–
【国内ニュース】 2024-05-14 16:23:00 シャープが9月までに大型液晶事業から撤退、堺の工場はAIデータセンター関連に事業転換 https://www.itmedia.co.jp/news/articles/2405/14/news163.html
シャープ社は、大型液晶パネル事業から撤退することを発表しました。堺市にあるシャープのディスプレイパネル工場「堺ディスプレイプロダクト」(SDP)は、2024年9月までに生産を停止することとなります。
この工場は2009年に世界最先端の大型液晶パネル工場として稼働を開始しましたが、リーマン・ショックや中国、韓国企業との競争激化により収益性が悪化し、2016年にシャープが鴻海精密工業に買収される原因となりました。
今回の撤退に伴い、SDPはインド有力企業への技術支援やAIデータセンター関連事業への転換を図るとのことです。シャープの2024年3月期連結決算では売上高2兆3219億円、最終損益1499億円の赤字となりましたが、2025年3月期には売上高2兆1000億円、最終利益50億円の黒字化を見込んでいます。
シャープ社長兼CEO の呉柏勲氏は「今年度こそ全社で黒字化を成し遂げたい」と述べており、大型液晶パネル事業からの撤退と事業転換により、企業全体の収益改善を目指しているものと考えられます。
2024/5/13のピックアップ
【新サービス】 2024-05-13 07:27:31 アトラシアン、新AIサービス「Atlassian Rovo」発表。GoogleドライブやGitHub、Slack、Teamsなど同社内外のサービスを横断してAIが学習、ユーザーを支援 https://www.publickey1.jp/blog/24/aiatlassian_rovogooglegithubslackteamsai.html
アトラシアンは、2023年に同社の製品群にAI機能「Atlassian Intelligence」を搭載しました。この機能により、プロジェクト管理ツールのJira Softwareではテスト計画の策定を、情報共有ツールのConfluenceではミーティングの文字起こしからの決議事項とアクションの自動箇条書き化などを実現していました。
今回発表された「Atlassian Rovo」は、この「Atlassian Intelligence」をさらに発展させたサービスです。Atlassian Rovcfgvoでは、アトラシアン製品に加えて、GoogleドライブやMicrosoft Sharepoint、Microsoft Teams、GitHub、Slack、Figmaなどのサードパーティのサービスの情報も横断的に学習することができます。さらに、APIを通じて社内のカスタムアプリケーションにも接続が可能です。
Atlassian Rovoが提供する主な機能は以下の2つです。
1. サービス横断的な検索
接続したサービス全体に対して検索を実行し、ユーザーの現在の作業に関連性の高い情報を一覧表示する機能です。
2. AIとのチャット
サードパーティのサービスの情報も含めて学習したAIと対話することで、質問への回答の取得や新しいアイデアの生成、問題解決の支援などが行えます。
さらに、Atlassian RovoのAIは、マーケティングやPRのためのコンテンツ生成、Jiraのバックログ整理、Confluenceページの整理、コンテンツの書式自動化など、さまざまな業務効率化タスクをサポートすることができるとされています。
【セキュリティ】 2024-05-13 08:00:00 nan https://arxiv.org/abs/2404.05823
この論文では、現代のx86プロセッサの無信号変調機能を利用した新しいコバートチャネル攻撃について解説しています。コバートチャネル攻撃とは、システムのセキュリティポリシーに違反して、共有されたリソースを通じて秘密情報を送信する攻撃手法です。この攻撃手法に対するカウンタメジャーとして、リソースの分割やアイソレーション技術が一般的に用いられています。しかし、プロセッサのハードウェア機能を利用した情報漏洩攻撃に対しては、チャネルの存在を隠蔽できるため、防御が困難です。
この論文では、x86プロセッサのデューティサイクル変調機能を利用した新しいコバートチャネル攻撃手法を提案しています。具体的には、送信側と受信側のプロセスが協力して、この機能を操作することで、秘密情報を悟られることなく送信できることを示しています。実際のシステム実装では、最大55.24ビット/秒の通信速度を達成できることを確認しています。
この攻撃手法は、プロセッサのハードウェア機能を利用しているため、従来の防御策では検知が困難です。そのため、このようなハードウェア機能に着目した新しいタイプのコバートチャネル攻撃に対する防御策の検討が重要になっています。プロセッサベンダーや OSベンダーによる対応が期待されますが、ユーザ側でも、このような攻撃手法の理解を深め、ソフトウェアレベルでの対策を検討することが必要不可欠だと考えられます。
——————————–
【量子コンピュータ】 2024-05-13 08:00:00 Quantum control of a cat qubit with bit-flip times exceeding ten seconds https://www.nature.com/articles/s41586-024-07294-3
この論文は、量子ビットの一種であるキャット量子ビットの制御について報告しています。キャット量子ビットは、量子力学的な安定状態の集合に符号化されており、ビットフリップエラーに対して自律的な保護を持っています。
実験では、10秒を超えるビットフリップ時間を持つキャット量子ビットを実現しました。これは、これまでに報告されていたキャット量子ビットの実装よりも4桁改善されています。量子重ね合わせ状態の準備と計測、そしてビットフリップ保護を損なうことなくこれらの状態の位相を制御することに成功しています。
具体的には、以下のような結果が得られています:
– ビットフリップ時間: 10秒を超える
– 位相フリップ時間: 490ナノ秒以上
– 量子重ね合わせ状態の準備と計測
– ビットフリップ保護を保ちつつの位相制御
これらの結果は、キャット量子ビットが量子技術の将来に向けて有望であることを示しています。量子制御と固有のビットフリップ保護との両立が、これまでにない水準で実証されたといえます。
この技術的な進展により、従来の量子ビット アーキテクチャにおける膨大なハードウェアオーバーヘッドを大幅に削減できる可能性が示唆されました。今後、キャット量子ビットを中心とした量子技術の発展が期待されます。
——————————–
【開発技術】 2024-05-13 11:50:09 CSSは日々進化している!知ったら使いたくなる「モダンCSS」機能紹介 https://levtech.jp/media/article/column/detail_429/
CSS は日々進化しており、近年の新しい仕様は「モダンCSS」と呼ばれています。モダンCSSとは、この数年で策定された新しい仕様で、CSS の使い勝手や効果を大きく変える機能のことです。
現在、CSS はモジュールとバージョンで管理されており、年に1回「スナップショット」として標準化の状況が公開されます。そのため、「CSSのバージョン○○に準拠」というように明確な対象を限定できず、常に新しい仕様に対して対応しているかどうか確認しながら開発を進める必要があります。「Can I use… Support tables for HTML5, CSS3, etc」などのサイトを活用し、ブラウザのサポート状況を確認することが重要です。
「State of CSS」というサイトでは、開発者向けにCSSの最新トレンドを毎年調査しており、「知っている(Awareness)」と「使っている(Usage)」の観点から、注目すべき新しいCSSの機能を把握することができます。
まず、「皆が知っていて、しかも使われている機能」としては、Flexbox が挙げられます。Flexbox は非常に柔軟性の高いレイアウトを実現できる機能です。一方、「知られてはいるけど、使われていない機能」には、CSS Nesting、:has()セレクタ、@container Queries、subgridなどがあります。これらはブラウザのサポートが進んでいないため、まだ使いづらい状況にありますが、今後活用されていく可能性が高い機能です。
CSS Nestingは、スタイル定義の入れ子を可能にする機能で、コンポーネントの階層をそのままスタイル定義に持ち込めるようになります。これにより、スタイルの可読性やメンテナンス性が大きく向上します。:has()セレクタは、子要素の状態に応じた親要素へのスタイル適用をコントロールできる機能で、表現の幅が広がります。
また、レスポンシブデザインに関連した機能として、@container QueriesやMedia Queries Range Contextsがあります。@container Queriesはコンテナのサイズに合わせてスタイルを適用する機能で、より柔軟なレスポンシブレイアウトが可能になります。Media Queries Range Contextsは、ビューポートの幅の指定をより直感的に行える機能です。
さらに、subgridはグリッドの入れ子を可能にする機能で、親グリッドのセルを子グリッドとすることができるため、レイアウトの柔軟性が向上します。
——————————–
【ニュース】 2024-05-13 12:01:00 Google Cloud、豪年金基金のアカウントを誤削除 予備も誤削除 他社でのバックアップでなんとか復旧 https://www.itmedia.co.jp/news/articles/2405/13/news090.html
Google Cloudは、オーストラリアの年金基金運営会社UniSuperのアカウントを誤って削除する事故を起こしました。UniSuperはGoogle Cloudを活用していましたが、Googleが自社で誤ってアカウントを削除してしまったのです。さらに、UniSuperが冗長性を確保するために別のリージョンにデータを置いていたものの、そちらも無効にされていたという深刻な状況でした。
この事故の原因は、Google Cloudがユニスーパーのプライベートクラウドサービスをプロビジョニングする際の不用意な構成ミスによるものでした。しかしながら、UniSuperは他社のサービスでもバックアップを確保していたため、そのデータを使って何とか復旧を果たすことができました。
UniSuperは約20兆円の巨額な資金を管理する大規模な組織ですが、今回の障害により50万人以上がアカウントにアクセスできない状態が1週間以上続きました。UniSuperは、この事故を「Google Cloudクライアントで初めて起きた唯一の出来事」と評し、本来起こるべきではなかったと述べています。
このように、大手クラウドサービスプロバイダであるGoogleでさえ、予期せぬミスによる深刻な障害を引き起こす可能性があることが明らかになりました。ユーザーは、クラウドサービスに完全に依存するのではなく、他社サービスでのバックアップなど、障害時の対策を十分に検討しておく必要があるということが示された事例だと言えるでしょう。
——————————–
【国内ニュース】 2024-05-13 12:01:15 ファミマ、大阪万博工事現場に無人トレーラー店舗 https://www.watch.impress.co.jp/docs/news/1590850.html
ファミリーマートは、竹中工務店と日立ハイテクと共同で、大阪・関西万博工事現場内に、移動型無人トレーラー店舗「ファミリーマート舞洲/N店」をオープンしました。この店舗は、コンビニ業界での初の取り組みです。
この移動型店舗は、工事の進捗や従事者数に合わせて販売場所を柔軟に変更できるという特徴があります。店内には約280種類の商品を取り揃え、2台のセルフレジを設置することで、会計の待ち時間も短縮できます。また、ファミマアプリ「ファミペイ」での割引や商品引換特典も利用可能です。
品質管理のために、トレーラー内には自動的にエアコンがON/OFFするシステムが導入されています。これにより、商品の品質が保たれ、快適な環境を提供できます。
この移動型店舗は、竹中工務店と日立ハイテクが開発した「牽引式オフグリッド型モバイルハウス」を発展させた設計となっています。日立ハイテクのソーラーパネル、蓄電池、制御機器からなる自立電源システムと衛星インターネットを搭載しており、安定した電力供給と通信機能を実現しています。
今後は、被災地や買い物不便地域での展開を検討していく予定です。ファミリーマート舞洲/N店の営業時間は9時~17時で、レジ台数は2台、決済方法はバーコード決済、交通系電子マネー、クレジットカードが利用可能です。店舗面積は約14m2です。
——————————–
【生成AI】 2024-05-13 12:23:54 Discord上で動く生成AIサービス「Stable Artisan」 https://www.watch.impress.co.jp/docs/news/1590875.html
「Stable Artisan」は、Stability AIが提供する生成AI(generative AI)サービスです。このサービスは、Discord上で稼働しており、月額9ドルからの価格設定となっています。ユーザーはDiscord内で直接、様々な生成機能を利用することができます。
具体的な機能としては、Stable Diffusion 3、Stable Video、Stable Image Coreといった生成AIモデルを使って、画像の生成、テキストによる画像内オブジェクトの置き換え、背景の削除、低解像度画像のアップスケール、背景の生成拡張、ラフスケッチの変換、さらに画像から短い動画の生成などが可能です。
これらの機能は、Stable DiffusionのDiscordサーバーからアクセスできるようになっています。つまり、ユーザーはDiscord上で直接、Stability AIの先進的な生成AIを利用することができるのです。
このサービスの登場によって、これまでよりもさらに手軽に画像や動画の生成が行えるようになりました。Discordというポピュラーなプラットフォーム上で提供されているため、多くのユーザーに利用されることが期待されます。また、月額9ドルという価格設定は、個人ユーザーにも手の届きやすいものとなっています。
——————————–
【国内ニュース】 2024-05-13 17:10:19 デジタル庁2023年度事業 行政での生成AI利活用検証から見えた10の学び (1/3)|デジタル庁 https://digital-gov.note.jp/n/n606cde8cc73e
——————————–
【国内ニュース】 2024-05-13 17:40:00 大和証券グループ、生成AI「Claude 3」導入 「GPT-4 Turbo」の画像対応版も https://www.itmedia.co.jp/news/articles/2405/13/news153.html
大和証券グループ本社は、生成AI「Claude 3」と、画像入力に対応した「GPT-4 Turbo with Vision」を社内向け生成AI対話環境に導入しました。これは、顧客向けサービスでの活用を見すえた取り組みです。
具体的には、Amazon Web Services(AWS)の「Amazon Bedrock」を活用して、セキュアな対話環境を社内に構築しています。Claude 3は、長文の読解や日本語性能に優れているため、顧客向けサービスでの活用が期待されています。また、Azure OpenAI Serviceが新たに対応したGPT-4 Turbo with Visionを活用することで、画像や図表を含むPDFファイルなど、適用範囲を広げることができます。
大和証券グループは、2023年にAzure OpenAI Serviceを活用したChatGPT対話環境を導入しており、プログラミング補助や翻訳、議事録作成、アイデア出しなどに活用してきました。今回の新たな取り組みは、生成AIの活用を更に進めるものと言えます。
——————————–
【AIの活用】 2024-05-13 18:04:35 NTT、機械学習で画像から鋼材の腐食を推定 https://www.watch.impress.co.jp/docs/news/1591049.html
NTTは、デジタルカメラでインフラ設備を撮影した画像から自動的に鋼材の腐食を検出し、腐食の深さ(腐食による鋼材断面の欠損量)を推定する画像認識技術を確立しました。鋼製の管路設備を用いた検証の結果、誤差0.44mmの精度で鋼材断面の欠損量を推定できることを確認しました。
この技術により、画像から自動的に設備の腐食箇所とその箇所に残存する鋼材の厚さを把握できるようになります。これにより、設備の耐久性能や耐荷性能を高精度に評価が可能となり、適切な時期と方法で補修ができるようになるため、維持管理コストを縮減できるとしています。
従来の点検方法では、作業員による目視での外観点検のため、腐食の深さ(腐食による鋼材断面の欠損量)を把握することが難しかったのですが、今回の方法では、デジタルカメラで撮影した鋼構造物の画像から自動的に腐食を検出し、腐食による鋼材断面の欠損量を推定することができます。
NTT独自のデータベースを使用し、機械学習モデルも構築することで、腐食の広がり、色、錆こぶの大きさ等の外観特徴と鋼材断面の欠損量を関連付けることができ、高精度での欠損量推定が可能になりました。
パイプカメラを使用して鋼管の内面を撮影した例では、腐食の検出段階で断面欠損を伴う腐食が発生した領域を検出し、その後の腐食の進行度合いの解析により管路断面の欠損量を推定しています。通信用の鋼管は健全な状態で厚さ4.2mmであるため、断面の欠損量を引くことによって腐食箇所における残存する鋼材厚さは2.95mmと算出しました。
NTTグループ会社では、2024年度中にこの技術の実用化を予定しており、橋梁、鉄塔、ガードレール等といった様々なインフラ設備への技術拡大を進める予定です。
——————————–
【DL技術】 2024-05-13 23:00:01 xLSTM: Extended Long Short-Term Memory https://arxiv.org/abs/2405.04517
LSTMは1990年代に考案された深層学習の手法ですが、近年登場したTransformerモデルに比べると性能が劣ってきていました。そこで本研究では、LSTMの限界を克服するための拡張手法を提案しています。
具体的には、以下の2つの拡張を行っています。
1. 指数型ゲート(exponential gating)の導入
LSTMのゲート機構に指数関数を用いることで、より柔軟な情報の取捨選択を実現しています。この際、適切な正規化や安定化の手法も提案されています。
2. LSTMのメモリ構造の修正
スカラーメモリを持つ「sLSTM」と、行列メモリを持ち完全並列化できる「mLSTM」という2つの変形LSTMを考案しています。これにより、LSTMの性能と並列性を向上させることができます。
これらの拡張手法を「xLSTM」として統合し、従来のTransformerやState Space Modelと比較したところ、性能面でも優位性があることが示されています。
本研究の成果により、高性能かつ並列性の高いLSTMモデルの実現が期待できます。LSTMはこれまでも自然言語処理などで重要な役割を担ってきましたが、本論文の技術を取り入れることで、更なる高度化が期待できると考えられます。
——————————–
【DL技術】 2024-05-13 23:00:01 A decoder-only foundation model for time-series forecasting https://research.google/blog/a-decoder-only-foundation-model-for-time-series-forecasting/
この研究では、Googleの研究チームがTimesFMと呼ばれる時系列予測のための単一のファウンデーションモデルを提案しています。TimesFMは、1,000億の実世界の時系列データを使ってプリトレーニングされており、100Mパラメータと比較的小さなサイズながら、さまざまな分野やデータ粒度のベンチマークデータセットに対して優れた0ショット予測性能を示しています。
具体的には、TimesFMはトークン化された時系列データをトランスフォーマーのスタック層に入力し、出力トークンから次の一定長の時系列を予測するという構造となっています。これにより、入力時系列長や出力予測長を柔軟に変更できるため、長期予測においても高精度な性能を発揮します。また、合成データと各種実世界データを組み合わせたプリトレーニングデータにより、TimesFMは幅広い時系列パターンを学習することができました。
評価の結果、TimesFMは、ARIMA、ETS、DeepAR、PatchTSTなどの従来手法や最新の深層学習モデルと比べても優れた0ショット予測性能を示しました。特に長期予測タスクでは、最先端の監督学習モデルであるPatchTSTと匹敵する性能を発揮しています。
以上のように、本研究では比較的小規模な200MパラメータのTimesFMモデルを提案し、その優れた0ショット予測性能を明らかにしています。これにより、時系列予測の分野においてもファウンデーションモデルのアプローチが有効であることが示されました。TimesFMモデルは、HuggingFaceとGitHubで公開されていますので、興味のある読者は活用することができます。
——————————–
【新しいLLM】 2024-05-13 23:00:01 DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model https://arxiv.org/abs/2405.04434v2
DeepSeek-V2は、合計236Bパラメータを持ち、そのうち21Bパラメータが各トークンに対して活性化されます。また、128Kトークンの文脈長に対応しています。モデルアーキテクチャとして、Multi-head Latent Attention (MLA) とDeepSeekMoEを採用しています。MLAは、Key-Valueキャッシュを潜在ベクトルに大幅に圧縮することで効率的な推論を実現しています。一方、DeepSeekMoEは疎な計算を利用することで、経済的なコストで強力なモデルの訓練を可能にしています。
DeepSeek-V2は、8.1Tトークンの高品質かつマルチソースのコーパスでpretrainした後、Supervised Fine-Tuning (SFT)とReinforcementLearning (RL)を行うことで、その能力を十分に引き出しています。評価の結果、DeepSeek-V2とそのチャット機能付きバージョンは、わずか21Bの活性化パラメータにもかかわらず、オープンソースモデルの中でもトップクラスのパフォーマンスを達成しています。
DeepSeek 67Bと比較すると、DeepSeek-V2は大幅に高い性能を示しつつ、訓練コストを42.5%削減し、Key-Valueキャッシュを93.3%圧縮し、最大生成スループットを5.76倍に高めることができています。このように、DeepSeek-V2は強力で経済的かつ効率的な言語モデルであると言えるでしょう。
——————————–
【新しいLLM】 2024-05-13 23:00:01 Granite Code Models: A Family of Open Foundation Models for Code Intelligence https://arxiv.org/abs/2405.04324v1
IBMが開発したGranite Code Modelsは、116の異なるプログラミング言語で書かれたコードを学習した3億から34億パラメーターの各種モデルで構成されています。これらのモデルは、複雑なアプリケーション近代化タスクから、メモリ制限のある組み込み機器のユースケースまで、幅広い用途に対応できるよう設計されています。
Granite Code Modelsの評価では、さまざまなコーディングタスクにおいて、他のオープンソースのコードLLMと比較して最先端のパフォーマンスを発揮することが示されています。これらのモデルは企業のソフトウェア開発ワークフローに最適化されており、コード生成、修正、説明などの幅広い機能を備えた、汎用的なコードモデルとなっています。
このGranite Code Modelsは、Apache 2.0ライセンスの下でリリースされているため、研究や商用利用が可能です。ソフトウェア開発の生産性向上や、自律的なタスク処理に活用できるこれらのモデルは、コードインテリジェンス分野の発展に大きく寄与するものと期待されます。
2024/5/12のピックアップ
【技術解説】 2024-05-12 15:32:49 Why Patching Globals Is Harmful https://kettanaito.com/blog/why-patching-globals-is-harmful
このテキストは、グローバルAPIのパッチングが持つ問題点について詳しく説明しています。著者は、React、Next.js、Bunなどの人気フレームワークが、fetch関数をパッチングすることで独自の機能を提供しているケースを取り上げ、その弊害について論じています。
まず、グローバルAPIのパッチングは、メンテナンスの困難さ、予測可能性の低さ、開発者の学習経験の悪化、ベンダーロックインの問題などを引き起こすと指摘しています。また、このような設計は、JavaScriptの仕様策定の進展を阻害する可能性もあると述べています。
その上で、代替案として、明示的なユーティリティ関数の使用を提案しています。具体的には、Bunのproxy APIや、Reactのcacheユーティリティなど、標準APIを拡張するのではなく、独自のAPIを用意することで、前述の問題を回避できると説明しています。
最後に、この問題に対する一般的な反論を取り上げ、それぞれに丁寧に答えることで、著者の主張をより強力に支持しています。
——————————–
【開発技術】 2024-05-12 06:00:40 Exploring the c4… compiler? https://registerspill.thorstenball.com/p/exploring-the-c4-compiler
c4 は、わずか4つの関数で記述された C 言語の実装です。この驚くべき小型のコンパイラは、自身をコンパイルでき、しかも仮想マシンとしても機能します。
まず、c4 は次のような4つの主要な関数から成り立っています:
1. `next` 関数: トークナイザとレクサとしての役割を担い、次のトークンを生成します。
2. `expr` 関数: 式を解析し、即座にバイトコードを生成します。
3. `stmt` 関数: 文を解析し、即座にバイトコードを生成します。
4. `main` 関数: メモリを割り当て、パーシングを開始し、生成されたバイトコードを実行する仮想マシンを設定します。
この仮想マシンは、驚くべき密度と簡潔さを持っています。様々な命令(PRTF、MALC、MSET など)が定義されており、これらは C の標準ライブラリを模倣しています。また、トークンの種類を表す列挙型の順序が、演算子の優先順位を定義しているなど、多くの巧妙な仕組みが組み込まれています。
さらに、c4 は自己ホスティングが可能です。つまり、c4 自身をコンパイルして実行することができます。この機能は、言語自体を可能な限り小さく保ち、自身を完全にコンパイルできるようにすることで実現されています。例えば、構造体のような基本データ構造は存在せず、代わりにIDの配列を使って擬似的な構造体を表現しています。
2024/5/11のピックアップ
【国内ニュース】 2024-05-11 09:06:46 スーパーコンピュータ「富岳」と量子コンピュータ「叡」の連携利用を実証 https://www.riken.jp/pr/news/2024/20240510_1/index.html
理化学研究所(理研)の研究グループは、最先端研究プラットフォーム連携(TRIP)構想の一環として、「富岳」と「叡」の連携利用を実証しました。異なる原理に基づくコンピュータの連携により、計算可能領域の拡大が期待されます。
この研究では、「富岳」側のプログラムから「叡」のクラウドサービスを呼び出すソフトウェアを開発し、量子HPC連携計算を実現しました。具体的には、量子回路のクラスタリングの計算を「叡」にオフロードする実験を行いました。「富岳」側のプログラムを並列化し、複数の量子回路実行リクエストを同時に送ることで、遅延の影響を最小限に抑えることができました。
この結果、並列数を5にすることで、アプリケーション全体の実行時間を約30%短縮できることを示しました。ただし、量子コンピュータへのリクエストのみを並列化しており、リクエスト自体は並列化していないため、並列数が5倍になれば実行時間が5分の1になるというわけではありません。
本研究成果は、内閣府総合科学技術・イノベーション会議の戦略的イノベーション創造プログラム(SIP)の支援を受けており、2024年にドイツで開催される国際会議「ISC High Performance 2024」のフォーカスセッションで発表される予定です。
——————————–
【ニュース】 2024-05-11 11:54:47 アップル、iPhoneへのChatGPT搭載でオープンAIとの合意に近づく https://www.bloomberg.co.jp/news/articles/2024-05-11/SDARI7T0G1KW00
アップルとオープンAIは、iPhoneの次期OSである「iOS 18」へのChatGPTの統合について、最終調整を行っています。また、アップルはグーグルとも、同社のチャットボット「Gemini」のライセンスについて協議中です。
これらの合意が成立すれば、アップルは2024年6月に開催予定の年次開発者会議(WWDC)で、新たなAI機能にChatGPTを含めることができるようになります。
アップルは、自社製プロセッサを搭載したデータセンターを通じて、AI機能の一部を提供する方針です。これは2024年内にクラウド上で実現される見込みです。
アップルのティム・クックCEOは、個人的にChatGPTを使用しており、製品にAI機能を慎重に搭載していく必要性について言及しています。また、同氏は今後アップルのAI技術が他社を凌駕するだろうと述べています。
2024/5/10のピックアップ
【国内ニュース】 2024-05-10 06:54:54 「LINEのセキュリティ」は大問題 TikTokと同じ道をたどるのか https://www.itmedia.co.jp/business/articles/2405/10/news026.html
LINEは日本人の8割、約9,600万人が利用する無料メッセージングアプリとして、政府機関も公式サービスを提供するなど、日本の通信インフラとして不可欠なものとなっています。しかし、LINEが抱えるデータセキュリティの問題と企業体質が深刻化し、企業の存続すら危ぶまれる事態に発展しています。
今回のLINEの問題は、単なるデータセキュリティの問題にとどまらず、日本の通信インフラを外国企業が支配するという国家レベルの問題にまで発展しています。
——————————–
【国内ニュース】 2024-05-10 12:42:19 ソフトバンク、AI開発で政府から421億円 1兆パラメータLLMも開発 https://www.watch.impress.co.jp/docs/news/1590406.html
ソフトバンクは、経済安全保障推進法に基づく「特定重要物資クラウドプログラムの供給確保計画」について、経済産業省から2024年5月10日に認定を受けました。この認定により、ソフトバンクは約1,500億円の設備投資を行い、2024年度から2025年度にかけて国内の複数の拠点にAI計算基盤を新たに構築することができます。また、最大421億円の助成を受けることが予定されています。
SB Intuitionsは2024年度内に約3,900億パラメーターのLLMの構築を目指すほか、約1兆パラメーターのLLM構築にも取り組む予定です。また、日本国内の企業や研究機関に対してもサービスを提供していきます。
——————————–
【国内ニュース】 2024-05-10 13:00:00 ソニーは「着るエアコン」を本気でビジネスにしようとしている 新作はどう進化したか、実機をチェックする https://www.itmedia.co.jp/news/articles/2405/10/news135.html
REON POCKETは、背中に装着することで冷気や暖気を感じさせるウェアラブルデバイスです。バッテリー持続時間の課題は改善され、「レベル1」で17時間、「レベル4」で7.5時間の駆動が可能となりました。これは、ペルチェ素子の再設計やファンの専用設計による電力効率の向上によるものです。
ソニーはこうした「マクロ温度」ビジネスを展開するため、REON POCKETチームを別会社「ソニーサーモテクノロジー」として分離し、ビジネス向けソリューション「REON BIZ」の提供を開始しました。
——————————–
【その他】 2024-05-10 13:04:13 GitHub Copilotは開発者の生産性をどれだけ上げるのか?ZOZOでの全社導入とその効果 / How Much Does GitHub Copilot Improve Developer Productivity? The Company-wide Implementation and Its Effects at ZOZO https://speakerdeck.com/horie1024/how-much-does-github-copilot-improve-developer-productivity-the-company-wide-implementation-and-its-effects-at-zozo
——————————–
【科学技術】 2024-05-10 15:35:36 【記者発表】シリコン膜からの熱放射の倍増に成功 ――半導体デバイスの排熱問題の解決に期待―― https://www.iis.u-tokyo.ac.jp/ja/news/4522/
まず、高性能な半導体デバイスの発熱による性能や信頼性の低下が問題となっており、熱管理が課題となっています。そこで、研究グループは、シリコン膜の表面を酸化させることで、表面フォノンポラリトンという光と格子振動の連成波を発生させ、シリコン膜からの熱放射を倍増させることに成功しました。
従来は、誘電体膜を数十ナノメートルまで薄くしないと黒体輻射限界を上回る熱輻射は得られないと考えられていましたが、本研究により、表面フォノンポラリトンを利用することで、はるかに丈夫なシリコン構造からでも高効率な熱放射が可能であることが明らかになりました。
この成果は、電子機器の熱管理や輻射ヒーター、宇宙空間での放熱など、幅広い応用が期待されます。半導体デバイスの高性能化と信頼性向上に貢献するとともに、省エネルギー化や宇宙開発にも寄与することが期待されます。
——————————–
【AIと法律・規制】 2024-05-10 16:00:00 あのキャラの声、AIで勝手に再現「無断AIカバー」氾濫 声優と弁護士に聞く「声の守り方」と未来 https://www.itmedia.co.jp/news/articles/2405/10/news126.html
人気声優や歌手の声を無断で使った「AIカバー」が急増しています。これを実現しているのは、本人そっくりの音声を再現する「AIボイスチェンジャー技術」です。中国発の「RVC」というツールが特に有名で、短い音声データがあれば、本人の声をリアルに再現できるようです。
現行法では、声を守るための法整備が十分ではありません。パブリシティ権の適用は限定的で、著名でない人や、キャラクターの声は守れない可能性があります。著作権法でも、アニメのキャラクターなど、関係者が多岐にわたるため、訴訟を起こすハードルが高いとのことです。
そのため、「声の肖像権」の新設などを目指す動きもあります。一方で、声優自らが正規のAIツールを開発しようという動きもあり、業界でのルール作りや、利益の還元方法などが議論されています。
——————————–
【新しいLLM】 2024-05-10 16:56:04 スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 https://www.titech.ac.jp/news/2024/069217
東京工業大学、東北大学、富士通、理化学研究所、名古屋大学、サイバーエージェント、Kotoba Technologies の研究チームは、スーパーコンピュータ「富岳」を用いて学習した大規模言語モデル「Fugaku-LLM」を2024年5月10日に公開しました。
このモデルは、以下のような特徴を有しています:
1. 「富岳」の性能を最大限に活用した分散並列学習を実現し、既存技術に比べて演算速度を6倍、通信速度を3倍に高速化しました。深層学習フレームワークの「富岳」への移植や、「富岳」向けの通信最適化などが行われています。
2. 130億パラメータのモデルで、現在の計算機環境下で扱いやすい程度の大規模さを持ち、日本語性能に優れています。国産の独自データで学習を行っているため、透明性と安全性が確保されています。
3. Japanese MT-Benchで最高性能を達成し、特に人文社会系のタスクで高いベンチマーク性能を発揮することが期待されています。敬語など日本語の特徴を踏まえた自然な対話が可能です。
——————————–
【画像生成AI】 2024-05-10 17:51:00 光源を指定して画像の背景を違和感なく変更できる生成AIツール「IC-Light」をControlNetの作者が公開したので使ってみた https://gigazine.net/news/20240510-ic-light-image-relighting
2024/5/9のピックアップ
【AIの活用】 2024-05-09 01:00:00 AlphaFold 3 predicts the structure and interactions of all of life’s molecules https://deepmind.google/discover/blog/alphafold-3-predicts-the-structure-and-interactions-of-all-lifes-molecules/
AlphaFold 3は、Google DeepMindとIsomorphic Labsによって開発された新しいAIモデルです。タンパク質、DNA、RNA、リガンドなどあらゆる生命体の分子の構造と相互作用を高精度に予測するこのモデルは、生物学的世界の理解と創薬の変革をもたらすことが期待されています。
AlphaFold 3は、2020年に大きな進展を遂げたAlphaFold 2を基に構築されています。これまでにも多くの研究者がAlphaFold 2を使ってマラリアワクチンやがん治療薬、酵素設計などの分野で重要な発見をしてきました。AlphaFold 3は、タンパク質だけでなく、広範な生体分子の予測が可能になりました。これにより、バイオ素材の開発や作物の強靭化、創薬の高速化、ゲノム研究の加速など、さらなる画期的な科学的進歩が期待されています。
AlphaFold 3の予測能力は飛躍的に向上しており、既存の手法と比べて、タンパク質と他の分子種の相互作用予測精度は50%以上向上し、重要な分類では2倍の精度となっています。特に、タンパク質とリガンド、抗体との結合予測精度が飛躍的に向上しており、創薬につながる重要な知見が得られます。
AlphaFold Serverは、この技術を誰もが無料で利用できるようにするためのプラットフォームです。実験による蛋白質構造予測には膨大な時間とコストがかかりますが、AlphaFold Serverを使えばタンパク質、DNA、RNA、リガンド、イオンなどの構造を簡単に予測できるようになります。これにより、研究者は実験前に仮説を立て、効率的に検証できるようになります。
AlphaFold 3の開発にあたっては、バイオセキュリティや研究、産業界など、50以上の専門家と協議し、リスクの軽減と利益の最大化に取り組んできました。今後も、無料のデータベースの提供や教育プログラムの拡充、開発途上国への支援など、責任を持って技術の普及を進めていきます。
——————————–
【技術解説】 2024-05-09 08:20:00 結局ChatGPTとGemini、Claudeのどれを使えばいい? 色々比較した https://www.watch.impress.co.jp/docs/topic/1589204.html
AIチャットツールとしてOpenAIの「ChatGPT」、Googleの「Gemini」、AnthropicのClaude」を比較しました。
3つのAIチャットツールには、いくつかの共通点や相違点がありました。まず、月額料金はおおよそ3,000円前後で横並びとなっています。ただしGemini Advancedは、最初の2カ月間が無料で、さらにGoogle Oneのクラウドストレージ2TBも付いてくるため、コストパフォーマンスが良いと言えます。
機能面では、3つとも画像認識に対応していますが、画像生成ができるのはChatGPTとGeminiのみです。一方、Claudeは20万のコンテキスト長で長文の処理に強いという特徴があります。また、ChatGPTはAPIを使えば音声認識や動画認識にも対応できますが、Geminiも同様の機能を持つGemini 1.5 Proまで拡張できます。
これらの機能を拡張する仕組みとして、ChatGPTはGPTs、Geminiは拡張機能という形式を用意しています。開発者が提供するカスタマイズ済みのAIチャット機能を自由に使えるのがChatGPTの強みといえます。
各ツールの出力結果を比較すると、記事の要約はClaude 3 Opusが最も良く、プログラムコードの生成はChatGPT Plusが優れています。一方、画像認識はClaudeが高精度で、文字抽出もClaudeが最も優れていました。ただし、ハルシネーションへの対応はClaude 3 Opusが弱く、Gemini Advancedがバランスがよいと言えるでしょう。
APIの性能とコストを比較すると、Geminiが無料で使えるため、個人利用には最適です。一方、ChatGPTとClaude 3は有料ですが、大規模なAIサービス開発に適しています。ただし、AIモデルの進化に伴い、コストパフォーマンスは変わる可能性があるため、最新の情報を確認する必要があります。
——————————–
【RAG】 2024-05-09 09:00:00 Building Cost-Efficient Enterprise RAG applications with Intel Gaudi 2 and Intel Xeon https://huggingface.co/blog/cost-efficient-rag-applications-with-intel
この記事では、Intel Gaudi 2 AI アクセラレータと Intel Xeon CPUを利用して、コスト効率的な企業向けRAGアプリケーションを構築する方法について解説しています。具体的には、以下のような内容が紹介されています。
Intel Developer CloudやGaudi 2 AIアクセラレータ、Intel Xeon CPUなどの利用方法が示されています。LangChainというオープンソースフレームワークを使ってRAGアプリケーションを構築する手順が詳しく解説されています。具体的には、ベクトルデータベースの作成、RAGパイプラインの定義、Gaudi 2上での大規模言語モデルの推論実行などの手順が示されています。
また、ベンチマーク結果として、Llama2-70Bモデルを使ったRAGアプリケーションの評価が行われています。Intel Gaudi 2と Nvidia H100を比較した結果、Gaudi 2のスループットは1.13倍高く、コストパフォーマンスは2.27倍優れていることが示されています。
最後に、OPEA(Open Platform for Enterprise AI)やText Generation Inference on Gaudi 2、Intel AIMLエコシステムなどの関連リソースが紹介されており、読者がGenAIプロジェクトをスムーズに始められるよう支援されています。
——————————–
【ニュース】 2024-05-09 10:56:00 Introducing the Model Spec https://openai.com/index/introducing-the-model-spec/
人工知能(AI)モデルの行動を望ましい方向に導くための取り組みについて、OpenAIが「Model Spec」と呼ばれる文書を公開したことを紹介しています。
Model Specは、OpenAIのAPIやChatGPTを利用する際のモデルの行動原則を定めたものです。ユーザーとの対話の中で、モデルが適切な言動を心がけるようにするためのガイドラインです。具体的には、次の3つの要素から構成されています。
1. 目的:モデルの行動が目指すべき大まかな方向性を示す原則
2. ルール:複雑な状況に対応し、安全性と合法性を確保するための具体的な指示
3. デフォルトの行動:目的とルールに沿った一般的な対応の仕方を示すガイドライン
これらのガイドラインに基づいて、モデルは適切な情報提供やアドバイスを心がけるようになります。例えば、不法な行為に関する相談には答えず、医療や金融に関する専門的な助言は控えめにする、といった具合です。
モデルの行動を設計する際には、さまざまな観点からのトレードオフが伴うため、OpenAIでは今後、広範な関係者からのフィードバックを得ながら、Model Specの改善に取り組んでいく予定です。これは、AIの振る舞いをめぐる議論を深めていくための継続的な取り組みの一環といえます。
——————————–
【その他】 2024-05-09 17:43:06 「Google スプレッドシート」にテーブル機能が追加/列全体まとめて書式設定でき行のグループ化も可能 https://forest.watch.impress.co.jp/docs/news/1590139.html
Google は2023年5月8日に、「Google スプレッドシート」にテーブル機能を追加したことを発表しました。この新機能によって、ユーザーは表全体を選択し、[表示形式]メニューからテーブルに変換することができるようになりました。テーブルに変換することで、列の種類、フィルター、色分け、プルダウンメニューなど、セルの書式設定が可能になります。また、タイトル行の各列右側に表示される[∨]ボタンから設定することもできます。
さらに、テーブル内の行をグループ化することも可能になりました。グループ化したデータは、グループごとに集計することができます。
また、Google は用途別の書式設定済みテンプレートも提供しています。これにより、タスク管理などの簡単なシートを作成する際に、1から構築する必要がなくなります。
この新機能の適用は、即時リリースドメインでは2023年5月8日より段階的にロールアウトされ、2023年5月30日までに完了する見込みです。計画的リリースドメインでは、2023年6月6日から段階的にロールアウトの予定で、適用まで最大15日かかるとのことです。対象は、「Google Workspace」、「Google Workspace Individual」の全ユーザーおよび個人のGoogleアカウントを持つユーザーです。
2024/5/8のピックアップ
【ニュース】 2024-05-08 06:25:29 なぜ Apple が M4 をいきなり発表したのか? TSMC ロードマップとローカルAI時代の幕開け – 狐の王国 https://koshian.hateblo.jp/entry/2024/05/08/062512
TSMC の 3nm 世代プロセスについて、N3B と呼ばれる初期の 3nm プロセスは歩留まりが悪く製造コストが高いため、N3E と呼ばれる改良版が登場しました。しかし Apple は A17 Proや M3 でも N3B を使い続けていたことが分かりました。その後 Apple が M4 を発表したのは、TSMC との蜜月関係により、他社よりも先行して N3E を使えるようになったためだと考えられます。また、高コストな N3B プロセスは廉価版の iPad Air には採用されず、M2 が用いられたと考えられます。
一方で、ローカル AI 時代の幕開けという観点からも注目すべき点があります。大規模な言語モデルを動作させるためには大容量のメモリが必要となるため、GPU 搭載の高価な PC ではなく、APU 方式の Mac Studio などが適していると指摘されています。AMD の Ryzen 8040 シリーズや Apple の M4 でも、AI 推論性能の強化が図られており、これらのプロセッサがローカル LLM を動作させるためのキーデバイスとなる可能性があります。
——————————–
【ニュース】 2024-05-08 10:11:00 DALL·E Detection Classifier Access Program https://openai.smapply.org/prog/dalle_detection_classifier_access_program/
DALL·Eの生成画像を検出するためのバイナリー分類器が、API経由で提供されています。この分類器を利用することで、画像がDALL·E 3によって生成されたものか否かを判定することができます。分類結果は真/偽のバイナリー値と、DALL·E 3による生成画像である可能性を示す連続数値スコアとして返されます。
この取り組みの主な目的は、分類器の有効性評価、実世界での活用事例の検討、AI生成コンテンツの分析、および責任ある利用のための考察など、独立した研究を促進することにあります。研究者には、この取り組みを支援するためのAPIクレジットが割り当てられます。
これらの研究を支援するため、研究機関やNPO等の団体には、機密保持契約(NDA)の締結が求められます。これにより、DALL·E Detection Classifierを活用した研究成果の事前審査が可能となり、その成果の信頼性が担保されます。
——————————–
【ニュース】 2024-05-08 12:06:00 Our approach to data and AI https://openai.com/index/approach-to-data-and-ai/
AI時代におけるコンテンツ利用の在り方について、OpenAIは新しい仕組み作りに取り組んでいます。robots.txtの考え方を応用し、パブリッシャーがAIの利用に関する意向を表明できる仕組みを導入しています。さらに、「Media Manager」と呼ばれる新しいツールの開発を進めており、2025年までの提供を目指しています。これにより、コピーライトで保護されたテキスト、画像、音声、動画のAIによる利用について、クリエイターの意向を反映できるようになります。
一方で、OpenAIのAIモデルは、単にデータベースとしてコンテンツを蓄積するのではなく、関係性を学習して新しいコンテンツを生み出す「学習機械」として設計されています。そのため、稀に既存のコンテンツの一部を繰り返してしまうことがありますが、それは学習プロセスの課題であり、継続的な改善により克服していきます。
また、OpenAIのAIモデルは、できる限り多様な言語、文化、分野のデータを学習することで、広範な領域でより役立つものになるよう設計されています。オープンデータや提携先からのデータを活用しており、個人情報の取り扱いには十分な配慮をしています。
——————————–
【スキルアップ】 2024-05-08 12:11:28 LLM時代のX情報収集術|べいえりあ https://note.com/csstudyabroad/n/n86e9342818a0
2020年に著者は「Twitterでの情報収集は非推奨」と述べていましたが、現在はTwitterがLLMの主要な情報源となっています。これは、研究者による発信が増加したこと、ニュースやブログでは追いつけなくなったことから、Twitterが最も有効な情報源となっているためです。
情報収集の前提として、深層学習の歴史や基本的なNLPの知識を身につけることが重要だと述べています。特に、「Generative AI for Everyone」や「AI for Everyone」のオンラインコース、さらに「Speech and Language Processing」の本を読むことをおすすめしています。
そのうえで、著者が注目しているXアカウントを紹介しています。大きく分けて、公式アカウント、個人のアカウント(論文紹介系)、個人のアカウント(論文紹介以外)の3つのカテゴリーに分けられます。
公式アカウントとしては、OpenAI、Google AI、DeepMind、Meta AI、Anthropic、Hugging Face、LMSYS、Databricksなどがあり、LLMやAI関連のサービス・モデルの最新情報を得られます。
個人アカウント(論文紹介系)では、Aran KomatsuzakiさんとAhsen Khaliqさんが有名で、最新の論文をいち早く紹介してくれます。
個人アカウント(論文紹介以外)では、Sasha Rush、Bojan Tunguz、Jim Fan、Andrej Karpathy、Harrison Chase、Yann LeCun、Soumith Chintala、Kevin Murphyなどの専門家の視点から、AIやLLMに関する情報を得ることができます。
技術的な情報収集には、英語アカウントをフォローすることが重要だと述べられています。日本語アカウントは大抵、英語アカウントの翻訳にすぎないことが多いからです。
——————————–
【スキルアップ】 2024-05-08 10:01:26 SNSを通じた「ギブ&テイク型情報収集術」と、後悔しない技術選定を叶える方法【DBエンジニア|こば】 https://levtech.jp/media/article/interview/detail_425/
——————————–
【つくってみた】 2024-05-08 14:12:25 噂のノーコードAIシステム開発環境Difyを使ってツールを作ってみた。使った感想|shi3z https://note.com/shi3zblog/n/necd6de514475
Difyはノーコードでワークフローを組むことができるLLMツールです。OpenAIのGPTシリーズやAnthropicのClaude-3、CohereのCommand-R+などを組み合わせて使えるのが特徴で、ローカルLLMにも対応しています。テンプレートを使うとGPTsのようなアシスタントを作ることができ、テンプレートの改造によってユーザーのニーズに合ったツールを開発することも可能です。
Difyには大きく分けて2種類のワークフロー機能があります。チャットフローはチャットボットの応答を返すものですが、ワークフローはAPIの呼び出しやバッチ処理などの連続的な処理を行うことができます。
ツールの作成では、WebスクレイパーやHTTPリクエストを使ってデータを取得し、Pythonのコードを直接書いてHTML要素を削除するなど、ワークフローの柔軟性を活かすことができました。ただし、ワークフローは基本的に一方通行で分岐やループが使えないなど、課題もありました。
——————————–
【LLM新技術】 2024-05-08 14:21:00 In-Context Learning with Long-Context Models: An In-Depth Exploration https://arxiv.org/abs/2405.00200
最近の言語モデルはコンテキストの長さが大幅に増加しており、モデルへ与えることができるデモンストレーション(入力と出力のペア)の数は、トレーニングデータセットの大きさに近づきつつあります。本論文では、このような大規模なコンテキストを用いたin-context learning(ICL)の振る舞いを多様なデータセットとモデルについて調査しています。
多くのラベルの多い大規模なデータセットにおいて、ICLの性能は数百から数千のデモンストレーションを与えることで向上し続けることが示されました。一方で、単純な例の検索やファインチューニングでは、コンテキストの長さが短い場合に優れた性能を示すものの、デモンストレーションが増えるに従って性能向上が飽和してしまうことが確認されました。ファインチューニングはICLよりもデータ効率が低いものの、さらに多くのデータが利用できる場合は、長いコンテキストを用いたICLを上回る性能を発揮することもあるようです。
著者らはこのICLの設定を利用して、ICLおよび大規模コンテキストモデルの特性をさらに詳しく分析しています。長いコンテキストを用いたICLは、短いコンテキストを用いたICLよりもランダムな入力並び替えに対して頑健であることや、同じラベルの例を纏めて提示するとかえって性能が低下することなどが報告されています。また、多数の例を一緒にエンコーディングすることで得られる性能向上は、単に同様の例を参照しているだけによるものであって、タスク学習そのものの向上によるものではないことも確認されました。
——————————–
【ニュース】 2024-05-08 15:48:00 Introducing Enhanced Gen AI Features and Other Tools to Help Build Your Business https://www.facebook.com/business/news/Introducing-Enhanced-Gen-AI-Features-and-Other-Tools-to-Help-Build-Your-Business
本文では、Meta(旧 Facebook)が提供するアドバタイザー向けの新しい機能や、ビジネス向けのMeta Verified サブスクリプションサービスについて説明されています。
まず、生成 AI(Generative AI)を使った画像生成機能が紹介されています。この機能では、広告クリエイティブに基づいて、背景シーンを含む様々な画像バリエーションを自動生成することができます。また、テキストオーバーレイ機能も追加されており、広告画像に文字を重ねることも可能になっています。さらに、画像の縦横比を調整して、Reels や Feedなどの異なるフォーマットに最適化することもできるようになりました。
次に、生成 AI を使ったテキスト生成機能についても説明されています。この機能では、広告のヘッドラインやプライマリーテキストの自動生成が行えるようになり、ブランドの特徴を反映したテキストを提案することもできるようになっています。今後はMeta Llama 3 という大規模言語モデルを活用することで、さらに高度な機能が実現される予定です。
これらの生成 AI 機能は、Ads Manager の Advantage+ creative 機能の一部として統合されており、広告制作の効率化と広告パフォーマンスの向上に寄与することが期待されています。実際に、一部の企業では生成 AI と Advantage+ 製品を組み合わせることで、大きな効果を得られたことが報告されています。
最後に、ビジネス向けのMeta Verified サブスクリプションサービスについても言及されています。このサービスは、ブランドの信頼性を高め、ユーザーとの接点を強化するためのツールを提供するものです。当初は限定的な試験運用から始まりましたが、今後、より幅広い地域や様々なニーズに合わせたプランを提供していく予定です。
——————————–
【マネジメント】 2024-05-08 16:19:56 エンジニア従業員エンゲージメント向上への道 – Uzabase for Engineers https://tech.uzabase.com/entry/2024/05/08/151833
2024/5/7のピックアップ
【新しいLLM】 2024-05-07 01:39:00 OpenELM: An Efficient Language Model Family with Open Training and Inference Framework https://arxiv.org/abs/2404.14619
Appleが開発したオープンな言語モデルであるOpenELMは、パラメータを効率的に配分することで高精度を実現する最先端の言語モデルです。従来の実践とは異なり、OpenELMは公開されたデータセットを使ってトレーニングとテストを行うための完全なフレームワークを提供しています。また、MLXライブラリを使ってAppleデバイス上での推論とファインチューニングが可能です。このリリースは、オープンな研究コミュニティを支援し、未来の研究活動の基盤となることを目指しています。
OpenELMは、トランスフォーマーモデルのレイヤーごとのスケーリング戦略を採用することで、パラメータ数を約10億個に抑えつつ、既存の言語モデルOLMoに比べて2.36%の精度向上を実現しています。また、OpenELMのトレーニングには、OLMoの2倍少ない前処理トークンしか必要ありません。
OpenELMのリリースには、モデルの重みやインファレンスコードだけでなく、公開データセットを使ったトレーニングとテストの完全なフレームワークが含まれています。具体的には、トレーニングログ、複数のチェックポイント、前処理設定などが含まれています。さらに、Appleデバイス上での推論とファインチューニングを可能にするためのMLXライブラリへの変換コードも提供されています。
——————————–
【通信技術】 2024-05-07 06:45:24 NTT、世界で初めて多様な光ファイバーを通信断なく分岐・合流できる技術を実証。柔軟なネットワーク構築が可能に https://internet.watch.impress.co.jp/docs/news/1588605.html
NTTは、世界で初めて、多様な光ファイバーを通信を遮断せずに分岐・合流できる技術を実証しました。この成果により、従来のように大規模なネットワーク増設工事が不要となり、柔軟なネットワーク構築、ネットワーク増設工事のコスト削減や工期短縮が期待できます。
現在使用されている光ファイバーは、多様な屈折率分布を有しており、それぞれ伝搬特性が異なるため、光ファイバーの実効屈折率に合わせた分岐用光ファイバーを用意する必要がありました。しかし、実効屈折率を把握するには運用中のサービスを一次的に停止する必要があり、実際には困難でした。そのため、実効屈折率に関係なく分岐を可能にする技術の確立が課題となっていました。
今回のNTTの実証では、コア直径を変化させた構造で、多様な実効屈折率を有する分岐用光ファイバーの作製方法を開発しました。この方法により作製した光ファイバーは、国際標準規格を満たす全ての光ファイバーを分岐できるため、光アクセスネットワークで一般的に使用されている全ての光ファイバーの分岐および合流が可能になりました。
——————————–
【ニュース】 2024-05-07 10:20:00 API Partnership with Stack Overflow https://openai.com/index/api-partnership-with-stack-overflow
本日、株式会社Stack OverflowとOpenAIが新たなAPI連携を発表しました。この提携により、技術的な内容に関する世界最大のナレッジプラットフォームであるStack Overflowと、最も人気のあるLLMモデルを提供するOpenAIが協力し、開発者の皆さまにさらに便利なサービスを提供することになります。
具体的には以下のような取り組みが行われます。
1. OpenAIはStack OverflowのOverflowAPIを活用し、ユーザーや開発者にとってより良いAIモデルの構築を行います。また、ChatGPT上でStack Overflowのコミュニティから提供される信頼性の高いテクニカルな知識やコードを表示することで、ユーザーが簡単にアクセスできるようになります。
2. Stack Overflowは、OpenAIのモデルを自社のOverflowAIの開発に活用し、内部テストの結果をOpenAIにフィードバックすることで、OpenAIモデルのパフォーマンス向上に貢献します。これにより、Stack Exchangeコミュニティのヘルス、成長、エンゲージメントの向上につなげていきます。
OpenAIのCOOであるBrad Lightcap氏は、「開発者コミュニティは私たちにとって特に重要です。Stack Overflowとの深い提携により、両社のプラットフォームでのユーザー体験と開発者体験を向上させていきます」と述べています。
一方、Stack OverflowのCEOであるPrashanth Chandrasekar氏は、「OverflowAPIを通じ、信頼性の高いデータを基盤としたテクノロジーソリューションの構築を支援し、責任あるAI時代を切り開いていきます」と語っています。
2024年前半にはこの連携による新たな機能や統合が提供される予定です。今後もOpenAIとStack Overflowの協力関係が強化され、開発者の皆さまにとってより良いサービスが展開されていくことが期待されます。
——————————–
【新サービス】 2024-05-07 10:32:00 Introducing Google Threat Intelligence: Actionable threat intelligence at Google scale https://cloud.google.com/blog/products/identity-security/introducing-google-threat-intelligence-actionable-threat-intelligence-at-google-scale-at-rsa/?hl=en
Google Cloudセキュリティの新しいサービス「Google Threatインテリジェンス」が発表されました。このサービスは、Mandiantの最前線の専門知識、VirusTotalのグローバルなコミュニティ、そしてGoogle自身が持つ数十億もの信号を組み合わせることで、包括的な脅威の把握と迅速な対応を可能にします。
Geminiという AIエージェントを活用することで、大量のデータを素早く分析し、緊急の対応が必要な脅威を迅速に特定できます。Gemini 1.5 Proは、ワンクリックで1,000万トークンもの文脈を解析できます。
——————————–
【ニュース】 2024-05-07 11:00:03 女性の IT 人材育成を支援する「Code; Without Barriers in Japan」を開始 https://news.microsoft.com/ja-jp/2024/05/07/240507-launched-code-without-barriers-in-japan-to-support-womens-it-human-resource-development/
マイクロソフト株式会社は、急成長するクラウド、AI、デジタル技術分野におけるジェンダーギャップを解消するため、女性の開発者、技術者および IT に関わる女性のスキルアップを支援するプログラム「Code; Without Barriers in Japan (CWBJ)」を開始しました。本プログラムは、アジア太平洋地域で展開する「Code; Without Barriers」をもとに、日本市場向けに特化したものです。
——————————–
【AIの活用】 2024-05-07 12:22:21 イオン、AIが割引価格を出す「AIカカク」畜産と水産に拡大 https://www.watch.impress.co.jp/docs/news/1589263.html
イオンリテールは、日本IBMと開発した「AIカカク」と「AIオーダー」のシステムを拡大しています。
「AIカカク」は、過去の販売データに基づいて適切な値引き率をAIが提示するシステムです。2021年5月に導入し、惣菜部門と日配品の一部に適用していましたが、5月8日より畜産部門に、5月22日より水産部門にも拡大しています。「AIカカク」の導入により、ロス率が1割以上低減し、値引き業務の効率化も図れています。
また、「AIオーダー」は、客数と商品の需要予測に基づきAIが最適な発注数を提示するシステムです。2023年以降、日配品約1,000品目を対象に、関東・北陸信越・東海・近畿・中四国の約380店舗に導入してきました。発注時間の半減や業務負荷の軽減などの成果が確認できたため、新たな日配品やデリカの冷総菜、サラダなどにも適用範囲を拡大しています。
これらのシステム開発にあたっては、日本IBMのデータ・サイエンティストとコンサルタントが、AIなどを活用した予測モデルや最適化モデルの構築、システム構築を支援しています。部門ごとの販売特性や店舗特性を考慮するなど、さまざまなチューニングが行われており、適用品目は約1,200品目、導入店舗は約380店舗となっています。
——————————–
【技術解説】 2024-05-07 15:13:54 Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2) https://tech-blog.abeja.asia/entry/abeja-nedo-project-part2-202405
ABEJAでデータサイエンティストをしている服部氏は、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の公募事業に採択された「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」のプロジェクトで、大規模な日本語コーパスの作成を行いました。
まず、Common Crawlという大規模なWebクロールデータを基にコーパスを作成しています。Common Crawlのデータはワークフロー(WARC)形式とテキストのみ(WET)形式がありますが、前処理の精度を高めるためWARCを使用しました。
前処理の流れは以下の通りです。まず、ひらがなの有無で日本語の簡易判定を行い、warc_ioライブラリとtrafilaturaを使ってWARCファイルからのテキスト抽出を行いました。次に、言語判定、ドメイン、品詞比率などでコンテンツをフィルタリングし、その後重複削除を行いました。最後に、機械学習モデルを使って不要なテキストを除去する独自の処理を行っています。
処理の実行環境はGCP上のPub/Sub+Cloud Run Jobsを使い、高速化と並列処理を実現しました。
——————————–
【新しいLLM】 2024-05-07 16:09:05 rinna、Llama 3の日本語継続事前学習モデル「Llama 3 Youko 8B」を公開 https://rinna.co.jp/news/2024/05/20240507.html
rinnaはこのたび、Meta社のLlama 3 8Bに対して日本語データで事前学習を行った「Llama 3 Youko 8B」を開発し、Meta Llama 3 Community Licenseの下で公開しました。
rinnaは、日本語に適したGPT、BERT、HuBERT、CLIP、Stable Diffusionなどの事前学習済みモデルを積極的に公開してきました。2021年4月からHugging Faceで公開したrinnaのモデルは累計560万ダウンロード、1000 Likesを超えており、多くの研究者や開発者に利用されています。
近年、Llama 3、Phi-3、OpenELMなどの高性能な大規模言語モデルが公開されましたが、これらのモデルは英語データを主に学習しているため、日本語のテキスト生成性能は十分ではありません。そこでrinnaは、Llama 2やQwenの日本語事前学習の知見を活かし、Llama 3の日本語モデル「Llama 3 Youko 8B」を開発しました。
Llama 3 Youko 8Bは、Llama 3 8Bのパラメータ数80億に対し、日本語と英語の学習データ220億トークンを用いて継続事前学習を行ったモデルです。Stability-AI/lm-evaluation-harnessのベンチマーク評価では、Llama 3の9タスク平均スコア59.82に対し、Llama 3 Youko 8Bは66.15と優れた性能を発揮しています。
rinnaは、ChatGPTの登場によりテキスト生成技術が身近になった一方で、各ユースケースに適したモデルの開発・運用の重要性に着目しています。これまでのLLMの研究・開発・運用の知見を活かし、ビジネスや事業目的に適したカスタムLLMソリューション「Tamashiru Custom」の提供を行っています。
——————————–
【AIの活用】 2024-05-07 16:56:00 リスの鳴き声、AIで判別 「ケーブルかじられネット不通」防ぐ調査 NTT東 https://www.itmedia.co.jp/news/articles/2405/07/news141.html
NTT東日本は、クリハラリス(タイワンリス)の生息状況調査を省力化するため、鳴き声をAIで解析する識別調査を行いました。この調査は、神奈川県からの受託事業として、2024年2月19日から3月29日にかけて行われました。
調査では、横浜市内の「こども自然公園」内の5か所にボイスレコーダーを設置し、リスの鳴き声を収集しました。AIを使って音声を解析した結果、全ての設置場所でタイワンリスの鳴き声を検知することができました。また、リスの鳴き声は朝と夕方により多く検知され、リスの生態とも一致していることが分かりました。ただし、雨や人、ホワイトノイズなどによる誤検知も発生することが確認されました。
一部の音声を人が聞いて確認したところ、AIが見逃した音声はあったものの、「AIによる音の見逃しが大きな障壁となる事はない」と判断されました。また、鳥とクリハラリスの識別にも高精度で成功し、実用可能なレベルだと評価されています。
今後、NTT東日本は、この調査で得た知見を基に、タイワンリスなどの生態調査の省力化を実現するAIソリューションの提案につなげていく計画です。これにより、ケーブルをかじられてネットが不通になる問題の防止につなげていきたいと考えています。
——————————–
【LLM新技術】 2024-05-07 17:37:02 世界初、AIモデルの再学習コストを大幅に削減可能な過去の学習過程を再利用する「学習転移」を実現
~NTT版LLM「tsuzumi」など基盤モデルの更新・差し替えを容易に~ https://group.ntt/jp/newsrelease/2024/05/07/240507b.html
NTTは、深層学習の分野において、過去の学習過程を新しいモデルに再利用する「学習転移」技術を世界で初めて実現しました。この技術は、ニューラルネットワークのパラメータ空間における高い対称性を活用し、適切な変換を行うことで、既存モデルの学習結果を低コストで得ることを可能にします。
これにより、生成AIなどの大規模な基盤モデルを用途に合わせてチューニングする際の再学習コストを大幅に削減できます。例えば、NTTが開発している大規模言語モデル「tsuzumi」の更新や、異なる基盤モデルへの変更時に必要となる再チューニングの手間を軽減することができます。
学習転移の技術的なポイントは次のとおりです。
1. 学習転移を2つのパラメータ初期値間の最適な置換変換を求める最適化問題として定式化しました。これは世界で初めての試みです。
2. 未知のターゲットの学習過程を勾配で近似し、部分的な転移と線形最適化を交互に行うことで、高速にアルゴリズムを導出しました。
3. 理論的に、ネットワークサイズが大きくなればなるほど、ソースの初期学習過程をターゲットに近づけられる確率が高くなることを証明しました。
今後、この学習転移技術によって、生成AIの運用コスト削減や消費電力の削減、さらには多数のAIを用いた「AIコンステレーション」の実現など、次世代のAI技術開発に貢献することが期待されています。本成果は2024年5月にウィーンで開催されるICLR 2024で発表される予定です。
——————————–
【やってみた】 2024-05-07 17:58:18 1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog https://eng-blog.iij.ad.jp/archives/25242
近年、ローカルのGPUでもGPT-4のような大規模言語モデル(LLM)を動かすことが可能になってきました。しかし、70億から130億パラメータを持つモデルを単一のGPUで動かすのは難しいのが現状です。そこで著者は、複数のGPUを組み合わせて1つのLLMを動かすことができないかと考えました。
Hugging Faceの「device_map=”auto”」という設定をすると、モデルが複数のGPUにまたがって実行されるようになります。これは「ディスパッチ」と呼ばれる機能で、単一のGPUでは処理しきれないものを複数のGPUやCPU、ストレージに割り振って処理することができます。
さらに調べていくと、この機能は異なるGPUの組み合わせでも動作することが分かりました。著者の所属する九州支社の検証環境では、GeForce RTX 3060とNVIDIA L4にLLaMa-3-8b-instructモデルが分散して動作していました。
一方で、Stable-Diffusionのようなモデルでは、この「device_map=”auto”」の設定は適用されないようです。Diffusersライブラリを使うモデルには、別途並列処理の設定が必要とのことです。
この「device_map=”auto”」の設定は、実際はaccelerate ライブラリが提供する機能を利用しています。accelerateライブラリは、GPUの並列処理を目的とした便利なツールで、モデルの「自動分割」や「メモリ最適化」などの機能を提供しています。
——————————–
【新技術】 2024-05-07 21:00:00 DrEureka: Language Model Guided Sim-To-Real Transfer https://eureka-research.github.io/dr-eureka/
ロボット技術においては、シミュレーション上で学習したポリシーをリアルワールドに適用する手法が注目されています。しかし、従来のシミュレーション-リアル間転移手法は、報酬関数やシミュレーションパラメーターの手動設計と調整が必要であり、時間と労力がかかる課題がありました。
本研究では、大規模言語モデル(LLM)を用いて、シミュレーション-リアル転移を自動化・高速化する手法「ドクターユーレカ」を提案しています。ドクターユーレカは、タスクのシミュレーションコードと安全性の指示のみを入力として受け取り、適切な報酬関数と領域ランダム化(DR)パラメーターを自動生成します。
実験では、ドクターユーレカが既存の人手設計の手法と同等以上の性能を示すことを確認しました。さらに、ヨガボール上を歩行するなどの新規ロボットタスクにも適用可能であることを示しました。
ドクターユーレカのコンポーネントは以下の通りです:
1. ユーレカによる報酬関数の生成
2. 報酬値を考慮したシミュレーション物理パラメーターの推定
3. LLMによるDRパラメーターの自動生成
4. 生成された報酬関数とDRパラメーターを用いてポリシーの学習
定量的な実験結果に加え、ヨガボール上の歩行など実世界タスクでのドクターユーレカの頑健性も確認しました。さらに、安全性指示の導入やシミュレーション物理パラメーターの事前推定の重要性なども示しています。
今後の課題として、実世界の失敗事例をフィードバックとして活用し、LLMによる反復的な最適化を行うことが考えられます。また、視覚センサーなどの活用によるポリシーの性能向上も期待できます。
2024/5/6のピックアップ
【DL技術】 2024-05-06 23:50:10 KAN: Kolmogorov-Arnold Networks https://arxiv.org/abs/2404.19756
本文では、Kolmogorov-Arnold Networksと呼ばれる新しいニューラルネットワークアーキテクチャが提案されています。従来のMulti-Layer Perceptrons (MLPs)では、各ノード(ニューロン)に固定の活性化関数が使用されるのに対し、Kolmogorov-Arnold Networks (KANs)では、各エッジ(重み)に可変の活性化関数を持つことが特徴です。
KANsは、線形の重みパラメータを一切持たず、代わりにスプラインで表現された1変数の関数を重みパラメータとして使用します。この単純な変更により、KANsはMLPsに比べて優れた性能を示すことが示されています。具体的には、データフィッティングやPDE(偏微分方程式)の解法において、KANsはMLPsよりはるかに小さなネットワークサイズで同等以上の精度を達成できることが示されています。また、理論的および経験的に、KANsはMLPsよりも高速なニューラルスケーリング則を持つことが明らかになっています。さらに、KANsは直観的に可視化できるため、人間ユーザーとの良好な相互作用が期待できます。数学と物理学の2つの具体例を通して、KANsは科学者による数学的・物理学的法則の発見や再発見を支援する有用なツールとなることが示されています。
——————————–
【LLM新技術】 2024-05-06 23:50:10 Better & Faster Large Language Models via Multi-token Prediction https://arxiv.org/abs/2404.19737
大規模言語モデルであるGPTやLlamaは、次のトークンを予測するロスを用いて訓練されています。この研究では、複数のトークンを同時に予測するように訓練することで、より効率的にサンプルを利用できることを示しています。具体的には、訓練コーパス内の各位置で、モデルが共通のモデルトランクを使って、n個の独立した出力ヘッドを用いて、次のn個のトークンを予測するよう求めます。これを補助課題として利用することで、コードおよび自然言語モデルの、下流での能力が向上することを確認しました。この手法は、モデルサイズが大きくなるほど有効で、複数エポックにわたる訓練でも有効です。特に、コーディングなどの生成タスクで大きな性能向上が見られ、13Bパラメータのモデルは、HumanEvalで12%、MBPPで17%、次トークン予測モデルよりも多くの問題を解決できました。また、小規模な算法タスクの実験からは、複数トークン予測が、帰納的ヘッドや算法推論能力の向上に有効であることがわかりました。さらに、4トークン予測で訓練したモデルは、大きなバッチサイズでも最大3倍の高速推論が可能です。
——————————–
【LLMの応用】 2024-05-06 23:50:10 Capabilities of Gemini Models in Medicine https://arxiv.org/abs/2404.18416
医療分野における人工知能の適用には多くの課題が存在します。高度な推論能力、最新の医学知識へのアクセス、複雑な多様なデータの理解が必要とされるためです。しかし、多様なモーダルデータと長文脈の理解が可能な「Gemini」モデルは、医療分野での活用が期待されています。本研究では、Geminiモデルをベースに、医療分野に特化した「Med-Gemini」モデルを提案しています。Med-Geminiは、ウェブ検索を自在に利用でき、カスタムエンコーダを使って新しいモーダルデータにも適応できる高性能なマルチモーダルモデルです。14の医療ベンチマークで評価した結果、Med-Geminiは10項目で最新技術水準(SoTA)を達成し、GPT-4を大幅に上回る成績を収めました。特に、MedQA(USMLE)ベンチマークでは91.1%の精度を実現しており、また7つのマルチモーダルベンチマークでは平均で44.5%の相対的な性能向上を示しました。さらに、Med-Geminiは長文脈理解能力に優れており、長い匿名化された健康記録からの情報検索や医療動画の質問応答で最高水準の性能を発揮しました。これらの結果は、医療テキストの要約や医療対話、医療研究・教育など、実用面での有用性を示唆しています。
——————————–
【LLMの評価】 2024-05-06 23:50:10 A Careful Examination of Large Language Model Performance on Grade School Arithmetic https://arxiv.org/abs/2405.00332
この論文は、大規模言語モデル(LLM)の小学校レベルの算術問題に対するパフォーマンスを詳しく調べたものです。研究者らは、LLMの数学的推論能力に対する懸念を調査するため、GSM1k(Grade School Math 1000)というベンチマークを開発しました。GSM1kは既存のGSM8kベンチマークと同程度の難易度を持っているため、LLMの実際の推論能力を評価することができます。研究の結果、オープンソースおよびクローズドソースのLLMを評価したところ、最大13%の精度の低下が見られました。特に、Phiやミストラルなどのモデルは、ほとんどすべてのモデルサイズで過剰適合の傾向が示されました。一方で、Gemini、GPT、Claudeなどの最先端のモデルは、過剰適合の兆候がほとんど見られませんでした。さらに詳細な分析から、GSM8kの例を生成する確率とGSM8kとGSM1kのパフォーマンス差との間に正の相関(スピアマンの相関係数r^2=0.32)があることが示されました。これは、多くのモデルがGSM8kの問題を部分的に記憶している可能性を示唆しています。この研究は、LLMの数学的推論能力を正確に評価するためのアプローチを提示しています。GSM1kベンチマークは、LLMの真の推論能力を測るための有用なツールとなり得ます。
——————————–
【動画生成AI】 2024-05-06 23:50:10 StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation https://arxiv.org/abs/2405.01434
本論文では、拡散ベースの生成モデルにおける画像や動画の一貫性を向上させる新しい手法「StoryDiffusion」を提案しています。従来の拡散ベースの生成モデルでは、複雑な詳細を含む画像を一貫して生成することが難しい課題がありました。StoryDiffusionでは、「一貫性を備えた自己アテンション」と呼ばれる新しい自己アテンションの計算方法を導入することで、この問題を解決しています。これにより、生成された画像の内容が一貫性を持つようになります。さらに、長期の動画生成を実現するために、「Semantic Motion Predictor」と呼ばれる新たなモジュールを提案しています。このモジュールは、2つの入力画像からその間の意味的なモーションを予測することができ、生成された画像シーケンスをスムーズな遷移と一貫した被写体を持つ動画に変換します。従来のアプローチに比べ、特に長期の動画生成において、より安定した動画を生成できます。これら2つの新しい手法を組み合わせた「StoryDiffusion」フレームワークにより、テキストベースのストーリーを、一貫性のある画像や動画で表現することができます。このStoryDiffusionは、画像やビデオの生成における建築的な変更点を提示する先駆的な取り組みであり、今後の研究の発展に寄与することが期待されます。
——————————–
【ニュース】 2024-05-06 13:19:18 無人航空機の衝突回避、「日本案」が国際標準化 | 自動運転ラボ https://jidounten-lab.com/u_47102
日本無線と三菱総合研究所が、無人航空機の衝突回避技術に関する技術報告書「ISO/TR 23267」を取りまとめました。この報告書は、無人航空機用の衝突回避システムに関する規格「ISO/DIS 15964」の要求事項の根拠となるものです。報告書では、無人航空機の衝突回避6ステップで使用されるハードウェアとソフトウェアを提示し、実証実験の結果を示しています。また、NEDOの事業「ロボット・ドローンが活躍する省エネルギー社会の実現プロジェクト」では、2018年に世界初となる無人航空機の衝突回避システムの探知性能試験を実施しました。2019年にも、緊急時における自律回避実証や相対速度100キロでの衝突回避試験を行っています。これらの技術開発の成果を踏まえ、2023年10月には日本発の提案が、無人航空機の運航手順に関する国際規格「ISO21384-3」の改定版として採択されました。この改定版では、衝突回避の「CONOPS」と呼ばれる6ステップの基本手順が規定されました。今後は、この6ステップの衝突回避手順を具現化する「ISO/DIS 15964」の規格開発が進められているとのことです。
——————————–
【その他】 2024-05-06 15:01:24 AI時代にこそTDDだと思う話 https://zenn.dev/akfm/articles/tdd-with-copilot
筆者はGitHub Copilotに非常にポジティブな立場で、使い方次第で開発速度を大幅に向上させることができると感じています。AIツールの習熟度が重要で、コマンドプロンプトエンジニアリングのように、良質なヒントを与えることが品質の向上につながります。TDDとGitHub Copilotは相性が良いと考えられ、実践した結果、GitHub Copilotの提案の品質が劇的に向上しました。TDDはテスト駆動開発の略で、Kent Beckさんが定義したものですが、近年その定義が希薄化している傾向があるため、原著を読むことが重要です。GitHub Copilotは学習データから次のコードを予想・提案しますが、ユーザーが提供するヒントに強く影響されます。静的型定義や既存の実装、コメント、命名などが重要なヒントになります。そのため、GitHub Copilotを使いこなすには、いかに良質なヒントを与えられるかがユーザーのスキルとなります。筆者はTypeScriptとDenoを使ってFizzBuzzの実装を行いました。TDDのフローに沿って、まずテストを書き、それに合わせて最小限の実装を行い、徐々にテストを追加しながら機能を拡張していきました。GitHub Copilotは各ステップでタイムリーな提案をし、TDDのフローに沿った実装を助けてくれました。
——————————–
【その他】 2024-05-06 22:22:00 PCの操作をすべて録画&文字起こしして過去の操作を丸ごと検索可能にするアプリ「Windrecorder」 https://gigazine.net/news/20240506-windrecorder-record-screen-ocr/
「Windrecorder」は、PCの操作内容を完全に録画し、そのテキストを文字起こししてデータベース化するオープンソースのアプリケーションです。これにより、これまで検索することが難しかった過去のウェブページの内容やムービーの字幕などを検索できるようになります。具体的な仕様としては、1時間あたりの録画データサイズが2~100MBと大きく変動し、1カ月の録画データは約10GB~20GBとなります。また、文字起こしデータを含むデータベースのサイズは1カ月あたり約160MBとなります。文字起こしには「Windows.Media.Ocr.Cli」ライブラリが使用されており、今後はより高精度な文字起こしシステムへの変更が検討されています。Windrecorderはオープンソースプロジェクトで、GPLv2.0のライセンスが適用されています。ソースコードはGitHubで公開されており、誰でも確認できます。
——————————–
【ニュース】 2024-05-06 23:15:00 President Sally Kornbluth and OpenAI CEO Sam Altman discuss the future of AI https://news.mit.edu/2024/president-sally-kornbluth-openai-ceo-sam-altman-discuss-future-ai-0506
AIの進化と課題に関するSally Kornbluth学長とSam Altman氏のディスカッションの概要を説明いたします。
まず、OpenAIのChatGPTなどの言語モデルの登場が、AIに対する大きな期待と注目を集めていることが述べられています。Altman氏は、人々がGPT-5やGPT-6への期待を高めていることは、「人間の期待と努力心」の表れであると考えています。一方で、Kornbluth学長らは、AIシステムの倫理的ジレンマや偏見の問題、大量のデータ収集に関わるプライバシー問題など、さまざまな課題にも言及しています。Altman氏は、これらの課題に対して、将来的なAIモデルの進化により解決が期待できると述べています。具体的には、モデルの推論能力を向上させつつ、大量のデータ保持を最小限に抑えるなどの取り組みを行うことで、プライバシーや環境への影響を低減できると考えています。一方で、Altman氏は、AIによる雇用の置き換えは避けられないと指摘しています。ただし、新しい仕事の創出や既存の仕事の変化も伴うと述べており、この変化をうまく取り入れていくことが重要だと強調しています。
2024/5/5のピックアップ
【LLMの評価】 2024-05-05 09:00:00 Introducing the Open Leaderboard for Hebrew LLMs! https://huggingface.co/blog/leaderboard-hebrew
このプロジェクトは、ヘブライ語NLPの発展に向けた重要な取り組みを紹介するものです。ヘブライ語は低リソース言語であるため、既存のLLMリーダーボードはヘブライ語の特性を正確に反映していませんでした。そこで、オープンなLLMリーダーボードを開発し、ヘブライ語のランゲージモデルを評価・改善することを目的としています。このリーダーボードは、イスラエルのNLP研究機関であるMafatおよびDICTAによって構築・運営されています。ヘブライ語QA、感情分析、代名詞解決、翻訳の4つのベンチマークタスクを設定し、LLMの性能を評価します。これらのタスクは、ヘブライ語の形態論的な複雑さや文脈依存性を考慮して設計されています。リーダーボードの技術的な仕組みは、オープンLLMリーダーボードをベースにしています。HuggingFace Inference Endpointsを使ってモデルを自動的にデプロイし、lighteval ライブラリによってAPIリクエストを管理しています。この取り組みは、研究者やデベロッパー、enthusiastに広く参加を呼びかけており、ヘブライ語のランゲージテクノロジー研究の発展に寄与することが期待されています。本プロジェクトは、イスラエル国防省や国内NLP研究センターDICTAなどの支援を受けています。ヘブライ語の言語的・文化的な特性を反映したモデルの開発を推進し、ヘブライ語テクノロジーの向上につなげることが目的です。研究者やデベロッパーの積極的な参加を呼びかけています。
——————————–
【その他】 2024-05-05 10:07:59 天下一キーボードわいわい会 vol.6に参加しました! – @74thの制作ログ https://74th.hateblo.jp/entry/2024/05/04/222541
——————————–
【マネジメント】 2024-05-05 10:35:13 組織に“できたてホヤホヤの暗黙知”をシェアする仕組みをどうつくるか?子どもの「逆上がり」習得過程を見て気づいたこと|安斎勇樹 https://note.com/yuki_anzai/n/nae13ca51dc3e
——————————–
【スキルアップ】 2024-05-05 14:50:38 Supercomputing Contest 2013/GPUプログラミング資料 – Supercomputing Programing Contest Official Site https://www.gsic.titech.ac.jp/supercon/main/attwiki/index.php?Supercomputing%20Contest%202013/GPU%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0%E8%B3%87%E6%96%99
——————————–
【国内ニュース】 2024-05-05 11:06:24 楽天モバイルがeSIMの不正乗っ取りについて注意喚起――安心安全に使えるeSIM環境を業界を挙げて取り組むべき https://www.itmedia.co.jp/mobile/articles/2405/05/news035.html
楽天モバイルでは、ユーザーのフィッシングによって不正にeSIMが乗っ取られる事態が発生しています。楽天モバイルではeSIMの再発行に楽天IDとパスワードのみを使用しており、他社と比べてセキュリティが低いという指摘がありました。他社では、eSIM再発行時に端末のSMS認証や、eKYCによる本人確認を行うなどの対策がとられています。一方、総務省はeSIMの「乗り換え促進」を目的として、キャリアに対してeSIMの導入を強く求めてきました。しかし、楽天モバイルのようにセキュリティが甘いシステムがあると、eSIMに対する不信感が高まる恐れがあります。そのため、総務省は単にeSIMの導入を押し付けるのではなく、「きちんと乗っ取り対策がなされているか」を確認した上で、導入を認めるべきだと提言されています。また、セキュリティの甘いキャリアに対しては「行政指導」を行い、ユーザーの保護に尽力すべきだと述べられています。
2024/5/4のピックアップ
【ニュース】 2024-05-04 05:00:00 HPI-MIT design research collaboration creates powerful teams https://news.mit.edu/2024/hpi-mit-design-research-collaboration-creates-powerful-teams-0503
ハッソ・プラットナー・インスティテュート(HPI)とMITが協力し、「持続可能なデザイン」研究プログラムの一環として、世界の課題に対する革新的な解決策を見出そうとしています。まず、サイバーセキュリティの分野では、MIT Sloan CAMS(Cybersecurity at MIT Sloan)のKeri Pearlson教授、Jillian Kwong博士研究員、HPI のChristian Doerr教授が共同研究を行っています。大企業とその中小サプライヤーのセキュリティ文化の違いがサイバー攻撃の脆弱性を生むことに着目し、共通の価値観や態度、信念を醸成することで、サプライチェーン全体のセキュリティ強化を目指しています。一方、MITのStefanie Mueller准教授とHPIのPatrick Baudisch教授は、AIを活用して木材などの素材ロスを最小限に抑えながら製品のカスタマイズを可能にするシステムの開発に取り組んでいます。Kyubソフトウェアと自動レイアウトアルゴリズムを組み合わせ、デザイン変更に即時に対応できるようにしています。さらに、MITデザイン X のSvafa Grönfeldt教授、Norhan Bayomi博士研究員、MIT Environmental Solutions Initiativeのチームと、HPIのGerard de Melo教授、Frank Pawlitschek教授、Michael Mansfeld博士課程学生が、AIを活用して新興企業の成功確率を予測し、製品・サービス・ビジネスプランの設計を支援するシステムの開発に取り組んでいます。これらの共同研究は、MITの「デザインを通して学習、イノベーションを促し、社会を力づける」という目標と、HPIの「ユーザー志向のデジタルイノベーションを生み出す」といった理念を具現化するものです。学際的なチームが協力し、持続可能な解決策の創出を目指しています。
———————————
【その他】 2024-05-04 05:10:00 Creating bespoke programming languages for efficient visual AI systems https://news.mit.edu/2024/creating-bespoke-programming-languages-efficient-visual-ai-systems-0503
MIT 電気工学・コンピューター科学科のアソシエイトプロフェッサーである Jonathan Ragan-Kelley 氏は、コンピューター・グラフィックスや画像処理を、現在および次世代のハードウェアに合わせて最適化するための研究を行っています。Ragan-Kelley 氏は、視覚効果や計算写真術などの2D/3Dグラフィックスを可能にする高性能な分野特化型プログラミング言語とマシンラーニングの専門家です。これらの研究の中心的な目的は、プログラミングの方法を変えることで、新しいハードウェアの計算能力を最大限に引き出すことです。近年、CPUを中心とした汎用コンピューティングから、GPUやアクセラレータなどの特殊化されたコンピューティングユニットへと移行が進んでいます。このトレードオフの中で、Ragan-Kelley氏のグループは、プログラマが詳細な制御を行えるようにしつつ、安全性と生産性も確保できる新しい種類の「ユーザー管理可能な言語」の開発に取り組んでいます。具体的には、機械学習を使ってコンパイラの最適化スケジューリングを自動生成したり、「エキソコンパイル」と呼ばれる手法でコンパイラの内部構造を公開し、人間が直接制御できるようにしたりしています。これにより、ビジョン、音声、言語モデルなど、さまざまなアプリケーションでハードウェアの性能を最大限に引き出すことが可能になります。Ragan-Kelley氏は、従来の常識に捉われず、大きなレバレッジを持ち、しかも十分に研究されていない領域に取り組むことの重要性を指摘しています。その一例が、大規模言語モデル(LLM)の計算アーキテクチャを最適化する取り組みで、コストの削減、機能の向上、メモリ使用量の削減などの効果が期待されています。
———————————
【新サービス】 2024-05-04 12:21:09 X、話題のニュースをAI(Grok)で要約する「Stories」 https://www.watch.impress.co.jp/docs/news/1589055.html
X(旧Twitter)は、人工知能(AI)モデル「Grok」を活用して、話題のニュースやトピックを要約する新しい機能「Stories on X」を開始しました。この機能は現在のところ、Premiumユーザー向けに、iOSアプリとWebサイトで利用できます。ただし、日本国内での提供は未定のようです。Premium会員は、「Explore」タブ(日本では「[話題を検索]」タブ)から、おすすめのトピックを選択することができます。すると、AI「Grok」が要約した記事形式の情報と、それらのデータ元となるトピックが表示されます。これにより、トレンドに合わせて、人気のトピックの概要を把握することが可能になります。要約の下部には、「Xの投稿をまとめたものです。Grokは時々間違えることがありますので、内容は要確認する必要があります」といった注意書きが付されています。
2024/5/3のピックアップ
【技術解説】 2024-05-02 スレッドとプロセスの違いを完全に理解する https://zenn.dev/farstep/articles/process-thread-difference
———————————
【技術解説】 2024-05-02 サブクエリの書き方を2万文字弱かけてすべて解説する https://zenn.dev/levtech/articles/778ab92d4d217b
———————————
【新サービス】 2024-05-02 “Announcing Rust 1.78.0 | Rust Blog” https://blog.rust-lang.org/2024/05/02/Rust-1.78.0.html
Rustプログラミング言語の新バージョン、1.78.0がリリースされました。既存のRustがインストールされている場合は、rustup update stableで最新バージョンにアップデート可能です。新たに導入された#[diagnostic]属性名前空間により、コンパイラのエラーメッセージをカスタマイズできるようになりました。例えば、トレイトが実装されていない場合のメッセージをカスタマイズすることができます。unsafe関数の事前条件を確認するアサーションが改善され、デバッグやテストビルドではデフォルトで有効になり、未定義の挙動をキャッチしやすくなりました。ポインタやスライスのアラインメントを変更する関数が改善され、より信頼性が高くなりました。例えば、pointer::align_offsetはポインタの必要なアラインメントを計算し、slice::align_toやslice::align_to_mutはスライスをアラインメントされた部分に変換します。いくつかのAPIがconstコンテキストで安定化されました。例としてBarrier::new()があります。Windows 10がRust 1.78の最低要件となり、対応するターゲットも含まれます。バンドルされているLLVMがバージョン18にアップグレードされ、特定のABIの変更が完了しました。
———————————
【つくってみた】 2024-05-03 “もう人間がクエリを書く時代じゃない!SQLクエリの組み立てを自動化するSlack botを開発・導入しました – Pepabo Tech Portal” https://tech.pepabo.com/2024/05/03/tbls-ask-bot/
———————————
【新サービス】 2024-05-03 “Creating a pointer-friendly submenu experience” https://react-spectrum.adobe.com/blog/creating-a-pointer-friendly-submenu-experience.html
React SpectrumとReact Ariaにサブメニューのサポートが追加されました。サブメニューはメニュー内での多層探索を可能にし、ユーザーが目的のオプションを迅速に見つけることができるように設計されています。サブメニューが表示された後、ユーザーはポインターを直接サブメニューの任意の項目に移動させることができます。
———————————
【LLMの評価】 2024-05-01 When Quantization Affects Confidence of Large Language Models? https://arxiv.org/abs/2405.00632
大規模言語モデル(LLMs)の後訓練量子化や低ビット重み表現を通じた効率的な圧縮技術が導入されましたが、量子化された重みはストレージ効率と推論速度を向上させる一方で、パフォーマンスの低下やバイアスの増加の可能性が指摘されています。この研究では、言語モデルのタイプやスケールなどの要因を考慮し、量子化モデルの信頼性とキャリブレーションを調査しました。GPTQを用いた4ビットへの量子化は、真のラベルに対する信頼性の低下をもたらすことが明らかにされ、異なる言語モデル間で影響のばらつきが観察されました。
———————————
【Snowflake】 2024-05-03 “Snowflake の Copilot が優秀すぎる件について” https://ex-ture.com/blog/2024/05/02/snowflake-copilot-preview/
2024/5/2のピックアップ
【新サービス】 2024-05-01 “Meta Quest 3、パノラマ写真に対応 空間ビデオも強化” https://www.watch.impress.co.jp/docs/news/1588639.html
———————————
【ニュース】 2024-05-01 テスラの「充電器部門」閉鎖、自動車業界に動揺 米GMは「状況を注視」 https://www.itmedia.co.jp/news/articles/2405/01/news145.html
———————————
【マネジメント】 2024-05-01 成長をサポートするピープルマネジメントのやり方 https://speakerdeck.com/sioncojp/cheng-chang-wosahotosuruhihurumanesimentonoyarifang
———————————
【新サービス】 2024-05-02 NVIDIAが音声認識追加や画像検索改善を行ったAIチャットボット「ChatRTX」を公開 https://gigazine.net/news/20240502-nvidia-chatrtx-voice-support/
———————————
【新サービス】 2024-05-02 Claude on App Store https://apps.apple.com/us/app/claude/id6473753684
———————————
【新サービス】 2024-05-02 「Claude」にiOSアプリ登場 月30ドルのチームプランも https://www.watch.impress.co.jp/docs/news/1588722.html
Anthropicは、AIモデル/チャットサービス「Claude」のiOS/iPadアプリをリリースしました。また、「Claude 3」の3つのモデルを利用できるチームプランも同時に開始しました。これまで、ClaudeはWeb版とAPIを通じてのみ利用可能でしたが、新たにiOS/iPadアプリも提供開始されました。iOS/iPadアプリでは、Web版とのシームレスな同期が可能で、履歴の共有やデバイス間での作業の継続ができます。また、「ビジョン」という機能を通じて、写真のリアルタイム分析やコンテキストの理解が可能です。Teamプランでは、「Claude 3」のモデルであるOpus、Sonnet、Haikuに対応しており、チームでの利用が可能です。価格は1ユーザーあたり月額30ドルで、Proプランの全機能に加え、チーム専用の機能が追加されています。
———————————
【新サービス】 2024-05-02 Google、生成AI「Gemini」アプリ日本提供開始 https://www.watch.impress.co.jp/docs/news/1588887.html
Googleは、生成AI「Gemini」アプリを日本で提供開始しました。Androidでは専用アプリでダウンロード可能、iOSではGoogleアプリからアクセスできます。「Gemini」はマルチモーダル機能を備え、テキスト入力や写真から情報を得ることが可能です。通話やスマートホームデバイスの操作など、Googleアシスタントの機能も利用できます。Geminiの拡張機能により、旅行計画の助けや友達とのスケジュール調整、関連情報の取得が可能です。プライバシー設定はユーザーが管理し、必要に応じて拡張機能を無効にできます。
———————————
【国内ニュース】 2024-05-02 Dropboxが“政府認定クラウドサービス”リスト入り 政府調達の対象に https://www.itmedia.co.jp/news/articles/2405/02/news120.html
———————————
【国内ニュース】 2024-05-02 ソフトバンクの衛星電話、新規受付停止 通話・通信できない障害続く https://www.itmedia.co.jp/news/articles/2405/02/news111.html
———————————
【国内ニュース】 2024-05-02 全国初の「AI条例」。神戸市が9月から施行。オープンデータサイト「神戸データラボ」の第3弾も公開 https://pc.watch.impress.co.jp/docs/news/1588670.html
神戸市が全国初のAI条例を制定し、2024年9月から施行することを発表しました。この条例は、AIの利用に関して職員の責任や非公開情報の取り扱い、リスクアセスメントの実施を規定しています。AI条例では、神戸市の職員や事業者が生成AIを活用する際に事前協議を行うことを義務付けており、安全性を確保しながらAIを利用することを目指しています。また、神戸市は「神戸データラボ」というオープンデータサイトを拡充し、新たなデータとともに第3弾の公開を行いました。これにより、一般市民や事業者も含めた広範なユーザーがデータを活用できるようになっています。 ———————————
【開発技術】 2024-05-02 “GitHub – openai/openai-assistants-quickstart: OpenAI Assistants API quickstart with Next.js.” https://github.com/openai/openai-assistants-quickstart
———————————
【ニュース】 2024-05-02 Microsoft、マレーシアの生成AI・クラウドに22億ドル投資 https://www.itmedia.co.jp/news/articles/2405/02/news135.html
日本に29億ドル、UAEに15億ドル、インドネシアに17億ドル投資すると発表している。
———————————
【RAG】 2024-05-02 “RAGの評価:評価の必要性と問題点 – Beatrust techBlog” https://tech.beatrust.com/entry/2024/05/01/RAGの評価:評価の必要性と問題点
RAG(Retrieval Augmented Generation)は、情報検索と生成を組み合わせた手法で、LLM(Large Language Models)の応用例として注目されています。RAGの評価は困難であり、その正確性の客観的かつ定量的な評価が必要です。これは、モデルの改善に直結するためです。RAGは外部のデータベースから情報を取得し、それを基に回答を生成するため、新鮮で正確な回答を提供する可能性がありますが、生成した回答が常に正しいわけではありません。ハルシネーション(誤った情報を正しいと生成する現象)は、RAG導入の障壁となっており、この問題に対処するためにも評価が必要です。RagasというRAG専用の評価ライブラリが提案されており、検索部分と生成部分を分けて評価することができます。実験により、RagasはRAG評価に適していることが示されましたが、期待されるほどの評価精度は得られていません。LLMの精度や使用言語の違いによる影響を受けにくい評価方法の確立が、今後の課題となっています。
———————————
【新サービス】 2024-05-02 Yahoo!検索、検索結果に生成AIの回答を表示 https://www.watch.impress.co.jp/docs/news/1588800.html
2024/5/1のピックアップ
【新サービス】 2024-04-30 月面ー地球間のデータ通信サービス提供へ ispace、26年にリレー衛星を2基打ち上げ https://www.itmedia.co.jp/news/articles/2404/30/news171.html
宇宙ベンチャーのispaceは、2026年に月面探査ミッション3の一環として、2基のリレー衛星を使った新しいデータ通信サービスを開始する予定です。このサービスは、ispaceの米国法人であるispace technologies U.S.が提供し、SpaceXのFalcon 9ロケットで打ち上げられる予定です。打ち上げられたリレー衛星は、月の南極付近のシュレーディンガー盆地を目指す月着陸船「APEX1.0ランダー」によって月周回軌道に展開されます。リレー衛星は、月の裏側に着陸予定のAPEX1.0ランダーと地球との間の通信を可能にし、7割近くの月面南極域と地球間の通信が可能になります。
———————————
【新サービス】 2024-05-01 ChatGPT、学習「オフ」でもチャット履歴を利用可能に https://www.watch.impress.co.jp/docs/news/1588486.html
OpenAIは、ChatGPTの無料版およびPlusユーザー向けに「データ コントロール」機能を更新しました。従来、モデルの改善のためのトレーニングに同意していないとチャット履歴が保存されませんでしたが、今回の更新により、「学習オフ」の設定でもチャット履歴が利用可能となります。ユーザーは設定画面から「Improve the model for everyone」をOFFに設定することで、履歴の保存を選択できます。また、OpenAIは「Temporary Chat」という、履歴を残さない1回限りのチャット機能も導入しました。この機能は、モデル選択(GPT-4/GPT-3.5)時に利用できます。
———————————
【技術解説】 2024-05-01 “Powerful ASR + diarization + speculative decoding with Hugging Face Inference Endpoints” https://huggingface.co/blog/asr-diarization
Hugging Faceの推論エンドポイントを用いて、Whisperモデルを簡単にデプロイできますが、話者識別(ダイアライゼーション)や推測デコーディング(speculative decoding)のような追加機能を導入する場合、複数のモデルを組み合わせる必要があります。この問題はカスタムの推論ハンドラを実装することで解決し、自動音声認識(ASR)とダイアライゼーションのパイプラインを一つのAPIエンドポイントで提供します。ダイアライゼーションにはPyannoteモデルを使用し、高速な推論のために推測デコーディングを導入しています。この機能は、より小さなモデルを使用して推測を行い、大きなモデルで検証することで速度を上げます。ASRのみが必要な場合は、設定ファイル(config.py)でASRモデルを指定し、ボタン一つでデプロイできますが、環境変数を使ってコンテナをプログラム的に作成する必要があります。推測デコーディングは、バッチサイズが1でなければならず、特定の使用場面でのみ利点があります。たとえば、短いオーディオの処理では大幅に性能が向上しますが、長いオーディオを扱う場合はバッチ処理の方が効率的かもしれません。
———————————
【新サービス】 2024-05-01 Amazon Q Developer, now generally available, includes previews of new capabilities to reimagine developer experience https://aws.amazon.com/jp/blogs/aws/amazon-q-developer-now-generally-available-includes-new-capabilities-to-reimagine-developer-experience/
Amazon Web Services(AWS)は、Amazon Q Developerの一般提供開始を発表しました。このツールは、AWSの17年間の知識と経験に基づいてトレーニングされた、生成型AI(Generative AI)を活用したアシスタントです。新機能として、AWSアカウントリソースに関する知識がプレビューとして追加され、AWS管理コンソールを使用せずに自然言語プロンプトでAWSリソースをリストアップしたり、説明したりすることが可能になりました。Amazon Q Developerは、Lambda関数などのリソースの詳細をリストすることができ、それぞれのリソースへのディープリンクも提供されるため、効率的にナビゲーションが可能です。このツールは、AWS CLIコマンドを生成する機能も持っており、例えばLambda関数のタイムアウト設定を変更するコマンドを生成してくれます。コスト管理に関してもサポートが強化されており、AWS Cost Explorerを利用して、クラウドコストに関連するデータを取得し分析することができます。これにより、コストに関する質問に自然言語で答えることが可能になります。開発環境(IDE)向けには、Amazon Q Developer拡張機能がVisual Studio CodeとJetBrains IDEに対応しており、これによりソフトウェア開発とコード変換の高度な機能を無料で利用できるようになりました。特に、Amazon Q Developer Agent for software developmentは、IDE内でプロジェクトのコード機能開発を支援し、新しいAPIの作成やその実装計画の生成を行います。
———————————
【新サービス】 2024-05-01 “「Amazon Q Developer」正式サービスに。AIがAWSの専門家となり、設計、コーディング、テスト、トラブルシュートなどを支援。Freeプランも” https://www.publickey1.jp/blog/24/amazon_q_developeraiawsfree.html
このツールは、マイクロソフトのCopilotに相当するものとして位置づけられており、さまざまな分野での展開が計画されています。具体的には、デベロッパー向けの「Amazon Q Developer」、ビジネス向けの「Amazon Q Business」、データ分析向けの「Amazon Q in Amazon Quicksight」、コンタクトセンター支援のための「Amazon Q in Amazon Connect」などがあります。
利用料金は、1ユーザー当たり月額19ドルですが、Free Tierプランも提供されており、月に一定回数のやりとりや脆弱性のスキャン、AWSアカウントリソースに関する質問が無料で行えます。
———————————
【RAG】 2024-05-01 “Amazon Kendra と Amazon Bedrock で構成した RAG システムに対する Advanced RAG 手法の精度寄与検証 | Amazon Web Services” https://aws.amazon.com/jp/blogs/news/verifying-the-accuracy-contribution-of-advanced-rag-methods-on-rag-systems-built-with-amazon-kendra-and-amazon-bedrock/
———————————
【技術まとめ】 2024-05-01 “iOS・Android の ローカルLLM実行環境まとめ” https://note.com/npaka/n/n658f6f4e8c7b
コメント