- 2024/4/30のピックアップ
- 2024/4/29のピックアップ
- 2024/4/28のピックアップ
- 2024/4/27のピックアップ
- 2024/4/26のピックアップ
- 2024/4/25のピックアップ
- 2024/4/24のピックアップ
- 2024/4/23のピックアップ
- 2024/4/22のピックアップ
- 2024/4/21のピックアップ
- 2024/4/20のピックアップ
- 2024/4/19のピックアップ
- 2024/4/18のピックアップ
- 2024/4/17のピックアップ
- 2024/4/16のピックアップ
- 2024/4/15のピックアップ
- 2024/4/14のピックアップ
- 2024/4/13のピックアップ
- 2024/4/12のピックアップ
- 2024/4/11のピックアップ
- 2024/4/10のピックアップ
- 2024/4/9のピックアップ
- 2024/4/8のピックアップ
- 2024/4/7のピックアップ
- 2024/4/6のピックアップ
- 2024/4/5のピックアップ
- 2024/4/4のピックアップ
- 2024/4/3のピックアップ
- 2024/4/2のピックアップ
- 2024/4/1のピックアップ
- アイキャッチ
2024/4/30のピックアップ
【新サービス】 2024-04-30 ChatGPT、チャット内容を記憶する「メモリー」 全てのPlusユーザーが対象 https://www.watch.impress.co.jp/docs/news/1588283.html
OpenAIは、全てのChatGPT Plusユーザー(月額20ドル)向けに、チャットの設定を記憶できる「メモリー(Memory)」機能の提供を開始しました。メモリー機能は、過去のチャット内容を記憶し、次回の使用時に同じプロンプトで指示を出せるようにする機能です。ユーザーは新しいチャットを開始する際、ChatGPTに記憶させたい内容を伝えることで、以後のチャットでその内容を呼び出すことが可能です。この機能では、任意のキーワードや特定のプロンプトを記憶することができます。メモリー機能は設定でオン/オフが選択可能ですが、欧州や韓国では利用できません。OpenAIは、今後この機能をTeam、Enterprise、GPTsにも拡張する予定です。
———————————
【新サービス】 2024-04-30 “GitHub、「Copilot Workspace」テクニカルプレビューを開始。ほとんど全ての開発工程をAIで自動化” https://www.publickey1.jp/blog/24/githubcopilot_workspaceai.html
GitHub Copilot Workspaceは、開発者が自然言語を使用してコードをブレインストーミング、計画、ビルド、テスト、実行するための新しい開発環境です。このプラットフォームは、GitHub Copilotを核としており、開発プロセスの各段階でAIの支援を受けられます。GitHub Copilot Workspaceは、AIを利用してプログラミングのほぼ全ての工程を自動化するシステムで、自然言語で書かれた課題(Issue)から、仕様案、実装計画、コーディング、ビルド、デバッグまでを実行します。人間は各工程でCopilotから示される内容を確認し、必要に応じて修正したり、進行を見守ることが可能です。GitHub CEOのトーマス・ドムケ氏によると、Copilot Workspaceは開発者の創造性をより迅速かつ容易に実現するためにデザインされており、開発者を置き換えるものではなく、経験豊富な開発者がシステム考案者として活躍できるようにすることを目的としています。テクニカルプレビューへの参加は、特定のページからウェイトリストに登録することで可能です。また、このシステムはモバイルデバイスからもアクセス可能であり、どこからでも開発作業が行えます。
———————————
【ニュース】 2024-04-30 Microsoft announces US$1.7 billion investment to advance Indonesia’s cloud and AI ambitions https://news.microsoft.com/apac/2024/04/30/microsoft-announces-us1-7-billion-investment-to-advance-indonesias-cloud-and-ai-ambitions/
Microsoftはインドネシアで1.7億ドルを投資し、新しいクラウドとAIインフラを構築することを発表しました。この投資には、840,000人に対するAIスキルトレーニングの機会と、国内の開発者コミュニティへのサポートが含まれています。インドネシア政府の「Golden Indonesia 2045 Vision」を実現するため、国をグローバルな経済大国に変革する目的で行われます。投資は、デジタルインフラ、スキリング、開発者サポートを通じて、インドネシアがこの新しい時代に繁栄するのを助けることを目指しています。この投資は、Microsoftがインドネシアにおいて29年間で最大の単一投資です。Microsoftは、ASEAN加盟国の250万人にAIスキルを提供することを目指す新たなイニシアチブも発表しました。インドネシアのBudi Arie Setiadi通信情報技術大臣とDharma Simorangkir Microsoftインドネシア社長は、このパートナーシップがデジタル革新を推進する鍵であると強調しています。
———————————
【ニュース】 2024-04-30 We’re bringing the Financial Times’ world-class journalism to ChatGPT https://openai.com/blog/content-partnership-with-financial-times
Financial Times(FT)は、OpenAIとの戦略的パートナーシップおよびライセンス契約を発表しました。このパートナーシップにより、ChatGPTはFTのジャーナリズムを引用し、モデルの有用性を向上させることが目指されます。ChatGPTユーザーは、関連するクエリに対してFTのジャーナリズムから選ばれた要約、引用、リンクを見ることができるようになります。FTは今年初めにChatGPT Enterpriseの顧客となり、すべてのFT従業員が技術を習得し、OpenAIのツールによる創造性と生産性の向上を享受できるようにしました。
———————————
【開発技術】 2024-04-30 “Python Web UIフレームワークで作るデスクトップアプリ | gihyo.jp” https://gihyo.jp/article/2024/04/monthly-python-2404
———————————
【LLM技術】 2024-04-30 RAGに質問分類させる「Adaptive-RAG」の解説 https://zenn.dev/knowledgesense/articles/8c23c35fa715c9
「Adaptive-RAG」とは、質問の複雑さに応じて最適な回答戦略を選択する技術です。これは韓国科学技術院(KAIST)の研究者によって提案された手法で、RAG(Retrieval-Augmented Generation)の回答精度を向上させる目的で開発されました。この技術は、シンプルな質問から複雑な質問までを分類し、質問の種類に基づいて適切な回答プロセスを選択します。簡単な質問には検索を伴わない回答を、複雑な質問には複数回の検索を伴う回答を行うことが特徴です。「Adaptive-RAG」の核となるのはClassifier(分類器)で、これにはT5という言語モデルをファインチューニングして使用します。この分類器は質問の難易度を自動で識別し、その情報を基に最適な回答戦略を選択します。複数のオープンドメインQAデータセットでの評価により、この手法は従来のRAG手法と比べて効率と精度の両方を向上させることが確認されています。特に複雑な質問に対しては、より時間をかけて高精度な回答を生成することができるようです。「Adaptive-RAG」は、実際の業務での利用価値が高いとされ、特に時間と精度のバランスが求められる環境での応用が期待されています。ただし、質問の正確な分類がこのシステムの成否を左右するため、分類器の精度向上が今後の課題となっています。
2024/4/29のピックアップ
【技術解説】 2024-04-29 “漫画家の絵柄、AIでそっくり再現「ピュアモデルAI」ができたワケ (1/3)” https://ascii.jp/elem/000/004/195/4195916/
ピュアモデルAIは、エンドルフィン社が開発した、特定の漫画家の絵柄だけを学習させるAI技術です。この技術は、漫画家の里中満智子氏や倉田よしみ氏との協力により、それぞれの絵柄を忠実に再現することができます。Stable Diffusionをベースにして、特定の漫画家のスタイルを模倣するシステムは、漫画家との合意のもとでその漫画家の作品のサンプルを使用して訓練されます。このプロセスでは、少なくとも50枚の画像が必要で、より精密なファインチューニングを行う場合には追加の画像が必要になることがあります。また、韓国科学技術院(KAIST)との協力により、「Validator」というツールが開発されています。これは、アップロードされたイラストが既存のどのアーティストの作品に似ているかを識別し、著作権違反の可能性を評価するためのものです。このようなツールは、AIによる画像生成が一般化するにつれて、著作権保護において非常に重要な役割を果たすことが期待されています。
2024/4/28のピックアップ
【ニュース】 2024-04-26 Over 20 Technology and Critical Infrastructure Executives, Civil Rights Leaders, Academics, and Policymakers Join New DHS Artificial Intelligence Safety and Security Board to Advance AI’s Responsible Development and Deployment https://www.dhs.gov/news/2024/04/26/over-20-technology-and-critical-infrastructure-executives-civil-rights-leaders
米国国土安全保障省(DHS)は、人工知能(AI)の安全かつ責任ある開発と展開を推進するために、「AI安全保障委員会」を設立しました。この委員会は、AI技術が国家の重要インフラに与える影響を評価し、安全な採用を促進するための推奨事項を開発します。委員会には、ソフトウェア・ハードウェア企業、重要インフラの運営者、公共の役職者、市民権団体、学界からの代表者が含まれています。これには、OpenAIのCEOであるSam AltmanやMicrosoftのCEOであるSatya Nadellaなど、複数の著名な業界リーダーが参加しています。委員会は、AI技術が経済安全保障や重要インフラに及ぼす脅威、例えばサイバー攻撃の機会を拡大する可能性があることを警告しています。これには、パイプラインや鉄道など、米国の重要インフラの標的となる大規模で効率的かつ回避が困難な攻撃が含まれる可能性があります。AIの安全基準の国際的な採用を促進し、米国のネットワークと重要インフラを保護することを目指しています。また、人工知能が大量破壊兵器の製造に使用されるリスクを減少させることも目指しています。
———————————
【開発技術】 2024-04-28 “より良い Git コミットメッセージを書こう – Qiita” https://qiita.com/sekappy_official/items/756c567a53e74ec9d1d9
———————————
【画像生成AI】 2024-04-28 “商用利用ができる高品質AIアート用画像生成AI、Emi 2を無償公開|AI Picasso” https://note.com/aipicasso/n/nd9ccea4e9d5c
AI Picasso社が開発したEmi 2は、商用利用が可能な高品質のAIアート用画像生成AIです。このモデルは以下の特徴を持っています:
Emi 2はイラスト、アニメ、マンガなどのジャンルに特化した画像生成を行います。これにより、クリエイティブな分野での利用が促進されます。無断転載された画像を使用せず、合法的なデータのみを用いて学習が行われています。これにより、知的財産権を尊重し、法的な問題のリスクを減少させています。Emi 2は商用での使用が可能であり、利用者は生成された画像を自由に使用することができます。これにより、企業や個人事業主も安心して利用することが可能です。AI Picasso社はクリエイターと連携し、データ提供や利益配分の仕組みを導入しています。これにより、クリエイターの権利と利益を保護しながら、技術の発展を促進しています。Emi 2は無料で利用可能で、Hugging Faceのプラットフォームでダウンロードできます。
2024/4/27のピックアップ
【技術解説】 2024-04-26 僕たちがグラフニューラルネットワークを学ぶ理由 https://speakerdeck.com/joisino/pu-tatigagurahuniyurarunetutowakuwoxue-buli-you
———————————
【技術解説】 2024-04-26 “はじめての「相関と因果とエビデンス」入門:“動機づけられた推論” に抗うために” https://speakerdeck.com/takehikoihayashi/hazimeteno-xiang-guan-toyin-guo-toebidensu-ru-men-dong-ji-dukeraretatui-lun-nikang-utameni
2024/4/26のピックアップ
【ニュース】 2024-04-25 TikTok米国禁止法案にバイデン大統領が署名 https://www.watch.impress.co.jp/docs/news/1587538.html
米国のジョー・バイデン大統領が、TikTokを禁止する法案に署名しました。この法案はウクライナ支援を含むもので、TikTokに対して安全保障上の理由から、米国事業を1年以内に売却するよう要求しています。TikTokを運営するByteDanceは、この法案を「違憲の法律」と主張し、法廷で異議を申し立てる予定です。この法律が施行されると、700万ドルのビジネスに壊滅的な影響を与え、1億7,000万人のアメリカ人ユーザーに影響が出るとByteDanceは述べています。TikTokのCEO、周受資は、TikTokの禁止がユーザーの声を封じるものであると批判し、法定での戦いを予告しました。また、米国内でのデータ保護と法令遵守の取り組みを強調し、TikTokが安全で楽しいコミュニケーションの場であり続けることを目指すと説明しています。
———————————
【ニュース】 2024-04-26 TSMC Celebrates 30th North America Technology Symposium with Innovations Powering AI with Silicon Leadership https://pr.tsmc.com/japanese/news/3136
TSMC(台湾積体電路製造会社)が、北米技術シンポジウムで最新の半導体プロセス、先進パッケージング、3D IC技術を発表しました。これらは、次世代のAIイノベーションを支える技術として開発されています。新技術には、2026年の生産を目指すTSMC A16™技術が含まれており、ナノシートトランジスタと革新的なバックサイドパワーレールソリューションを特徴としています。これにより、ロジック密度とパフォーマンスが大幅に向上します。TSMC-SoW™(システム・オン・ウェハー)技術も導入され、ハイパースケーラーデータセンターの将来のAI要件に対応するために、ウェハーレベルで革命的なパフォーマンスを提供することを目指しています。他の新技術として、ナノシートトランジスタのためのNanoFlex™イノベーションや、N4C技術があり、これは2025年に量産を予定しており、コスト削減と高い互換性を特徴としています。CoWoS®やSoIC、TSMC-SoW™などの先進パッケージングと3D ICプラットフォームも紹介され、これらはAI革命を支える重要な技術とされています。シリコンフォトニクス統合に関しては、COUPE™技術が開発中であり、2025年には小型フォームファクタプラグ可能なデバイスに適用し、その後2026年にCoWoSパッケージングでの光結合オプティクス(CPO)に統合する計画です。
———————————
【国内ニュース】 2024-04-26 「Evernote」日本法人が解散 解散公告を掲載 https://www.itmedia.co.jp/news/articles/2404/26/news137.html
米国のEvernoteが運営するオンラインメモサービス「Evernote」の日本法人が、2024年4月26日に解散を発表しました。この発表は同日付の官報で解散公告として掲載されています。日本法人は2010年に設立され、当初から米国に次いで日本のユーザー数が多く、日本市場の拡大に力を注いでいました。親会社が伊Bending Spoonsに移管され、ヨーロッパを本拠地とする変更があったことや、2023年に米国とチリでのほぼ全従業員の解雇、同年12月に無料プランの大幅な制限を設けたことなどが影響し、日本のユーザーからはサービスの利用停止の声が上がっていました。
———————————
【国内ニュース】 2024-04-26 “広がる巨大IT企業の寡占防止 “包囲網” EUは規制法運用、米はGAFA全て提訴対象に” https://www.itmedia.co.jp/news/articles/2404/26/news136.html
政府は「スマホ特定ソフトウエア競争促進法案(スマホ新法)」を閣議決定しました。この法案は、巨大IT企業に対する規制を強化し、アプリストアや決済システムの運営を競合他社に解放することを義務付ける内容です。EUでは、「デジタル市場法」が3月に全面適用され、自社サービスの優遇や利用者の同意なくデータを収集してターゲティング広告を行うことを禁止しています。違反した場合、年間売上高の最大10%、繰り返し違反した場合は最大20%の制裁金を科すことができます。EUのデジタル市場法の規制対象は、月間利用者数4500万人以上、年間売上高75億ユーロ以上の企業で、GAFA以外にもTikTokを運営するバイトダンスなど22のサービスが指定されています。米国では同様の規制法はないものの、巨大IT企業を相手にした訴訟が盛んに行われています。3月には米司法省がAppleを反トラスト法違反の疑いで提訴し、GAFAの全ての企業が独占禁止法訴訟の対象となりました。
———————————
【ニュース】 2024-04-26 Alphabet、クラウドと広告が好調で2桁台の増収増益 「Gemini時代は順調」とCEO https://www.itmedia.co.jp/news/articles/2404/26/news097.html
米Alphabet社は2024年第1四半期の決算を発表し、売上高は前年同期比15%増の805億3900万ドル、純利益は57%増の236億6200万ドルとなりました。これにより、3四半期連続で売上高が2桁台で増加しました。主力の広告部門の売上は13%増の626億6000万ドル、YouTube広告は21%増と特に好調でした。クラウド部門も28%増の95億7400万ドルと大きく伸び、営業利益は約4倍の9億ドルに達しました。その他の事業部門である「Google subscriptions, platforms, and devices」の売上は18%増加しましたが、「Other Bets」部門は72%増の売上でありながら営業損失は前年比で減少しました。Alphabetはこの四半期に、AI技術の強化のためサーバーやデータセンターへの投資を含め120億ドルを設備投資に費やし、また研究開発に119億ドルを支出しています。CEOのスンダー・ピチャイは「Gemini時代が順調に進んでおり、社内全体で大きな勢いが高まっている」とコメントしており、AIイノベーションに向けて好位置にあると述べています。
———————————
【Kaggle】 2024-04-25 競技としてのKaggle、役に立つKaggle https://speakerdeck.com/yu4u/jing-ji-tositenokaggle-yi-nili-tukaggle
———————————
【技術解説】 2024-04-25 “ローカルLLM on iOS の現状まとめ” https://zenn.dev/shu223/articles/localllm-ios
2024年3月5日に開催されたイベントで「ローカルLLM on iOS」に関する発表が行われ、その内容が記事として再構成されました。ローカルLLMはオフラインでも動作し、プライバシー保護が図られており、利用料が無料です。iOSデバイス上でLLMを動かす主な方法は、「llama.cpp」と「Core ML」の2つがあります。
- llama.cpp:C/C++で書かれた高速なランタイム。Georgi Gerganov氏によって開発され、GGMLからGGUFフォーマットへの変換が可能。Apple Silicon(ARM NEON、Accelerate、Metalフレームワーク)向けに最適化されています。量子化されたモデルがGGUFフォーマットで公開されており、すぐに試すことが可能。
- Core ML:Appleが開発したフレームワークで、iOSやmacOSに機械学習モデルを組み込むために使用。CPU、GPU、Neural Engineを利用して、メモリ使用量と電力消費を最小限に抑えつつパフォーマンスを最大化。Neural Engineを利用するためにはCore MLを通じてのみ可能。Hugging Faceが提供する「🤗 exporters」を使用して、TransformersモデルをCore MLモデルに変換可能。
現状、ローカルLLMのデモではモデルサイズや推論速度に課題がありますが、将来的にはデバイス性能の向上と量子化技術の進化により、オンデバイスでの動作が向上することが期待されています。MLXという新たな選択肢も提案されており、将来的にはiOS自体にローカルLLMがビルトインされる可能性も示唆されています。
———————————
【技術解説】2024-04-26 LLMプロダクト開発とはどういうものなのか?|erukiti https://note.com/erukiti/n/ne901fbb08145
LLMプロダクト開発は、自然言語を入力として利用し、生成された自然言語をアウトプットとするシステムの開発を意味します。代表的な使用例には、チャットアプリや開発者向けツールなどがあります。例えば、ChatGPTやGitHub Copilotなどがこれに該当します。企業は様々なタイプのLLMを使い、日々の業務に役立てるための新しいプロダクト開発に努めています。LLMプロダクトは、APIを通じて提供されることが多く、利用料金は入力と出力のトークン数に基づいて計算されます。ローカルLLMの導入により、API利用料金の問題を解決し、データプライバシーを保持しながらコスト効率良く利用可能になります。LLMプロダクト開発には、プロンプトチューニングやシステムアーキテクチャの最適化など、多くの技術的課題が伴いますが、それによって新たなサービスや製品が生み出される潜在力を持っています。
———————————
【ニュース】 2024-04-26 Microsoft、AI需要で2桁台の増収増益 「CopilotがAIの新時代を推進」とナデラCEO https://www.itmedia.co.jp/news/articles/2404/26/news100.html
米Microsoftが2024年第3四半期の決算を発表し、売上高は前年同期比17%増の618億5800万ドル、純利益は20%増の219億3900万ドルでした。AI統合を進めたクラウド部門が順調で、特に「Copilot」製品が推進力となっています。Intelligent Cloud部門の売上高は24%増の267億1000万ドルで、Azureを含むクラウドサービスの売上が31%増加しました。AIサービスからの寄与は7ポイント含まれています。Productivity and Business Processes部門では、OfficeやLinkedIn、Dynamicsの売上高が12%増の195億7000万ドルで、特に企業向け「Office 365」の売上が15%増でした。More Personal Computing部門の売上高は17%増の155億8000万ドルで、デバイスの売上は17%減少しましたが、企業向けSurfaceの新モデルが発売されました。第4四半期の売上高は640億ドルと予測され、現在AI需要がMicrosoftの能力を若干上回っている状況です。
2024/4/25のピックアップ
【ニュース】 2024-04-25 [速報]IBMによるHashiCorpの買収が正式発表、マルチクラウドの自動化を加速させると https://www.publickey1.jp/blog/24/ibmhashicorp_1.html
IBMがHashiCorpを64億ドルで買収することが正式に発表されました。これによりマルチクラウドの自動化が加速される見込みです。HashiCorpは約12年前から始めたマルチクラウド自動化の旅をさらに進めることを目的としています。IBMはこの買収により、Red HatのAnsible Automation PlatformとHashiCorpのTerraformを組み合わせることで、ハイブリッドクラウド環境でのアプリケーションのプロビジョニングと構成管理を簡素化することを期待しています。買収完了後、HashiCorpはIBMソフトウェア社内の一部門として位置づけられ、独自のブランドと製品・サービスの提供を続ける予定です。
———————————
【LLM新技術】 2024-04-25 Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models https://arxiv.org/abs/2402.14207
論文では、Wikipediaページと同等の幅広く、深い内容を持つ長文記事を、大規模言語モデルを用いてゼロから書く方法について研究しています。STORMというシステムを提案しており、このシステムは、トピックの概要を作成するために情報検索と多角的な質問を通じて、事前のライティング段階をモデル化しています。評価のために、最近の高品質なWikipedia記事からなるFreshWikiというデータセットを作成し、事前ライティング段階を評価するためのアウトライン評価を定義しています。経験豊富なWikipedia編集者からのフィードバックも収集し、STORMによって生成された記事は、従来のアウトライン駆動型リトリーバル強化ベースラインと比較して、組織的で(25%の絶対増加)、カバレッジの広さ(10%増加)において高く評価されています。専門家のフィードバックを通じて、根拠のある長文記事を生成する際の新たな課題も明らかにされており、その中にはソースのバイアスの転移や関連性のない事実の過度な関連付けなどが含まれています。
———————————
【開発技術】 2024-04-25 “「認証」を整理する | IIJ Engineers Blog” https://eng-blog.iij.ad.jp/archives/24620
「認証」とは、対象の信頼性や正当性を確認するためのプロセスです。この記事では、認証に関連するさまざまな概念を整理して説明しています。
認証には主に次の3種類があります:
- ユーザ認証(Authentication):システムを利用しようとするユーザが登録済みかどうかを識別し、その人物が主張する身元を検証するプロセスです。
- 本人確認(Identity Proofing):新規ユーザの登録時に、その人が本当に主張する人物であるかを確認するプロセスです。
- アクセス制御(Access Control):特定の条件を満たしたユーザのみがアクセスを許可される設定です。
認証技術は主に次のカテゴリに分けられます:
- 記憶情報(Something you know):パスワードやPINコードなど、ユーザが記憶している情報です。
- 所持情報(Something you have):スマートカードやUSBトークンなど、ユーザが物理的に持っているアイテムです。
- 生体情報(Something you are):指紋や顔認証など、ユーザの生体情報を利用します。
多要素認証(MFA)は、上記の異なるタイプの認証要素を組み合わせたもので、セキュリティを強化するために推奨されています。一方で、単一のタイプの認証要素のみを使用する場合は単要素認証(SFA)と呼ばれます。日本語の「認証」は「公の機関による証明(Certification)」としての用法もありますが、IT分野では主に上記のような意味で使用されています。
———————————
【LLM新技術】 2024-04-25 OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework https://arxiv.org/abs/2404.14619
OpenELMは、透明性と再現性に重点を置いたAppleが開発したオープンソースの言語モデルです。このモデルは、トランスフォーマーモデルの各層内でパラメータを効率的に配分するレイヤーワイズスケーリング戦略を使用しており、約10億のパラメータ予算で、OLMoに比べて2.36%の精度向上を実現しています。OpenELMのリリースには、モデルの重みと推論コードだけでなく、公開データセットでのトレーニングと評価の完全なフレームワークが含まれています。トレーニングログ、複数のチェックポイント、事前トレーニングの設定が公開されています。さらに、Appleデバイスでの推論とファインチューニングのために、モデルをMLXライブラリ(特定のAppleデバイス向けに最適化された機械学習実行環境)に変換するコードもリリースしています。提供されたソースコード、事前トレーニングされたモデルの重み、トレーニングレシピは、公式のウェブサイトおよびHuggingFaceで入手可能です。これにより、オープンリサーチコミュニティが強化され、今後のオープンリサーチ活動への道が拓けます。
———————————
【LLM新技術】2024-02-18 LEIA: Facilitating Cross-Lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation https://arxiv.org/abs/2402.11485
効率性や言語間転移の可能性により、大規模言語モデル(LLM)を英語ベースから他の言語に適応することの人気が高まっています。この研究では、言語間で一致しているWikipediaのエンティティ名を利用した言語適応調整手法であるLEIAを紹介します。LEIAは、対象言語コーパスに英語のエンティティ名を加えるデータ拡張を行い、左から右への言語モデリングを使用してモデルを訓練します。7Bパラメータを持つLLMを使用し、様々な非英語言語における多様な質問応答データセットでLEIAを評価し、顕著なパフォーマンス向上を示しました。ソースコードは指定のHTTPS URLで公開されています。
———————————
【新サービス】2024-04-25 “DeepL、LLMが英語ライティングを支援する「DeepL Write Pro」” https://www.watch.impress.co.jp/docs/news/1587448.html
DeepLは、新しい言語モデル(LLM)を搭載した「DeepL Write Pro」を日本で発表しました。このサービスは、英語とドイツ語に対応しており、日本語には未対応ですが、将来的には対応予定です。「DeepL Write Pro」は、ビジネス向けにカスタマイズされたライティング支援ツールであり、企業内のコミュニケーションや契約書の作成などに利用できます。また、エンタープライズグレードのセキュリティとチーム管理機能を備えており、テキストの入力文字数に制限はありません。この製品は統合機能を有しており、GmailやMicrosoft Word、Google Suiteなどの主要アプリケーションに組み込むことができます。ユーザーは自分のニーズに合わせて文体やトーンを調整することが可能で、リアルタイムでの文書校正を行うことができます。
2024/4/24のピックアップ
【ニュース】 2024-04-24 Right to repair: Making repair easier and more appealing to consumers | News | European Parliament https://www.europarl.europa.eu/news/en/press-room/20240419IPR20590/right-to-repair-making-repair-easier-and-more-appealing-to-consumers
欧州議会は、「修理の権利」に関する指令を採択し、消費者が製品の寿命を延ばすために修理を選択することを奨励しました。この指令は584票賛成、3票反対、14票棄権で可決されました。法定保証期間が終了した後でも、洗濯機や掃除機、スマートフォンなど、技術的に修理可能な一般家庭製品の修理が義務付けられます。欧州情報フォームを通じて、消費者は修理サービスを評価し比較することができます。また、修理プロセスを容易にするために、ヨーロッパのオンラインプラットフォームが設立され、地元の修理店や再生品の販売者を簡単に見つけることができます修理をより手頃な価格で提供するために、各加盟国は修理を促進する措置を少なくとも1つ実施する必要があります。これには、修理クーポンや基金、情報キャンペーンの実施、修理講座の提供、コミュニティ主導の修理スペースのサポートなどが含まれます。次のステップとして、この指令が理事会によって正式に承認され、EU公式ジャーナルに掲載された後、加盟国はこれを国内法に移行するために24ヶ月の期間が与えられます。
———————————
【国内ニュース】 2024-04-24 「さくらのクラウド検定」誕生 今夏に初試験 難易度は「ITパスポートよりやや難しい」 https://www.itmedia.co.jp/news/articles/2404/24/news147.html
———————————
【新しいLLM】 2024-04-24 “小さくても強力: 小規模言語モデル Phi-3 の大きな可能性” https://news.microsoft.com/ja-jp/2024/04/24/240424-the-phi-3-small-language-models-with-big-potential/
マイクロソフトは、小規模で高性能な言語モデル「Phi-3 ファミリー」を発表しました。このモデルは、少ないデータで訓練可能で、コンピューティングリソースの要求が低いため、広範な用途に適しています。「Phi-3-mini」は38億個のパラメータを持ち、そのサイズの2倍のモデルよりも優れた性能を発揮します。このモデルはMicrosoft Azure AI Model Catalog、Hugging Face、Ollamaなどで利用可能です。「Phi-3-small」と「Phi-3-medium」も近日中に発表される予定で、それぞれ70億、140億のパラメータを持ちます。小規模モデルは特にリソースが限られた環境や、迅速な応答が求められるアプリケーションに適しており、大規模モデルと組み合わせて使用されることが多いです。マイクロソフトは高品質のデータに基づいて小規模モデルを訓練し、デバイス上でローカルに実行可能であり、プライバシー保護とレスポンスの速さを兼ね備えています。モデルの選択は、使用する組織のニーズによって異なりますが、Phi-3 ファミリーは、その高性能とアクセスしやすさにより、多くの可能性を提供します。
———————————
【画像生成AI】 2024-04-24 アドビ、Adobe Firefly Image 3 Foundation モデルを発表 | クリエイティブ探求とアイデア出しをより高いレベルへ https://www.adobe.com/jp/news-room/news/202404/20240423_adobe-firefly-image-3-foundation-model.html
アドビは、クリエイティブ生成AIモデルファミリーの新バージョン「Adobe Firefly Image 3 Foundation モデル(ベータ版)」を発表しました。このモデルはAdobe Photoshop(ベータ版)とAdobe Firefly web版で利用可能です。この新モデルは、フォトリアリスティックな画像品質、スタイリング機能、出力のディテールと正確さが向上しており、生成速度も大幅に改善されています。「テキストから画像生成」モジュールの新機能には、「スタイル参照」や「構成参照」、「生成塗りつぶし」モジュールの「生成拡大」などが含まれます。Adobe Firefly Image 3 Foundation モデルは、新しいスタイルエンジンを搭載しており、さまざまなスタイル、色、背景、被写体のポーズなどを自由にコントロールできるようになっています。また、このモデルはテキストプロンプトとシーンをより深く理解し、複雑なプロンプトに応じた詳細な画像生成が可能です。テキストレンダリングも改善されており、明確なテキスト表示が可能になりました。
———————————
【AIと法律・規制】 2024-04-24 米AI大手、生成AIによる児童性的虐待コンテンツ作成を阻止する原則に署名 https://www.itmedia.co.jp/news/articles/2404/24/news112.html
米国の非営利団体ThornとAll Tech Is Humanは、生成AIを悪用して児童性的虐待コンテンツ(CSAM)の作成や拡散を防ぐために「Safety by Design」原則を発表しました。Amazon、Anthropic、Civitai、Google、Meta、Metaphysic、Microsoft、Mistral AI、OpenAI、Stability AIなど主要なAI企業がこの原則に署名しました。署名した企業は、トレーニングデータセットにCSAMが含まれないこと、CSAMを含む高リスクなデータセットを避けること、そしてCSAM関連の画像やリンクをデータソースから削除することを約束しました。これらの企業はAIモデルの「ストレステスト」を実施し、CSAM画像が生成されないことを確認し、子供の安全が保証された場合のみモデルをリリースすることにしています。Thornは、生成AIによって、1人の犯罪者が大量のCSAMを簡単に作成できる危険性について警告しています。Googleは、この原則を順守することに加え、米児童保護団体NCMECへの広告助成金を増額したことを公表しました。
———————————
【新しいLLM】 2024-04-24 “経済情報特化の生成AI、日経が開発 40年分の記事学習 – 日本経済新聞” https://www.nikkei.com/article/DGXZQOUC1941R0Z10C24A4000000/
日本経済新聞社は、経済情報に特化した生成AI「NIKKEI Language Model」を開発しました。このAIは約40年分の日経グループの新聞や雑誌の記事から学習しています。「NIKKEI Language Model」には、パラメーター数130億と700億の2種類があります。130億のモデルは独自に構築され、日経グループが持つデータを学習しています。700億のモデルは、米メタの「Llama(ラマ)2」をベースにファインチューニングされて開発されました。これは外部の改良が認められているモデルです。開発されたAIは、最新ニュースに関する知識を持ち、記事の要約機能などで性能を発揮することが確認されています。日経イノベーション・ラボは2019年から言語モデルの研究を進めており、AIが不正確な情報(ハルシネーション)を生成する問題などに対処してきました。日経はAIを用いた記事の生成や編集を行っておらず、「責任ある報道は人が担う」という方針を持っていますが、要約や再構成にはAIを利用しています。
2024/4/23のピックアップ
【新サービス】 2024-04-23 “Meta、Meta QuestのOSを他社に開放 ASUSやレノボ、Xboxがヘッドセット” https://www.watch.impress.co.jp/docs/news/1586454.html
Metaは、VRヘッドセット「Meta Quest」のオペレーティングシステム(OS)をサードパーティのハードウェアメーカーに開放すると発表しました。新しいOSの名称は「Meta Horizon OS」で、ASUS、レノボ、Xbox(Microsoft)がこのOSを使用してハードウェアを開発できるようになります。このOSはQualcommのSnapdragonチップセットを活用することで、Meta Quest 3と同様の性能を持つデバイスの開発が可能です。他のハードウェアメーカーもMeta QuestのOSを利用できるようにすることで、ユーザーにはより多くの選択肢が提供され、開発者にはより大きなエコシステムが提供されます。Meta Horizon OSには、VRヘッドセット向けの機能やフレームワークが組み込まれており、コンテンツの収益化が可能なプラットフォームも提供されます。
———————————
【新サービス】 2024-04-23 “Docker Desktopの代替となる「Podman Desktop 1.9」リリース。Macでの安定性や性能が大幅に向上したコンテナエンジン「Podman 5.0」を搭載” https://www.publickey1.jp/blog/24/docker_desktoppodman_desktop_19macpodman_50.html
「Podman Desktop 1.9」が正式にリリースされました。これはDocker Desktopの代替となるGUIツールで、Red Hatが主導して開発しています。新版では、Podman 5.0というDocker互換のコンテナエンジンが搭載されており、Macでの安定性や性能が大幅に向上しています。Podman Desktopは、コンテナの管理やKubernetes環境の実現、リソース利用の監視などがGUIを通じて容易に行えるよう設計されています。Podman 5.0は、デーモンを使用しない軽量設計であり、ルートレス操作が可能でセキュリティも強化されています。Kubernetesとの連携が容易であり、YAMLファイルの生成やPodへの直接接続が可能です。その他、コンテナイメージのアーカイブやリストアなどの新機能が追加されています。
———————————
【国内ニュース】 2024-04-23 公正取引委員会、Googleに行政処分 広告配信でLINEヤフーへの技術提供を7年にわたって制限 https://www.itmedia.co.jp/news/articles/2404/23/news135.html
公正取引委員会は、Googleに対して独占禁止法に基づく行政処分を行いました。Googleは、LINEヤフーに対して2015年から2022年までの7年間、広告配信に関連する技術の提供を制限していました。この技術提供制限は「私的独占」や「不公正な取引方法」に当たる疑いがありました。Googleは公正取引委員会に改善のための確約計画を提出し、これが認定されたため、独占禁止法違反とはならず、重い処分は避けられました。公取委は、確約計画の履行状況を監視し、履行されていない場合は独占禁止法違反の調査を再開する方針です。
———————————
【LLMの評価】 2024-04-22 LLM In-Context Recall is Prompt Dependent https://arxiv.org/abs/2404.08865
大規模言語モデル(LLM)の急速な普及に伴い、それらの比較的な利点、限界、および最適な使用事例を判断するための徹底的な評価の重要性が高まっています。特に重要なのは、与えられたプロンプトに含まれる情報を正確に取り出す能力を評価することです。この能力は、文脈の詳細を効果的に利用する能力に大きく影響し、実際のアプリケーションでの実用性と信頼性に影響を与えます。本研究では、いわゆる「針の中の麦わら」方法を使用して、様々なLLMの文脈内リコール性能を分析しています。このアプローチでは、事実情報(「針」)を埋め込みテキスト(「麦わら」)の中に配置し、モデルにその情報を取り出すよう求めます。各モデルのリコール性能を、異なる麦わらの長さと針の配置で評価し、パフォーマンスのパターンを特定します。研究は、LLMのリコール能力がプロンプトの内容に依存するだけでなく、トレーニングデータのバイアスによって損なわれる可能性があることを示しています。一方、モデルのアーキテクチャ、トレーニング戦略、またはファインチューニングの調整により、パフォーマンスが向上することもあります。この分析はLLMの振る舞いに対する洞察を提供し、より効果的なLLMの応用のための方向性を示しています。
———————————
【LLM新技術】2024-04-23 「GPT-4」を上回る性能で、グラフィカルな文書を読解するLLM技術 https://eetimes.itmedia.co.jp/ee/articles/2404/23/news082.html
NTTは、図表やグラフを含む文書を理解するための「視覚読解技術」を開発し、この技術を「tsuzumi」というLLMに採用しました。この技術は、文書画像を画像情報に変換し、LLMが読解するというプロセスを経ています。アダプター技術により、画像エンコーダーとLLMの間をつなぎ、効率的な学習が可能です。視覚読解技術は、未学習のタスクでも優れた性能を発揮し、「GPT-4」に匹敵、またはそれを上回る性能を実現しています。NTTはこの技術を用いて、カスタマーサポートの助けや作業の自動化など、デジタルトランスフォーメーション(DX)の推進に貢献することを目指しています。この技術は、東北大学との共同研究の成果であり、国際会議「AAAI2024」での採択も受けています。
2024/4/22のピックアップ
【量子コンピューター】 2024-04-22 Nvidia to help Japan build hybrid quantum-supercomputer https://asia.nikkei.com/Business/Technology/Nvidia-to-help-Japan-build-hybrid-quantum-supercomputer
日本の国立先端産業科学技術研究所が、Nvidiaと共同で量子コンピューティング機能を備えたハイブリッドスーパーコンピューター「ABCI-Q」を構築します。ABCI-Qは、量子コンピューティングと人工知能(AI)を組み合わせたクラウドシステムで、2025年度から利用が開始される予定です。Nvidiaは、シリコンバレーに本拠を置くAIチップのトップデザイナーであり、ABCI-Qにグラフィック処理ユニットを供給するとともに、クラウドサービスを通じて量子コンピューティングソフトウェアも提供します。このシステムは、薬物研究や物流の最適化など、複雑な問題を解決するために使用されます。量子コンピューターは、周囲の環境が少し変わるだけでエラーが発生しやすいですが、スーパーコンピューターと組み合わせることで、この問題を解決し、より複雑な処理が容易になります。研究所は、このシステムを民間部門に開放することで、量子コンピューティング技術の発展に貢献することを目指しています。
———————————
【AIの活用と未来】 2024-04-19 「AI事業者ガイドライン(第1.0版)」を取りまとめました https://www.meti.go.jp/press/2024/04/20240419004/20240419004.html
- はじめに:対話型の生成AIによる「AIの民主化」が進み、多くの人々がAIを様々な用途に容易に活用できるようになりました。日本では、サイバー空間とフィジカル空間を融合させた「Society 5.0」という人間中心の社会を目指しています。
- ガイドラインの概要:このガイドラインは、日本国内でのAIガバナンスの統一的な指針を示しており、AIの安全かつ効果的な利用を推進します。
- 原則と指針:リスクベースのアプローチを概説し、AI利用に関連する潜在的リスクを理解し、リスクに応じた対策を講じることが重要です。人間中心の原則に基づき、人間の尊厳、多様性、持続可能性を尊重するAIの開発を強調します。
- 継続的な更新と将来的な考慮事項:ガイドラインは「リビングドキュメント」と考えられ、AI技術と社会の実装が進化するにつれて更新されます。AIガバナンスの継続的な改善と、多様なステークホルダーとの協議を通じた見直しが強調されています。
———————————
【開発技術】 2024-04-21 “雰囲気でDocker Composeを触っている状態から脱するために調べたこと(2023) – Activ8 Tech Blog” https://synamon.hatenablog.com/entry/2023/03/17/125933
Docker Composeは、複数のコンテナを連携させて動作するアプリケーションを構築するためのツールです。Composeファイルは、compose.yamlという名前で書かれ、Docker Composeがこのファイルを読み込んでコンテナを管理します。Compose Specは、プラットフォームに依存しないマルチコンテナアプリケーションを定義するための標準仕様で、Composeファイルの書き方を規定しています。Docker Engineのバージョン19.03.0以上とComposeのバージョン1.27.0以上であれば、Compose Spec形式のcompose.yamlがサポートされています。旧バージョンのDocker Composeではサポートされていない属性があるため、使用するDocker Composeのバージョンによってはファイルの書き換えが必要です。Compose SpecはGitHubに公開されており、最新の仕様を確認することができます。compose.yamlの推奨ファイル名は、ベンダー固有の名前を避けるためにdocker-compose.ymlから変更されました。Composeファイル内にバージョンを記述することは非推奨とされており、実装ではバージョン情報を参照して動作を変更することはありません。環境変数の定義はリスト形式または辞書形式で可能ですが、辞書形式では値が文字列である必要があります。docker-composeコマンドとdocker composeコマンドがあり、後者は新しいバージョンであり、Compose Specに準拠しています。
———————————
【技術紹介】 2024-04-22 “AI同士が教え合い質を高めるMicrosoft開発オープンLLM「WizardLM-2」、外で撮影した動画→実世界3Dゲームに変換するAI「Video2Game」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge” https://www.techno-edge.net/article/2024/04/22/3224.html
- Microsoftの新型オープンソース大規模言語モデル「WizardLM-2」:AI同士が教え合いながら質を高める新しい方式を採用しています。多様な指示・応答ペアを用いて段階的に訓練を行い、AI同士で学習内容を共有・改善します。
- 撮影した動画を3Dゲームに変換するAI「Video2Game」:動画からリアルタイムでインタラクティブな3D環境を生成します。NeRF(Neural Radiance Fields)、メッシュ、物理モジュールを利用して、現実世界に近いバーチャル環境を構築します。
- 数百万トークンを効果的に処理するAI「Megalodon」:Metaによる開発で、大規模なメモリを必要とせず、大量のトークンを扱えるよう設計されています。Megalodonは、既存のモデルと比較して学習効率と汎化性能が高いと評価されています。
- 高速かつ高品質な3Dモデル生成AI「MeshLRM」:Adobeなどが開発し、4枚の画像から1秒以内に3Dモデルを生成します。微分可能なメッシュ抽出とレンダリングを組み合わせ、高品質なメッシュ再構成を実現しています。
- 画像の衣服をキャラクターに着せるAI「Magic Clothing」:指定したキャラクターに入力された衣服画像を着せることが可能です。潜在拡散モデル(LDM)を基にしており、衣服の細部を忠実に再現しつつ、テキストの指示にも従った画像生成が可能です。
———————————
【LLMの脆弱性】 2024-04-22 LLM Agents can Autonomously Exploit One-day Vulnerabilities https://arxiv.org/abs/2404.08144 研究では、LLM(大規模言語モデル)エージェントが、実際のシステムでワンデイ(未公開)の脆弱性を自動的に悪用できる能力について検証しています。試験には、重大なセキュリティリスクと評価された15件のワンデイ脆弱性が含まれており、それらはCVE(脆弱性共有環境)の説明で分類されています。GPT-4は、CVEの説明が与えられた場合、これらの脆弱性の87%を悪用する能力を示しました。これは、他のモデル(GPT-3.5やオープンソースのLLM)やオープンソースの脆弱性スキャナー(ZAPやMetasploit)と比較して著しく高い成果です。しかし、CVEの説明なしでは、GPT-4が脆弱性を悪用できる確率は7%に低下します。この研究結果は、高性能なLLMエージェントの広範囲にわたる展開に対する懸念を提起しています。
2024/4/21のピックアップ
【ツール】 2024-04-20 “VS CodeでAWSを操作しよう” https://speakerdeck.com/smt7174/vs-codedeawswocao-zuo-siyou
2024/04/20(土) 開催の「VS Code Conference JP 2024」における私の発表「VS CodeでAWSを操作しよう」の発表資料になります。
———————————
【技術解説】 2024-04-21 “いちばんやさしいローカル LLM|ぬこぬこ” https://note.com/schroneko/n/n8b1a5bbc740b
このチュートリアルは、ローカル環境で大規模言語モデル(LLM)を動かす方法を初心者向けに解説しています。Ollamaというアプリケーションを使用して、LLMを簡単にローカルで実行する方法が紹介されています。特に、EnchantedやOpen WebUIを使用すれば、ChatGPTのようなインターフェイスでLLMを操作できます。また、quantkitを使うことで、LLMを量子化し、ローカルでの実行に必要なメモリサイズを削減することができます。
———————————
【AIの活用】 2024-04-21 ファミマ、生成AIで一部業務の作業時間を約50%削減 対象となった業務は? https://www.itmedia.co.jp/business/articles/2404/20/news044.html
ファミリーマートは生成AIの導入で作業時間を約50%削減しました。対象となった業務は、各種アンケートの集計作業、社内文書および社員教育資料の作成、スーパーバイザーから本部担当社員への問い合わせ対応です。導入された生成AIは、人型AIアシスタント「レイチェル/アキラ」にも搭載され、店長業務の効果的な支援に活用される予定です。
2024/4/20のピックアップ
【科学技術】 2024-04-19 Synthesis of goldene comprising single-atom layer gold https://www.nature.com/articles/s44160-024-00518-4
本研究では、一原子層の金(ゴールド)を合成する新しい方法が報告されています。従来の金のモノレイヤーは、数原子層の自立層か、テンプレートの上または内部に限定されていましたが、本研究ではTi3AuC2(金を含むナノラミネート材料)からTi3C2を湿式化学エッチングで除去することで、単原子層を剥離しました。初めに、Ti3SiC2(トランジション金属M、グループAの元素A、およびCまたはNからなるMAXフェーズ)のSiを金で置換してTi3AuC2を形成します。開発された合成ルートは簡便で、スケーラブル(大量生産可能)で、フッ化水素酸を使用しない方法です。生成された二次元層は「ゴールデン」と名付けられ、電子顕微鏡によると、バルク(大量の固体)の金に比べて約9%の格子収縮が観察されました。第一原理分子動力学シミュレーションでは、二次元のゴールデンは固有の安定性を示しますが、実験ではいくつかのカールや凝集が見られ、これは界面活性剤によって緩和されます。X線光電子分光法(XPS)によると、Au 4fの結合エネルギーが0.88 eV増加しています。他の非ファンデルワールス金層間化合物からゴールデンを準備する可能性や、エッチングスキームの開発についても提案されています。
2024/4/19のピックアップ
【ニュース】Tell the U.S. Senate: STOP RISAA, the FISA Mass Surveillance Expansion https://act.eff.org/action/tell-the-u-s-senate-stop-risaa-the-fisa-mass-surveillance-expansion
アメリカ合衆国下院は、「Reforming Intelligence and Securing America Act (RISAA)」という法案を通過させました。この法案により、外国情報監視法(FISA)のセクション702が再認可され、政府の情報収集の範囲が大幅に拡大されます。セクション702は本来、アメリカ国内にいる外国人の監視を許可していますが、アメリカ人の通信も「偶発的に」収集され、それに基づいて政府が令状なしで検索を行うことがあります。2021年には、FBIがアメリカ人の識別情報を使用して最大340万件の令状なし検索を行ったと報告されています。セクション702の再認可には反対の動きもあり、下院のほぼ半数が政府がアメリカ人の通信にアクセスする前に裁判所の承認を必要とすることを支持しましたが、賛成派が最後の瞬間にこの法案を通過させました。現在、アメリカ合衆国上院でこの法案が進行中であり、多くの人々が反対を呼びかけています。特に、この法案は「政府の監視権限を恐ろしいほど拡大するもの」と批判されています。
———————————
【新サービス】 2024-04-18 “Slack AI、日本でスタート まとめやAI回答対応で月1200円” https://www.watch.impress.co.jp/docs/news/1585476.html
Salesforceが日本で「Slack AI」をスタートしました。これはSlack上でAIを利用できるサービスです。Slack AIは、有料プランのアドオンとして提供され、プロプランやビジネスプラスプランのユーザーは月額1,200円で利用できます。このサービスは現在、英語、スペイン語、日本語で利用可能で、将来的にはさらに多くの言語に対応する予定です。Slack AIには「まとめ」と「回答の検索」という新機能があります。これにより、ユーザーはフォローしているチャンネルの要約を受け取ったり、会話から直接質問に対する回答を見つけることができます。「まとめ」機能はユーザーの活動に基づいて、毎朝、重要なチャンネルの会話のダイジェストを提供します。「回答の検索」機能では、会話形式の質問に対してパーソナライズされた回答が提供され、必要に応じてさらに詳細な検索も可能です。未来のアップデートでは、Slack AIの機能を拡張し、ハドルミーティングなどの音声・ビデオ通話からも重要な情報を要約する予定です。
———————————
【AIの活用】 2024-04-19 ACE Program Achieves World First for AI in Aerospace https://www.darpa.mil/news-events/2024-04-17
DARPAのAir Combat Evolution (ACE) プログラムは、航空宇宙分野での人工知能(AI)の利用において世界初の成果を達成しました。具体的には、視界内の戦闘シナリオ(ドッグファイトとも呼ばれる)で、AIが自動操縦するF-16と人間が操縦するF-16との間で空中戦テストを行いました。このテストでは、AIアルゴリズムがカリフォルニア州のエドワーズ空軍基地にある空軍試験パイロット学校で特別に改造されたF-16試験機、X-62AまたはVISTA(Variable In-flight Simulator Test Aircraft)を制御しました。
———————————
【国内ニュース】 2024-04-19 “経産省、AI・クラウド開発の国内企業に725億円 「経済安全保障」強化” https://www.watch.impress.co.jp/docs/news/1585751.html
経済産業省は、AIとクラウドサービスの開発を支援するため、国内企業5件に最大725億円の助成を行うと発表しました。この助成は、「経済安全保障推進法」に基づいて行われ、国内の重要情報を管理するシステムや開発体制の自立を促すことを目的としています。国内企業に対する依存度が高い現状を踏まえ、クラウドサービスの提供を強化し、生成AIなどの技術開発を国内で行う体制を整えることが求められています。特に、生成AIの分野では、サービス供給が制約されると大きな影響が出るため、計算資源を国内に確保し、強靭な開発基盤の構築が重要視されています。今回の助成の主な条件は、「AIに関わる計算資源としてのGPUクラウドサービスの提供」で、最大でさくらインターネットに501億円の助成が行われます。その他にGMOインターネットグループ、RUTILEAとAI福島、KDDI、ハイレゾとハイレゾ香川が助成対象となっています。
———————————
【新しいLLM】Build the future of AI with Meta Llama 3 https://llama.meta.com/llama3/
Meta AIは、新しいAIモデル「Llama 3」を発表しました。このモデルは8B(8 billion parameters)と70B(70 billion parameters)の事前学習済みバージョンがあります。Llama 3は、言語のニュアンス、文脈理解、複雑なタスク(翻訳や対話生成など)において優れた性能を発揮します。このモデルは、Meta AIのスマートアシスタントに統合されており、コーディングタスクや問題解決など、さまざまな用途で利用できます。Llama 3は、データセットが以前のモデル「Llama 2」に比べて7倍大きく、コードの量も4倍に増加しています。これにより、モデルの能力が向上し、より長いコンテキスト(8K文字)に対応できるようになりました。Metaは、Llama 3のリリースに合わせて、「Responsible Use Guide」を更新し、LLM(Large Language Models)の責任ある使用に関する情報を提供しています。また、Llama Guard 2やその他のセーフティツールが導入されています。Llama 3の利用にあたっては、入力と出力を徹底的にチェックし、独自のコンテンツガイドラインに基づいてフィルタリングすることが推奨されています。
———————————
【新サービス】Get more information, easily. Ask Meta AI anything. https://ai.meta.com/meta-ai/
Meta AIは、情報検索や趣味の学習、ハウツーアドバイス提供など、幅広い活用が可能なAIアシスタントです。検索エンジンが統合されており、最新のウェブ情報もMeta AIを通じてアクセスできるようになっています。また、Metaのアプリ群を横断して検索を行う機能も備えています。Meta AIには画像生成技術も搭載されており、ユーザーの創造的なアイデアを現実のものとして具現化することができます。たとえば、「火星の風の強い道で競走するレースカーやビーチにいるイエティ、金属質の砂漠のスフィンクス」など、様々な画像を生成することが可能です。Meta AIは、Messenger、Instagram、WhatsAppのグループチャットにも統合されており、食事会のレシピや旅行の計画など、さまざまな提案を共有するのに役立ちます。Facebookフィードに直接統合されているため、Meta AIを使って、興味のあるトピックについてもっと深く掘り下げることが可能です。これにより、コンテンツに関するより深いつながりを築くことができます。
———————————
【国内ニュース】オラクル、日本のクラウド・コンピューティングとAIに80億ドル超を投資へ https://www.oracle.com/jp/news/announcement/oracle-to-invest-more-than-eight-billion-in-cloud-computing-and-ai-in-japan-2024-04-17/
オラクルは、日本のクラウドコンピューティングとAIインフラストラクチャの拡張のために、今後10年間で80億ドル以上を投資する計画を発表しました。この投資により、Oracle Cloud Infrastructure (OCI) の事業が日本国内で拡大されることを目指しています。オラクルは、顧客とパートナー企業が日本のデジタル主権要件に対応できるように、日本を拠点とするサポートと運用チームを強化します。東京と大阪にあるパブリッククラウドのリージョンを含む、国内のカスタマーサポートと運用チームが増強される予定です。OCI Dedicated Regionは顧客が自社のデータセンターでオラクルの全てのクラウドサービスを実行できるようにし、Oracle Alloyはパートナー企業がOCIのクラウドサービスを再販し、カスタマイズすることを可能にします。
———————————
【ニュース】Building for our AI future https://blog.google/inside-google/company-announcements/building-ai-future-april-2024/
GoogleのCEO、Sundar Pichai氏が、会社の構造を単純化し、効率と実行速度を向上させるための変更を発表しました。新しい取り組みとして、Google DeepMindとGoogle Researchの間でモデル開発チームを統合し、AIの開発を加速します。Google Researchは、コンピューティングシステム(量子を含む)、基礎的な機械学習とアルゴリズム、応用科学と社会に重点を置いた研究を継続します。責任あるAIの開発と展開を目指し、Responsible AIチームをGoogle DeepMindに移動し、モデルの構築とスケールアップが行われる場所に近づけます。コンピューティングプラットフォームとデバイスを再構想するために、DSPA(Developers, Services, Platforms & Applications)とP&E(Platforms & Ecosystems)チームを新たな組織「Platforms & Devices」で統合します。
———————————
【LLMの評価】 2024-04-19 “The Open Medical-LLM Leaderboard: Benchmarking Large Language Models in Healthcare” https://huggingface.co/blog/leaderboard-medicalllm
LLMは、医療問題解決や患者ケア向上のための人間に似たテキストの理解・生成において顕著な能力を発揮しています。医療QA、ダイアログシステム、テキスト生成など、さまざまな医療アプリケーションで有望な結果を示しています。電子カルテ、医学文献、患者生成データの増加に伴い、医療専門家が洞察を得て情報に基づいた判断を下すのに役立つ可能性があります。一方で、医療分野での使用には高い正確性と信頼性が求められます。誤った情報が患者の診断や治療計画に深刻な影響を及ぼす可能性があります。
Open Medical-LLM Leaderboardは医療向けに特別に設計されたセットアップを使用してモデルを開発・評価するためのプラットフォームです。MedQA、PubMedQA、MedMCQAなど、医学的な知識と問題解決能力を評価する様々な医療データセットに基づいてLLMのパフォーマンスを評価しています。
———————————
【動画生成AI】 2024-04-19 VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time https://www.microsoft.com/en-us/research/project/vasa-1/
Microsoftの研究チームがVASAというフレームワークを開発しました。これは、一枚の静止画と音声クリップから、リアルタイムで話す顔のビデオを生成する技術です。主要なモデルであるVASA-1は、音声に完璧に同期する唇の動きと、自然な頭の動きを含む顔のニュアンスを捉えることができます。この方法は、リアルタイムで人間の会話行動を模倣するアバターとの対話を可能にします。また、オプションの信号(主観視線方向、頭の距離、感情のオフセットなど)を条件として入力できるため、生成をコントロールできます。表情やポーズの編集が可能で、同じ写真で異なる動きのシーケンスを生成したり、異なる写真で同じ動きのシーケンスを生成することができます。512×512のビデオフレームをリアルタイムで45fpsで生成でき、オンラインストリーミングモードでは40fpsまでサポート可能です。この評価は、NVIDIA RTX 4090 GPUを搭載したデスクトップPCで行われました。現在、実際のビデオの認証性を達成するまでにはまだギャップがあるとのことです。
———————————
【AIの活用】 2024-04-19 Durably reducing conspiracy beliefs through dialogues with AI https://osf.io/preprints/psyarxiv/xcwdn
陰謀論は、個々のニーズや動機を満たすために、反証に対して非常に抵抗力があるとされています。この研究では、個々の陰謀論に特化した説得力のある反証を提供することで、これまでの試みが成功しなかった可能性を評価しています。実験参加者は、彼らが信じる陰謀論について詳細な説明を提供し、その後、GPT-4 Turboとの3回の対話を行いました。このAIは、参加者の陰謀論に対する信念を減少させるよう指示されています。2つの実験を通じて、AIとの反論対話が陰謀論の信念を約20%減少させるという強力な証拠が得られました。この効果は2ヶ月間持続し、様々な陰謀論に対して一貫して観察されました。また、陰謀論が自己のアイデンティティに深く根ざしている参加者にも効果がありました。さらに、この介入は特定の陰謀論に焦点を当てた対話であったにもかかわらず、関連しない陰謀論に対する信念も減少し、陰謀的な世界観全体が減少することが示されました。また、選んだ陰謀論を主張する他者に挑戦する意図も高まりました。これらの発見は、十分な証拠があれば、事実に抵抗すると思われる陰謀論を強く信じる多くの人々が考えを変える可能性があることを示しています。
2024/4/18のピックアップ
【国内ニュース】 2024-04-17 大田区、NECに賠償金480万円を請求 10月のシステム障害巡り SSD3台の同時故障想定できず https://www.itmedia.co.jp/news/articles/2404/17/news197.html
大田区がNECに対して、486万8437円の損害賠償金を請求しました。これは2023年10月に発生したシステム障害に関連しています。障害の原因は、3台のSSDがほぼ同時に故障したことによるもので、大田区の重要なシステムが使用不能になりました。当時のシステム設計では、2台までのSSD故障は想定内でしたが、3台同時に故障する事態は想定外であり、全データの損失を招きました。このSSDの故障は特定のバージョンに限られる問題であり、製造部門から運用保守部門への情報共有があったにも関わらず、大田区には適切な情報提供がなされていませんでした。障害により大田区の業務に多大な影響が出て、証明書の発行、届け出データの反映保留、その他のシステム連携遅延などが発生しました。これにより計486万8437円の損失が発生したと算出し、同額を賠償金としてNECに請求するということです。再発防止策として、故障したバージョンのSSDを全て交換し、保守拠点にも交換用のSSDを確保。また、事業継続性の見直しや職員研修を実施し、システム基盤のクラウド移行を進めています。
———————————
【国内ニュース】 2024-04-17 改正NTT法成立 KDDI、ソフトバンク、楽天モバイルが連名で「強い懸念」表明 https://www.itmedia.co.jp/news/articles/2404/17/news177.html
改正NTT法が4月17日に国会で成立しました。この法律は、NTTの研究成果の開示義務廃止や外国人役員の規制緩和などを含む内容でした。主な議論の焦点は法律自体ではなく、附則にあります。附則は、法律の効力発生時期や経過措置などを定めるものですが、この場合、「日本電信電話株式会社等に関する法律の廃止を含めて検討すること」が記載されています。KDDI、ソフトバンク、楽天モバイルの通信3社は、この附則に「強い懸念」を表明しました。通信3社はNTT法の廃止に反対し、より慎重な政策議論を要求しています。NTTとの間で議論は白熱しており、11月にはSNS上で激論があったことも報告されています。NTT法は、NTTが電電公社時代に税金を投じて作られた特別な資産を継承しているため、3社はNTT法の維持を主張しています。
———————————
【スキルアップ】 2024-04-17 AIを使った論文の読み方 https://compass.readable.jp/2024/04/17/post-26/
AIの進歩により、論文の読み方が効率化し、要約ツールの利用が一般的になっています。主なツールにはChatGPT、Claude、Readableがあり、それぞれが異なる機能を提供しています。ChatGPT(無料版とPlus版があり、Plus版はPDFファイルを直接読み込むことができます)Claude(無料版でもPDFファイルを読み込めるため、始めるならこちらを推奨)Readable(PDFをそのままのレイアウトで翻訳し、対訳を表示する機能があります)論文読解の流れとしては、ChatGPTやClaudeで要約を生成し、Readableで精読をする方法が推奨されています。精読する論文の選定基準としては、興味深い内容かどうかや、その研究がマイルストーン的なものかどうかが挙げられます。論文要旨とAIによる要約の違いについては、AIの方が適応的な対話が可能であり、詳細な掘り下げが行える点が利点とされています。注意点として、AIは間違った情報を生成することがあるため、信用しすぎずに検証が必要です。研究費でChatGPTやReadableを購入する方法も記載されています。
———————————
【新しいLLM】 2024-04-18 Cheaper, Better, Faster, Stronger https://mistral.ai/news/mixtral-8x22b/
Mistral AIは、新しいAIモデル「Mixtral 8x22B」を発表しました。このモデルは、141Bのパラメーターのうち39Bだけが活性化されるスパース混合専門家(SMoE)モデルです。Mixtral 8x22Bは、コスト効率が非常に高く、70Bの密集モデルよりも高速で、他のオープンモデルよりも高機能です。このモデルは、英語、フランス語、イタリア語、ドイツ語、スペイン語に堪能であり、数学とプログラミングの能力が非常に高いです。64Kトークンのコンテキストウィンドウを持ち、大規模なドキュメントからの情報を正確に記憶できます。Apache 2.0ライセンスの下で公開され、誰でもどこでも制限なく使用できます。さまざまな標準業界ベンチマークで他のオープンモデルと比較して、推論、知識、多言語能力において優れた性能を発揮しています。特に、コーディングと数学のタスクにおいて、他のモデルを上回る性能を見せています。
———————————
【新技術】 2024-04-18 インテル 世界最大規模のニューロモーフィック・システムを構築して サステナビリティーの高いAIを実現 https://www.intel.co.jp/content/www/jp/ja/newsroom/news/intel-builds-world-largest-neuromorphic-system.html
インテルは、「Hala Point」という新しいニューロモーフィック・システムを構築しました。これは11億5,000万ニューロンを持つ世界最大規模のシステムで、人間の脳を模倣したアーキテクチャを採用しています。このシステムは、Loihi 2プロセッサーを使用しており、サンディア国立研究所で最初に導入される予定です。メインの特徴として、1秒間に20千兆回(20 Peta-ops)の演算処理能力を持ち、従来のAIシステムよりも高い効率を実現しています。サンディア国立研究所では、このシステムを使用して、科学演算の問題解決に取り組む計画です。システムの基本となるLoihi 2ニューロモーフィック・プロセッサーは、データの移動を最小限に抑え、非常に高い並列性を持つスパイキング・ニューラル・ネットワーク(SNN)に基づいて設計されています。SNNではニューロンがスパイクと呼ばれる短いパルスを用いて情報を伝達します。これは、人間の脳のニューロンが動作する方式に似ており、非常に省エネルギーでリアルタイム処理に適しています。スパイクタイミング依存可塑性(STDP)など、時間に依存する学習アルゴリズムを使用することが一般的です。これは、ニューロン間のスパイクのタイミングの差に基づいてシナプスの強度を調整します。
———————————
【ロボット】 2024-04-18 An Electric New Era for Atlas https://bostondynamics.com/blog/electric-new-era-for-atlas/
Boston Dynamicsは、新しい全電動版の人型ロボットAtlasを発表しました。新しいAtlasは、以前の油圧式のモデルに代わるもので、より強力で、動作範囲が広い特性を持っています。このロボットは、製造業の現場でのテストを含めた実用的な応用に向けた開発が進められています。特にHyundaiとの協力のもと、次世代の自動車製造能力の構築に役立つことが期待されています。Atlasの商業展開は、四足歩行ロボットSpotや商用物流ロボットStretchといった以前の製品で培った経験を生かし、少数の革新的な顧客と協力しながら進められます。さらに、Boston Dynamicsは、ロボットの運用に必要なITインフラストラクチャーや安全基準、ワークフローなどを含むデジタル変革エコシステムの構築にも取り組んでいます。また、Orbit™という新しいソフトウェアも導入されており、これによりロボットフリート全体の管理が可能になります。このソフトウェアは現在Spotで利用可能で、将来的にはStretchやAtlasにも統合される予定です。
———————————
【国内ニュース】 2024-04-18 “Uber Eatsのデリバリーロボ、ガスト日本橋店に導入 オムライスなどを配達” https://www.watch.impress.co.jp/docs/news/1585275.html
Uber Eats Japanは、自律走行型のデリバリーロボットを使用して、ガスト日本橋店での食品配達を開始しました。このデリバリーロボットは保温保冷機能を備えており、ガストの人気メニューを温かい状態、または適切な温度で配達することができます。このサービスは日本橋エリアに限定されており、3月6日から運用が始まっています。今後、すかいらーくグループの他のUber Eats加盟店舗でもデリバリーロボットの使用が拡大される予定です。
———————————
【新サービス】 2024-04-18 Stable Diffusion 3 API のご紹介 https://ja.stability.ai/blog/stable-diffusion-3-api
Stable Diffusion 3 と Stable Diffusion 3 Turbo は、Developer Platform API で利用可能になりました。Stable Diffusion 3 は、DALL-E 3やMidjourney v6と比較して、タイポグラフィとプロンプトの忠実性が優れています。新しい Multimodal Diffusion Transformer (MMDiT) アーキテクチャは、画像表現と言語表現に別々のウェイトセットを使用しているため、テキスト理解とスペリング機能が向上しています。Stable Assistant Beta を通じて、画像モデルと言語モデルを組み合わせたコンテンツ作成が可能です。Fireworks AI との提携により、99.9%のサービス可用性を保証する API ソリューションを提供します。
———————————
【新しいLLM】 2024-04-18 Stable Assistant https://ja.stability.ai/stable-assistant
Stable Assistantは、Stability AIによって開発された最新のテキストおよび画像生成技術を搭載したチャットボットです。現在ベータ版で利用可能であり、今後さらに機能が追加される予定です。Stable Assistantは、Stable Diffusion 3とStable LM 2 12Bを搭載しています。ベータ版へのアクセスは特定のリンクを通じて可能で、サブスクリプションは月額9ドルから開始できます。使用するごとにクレジットが消費され、画像生成には6.5クレジット、メッセージ送信には0.1クレジットが必要です。
———————————
【技術解説】 2024-04-18 “24年4月の量子コンピュータ業界の動向がよくわからんというので書いてみました。 by Yuichiro Minato | blueqat” https://blueqat.com/yuichiro_minato2/1d0d49e0-1b08-40b6-b861-cd22fbee36dd
量子コンピュータ業界は近年、重要な転換期を迎えています。2012年に量子アニーリングマシンが登場しましたが、2018年ごろには廃れてしまいました。代わりに、エラーがある初代NISQ(Noisy Intermediate-Scale Quantum)デバイスが人気を博しましたが、これも2021年ごろには廃れました。NISQは、「騒音を含む中間規模量子」と訳されます。これは数十から数百の量子ビット(qubit)を持つ量子コンピュータのことを指し、現在実用化されている量子コンピュータの多くがこのカテゴリーに属します。NISQデバイスは、完全に誤り訂正されていないため、計算中にエラーが生じやすいです。これは、量子ビットが非常に微細な物理現象に基づいているため、外部のノイズに弱いことが原因です。
量子エラー訂正(Quantum Error Correction, QEC)は、量子コンピュータの計算中に生じるエラーを検出し修正する技術です。量子ビットは非常に繊細で、外部環境からのわずかなノイズや干渉によってもその状態が変化してしまうため、正確な計算を行う上で大きな障害となります。
FTQC(Fault-Tolerant Quantum Computing)の開発が必要とされていますが、これは数十年を要するプロジェクトです。FTQCは、「誤り耐性量子計算」と訳されます。これは理論上、何千もの量子ビットを使用して外部の干渉やノイズから保護され、長時間にわたる計算が可能な量子コンピュータのことを指します。誤り耐性を持つためには、高度な量子エラー訂正技術が必要で、これにより任意の長さの計算を正確に実行できます。
2023年、ハーバード大学のチームが突然、FTQCに近い技術を発表しました。しかし、量子コンピュータの業界は、NISQの誤り訂正が2023年に実現され、計画が大幅に前進しました。FTQC向けの新しいアーキテクチャが登場し、これまでのNISQマシンとは異なる設計が有利とされています。各国、特にフランスやドイツはFTQCに迅速に対応していますが、米国や中国では量子技術への投資との間で葛藤が生じています。NISQは暗号解読には不向きであることが知られていましたが、FTQCは暗号関連のリスクを大きく増加させる可能性があります。
———————————
【新しいLLM】Introducing Idefics2: A Powerful 8B Vision-Language Model for the community https://huggingface.co/blog/idefics2
Idefics2はHugging Face社が開発した8Bパラメータを持つ汎用マルチモーダルモデルで、テキストや画像を入力として、テキスト応答を生成する機能を備えています。画像に関する質問への回答、ビジュアルコンテンツの説明、複数の画像に基づく物語の作成、文書からの情報抽出、基本的な算術演算が可能です。前モデルIdefics1に比べて、OCR(光学文字認識)機能が強化され、8Bのパラメータ、Apache 2.0のオープンライセンスを採用しています。視覚質問応答ベンチマークで優れた成績を収めています。Transformersに初めから統合されており、多くのマルチモーダルアプリケーションに対して微調整が簡単です。ウェブドキュメント、画像キャプションペア、OCRデータ、イメージからコードへのデータなど、様々なオープンデータセットを使用してトレーニングされています。画像はその元の解像度とアスペクト比で扱われ、画像特徴を言語バックボーンに統合する新しい方式が採用されています。画像とテキストの埋め込みが連結され、処理されます。
———————————
【技術解説】 2024-04-18 1BitLLMの実力を見る|shi3z https://note.com/shi3zblog/n/ndd1f27fff31c
【技術解説】Are All Large Language Models Really in 1.58 Bits? https://learning-exhaust.hashnode.dev/are-all-large-language-models-really-in-158-bits
2024/4/17のピックアップ
【人間とAIの未来】 2024-04-16 Measuring trends in AI https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024.pdf
AIインデックスレポートは、AIに関連するデータを追跡、収集、精錬、視覚化することを目的として、スタンフォード大学が毎年まとめているものです。今回のエディションでは、これまで以上に多くのオリジナルデータを掲載し、AIの訓練コストに関する新しい見積もり、責任あるAIの風景に関する詳細な分析、そして科学と医学へのAIの影響に特化した新しい章を紹介しています。このレポートは、政策立案者、研究者、経営者、ジャーナリスト、一般公衆がAIの複雑な分野をより深く、細かく理解するために、偏りのない、厳格に検証された、広く取り入れられたデータを提供することを使命としています。
- 人工知能は一部のタスクで人間を上回るが、全てではない:画像分類、視覚的推論、英語理解の分野で人間を上回っています。しかし、競技レベルの数学や視覚的常識推論、計画立案などの複雑なタスクではまだ人間に劣っています。
- 産業界がフロンティアAI研究を支配:2023年、産業界は51の顕著な機械学習モデルを生産、学術界は15モデルにとどまる。産業界と学術界の共同研究から21のモデルが生まれ、新たな最高記録を達成。
- フロンティアモデルのコストが大幅に増加:例えば、OpenAIのGPT-4は訓練に約7,800万ドル、GoogleのGemini Ultraは約1億9100万ドルの計算コストがかかった。
- トップAIモデルの主要な生産地はアメリカ:2023年、米国は61の顕著なAIモデルを生産し、EUの21、中国の15を大きく上回る。
- LLM(大規模言語モデル)の評価の標準化が不足:OpenAI、Google、Anthropicなどの主要開発者が異なる基準でモデルをテストしており、モデルのリスクと制限を体系的に比較する努力が複雑になっています。
- 生成AIへの投資が急増:2022年から2023年にかけて投資額がほぼ8倍に増加し、252億ドルに達した。
- AIが労働者の生産性を向上させ、作業の質を高める:2023年の研究で、AIが労働者に作業の迅速化と出力の質の向上を可能にすることが示された。
- 科学進歩がAIによってさらに加速:2023年、アルゴリズムの効率的なソートを可能にするAlphaDevや、材料発見を促進するGNoMEなど、重要な科学関連AIアプリケーションが登場。
- 米国内のAI関連規制が急激に増加:2023年には25のAI関連規制が設けられ、前年比で56.3%増加した。
- 世界中の人々がAIの影響をより意識し、不安を感じるようになる:Ipsosの調査によると、今後3〜5年でAIが生活に大きな影響を及ぼすと考える人の割合が60%から66%に増加。AI製品に対する不安感が52%に達している。
———————————
【国内ニュース】 2024-04-16 総務省、LINEヤフーに2度目の行政指導 資本関係見直しの具体化を要求 https://www.watch.impress.co.jp/docs/news/1584771.html
総務省は、LINEヤフーに対して2度目の行政指導を行いました。これは2023年11月に発生した不正アクセスと情報漏洩に関連しています。LINEヤフーは迅速な対策を講じたものの、総務省はこれを不十分と判断しました。具体的には、セキュリティ管理や委託先管理の抜本的な見直し、親会社を含むグループ全体でのセキュリティガバナンスの構築が不十分であると指摘されました。総務省は、資本関係と経営体制の見直しを含め、さらなる対策と具体的な計画の提出を7月1日までに要求しています。また、親会社のソフトバンクに対しても、セキュリティガバナンスの確保策を検討するよう指示しています。
→ 2024-04-16 “総務省|報道資料|LINEヤフー株式会社に対する通信の秘密の保護及び サイバーセキュリティの確保の徹底に向けた措置(指導)” https://www.soumu.go.jp/menu_news/s-news/01kiban18_01000230.html
———————————
【ニュース】2024-04-16 著名人になりすました詐欺広告に対する取り組みについてttps://about.fb.com/ja/news/2024/04/our_efforts_to_combat_scams/
オンライン詐欺は世界中の人々を対象にし、金銭目的で多様な手法を使用して検出を回避する問題です。Metaは2016年以降、プラットフォームの安全性向上のために200億ドル以上を投資し、詐欺対策も強化しています。Metaのポリシーでは、著名人になりすました広告や詐欺的な広告を禁止しており、利用者や広告主のネガティブな体験を防ぐために、これらの広告をプラットフォームから排除することが重要です。広告の審査は、人による審査と自動検知を組み合わせて行われ、詐欺の手法が変化するため、ポリシー施行の戦略も継続的に改善されています。Metaは、詐欺を根絶するための取り組みとして警察当局等とも連携し、産業界や専門家との協力による社会全体でのアプローチが重要だと考えています。
→ 2024-04-16 “著名人になりすました詐欺広告に対する取り組みについて | Metaについて” https://about.fb.com/ja/news/2024/04/our_efforts_to_combat_scams/
———————————
【ニュース】 2024-04-16 米バイデン政権、韓国Samsungのテキサス施設に最大64億ドルの助成金 https://www.itmedia.co.jp/news/articles/2404/16/news180.html
米連邦政府は、韓国のSamsung Electronicsがテキサス州に建設する半導体施設に最大64億ドルの助成金を提供すると発表しました。この助成金は、2022年に成立したCHIPS法に基づいています。Samsungはテキサス州テイラーに半導体施設を建設し、400億ドル以上を投資する予定です。この施設は最先端ロジック半導体のファウンドリ事業の拠点となります。この投資により、2万人以上の雇用創出が見込まれます。米商務省によると、このような投資により、米国は2030年までに世界の最先端ロジックチップの約20%を生産する軌道に乗ると予測されています。
———————————
【AIと法律・規制】 2024-04-16 文化庁の「AIと著作権に関する考え方」、個人からのパブコメ新たに公開 今回も1000ページ超 https://www.itmedia.co.jp/news/articles/2404/16/news178.html
2024年4月16日、文化庁は「AIと著作権に関する考え方(素案)」について、公募したパブリックコメントの結果を一部公開しました。パブリックコメントは1月末から2月半ばまで募集され、計2万4938件が集まりました。今回公開されたのは、個人からの意見1089ページ分で、前回の団体からの意見はは1129ページでした。公開されたコメントには必要なマスキングが施されています。文化庁は、パブリックコメントの意見や有識者の意見などをまとめた最終版資料を3月15日に公開しています。
→ https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/hoseido/r05_07/
———————————
【ニュース】 2024-04-15 Microsoft and G42 partner to accelerate AI innovation in UAE and beyond https://blogs.microsoft.com/blog/2024/04/15/microsoft-and-g42-partner-to-accelerate-ai-innovation-in-uae-and-beyond/
マイクロソフトとG42は、UAE(アラブ首長国連邦)およびその他の市場でAIのイノベーションを加速させるために戦略的パートナーシップを拡大しました。マイクロソフトはG42に15億ドルを投資し、同社の少数株主となり、取締役会に参加します。このパートナーシップにより、G42はMicrosoft Azureを活用して、金融サービス、ヘルスケア、エネルギー、政府、教育などのさまざまな産業や市場に先進的なAIソリューションを提供します。両社は、開発者向けに10億ドルのファンドを設立することで、UAEとその周辺地域でAIスキルを向上させることを支援します。G42は、データプラットフォームや他の重要な技術インフラをMicrosoft Azureに移行し、業界をリードするパフォーマンス、スケーラビリティ、セキュリティ機能を活用します。このパートナーシップは、中東、中央アジア、アフリカ地域のデジタルトランスフォーメーションを加速し、グローバルにおけるAIの公平な成長を促進することを目指しています。
———————————
【技術解説】 2024-04-17 “OpenAIのBatch APIを使ってお得にプロンプトを一括処理してみる – Taste of Tech Topics” https://acro-engineer.hatenablog.com/entry/2024/04/17/153027
OpenAIの新機能「Batch API」について紹介します。この機能は、複数のプロンプトを一度に処理できることが特徴です。Batch APIを使用すると、通常のAPIと比較してトークンあたりの料金が50%安くなります。また、入力と出力はJSONLファイル形式で扱います。処理の最大時間は24時間で、それを超えると途中で処理がキャンセルされます。24時間以上の処理が必要な場合は、複数回に分けて実行する必要があります。実際にBatch APIを使う流れは、まず入力ファイルを作成し、それをOpenAIのストレージにアップロードします。次に、APIを使用してBatchを実行し、実行結果を確認します。実行例として、GPT-4 Turboモデルを使った10件のプロンプトを処理する例が示されています。このプロセスは、リアルタイムの対話が不要で大量のテキストを一括処理する場合に有効です。
———————————
【技術解説】 2024-04-17 生成AIによるプロダクトと生産性向上の舞台裏@2024.04.16 https://speakerdeck.com/mazeltov7/sheng-cheng-ainiyorupurodakutotosheng-chan-xing-xiang-shang-nowu-tai-li-at-2024-dot-04-dot-16
メルカリにおける生成AIプロダクトについて
2024.04.16「先達エンジニアに学ぶ 思考の現在地 Online Conference」での登壇スライド
2024/4/16のピックアップ
【新サービス】 2024-04-16 日常会話を録音して要約できるペンダント型AIガジェット「Pendant」が登場 https://gigazine.net/news/20240416-limitless-summarize-ai-pendant/
Limitlessはオンライン会議向けのAIツールで、会話内容の文字起こしや要約が可能です。ツールはWindows、macOS、ウェブアプリに対応しており、ZoomやSlackなど多様なオンライン会議ツールと連携可能です。画面は「Prep」(会議の前提情報表示)、「Transcript」(リアルタイム文字起こし)、「Notes」(内容の文脈ごとのまとめ)、「Summary」(会議要約)の4つに分かれています。無料プランでは月10時間まで、有料プランでは無制限にAI機能を利用でき、有料プランは月額19ドルです。
また、Pendantは、日常会話を録音してLimitlessに送信し、要約できるペンダント型デバイスです。カラーバリエーションは8種類あり、内部には100時間稼働のバッテリーが内蔵されています。幅は31.9mm、厚さは16mmで、ストラップを使用して首にかけるか、襟元に直接挟んで固定することができます。価格は99ドルで、2024年第4四半期に出荷が開始される予定です。
———————————
【音声生成AI】 2024-04-16 VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild https://jasonppy.github.io/VoiceCraft_web/
VOICECRAFTは、音声編集とゼロショットのテキストから音声への変換(TTS)において、最先端の性能を達成したニューラルコーデック言語モデルです。このモデルは、オーディオブック、インターネット動画、ポッドキャストでの使用が評価されています。トランスフォーマーデコーダー構造を採用しており、因果マスキングと遅延スタッキングを組み合わせたトークン再配置手法を導入しています。これにより、既存のシーケンス内での生成が可能になります。音声編集タスクにおいては、編集後の音声が未編集の録音と自然さの面でほぼ区別がつかないレベルで生成されます。これは人間による評価で確認されています。ゼロショットTTSにおいては、既存の最先端モデルであるVALLEや商用モデルXTTS v2を上回る性能を示しています。評価は、多様なアクセント、話し方、録音条件、背景音楽や騒音が含まれる現実的なデータセットで行われており、他のモデルや実際の録音と比較して一貫して良好な成績を収めています。デモはウェブサイトで聞くことができ、そのURLは公開されています。
———————————
【スキルアップ】 2024-04-16 解決法の「とっかかり」をなんとなく把握しておくことが大事だという話 https://blog.tinect.jp/?p=86065
技術的な詳細を完全に理解していなくても、特定の技術や解決策の存在を知っているだけで有用であるというアドバイスを受けたことがあります。エンジニアの能力の一つとして、様々な問題に対するアプローチをどれだけ思いつけるかが重要です。何か解決策があったはずだというぼんやりとした理解があれば、それを手がかりにして具体的な調査や学習を進めることができます。このような理解を深めるためには、基礎となる技術知識が重要です。生成AIの時代になっても、この「とっかかり」を理解することの重要性は増していると感じています。新人エンジニアには、知識の「引き出し」を増やすことの重要性と、それを活用するための基礎学習の重要性を伝えています。
———————————
【技術解説】 2024-04-16 生成AIでGPUがいらなくなる? 業界を揺るがす「1ビットLLM」とは何か、識者に聞いた https://www.itmedia.co.jp/aiplus/articles/2404/16/news064.html
Microsoftの研究チームが発表した「BitNet」、通称「1bit LLM」と呼ばれる論文が、LLM(大規模言語モデル)の計算が軽くなり、GPUが不要でCPUでも動作可能であることを示唆しています。「1bit LLM」では、モデルの重みを-1、0、1の3値に量子化することにより、従来の計算方法(掛け算)から和算に変更され、これが計算負荷を大幅に軽減します。この技術により、モデルのサイズと計算量が減少し、電力効率が向上するため、モバイルデバイスやセンサーなどの端末での推論が可能になるかもしれません。学習時には引き続きGPUが必要ですが、推論においては新しい半導体アーキテクチャによって、GPUを必要としない設計が可能になるかもしれません。
2024/4/15のピックアップ
【ニュース】 2024-04-15 “新SNSの技術とコミュニティーの未来を模索 「Bluesky」交流イベントの様子” https://www.itmedia.co.jp/news/articles/2404/15/news095.html
——————————
【生成AI新技術】 2024-04-15 Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models https://arxiv.org/abs/2310.13828
テキストから画像を生成するディフュージョンモデルは、数百万から数十億の画像を使って訓練されていますが、特定のコンセプトやプロンプトに関連する訓練サンプルは数千に過ぎません。これが「コンセプトの希薄さ」と呼ばれます。研究者たちは、100個未満の訓練サンプルを使用して、特定のプロンプトに対する出力を完全にコントロールできる新しい攻撃手法「ナイトシェード」を開発しました。ナイトシェードは見た目が通常の画像と同じに見えるステルスな毒画像を生成し、関連するコンセプトにも影響を及ぼすことができます。さらに、ナイトシェードを用いた攻撃がいくつか独立して行われると、モデルは任意のプロンプトに対する画像生成能力を失う可能性があります。この攻撃手法は、コンテンツ所有者がウェブスクレイパーに対して行う防衛策としても使用可能であり、訓練データとしての不正利用から守る方法として提案されています。
——————————
【技術解説】 2024-04-15 “Stable DiffusionのLoRAのつくりかた|RedRayz” https://note.com/redrayz/n/n05e93566e562
Stable DiffusionのLoRAは、キャラクターや画風などを追加で学習させるための方法です。LoRA(Low-Rank Adaptation)は、ウェイトとデータセットの差分を効率的に出力する技術です。これにより、少ないメモリで効果的に学習できます。学習ツールとして「sd-scripts」が主流であり、GUIツールを用いて環境構築を行います。学習の手順としては、まず環境を構築し、データセット用のフォルダを作成します。次に画像を収集し、キャプションを作成・編集します。学習パラメータをGUIで設定し、教師画像フォルダや出力先フォルダを指定して学習を開始します。学習が完了したら、生成されたLoRAをWebUIで使用し、指定した強度で適用することができます。
——————————
【その他】2024-04-15 “なぜ我々は GitHub Copilot Enterprise の導入を見送ったのか – 一休.com Developers Blog” https://user-first.ikyu.co.jp/entry/2024/04/15/150249
一休.comのCTO室によるGitHub Copilot Enterpriseの導入評価プロジェクトが進行しましたが、現時点では導入は見送られました。GitHub Copilot Enterpriseは、開発プロセスの支援を目的としていますが、一休.comの既存のシステムやドキュメントに対する学習が不十分だったため、効果が限定的であると判断されました。主な評価点として、knowledge basesの有効性、レガシーコードの理解支援、PRメッセージの自動生成の有効性が挙げられますが、これらが十分な成果を提供するに至りませんでした。特に、ドキュメント管理ツールとしてConfluenceからGitHubへの移行は、現在享受しているConfluenceの利点を失うリスクがあるため、見送りの決定要因となりました。PRメッセージ自動生成は、プログラムや変更点がなぜ必要だったのか、その目的や理由を説明する情報が生成されず、有効な支援が得られないことが確認されました。
——————————
【LLM新技術】2024-04-15 Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention https://arxiv.org/html/2404.07143v1
無限長の入力を扱うために、Transformerベースの大規模言語モデル(LLM)をスケーリングする効率的な方法をGoogleが発表しました。新しい注意メカニズム「Infini-attention」が提案され、標準の注意メカニズムに圧縮メモリを組み込み、単一のTransformerブロック内に局所的なマスク付き注意と長期の線形注意の両方を構築します。このアプローチは、長文の言語モデリングベンチマーク、100万シーケンス長のパスキーブロック検索、50万文字の書籍要約タスクにおいて、1Bおよび8BのLLMで効果を実証しました。Infini-attentionは、標準のドット積注意計算で使用されるすべてのキー、値、クエリの状態を再利用し、長期記憶の統合と取得を行います。圧縮メモリは固定数のパラメータを使用して情報を保存し、必要に応じて情報を復元できるように設計されています。Infini-attentionは、継続的な事前学習と微調整によって既存のLLMを無限のコンテキストに拡張する自然な方法を提供します。
——————————
【ニュース】2024-04-15 Introducing OpenAI Japan https://openai.com/blog/introducing-openai-japan
OpenAIは日本にアジア初のオフィスを設立し、日本語に最適化されたGPT-4カスタムモデルをリリースしました。この新オフィスは東京に位置しており、日本のテクノロジー、サービス文化、イノベーションを受け入れるコミュニティのグローバルリーダーシップを理由に選ばれました。国際的なロケーションとしてはロンドン、ダブリンに次ぐ3番目です。日本の政府、地元企業、研究機関と協力して、日本のニーズに合った安全なAIツールを開発することを目指しています。新しいカスタムモデルは、日本語のテキストの翻訳と要約において性能が向上しており、前モデルより最大3倍速く動作し、コスト効率も良いです。
——————————
【ためしてみた】2024-04-14 “優秀と噂なCohere社のCommand R+でRAGチャットボットを簡単に構築して体験しよう! – Qiita” https://qiita.com/itokazu/items/2b519ef301fdf1430486
Cohere社はCommand R+という新しいLLMをリリースしました。このモデルはGPT-4と同等の性能を持ち、RAG(Retrieval-Augmented Generation)を使用することで、特に注目されています。LightningAIで公開されたチュートリアルを通じて、Command R+を使ったRAGチャットボットを簡単に構築し、実際に動かすことができます。このチュートリアルでは、Cohere社のAPIキーが必要で、GoogleアカウントまたはGithubアカウントを使用してログイン後、無料でトライアルキーを取得できます。チャットアプリは、PDFファイルをアップロードし、その内容に基づいて質問に答えることができます。このプロセスには、EmbeddingモデルとRerankモデルが使用されます。環境設定としては、Google ColabやOracle CloudのData Science Serviceを利用することが推奨されています。特に、Oracle Cloudでは、コードの格納、環境の設定、そして実際の実行が行われます。
2024/4/14のピックアップ
【ニュース】 2024-04-13 SAG-AFTRA, Record Labels Reach Tentative Sound Recordings Agreement https://www.sagaftra.org/sag-aftra-record-labels-reach-tentative-sound-recordings-agreement
SAG-AFTRA(Screen Actors Guild-American Federation of Television and Radio Artists)は、アメリカ合衆国の演技者、アナウンサー、放送ジャーナリスト、プログラムホスト、ニュースライター、その他メディア関連の職種の人々を代表する労働組合です。SAG-AFTRAと主要なレコードレーベルが、新しい契約について仮合意しました。この契約は2021年から2026年まで有効です。含まれるレコードレーベルは、ワーナーミュージック、ソニーミュージック、ユニバーサルミュージック、ディズニーミュージックです。この合意には、音楽産業での人工知能の使用を倫理的に制限する新しいルールが設けられており、これは業界で初めてのことです。人工知能に関するルールは、歌手の声のデジタル複製を使用する音声録音のリリース前に、明確な同意と最低報酬要件が必要とされます。契約の他の重要な点には、最低賃金の上昇、健康と退職の福利の改善、ストリーミング収益の貢献割合の増加があります。
———————————
【ニュース】 2024-04-14 “Googleドライブ有料版「Google One」の特典VPN機能、今年後半に提供終了” https://www.itmedia.co.jp/news/articles/2404/14/news048.html
———————————
【新しいLLM】 2024-04-14 イーロン・マスク氏のLLM「Grok」、1.5更新で画像認識可能に https://www.itmedia.co.jp/news/articles/2404/14/news047.html
2024/4/13のピックアップ
【AIと人間の未来】 2024-04-13 AIホワイトペーパー ステージⅡにおける新戦略 ー世界一AIフレンドリーな国へー https://www.taira-m.jp/2024/04/aiai.html
自民党デジタル社会推進本部「AIの進化と実装に関するプロジェクトチーム」(平将明 PT座長)は4月12日、「AIホワイトペーパー ステージⅡにおける新戦略 ー世界一AIフレンドリーな国へー」をとりまとめ、 デジタル社会推進本部で了承いただきました。この後、政務調査会の審査を経て、自民党の政策になります。
- 研究開発と利活用の推進:政府や民間が持つデータの活用を推進し、新たなAI開発への利用を容易にする。特定の分野、例えば自動車や医療、農業などにおいて、データの収集とAI開発の相乗効果を官民共同で進める。
- 安全性の確保:AIに関するリスクを管理し、安全な利用を保証するためのガイドラインや法的枠組みを整備。AI事業者はリスクの評価と低減を継続的に行うことが求められる。
- 国際協調と連携の強化:AIの安全性評価に関する国際的なネットワークを構築し、国際的な協調を図る。アジア諸国やグローバルサウスとの協調を強化する。
———————————
【新サービス】 2024-04-13 “新しい「GPT-4 Turbo」、ChatGPTの有料ユーザーに提供” https://k-tai.watch.impress.co.jp/docs/news/1584009.html
———————————
【技術解説】 2024-04-11 Vision Language Models Explained https://huggingface.co/blog/vlms
ビジョン言語モデル(VLM)は、画像とテキストの両方から学習できるマルチモーダルモデルです。主な用途には、画像についてのチャット、指示による画像認識、視覚的質問応答、文書理解、画像キャプションなどがあります。VLMは、画像内の空間的属性をキャプチャし、特定の対象を検出またはセグメント化する際に境界ボックスやセグメンテーションマスクを出力することができます。Hugging Face Hubには、オープンソースのVLMが多数あり、ベースモデルやチャットに特化したモデルが含まれています。Vision ArenaとOpen VLM Leaderboardは、VLMの効果を評価するためのリーダーボードです。これらは画像とプロンプトに基づいたユーザーの評価によってランキングが決まります。VLMを評価するためのベンチマークとしては、MMMUやMMBenchなどがあり、それぞれが異なる技能を測定する質問を含んでいます。VLMのプレトレーニング方法としては、画像エンコーダ、マルチモーダルプロジェクター、テキストデコーダーを組み合わせたものが一般的です。モデルのファインチューニングは、例えば「TRLのSFTTrainer」を使用して、具体的なユースケースに合わせて行うことができます。
———————————
【LLMの評価】 2024-04-12 From Words to Numbers: Your Large Language Model Is Secretly A Capable Regressor When Given In-Context Examples https://arxiv.org/abs/2404.07544
大規模な事前学習済み言語モデル(例:Llama2, GPT-4, Claude 3など)が、追加のトレーニングや勾配の更新なしで、線形および非線形の回帰タスクをどれだけうまく実行できるかを分析しました。これらの言語モデルは、伝統的な教師あり学習手法(例:ランダムフォレスト、バギング、勾配ブースティングなど)と同等またはそれ以上のパフォーマンスで回帰タスクを行うことができます。特に、Claude3はフリードマン#2回帰データセットなどの困難なタスクで、AdaBoost、SVM、ランダムフォレスト、KNN、勾配ブースティングなどの多くの教師あり方法を上回るパフォーマンスを示しました。さらに、コンテキスト内の例示の数が増えると、言語モデルのパフォーマンスがどのようにスケールするかを調査しました。
オンライン学習からの「regret」という概念を借用し、大規模言語モデルがサブリニアな後悔を達成できることを実証的に示しました。
オンライン学習は、データを逐次的に処理してモデルを更新していく学習方法であり、新しい情報が入手されるたびに学習を行います。この学習方法では、過去の決定が最適でなかった場合の損失を「regret」として表します。
具体的には、「regret」とは、モデルが選択したアクションの結果と、最適なアクションを選んでいた場合の結果との差の累積を意味します。つまり、どれだけ最適な決定から逸脱してしまったか、その累積損失を指します。後悔が小さいほど、モデルは実際のところ効果的に学習していると評価されます。
オンライン学習における「サブリニアなregret」とは、時間とともにregretが線形よりも遅いペースで増加することを意味します。これは、モデルが学習を進めるにつれて、最適な決定に近づいていくことを示しています。サブリニアなregretを達成できるモデルは、時間が経つにつれてより効率的に学習し、良い決定を下す能力が向上していると考えられます。
———————————
【AIと人間の未来】 2024-04-13 漫画制作での生成AI活用の現状とは? 漫画家「うめ」さん作成の100ページ超の資料が無料公開中 https://www.itmedia.co.jp/aiplus/articles/2404/12/news169.html
経済産業研究所は「漫画制作における生成AI活用の現状:2024春」という資料を無料公開しました。この資料は漫画家「うめ」の小沢高広さんが作成したものです。資料では、生成AIが漫画制作で役立つ点と限界が挙げられています。例えば、AIは創造的なアイデア出しやパターン生成には適していますが、物語性が強い長編漫画を描く能力にはまだ到達していないとされています。小沢さんは、生成AIが現在の漫画家の仕事を奪うことはないと見ていますが、将来的にどうなるかは不明であるとも述べています。また、AIの利用が著作権侵害になるかどうかについても触れられており、法的な許可は得られているものの、倫理的な問題や不同意の意思表示が簡便に行える技術の開発が望まれています。
2024/4/12のピックアップ
【つくってみた】 2024-04-11 “インターホンをスマホに通知する方法をものすごく丁寧に説明する【Raspberry Pi Zero WH 】 – Qiita” https://qiita.com/gakisan8273/items/47fc00da4a3b5588f25e
——————————
【ニュース】 2024-04-12 Huawei building vast chip equipment R&D center in Shanghai https://asia.nikkei.com/Business/Tech/Semiconductors/Huawei-building-vast-chip-equipment-R-D-center-in-Shanghai
Huaweiは、米国の規制に対抗するため、上海に大規模な半導体機器研究開発センターを建設しています。新しいセンターの主なミッションは、リソグラフィー機械の構築です。これは最先端のチップを生産するための重要な機器です。Huaweiは、地元の半導体メーカーよりも最大2倍の給与パッケージを提供して、多くのエンジニアを採用しています。ワシントンの厳しい輸出規制の影響で、中国のチップ企業に優秀な人材が流入していますが、Huaweiの労働文化は厳しいとされています。この新しい研究開発センターは上海市青浦区に位置し、広大なキャンパスには、Huaweiのチップ設計部門であるHiSilicon技術部や他の研究施設も同じ敷地内にあります。
——————————
【ニュース】 2024-04-12 Sanctuary AI Expands General Purpose Robot Footprint in Automotive Manufacturing Industry https://sanctuary.ai/resources/news/sanctuary-ai-expands-general-purpose-robot-footprint-in-automotive-manufacturing-industry/
Sanctuary AIは、自動車部品メーカーMagnaとの戦略的パートナーシップと投資を通じて、一般用途のロボットの開発、導入、拡大をサポートしています。この提携により、Magnaの製造業務に一般用途のAIロボットが導入され、コスト削減とスケーラビリティの向上が目指されます。Sanctuary AIは、人間のようなAIを持つロボットを世界で初めて作ることを目標に掲げています。この目標を達成するためには、世界的なパートナーが必要です。Sanctuary AIは、独自の技術、特に人間の手に似た高度な機能を持つロボット「Phoenix™」やAI制御システム「Carbon™」を開発しています。これらは、製造業だけでなく他の多くの業界にも変革をもたらす可能性があります。Magnaは、2021年からSanctuary AIに投資しており、特定のタスクに一般用途AIロボットを統合することで、高品質な製品の提供能力を向上させることを目指しています。
——————————
【LLMの評価】 2024-04-12 OpenEQA: From word models to world models https://ai.meta.com/blog/openeqa-embodied-question-answering-robotics-ar-glasses/
Metaが、OpenEQA(オープン・ボキャブラリー体感型質問応答)ベンチマークを発表しました。これは、AIエージェントが物理的な空間をどのように理解しているかを評価するためのものです。このベンチマークは、視覚と言語のモデル(VLMs)を評価し、それらが人間のレベルと比べて大きなギャップがあることを発見しました。特に空間理解を必要とする質問において、今日のVLMsはほとんど助けにならないことがわかりました。OpenEQAの目的は、AIエージェントが見た世界について理解し、コミュニケーションを取る手助けをするためのオープンリサーチを促進することです。OpenEQAは、1,600以上の非テンプレート化された質問と回答のペアを含んでおり、これらは実世界の使用例を反映しています。また、物理的な環境のビデオやスキャンへのリンクも提供されています。現在のところ、最も性能の良いモデルであるGPT-4Vでも、人間のパフォーマンス(85.9%)と比較して大きな性能差(48.5%)があります。特に、空間に関する質問に対しては、視覚情報を活用しているモデルであっても、テキストのみのモデルとほとんど変わらない結果となっています。
——————————
【つくってみた】 2024-04-12 “【業務効率革命】GAS Interpreter の衝撃|ChatGPT研究所” https://chatgpt-lab.com/n/n4ac1789218c4
——————————
【マネジメント】 2024-04-12 フルリモートになって生まれた社員教育問題 wikiで解消できないことは「Backlog化」と「遠隔徒弟制度」で解決 https://logmi.jp/tech/articles/330390
——————————
【新しいAIモデル】 2024-04-12 “New AI method captures uncertainty in medical images” https://news.mit.edu/2024/new-ai-method-captures-uncertainty-medical-images-0411
MITが開発したTycheという新しいAIモデルは、医療画像の不確実性を捉えるために開発されました。これにより、クリニシャンや研究者が重要な情報を把握する手助けができます。Tycheシステムは、医療画像の異なる領域を強調する複数の妥当なセグメンテーションを提供します。利用者は、目的に最も適したものを選択できます。このシステムは、新しいセグメンテーションタスクに対して再トレーニングする必要がないため、クリニシャンや生物医学研究者にとって使いやすいかもしれません。Tycheは、例えば肺のX線での病変の識別や脳のMRIでの異常の特定など、さまざまなタスクに「箱から出してすぐに使える」形で適用可能です。モデルは「コンテキストセット」と呼ばれる少数の例示画像を基にして新しいタスクを解決し、医療画像に対する複数の予測を出力します。これにより、候補となるセグメンテーションが少し異なることを保証しながら、タスクを解決します。
——————————
【ニュース】 2024-04-12 “iPhoneやApple Watchを襲う「MFA爆弾」相次ぐ パスワードリセット通知を大量送付、乗っ取りを狙う” https://www.itmedia.co.jp/news/articles/2404/12/news043.html
iPhoneやApple Watchを対象とした「MFA爆弾」または「MFA疲労」と呼ばれるフィッシング詐欺攻撃が増加しています。この攻撃では、大量のパスワードリセット通知を送り付け、Appleのサポートを装った不審な通話を行い、ユーザーにワンタイムパスワードを教えるよう求めます。攻撃者はこのワンタイムパスワードを利用して、ユーザーのApple IDをリセットし、アカウントを乗っ取り、端末を遠隔操作で消去する可能性があります。「Krebs on Security」によると、このタイプの攻撃は多要素認証(MFA)システムの弱点を突いています。Appleは過去にAirDropのリクエスト件数に関するレート制限を厳格化することで類似の問題に対処した経緯がありますが、攻撃者はレート制限を回避する新たな手口を見つけた可能性が指摘されています。
——————————
【新しいLLM】 2024-04-12 米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表 GPT-4V越えの性能 https://www.itmedia.co.jp/aiplus/articles/2404/12/news040.html
Appleが「Ferret-UI」という新しいAI言語モデルを発表しました。このモデルは、iPhoneやAndroidなどのモバイルUI画面をより深く理解し、インタラクションできるように設計されています。Ferret-UIは、スクリーンショットを詳細に説明するタスク、質問に対する応答、およびスクリーンの機能を推測する能力を持っています。このモデルは「any-resolution」技術を使用しており、画面を複数のサブ画像に分割し、それぞれを別々にエンコードすることで、細かい視覚情報を失うことなく、豊かな視覚特徴を活用できます。基本的なUIタスク(アイコン認識やテキスト検出など)と高度なUIタスク(詳細な説明、対話、機能推論など)を通じて、モデルはUI要素の意味と空間的な位置関係を理解することができます。このモデルにより、モバイルデバイスのユーザーインターフェースをより効果的に解析し、操作するAIの開発が進むことが期待されています。
——————————
【新サービス】2024-04-12 “「Microsoft Teams」の会議内容を自動で「OneNote」にまとめることが可能に/4月からCurrent Channel (Preview)に展開中で、6月には一般提供へ” https://forest.watch.impress.co.jp/docs/news/1583858.html
Microsoftは、「Microsoft Teams」の会議内容を自動で「OneNote」にまとめる新機能「会議の詳細」を発表しました。この機能は、会議の日付、説明、出席者の情報に加えて、会議メモ、録音、文字起こし、会議資料をOneNote上に集約します。AIによって生成された会議メモやタスク提案も含まれており、会議の全内容を一箇所で確認できるようになります。さらに、Loopコンポーネントの会議メモを使用して、出席者間での認識を統一することが容易になります。現在はWindows版の「OneNote」で利用可能で、将来的には他のプラットフォームへの拡大も予定されています。この機能を使用するには、Microsoft Teams Premiumライセンスが必要です。
2024/4/11のピックアップ
【音楽生成AI】 2024-04-11 無料で1カ月最大1200曲までAIによる自動作曲が可能な「Udio」パブリックベータ版が公開されたので使ってみた https://gigazine.net/news/20240411-udio/
———————————
【ニュース】 2024-04-11 ACM A.M. Turing Award Honors Avi Wigderson for Foundational Contributions to the Theory of Computation https://awards.acm.org/about/2023-turing
アヴィ・ウィグダーソンは2023年にACM A.M. Turing Awardを受賞しました。この賞は計算理論における基礎的な貢献を称えるもので、「計算のノーベル賞」とも呼ばれています。賞金は100万ドルで、Google, Inc.から支援されています。彼の研究は、計算におけるランダムネスの役割を再評価するものであり、理論計算機科学の分野で長年にわたる知的リーダーシップを持っています。ウィグダーソンはプリンストンの高等研究所に所属し、ハーバート・H・マース教授として活動しています。彼の研究分野は広範にわたり、計算複雑性理論、アルゴリズムと最適化、ランダムネスと暗号理論、並列および分散計算、組合せ論、グラフ理論などが含まれます。ランダムネスは、予測不可能な選択を含めることでアルゴリズムの効率を向上させる手法です。確率的アルゴリズムは、従来の決定論的アルゴリズムでは解決できない問題を効率良く解くことができることが知られています。ウィグダーソンは特に、ランダムネスを用いないで計算を効率良く行う方法(derandomization)に関する重要な研究を行い、この分野における基本的な理解を進化させました。彼はまた、数学や理論計算機科学で広く応用される拡張グラフの効率的な組み合わせ構築の研究を行っています。
———————————
【通信技術】 2024-04-11 Introducing: Astranis Omega https://www.astranis.com/news/introducing-astranis-omega
Astranis社は、新しい通信衛星「Astranis Omega」を発表しました。これは現在の地球静止軌道衛星の中で最も効率的なパフォーマンスを持つとされています。Astranis Omegaは、1つの衛星につき50+ Gbpsの専用無競合スループットを提供します。小型衛星の形状を保ちつつ、2025年に最初の飛行体を製造し、2026年に打ち上げ予定です。Astranisは、最初の衛星を2023年に打ち上げ、以降も速いペースで衛星を更新し続けています。Omega衛星は社内で約70%が製造され、300人以上の優秀なエンジニアを雇用しています。
———————————
【ニュース】 2024-04-11 Our next-generation Meta Training and Inference Accelerator https://ai.meta.com/blog/next-generation-meta-training-inference-accelerator-AI-MTIA/
Metaは「Meta Training and Inference Accelerator (MTIA)」の次世代モデルを発表しました。これは、AIに特化したカスタムチップです。この新しいチップは、パフォーマンスがMTIA v1に比べて大幅に向上しており、ランキングと推薦モデルを効率よく動かすことができます。MTIAは、Metaの製品とサービス全体で新しい体験を提供するためのAIインフラストラクチャ投資の一環です。このチップは、処理要素(PE)の8×8グリッドを持ち、密集計算性能が3.5倍、スパース計算性能が7倍に向上しています。チップのアーキテクチャは、メモリ帯域幅と容量を重視して設計されており、オンチップのSRAM容量と帯域幅がそれぞれ2倍、LPDDR5の容量も2倍に増えています。ソフトウェアスタックも更新され、PyTorch 2.0と完全に統合されています。また、トリトン言語を使用してMTIA専用の高効率コードを生成するTriton-MTIAコンパイラバックエンドが導入されています。この次世代チップは、初代MTIAに比べて性能が3倍向上し、モデル処理スループットが6倍、性能効率が1.5倍向上しています。MTIAはデータセンターで稼働を開始し、MetaのAIワークロードに対する効率的なサポートを提供しています。
———————————
【その他】 2024-04-11 耳をふさがなくても「普通に聴ける」 動向が変わりつつある“ながら聴き”の世界 https://www.itmedia.co.jp/news/articles/2404/11/news098.html
———————————
【新技術】 2024-04-11 “Raspberry PiがAIカメラモジュール発売へ、ソニーのAI処理機能搭載センサー採用” https://eetimes.itmedia.co.jp/ee/articles/2404/11/news081.html 英国Raspberry Piは、ソニーのAI機能を搭載したインテリジェントビジョンセンサー「IMX500」を使ったAIカメラモジュールを2024年夏に発売予定です。IMX500は、画像処理とAI処理を行う積層構造を採用しており、外部の高性能プロセッサやメモリを必要とせずに、エッジAIシステムを実現できます。Raspberry Piはこのカメラモジュールに、画像認識モデルのMobileNetを搭載しており、Tensorflowのカスタムモデルもインポート可能です。デモでは、Raspberry Pi Zero 2 Wを使用して、物体認識や身体セグメンテーションのデモを実施しました。価格や詳細な発表はまだされていませんが、外箱の準備が進んでおり、2024年夏の発売が予定されています。ソニーとRaspberry Piは、イメージセンサーや半導体製品の製造で長期的な戦略的パートナーシップを築いています。
———————————
【新サービス】2024-04-11 AI editing tools are coming to all Google Photos users https://blog.google/products/photos/google-photos-editing-features-availability/
Google Photosは、AIを活用した編集機能「Magic Editor」、「Photo Unblur」、「Magic Eraser」などを、すべてのユーザーに提供する予定です。これらの機能はサブスクリプション不要で利用可能になります。
- 「Photo Unblur」はぼやけた写真を鮮明にする機能で、お気に入りの瞬間をクリアに再現するのに役立ちます。
- 「Magic Eraser」は写真の背景から不要な物体を消去する機能で、数回のタップで写真から邪魔者などを除去できます。
- 「Portrait Light」はポートレートの光の位置と明るさを調整できる機能です。
- 「Magic Editor」は、被写体の位置を変えたり、空の色を灰色から青に変えたりするなど、複雑な写真編集を簡単に行うことができるツールで、ジェネラティブAIを使用しています。
これらのツールは5月15日から段階的に提供が開始され、対応するすべてのデバイスで利用できるようになります。
———————————
【ニュース】 2024-04-11 Investing $1 billion in digital connectivity to Japan https://cloud.google.com/blog/products/infrastructure/pacific-connect-initiative-to-expand/?hl=en Googleは日本のデジタル接続性を向上させるために、10億ドルを投資することを発表しました。これには、太平洋接続イニシアチブの拡張と、新たな海底ケーブル「Proa」と「Taihei」の設置が含まれます。「Proa」海底ケーブルは、NECが製造し、日本、北マリアナ諸島(CNMI)、グアムを接続します。このケーブルはCNMIの最初の国際海底ケーブルとなります。「Taihei」は日本とハワイを接続する別のNEC製海底ケーブルで、平和と太平洋を意味します。これらのケーブルは、アメリカ本土と日本(茨城県の志摩および高萩市)の間に新しいルートを設け、デジタル接続の信頼性と回復力を向上させることを目的としています。さらに、ハワイ、CNMI、グアムを結ぶインターリンクケーブルの建設も資金提供され、太平洋のルートをつなぎ、信頼性の向上とレイテンシの削減を図ります。このプロジェクトには、KDDI、ARTERIA、Citadel Pacific、CNMI政府など、複数のパートナーが協力しています。Googleのネットワークインフラストラクチャへの投資は、過去に日本のGDPを4億ドル以上増加させたと推定されており、デジタルサービスへのアクセス増加により、スキル開発やキャリアの機会が拡大しています。
———————————
【ニュース】 2024-04-11 Google Cloud の AI ハイパーコンピューター アーキテクチャの新機能 https://cloud.google.com/blog/ja/products/compute/whats-new-with-google-clouds-ai-hypercomputer-architecture?hl=ja
Google Cloud はAIハイパーコンピューターアーキテクチャにおいて、テキストや画像など多様なアプリケーション向けに新機能を多数追加しました。ハードウェア性能が向上しており、Cloud TPU v5p の一般提供や、A3 Mega VMにNVIDIA H100 Tensor Core GPUが搭載されています。AIワークロード向けにストレージソリューションが最適化されており、新しいブロックストレージサービス「Hyperdisk ML」やCloud Storage FUSEのキャッシュ機能が強化されています。ソフトウェアが進化しており、大規模言語モデル向けに設計された推論エンジン「JetStream」や、PyTorch/XLAの最新リリースが導入されました。これらの更新により、AIの開発と運用の効率とパフォーマンスが大幅に向上しています。
———————————
【新しいLLM】 2024-04-11 “Microsoftも出資するAI企業Mistral、オープンソースLLM「Mixtral 8x22B」リリース” https://www.itmedia.co.jp/news/articles/2404/11/news102.html
———————————
【ニュース】 2024-04-11 FACT SHEET: Japan Official Visit with State Dinner to the United States https://www.whitehouse.gov/briefing-room/statements-releases/2024/04/10/fact-sheet-japan-official-visit-with-state-dinner-to-the-united-states/
- 日米のAIに関する共同パートナーシップ:
- 広島で開催されたG7首脳サミットを機に、日本とアメリカは量子コンピューティングと半導体工学分野での大学と企業の戦略的パートナーシップを基に、新たな共同AI研究パートナーシップを発表しました。
- このパートナーシップには、NVIDIA、Arm、Amazon、Microsoftなどの大手IT企業と、日本の企業から成るコンソーシアムが参加し、合計で1億1000万ドルの資金が投じられる予定です。
- 大学間の提携とAI研究の強化:
- ワシントン大学と筑波大学、カーネギーメロン大学と慶応技術大学が提携し、AI研究開発を行うことで、日米の技術リーダーシップを強化します。
- また、日本の産業技術総合研究所(AIST)とNVIDIAはAIと量子コンピューティング技術における協力関係を築き、コンピューティングと開発の分野での共同研究の可能性を探ります。
- ハイパフォーマンスコンピューティングとAIのプロジェクト:
- アメリカのエネルギー省と日本の文部科学省はハイパフォーマンスコンピューティングとAIに関する新しいプロジェクト協定を結びました。
- この協定は、アルゴンヌ国立研究所と理化学研究所が科学のためのAIを進めるための新たな覚書も含むことで、より深い協力を実現します。
- 日米企業間の技術協力:
- NVIDIA製のGPUが日本のIT企業に提供され、これを用いてさくらインターネットやソフトバンクなどがAI基盤モデル開発を推進します。
- GoogleやMicrosoftからもコンピューティングリソースが提供され、日本のAI基盤モデル開発企業の支援が進められます。
———————————
【人間とAIの未来】 2024-04-11 読売新聞社・NTT「生成AIのあり方に関する共同提言」全文 https://www.yomiuri.co.jp/politics/20240408-OYT1T50136/
生成AIは人間の自然言語を使って操作でき、その結果も人間が理解しやすい形で提示されるため、広範囲にわたる利用が可能です。生成AIの利点には、使い勝手の良いインターフェース、直感的な結果の提示、労働生産性の向上などがありますが、インターネットを通じて全世界で利用可能です。課題としては、生成AIの情報の正確さが保証できない点、ハルシネーションやバイアスの発生、法的な問題(著作権侵害やデータのスクレーピングなど)、情報の信頼性を担保する既存のインセンティブの崩壊が挙げられます。技術と法律の面から生成AIを規律することが必要で、特に「AI×AEの暴走」を避けるための法規制や教育への適用制限が求められます。生成AIの適用には著作権法の適正化や、情報の健全性を保つための新しい技術(オリジネーター・プロファイル)の開発が必要です。最終的には、生成AIが社会における適正な道具として機能するように、技術革新を受け入れつつ、法的な規制や制度の改革が進められるべきです。
2024/4/10のピックアップ
【AIの活用】 2024-04-09 noteと弁護士ドットコム、誹謗中傷などの問題に関する共同プロジェクトを発足。AIアラートや相談チャットボットの設置などでクリエイターをサポート https://note.jp/n/nfa9259e4d76d
note株式会社と弁護士ドットコム株式会社が、インターネット上の誹謗中傷や炎上問題に対処するために協力し、共同プロジェクトを立ち上げました。このパートナーシップでは、AI技術を用いてリスクのある投稿に対して事前に警告を出す機能や、問題に巻き込まれた際に弁護士に相談できるチャットボットを設置する予定です。プロジェクトの目的は、誹謗中傷や炎上を未然に防ぎ、起きてしまった場合のサポートを提供し、インターネットの利用者を啓発することです。2023年には、「みんなの法律相談」を通じて約1,300件の誹謗中傷に関連する相談がありました。政府による「プロバイダ責任制限法」の改正もあり、誹謗中傷の投稿削除がしやすくなることが期待されています。具体的な施策としては、AIによるリスクチェック機能の検証、AI法律相談チャットボットの設置、無料法律相談サービスの提供が予定されています。加えて、クリエイターが自身を守るための知識やスキルを学ぶ勉強会の開催や、権利侵害や名誉毀損に迅速に対応するための環境整備も検討されています。
———————————
【マネジメント】 2024-04-09 “私が 1on1 でしていること – Mobile Factory Tech Blog” https://tech.mobilefactory.jp/entry/2024/04/09/160000
駅メモエンジニアの方がメンターとして、1on1(メンターとメンティーの個別面談)をどのように行っているかを紹介しています。1on1の主な目的は、メンティーの成長を支援することです。これには関係性の強化や学習の促進などが含まれます。1on1はメンティーの成長のために設けられた時間であり、メンティーが中心となって進めるべきですが、メンターにとっても重要な時間であり、彼らの成長にもつながります。使われているフォーマットには、体調の確認や半期目標の進捗確認、ネクストアクションの検討などが含まれており、これらは定期的に見直されます。実際の1on1の中で扱われる話題には、仕事の具体的な課題やチーム内のコミュニケーションの改善などがあります。
———————————
【科学技術】 2024-04-10 Is artificial intelligence the great filter that makes advanced technical civilisations rare in the universe?https://www.sciencedirect.com/science/article/pii/S0094576524001772
人工知能(AI)は、技術的に進んだ文明が宇宙で稀である原因として考えられる「グレートフィルター」の一つかもしれません。AIの急速な発展は、技術文明の寿命を200年未満に短縮する可能性があり、これはSETI(Search for Extraterrestrial Intelligence: 地球外知的生命体探査)による沈黙の観測結果と一致します。AIの未来には大きなリスクが伴い、特に人工超知能(ASI)が制御不能になるリスクがあります。これは、文明の終焉を招く可能性があります。生物文明とAIの共存は困難であり、AIの規制と管理は極めて重要です。これに失敗すると、宇宙の知的生命の可能性が失われるかもしれません。AI技術の規制と多惑星社会の発展は、このような存亡の危機から文明を守るために急務です。
———————————
【科学技術】 2024-04-10 音楽を体のどの部位で感じているのか? 東大と広島大が500人以上で検証 https://www.itmedia.co.jp/news/articles/2404/10/news040.html
———————————
【新技術】 2024-04-10 データベース指向の新OS「DBOS」–クラウド時代に対応する新たなアプローチ https://japan.zdnet.com/article/35217495/
クラウドサービスが拡大している今、Linuxのような従来のOSでは対応が難しくなっているため、新しいタイプのOSが求められています。「DBOS」という新しいOSは、データを中心とした設計思想を持ち、大量のデータを扱う現代の要求に対応するよう開発されました。DBOSはデータベースの技術を活用し、データの管理とアクセスを効率化することで、より高速で安全なデータ処理を実現します。アプリケーションの動作状態などは、分散されたデータベースに保存され、これにより、データの整合性とセキュリティが保たれます。このOSは、開発者が利用できるさまざまなレベルで構成されており、アプリケーションの開発やデータの扱いを柔軟に行えます。開発者は特定の開発キット(SDK)を用いて、独自のアプリケーションをこのOS上で開発し、データを効果的に活用することができます。アプリケーションが予期せず停止した場合でも、DBOSは自動的に処理を再開できるため、サービスの中断を最小限に抑えることができます。
———————————
【新サービス】 2024-04-10 Gemma Family Expands with Models Tailored for Developers and Researchers https://developers.googleblog.com/2024/04/gemma-family-expands.html
GoogleのGemmaファミリーが拡大し、「CodeGemma」と「RecurrentGemma」という新しいモデルが導入されました。
- CodeGemmaは、コード補完や生成、命令に従う作業に特化しており、プログラミング作業を効率化するための機能を提供します。これにより、開発者はより迅速に、かつ誤りの少ないコードを書くことができるようになります。
- RecurrentGemmaは、リカレントニューラルネットワークを使用し、メモリ使用量を減少させることで、限られたメモリのデバイス上でも長いサンプルの生成を可能にします。これは、研究者がより大きなバッチサイズで高速に推論を行うために設計されたモデルで、長いシーケンスの生成において効率的です。
これらのモデルはオープンソースであり、JAXやPyTorch、Hugging Face Transformersなど、さまざまなツールやプラットフォームとの互換性を持ちます。これにより、幅広いハードウェア上でのローカル実験やコスト効率の良い展開が可能になります。さらに、Gemma 1.1では、パフォーマンスの向上と開発者からのフィードバックに基づくバグ修正、利用条件の更新が行われました。これらのモデルは、KaggleやHugging Face、Vertex AI Model Gardenなどで利用でき、開発者や研究者はこれらを自分のプロジェクトに組み込んで、新しい可能性を探求することができます。
———————————
【ニュース】 2024-04-10 Bayer and Google Cloud to accelerate development of AI-powered healthcare applications for radiologists https://www.bayer.com/media/en-us/bayer-and-google-cloud-to-accelerate-development-of-ai-powered-healthcare-applications-for-radiologists/
バイエルとGoogle Cloudが協力して、放射線科医を支援するAI技術を開発しています。これは放射線科医の作業負荷を軽減し、より効率的に患者さんを診断するのに役立つことを目的としています。バイエルはGoogle Cloudの技術を使用し、放射線学に特化したAI駆動型のアプリケーションを素早く開発し、展開するためのプラットフォームを進化させます。医療画像は非常に大量であり、これらを効率的に分析するためには新しいAIツールの開発が必要です。バイエルのイノベーションプラットフォームは、AIによるデータ分析から、規制や科学論文からの情報抽出、開発と検証のためのAI支援、医療イメージングのコアラボサービス利用まで、アプリケーション開発のための一連のプロセスをサポートします。このプラットフォームはGoogle Cloud上に構築され、データ分析やAIの開発に必要な多くのツールを提供します。データのセキュリティとプライバシーは非常に重要で、Google Cloudの技術はHIPAAやGDPRに準拠したデータの管理を可能にします。これは医療データを扱う上で欠かせない要素です。
———————————
【新サービス】 2024-04-10 Gemini 1.5 Pro Now Available in 180+ Countries; With Native Audio Understanding, System Instructions, JSON Mode and More https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
Gemini 1.5 Proは、Googleの最新のAIモデルで、音声を含むさまざまな種類のデータを理解できる能力を持っています。これにより、開発者はより多様なアプリケーションを開発できるようになります。このモデルは、オーディオファイルやビデオファイルを入力として受け取り、それをテキストデータに変換することで、例えば講義の内容をクイズに変換するなどの処理が可能です。JSONモードを利用すると、モデルの出力をJSONオブジェクトとして受け取ることができ、これによりテキストや画像からの構造化データの抽出が簡単になります。新しいテキスト埋め込みモデルは、文章や単語を数値のベクトルに変換する技術であり、この技術を用いることで、テキストデータの類似性を計算したり、検索性能を向上させることができます。このモデルは、既存の類似モデルと比較して高い性能を達成しています。Google AI Studioを通じて、これらの新しい機能を活用するためのAPIキーを取得し、Gemini API Cookbookでのコード例やクイックスタートガイドを参照しながら開発を始めることができます。
———————————
【新サービス】 2024-04-10 Powering Google Cloud with Gemini https://cloud.google.com/blog/products/ai-machine-learning/gemini-for-google-cloud-is-here?hl=en
Google Cloud Next ’24で、Google CloudにGeminiの導入が発表されました。Geminiは、AIの進化に伴い、開発者やビジネスユーザーがより効果的に作業し、コーディング、データの洞察、セキュリティ対策をサポートするためのAIアシスタント群です。
- Gemini Code Assistは、VS CodeやJetBrainsなどの人気コードエディタで、高速かつ高品質のアプリケーション開発をサポートするAI駆動のコーディングアシスタンスを提供します。
- Gemini Cloud Assistは、Google Cloudリソースに関するコンテキストとパーソナライズされたAIガイダンスを提供し、アプリケーションの設計、デプロイ、運用、トラブルシューティング、パフォーマンスとコストの最適化を支援します。
- セキュリティ分野では、GeminiをChronicleに統合することで、セキュリティチームの効率を向上させ、脅威の検出、調査、対応を容易にします。
- Gemini in BigQueryは、データのキャンバスを新しく導入し、データエンジニアやデータアナリストがAIの力を利用してより効果的に作業できるようにします。
- Gemini in Lookerは、ビジネスデータとの対話型の分析を可能にし、即時の洞察を提供します。
- Gemini in Databasesは、データベースの開発、管理、最適化をサポートし、開発者がより速く、より効率的に作業できるようにします。
———————————
【新しいAI】 2024-04-10 Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs https://arxiv.org/abs/2404.05719
Appleが開発したFerret-UIは、モバイルアプリの画面を理解し、アイコンやテキストなどの小さな要素に焦点を当てることに特化したAIモデルです。これにより、モバイルアプリのUIを解析する際の精度と効率が向上します。画面の詳細をより良く捉えるために、画面を2つの部分に分割し、それぞれを個別に分析するアプローチを採用しています。これにより、より精密な解析が可能になります。アイコンの識別やテキストの検索など、基本的なUIタスクの理解を深めるために、特定のタスクを実行するための指示に従う形式で、多くのトレーニングデータを集めました。さらに、アプリの機能推論やユーザーとの対話など、より高度なタスクをこなすための推論能力を強化するために、追加のデータセットを用意しました。これらのデータセットでの学習を経て、Ferret-UIはモバイルUIの詳細な理解と指示に基づいたタスクの実行において、非常に高い性能を発揮します。
———————————
【ニュース】 2024-04-10 マイクロソフト、国内の AI 及びクラウド基盤増強に 4,400 億円を投資 リスキリング、研究拠点の新設、サイバーセキュリティ連携で日本経済に貢献 https://news.microsoft.com/ja-jp/2024/04/10/240410-microsoft-to-invest-us2-9-billion-in-ai-and-cloud-infrastructure-in-japan-while-boosting-the-nations-skills-research-and-cybersecurity/
マイクロソフトは、日本のAI技術とクラウドサービスの基盤を強化するために、約4,400億円の大規模な投資を行うと発表しました。この投資は、日本でのデジタル化の進展を加速させることを目的としています。投資の一環として、マイクロソフトは300万人にリスキリングの機会を提供し、技術スキルの向上を支援します。これにより、AIを効果的に活用する人材を育成し、日本社会全体のデジタルスキルの底上げを図ります。また、日本初となる研究拠点の設立により、AI技術の研究開発を促進し、イノベーションの創出を目指します。これは、国際的な研究コミュニティとの連携を深め、日本の科学技術の発展に貢献することを意図しています。サイバーセキュリティ分野では、日本政府との連携を強化し、国内のセキュリティ環境を向上させることで、政府や企業、一般国民をサイバー攻撃から守る取り組みを進めます。これらの取り組みを通じて、マイクロソフトは日本のデジタルトランスフォーメーションを支援し、経済成長と社会の発展に貢献することを目指しています。
2024/4/9のピックアップ
【スキルアップ】 2024-04-09 “ITスキルロードマップ roadmap.sh がすごい。AI and Data Scientist について対応する本をまとめた – Qiita” https://qiita.com/aokikenichi/items/644d03d403e3520e66ab
———————————
【スキルアップ】 2024-04-09 AWS 初学者向けの勉強方法 6 ステップ!2024 年版! https://aws.amazon.com/jp/blogs/news/2024-aws-beginner-learning/
- ステップ1: AWSの基礎とメリットを学ぶ
- AWSがどうして選ばれるのか、ビジネスへの影響など、具体的な事例を学びます。
- 推薦されたリンクを通して、AWSの概要や活用例を把握できます。
- AWS のクラウドが選ばれる 10 の理由
- お客様のクラウド導入事例
- ステップ2: AWSサービスの全体像を掴む
- AWSが提供する多数のサービスについての全体的な理解を深めます。
- さまざまなトレーニングやオンラインカンファレンスが推奨されています。
- AWS Cloud Practitioner Essentials 日本語実写版
- Cloud for Beginners 日本語実写版
- AWSome Day Online Conference
- ステップ3: 各サービスの詳細を学ぶ
- 特定のAWSサービスについて詳しく学び、疑問を解消します。
- サービス別の資料やドキュメント、FAQ、コミュニティQ&Aを利用します。
- AWS サービス別資料
- AWS ドキュメント
- よくある質問
- AWS re:Post
- ステップ4: 知識を実践に移す
- 学んだ知識をハンズオンを通じて実践し、理解を深めます。
- ゲーム形式の学習ツールや、実践的なハンズオン資料が用意されています。
- AWS Cloud Quest
- AWS ハンズオン資料
- JP Contents Hub
- ステップ5: 最新情報を得る
- AWSの速いサービス更新に追いつくため、最新の情報を常にチェックします。
- ブログやSNS、特定のウェブサイトを利用して最新情報を得ます。
- Amazon Web Services ブログ
- 週刊 AWS
- AWS の最新情報
- builders.flash
- ステップ6: 更なる知識の深化
- 基礎知識が固まったら、より高度な情報や実践的なハンズオンに挑戦します。
- アーキテクチャやソリューションの例、クラウドコンセプトなどを学びます。
- AWS アーキテクチャセンター
- AWS ソリューションンライブラリ
- クラウドコンピューティングコンセプトのハブ
- ハンズオンチュートリアル
- AWS Workshops
- Modernization Workshops
- AWS Skill Builderとクラスルームトレーニング
- オンデマンドのデジタルトレーニングや、インストラクターによる有償トレーニングを利用して学びます。
- AWS Skill Builder
———————————
【その他】 2024-04-09 “自治体ガバメントクラウド情報サイト | AWS” https://aws.amazon.com/jp/government-education/worldwide/japan/LG-Industry-Site/govcloud-lg/
———————————
【その他】 2024-04-09 “OpenAIのライバル:Cohereが最高にイケている件 – Qiita” https://qiita.com/sergicalsix/items/d5c7a0a420a213309bfc
2024/4/8のピックアップ
【新しいLLM】 2024-04-08 Introducing Command R+: A Scalable LLM Built for Business https://txt.cohere.com/command-r-plus-microsoft-azure/
Command R+は、企業向けに開発された大規模言語モデル(LLM)で、企業の実際のニーズに合わせて設計されています。このモデルは、128kトークンのコンテキストウィンドウを持ち、検索強化生成(RAG)や多言語対応などの先進的な機能を提供します。Microsoft Azureを通じて最初に提供され、その後、他のクラウドプラットフォームでも提供される予定です。英語を含む10の主要言語をサポートし、世界中の企業が異なる言語のデータソースから正確な回答を生成できるようにします。Command R+の利用料金は、input $3/1M tokens、output $15/1M tokensです。
(GPT-4 Turboはinput $10/1M tokens, output$30/1M tokens)
(Mistral-Largeはinput $8/1M tokens, output $24/1M tokens)
———————————
【ニュース】 2024-04-08 Our Approach to Labeling AI-Generated Content and Manipulated Media https://about.fb.com/news/2024/04/metas-approach-to-labeling-ai-generated-content-and-manipulated-media/
AIで生成されたビデオ、オーディオ、画像に「AIで作成されました」というラベルを付ける範囲を広げることにしました。これは、AI画像の業界標準指標の検出またはアップロード者の自己申告に基づきます。AIで生成されたビデオ、画像、オーディオなどのコンテンツが、プラットフォームのコミュニティガイドラインやその他のポリシーに違反していない場合、そのコンテンツは削除されずにプラットフォーム上に残されます。そのようなコンテンツには、「AIで作成されました」などのラベルが付けられ、コンテンツがAIによって生成されたことを示す追加の情報やコンテキストが提供されます。これにより、ユーザーはコンテンツを見たときに、それが人間によるものではなくAIによって生成されたものであることを理解しやすくなります。AI生成コンテンツのラベル付けは2024年5月から開始され、7月以降は、AIで作成または大幅に変更されたビデオが、その他のガイドラインに違反していない限り、自動的に削除されることはなくなります。
———————————
【国内ニュース】 2024-04-08 “「チャージできない」モバイルSuica障害 Apple Pay、Google Pay決済がつながりにくく” https://www.itmedia.co.jp/news/articles/2404/08/news134.html
2024/4/7のピックアップ
【技術解説】 2024-04-06 Unityを通じて3D空間、グラフィックを理解する https://zenn.dev/dsgarage/articles/58054fd508c613
———————————
【新サービス】 zxの紹介 〜 さよならシェルスクリプト そして伝説へ|Offers Tech Blog https://zenn.dev/overflow_offers/articles/20220606-zx-introduction
zxは、JavaScriptを使って、普段コンピューターに命令を出す「シェルスクリプト」を手軽に書けるようにするツールです。通常のシェルコマンドを**$
**記号で囲むだけで使えるようにし、より簡単にプログラミングできます。シェルスクリプト特有の複雑さやわかりにくさを解消し、開発者がより簡単に、そして快適にコードを書けるようになります。JavaScriptの知識があれば、TypeScriptでの開発や、リモートでの実行、Markdownファイル内でのスクリプト実行も可能です。Docker内でも簡単に実行できるため、さまざまな環境での利用が想定されます。ファイル内でコマンドを実行する例や、配列を使った操作、非同期処理の制御が簡単にできる点が魅力です。色付けやファイル検索、システム操作、待機、データフォーマットの変換など、初めから多くの機能が利用できます。
→ 2024-04-06 “Release 8.0.0 · google/zx” https://github.com/google/zx/releases/tag/8.0.0
———————————
【国内ニュース】 2024-04-07 “HOYAがサイバー攻撃で3度目の被害、「犯人」はダークウェブで犯行を公表 | JBpress (ジェイビープレス)” https://jbpress.ismedia.jp/articles/-/80342
———————————
【ニュース】 2024-04-07 “米国連邦政府におけるクラウド戦略 – クラウドセキュリティをどう担保するか|ミック” https://note.com/mickmack/n/n8aac06454ab4
連邦政府のクラウドセキュリティ政策の3本柱
- FedRAMP:クラウドサービスが政府からのセキュリティ承認を受けるための基準です。クラウドサービスに対して適用され、セキュリティ審査を通過する必要があります。政府機関が使用するクラウドサービスのセキュリティ基準を設定し、審査に合格したサービスのみが利用可能となります。このプロセスにより、サービスの安全性が保証されます。
- データセキュリティ標準:政府が取り扱うデータの安全を保つためのルールです。データの機密レベルに応じた対策が施されます。政府が使用するクラウド内のデータは、その重要性や機密性に応じて保護されます。特に、機密ではないが取り扱いに注意が必要な情報(CUI)の共有と保護が重視されています。
- DevSecOps:開発(Dev)、セキュリティ(Sec)、運用(Ops)を一体化させた手法で、セキュリティを初期段階から組み込んでいます。セキュリティ対策を開発初期から組み込むことで、より安全なソフトウェアの提供を目指します。米国空軍などは、この手法を採用し、高いセキュリティ基準を満たしたシステムを構築しています。
———————————
【ニュース】 2024-04-07 China tests US voter fault lines and ramps AI content to boost its geopolitical interests https://blogs.microsoft.com/on-the-issues/2024/04/04/china-ai-influence-elections-mtac-cybersecurity/
中国は偽のソーシャルメディアアカウントを活用して、米国民がどのような問題について意見が分かれているかを調査しています。これは、選挙に影響を与える可能性があるため、特に注目されています。さらに、AIを駆使したコンテンツを通じて、米国内外での分断を促進し、中国の地政学的な利益を推し進める活動を強化しています。北朝鮮は、自国の軍事目的や情報収集のための資金を得るために、暗号通貨の盗難やサプライチェーン攻撃などのサイバー犯罪を行っています。最近では、これらのサイバー作戦の効率性と効果性を高めるためにAI技術の利用を始めたことが報告されています。
2024/4/6のピックアップ
【新しいLLM】 2024-04-05 JetMoE: Reaching LLaMA2 Performance with 0.1M Dollars https://research.myshell.ai/jetmoe
新しいLLM「JetMoE-8B」は訓練コストが非常に低く($0.1M未満)、高額な訓練リソースを持つMeta AIのLLaMA2-7Bモデルよりも優れた性能を示しました。訓練には公開されているデータセットのみを使用し、そのコードはオープンソース化されています。このモデルは、一般的な消費者向けのGPUでもファインチューニングが可能であり、多くの研究所でも利用できます。推論時に活用するパラメータは2.2Bに過ぎず、計算コストを大幅に削減しています。JetMoEの構造は、スパース(疎)活性化アーキテクチャにインスパイアされており、24のブロックから成り立っています。スパース(疎)活性化アーキテクチャとは、モデルの全てのパーツが常に動作するわけではなく、必要に応じて特定の部分だけが活性化(動作)する設計のことです。これにより、計算資源を効率的に使用し、大規模なモデルでも計算コストを抑えることが可能になります。各ブロックは、注意力の混合(MoA)とMLPエキスパートの混合(MoE)の2つのMoEレイヤーを含んでいます。注意力の混合(MoA)とは、異なる専門家(部品)が特定の情報に注意を払う仕組みを意味します。これにより、モデルは重要な情報に焦点を当てて処理することができます。MLPエキスパートの混合(MoE)では、複数の専門家がそれぞれ異なるデータ処理を行います。MLP(Multi-Layer Perceptron、多層パーセプトロン)は、単純な形式のニューラルネットワークを指し、データの特徴を抽出するのに使われます。
———————————
【AIの活用】 2024-04-05 「おしゃべり源氏物語」、大阪工業大が開発 声とチャットで質問に回答 和歌も読み上げ https://www.itmedia.co.jp/news/articles/2404/05/news157.html
大阪工業大学が、声かけによる質問にAIが音声とチャットで回答する「おしゃべり源氏物語」を開発しました。開発者は、同大学情報科学部 ネットワークデザイン学科の矢野浩二朗教授で、利用された技術には、AI音声認識のAmiVoiceやOpenAIのAPIなど6種類があります。これらは音声からテキストへの変換や、文章生成に活用されています。和歌の発音データを追加し、和歌独特のリズムでの読み上げを実現しています。また、OpenAIが古典に弱いため、和歌の現代語訳をデータベース化する工夫もされています。精度の高い回答生成のため、恵泉女学園大学の稲本万里子教授が代表の「源氏絵データベース研究会」と協力し、関連データベースを構築しました。約3000人が体験した実証実験では、音声入力の改善が満足度向上に最も重要であることや、古語のAI学習に関する課題が明らかになりました。今後、「Open 光源氏 AI」として、パブリックなデータを用いたバージョンを他施設でも公開する予定です。
———————————
【AIツール】 2024-04-05 “AI検索「Perplexity」がかなり便利だったので紹介します (1/5)” https://ascii.jp/elem/000/004/192/4192351/
2024/4/5のピックアップ
【スキルアップ】 2024-04-04 【中級者】書籍「ITプロジェクトの英語」より「知っておくべき英語での言い回し10選」 https://tech.naturalmindo.com/book_it_project_english/
———————————
【その他】 2024-04-05 “【特集】 IT企業のリモートワークは今も続いているのか?完全出社必須なら62%の従業員が離職を検討” https://pc.watch.impress.co.jp/docs/topic/feature/1581954.html
———————————
【新サービス】 2024-04-05 AWS Deadline Cloud のご紹介: クラウドベースのレンダーファームを数分で設定する https://aws.amazon.com/jp/blogs/news/introducing-aws-deadline-cloud-set-up-a-cloud-based-render-farm-in-minutes/
AWS Deadline Cloudは、数分で設定可能なクラウドベースのレンダーファームサービスです。レンダーファームとは、膨大な計算処理を必要とするレンダリングを複数のコンピューターで分担することです。高解像度の映像や3Dグラフィックを生成する建築、エンジニアリング、建設、メディア&エンターテイメント業界が対象です。従来のレンダーファームは、構築と導入に時間がかかり、大規模な準備が必要でした。AWS Deadline Cloudでは、レンダーファームの簡単な設定と管理、進行中のレンダー作業のプレビュー、レンダーログの分析がウェブポータルで可能です。Maya、Nuke、HoudiniなどのDCCツールと統合し、ライセンスを利用できます。北米(オハイオ、バージニア北部、オレゴン)やアジアパシフィック(シンガポール、シドニー、東京)、ヨーロッパ(フランクフルト、アイルランド)で利用できます。
———————————
【スキルアップ】 2024-04-05 “AWS再入門2024 の記事一覧 | DevelopersIO” https://dev.classmethod.jp/referencecat/aws-re-introduction-2024/
———————————
【技術解説】 2024-04-04 “1bit LLM の時代は来るのか,来ないのか,どっちなんだい?|情報処理学会・学会誌「情報処理」” https://note.com/ipsj/n/ncbe5746f71fb
Microsoftが発表した1bit LLM「BitNet」は3つの値(-1, 0, 1)のみを使用してパラメーターを表現することで、大規模言語モデルの計算コストを削減しようとする研究です。モデルの特定の層を量子化することで、計算を加算のみに限定し、効率的な学習が可能になるという方法が提案されています。量子化モデルが、従来モデルよりも優れた精度を示す場合があるという、予想外の現象が報告されています。提案されたモデルは、計算に必要な電力を大幅に削減することができるとされています。ただし、この計算にはいくつかの前提があり、実際の効率向上はより控えめな可能性があります。この研究は、特に推論時に既存のプロセッサ上での高速化をもたらす可能性がありますが、学習プロセス自体はより複雑になるため、必ずしも速度向上が見込めるわけではありません。
———————————
【LLM新技術】2024-04-05 Generate then Retrieve: Conversational Response Retrieval Using LLMs as Answer and Query Generators https://arxiv.org/abs/2403.19302 会話型情報検索(CIS)は、ユーザーが会話を通じて情報を求める際に、そのニーズを正確に把握し関連する情報を提供するシステムの開発を目指しています。一般的には、ユーザーの質問を1つのクエリに書き換えて情報検索を行いますが、この方法では情報ニーズを完全に捉えきれない場合があります。大規模言語モデルを利用して、ユーザーの情報ニーズに基づき複数のクエリを生成する新しい方法を3つ提案します。これにより、より関連性の高い情報を検索することが可能になります。この方法を様々なLLMsを用いて評価し、特にGPT-4やLlama-2 chatを活用した実験を行いました。TREC iKATに基づく新しい評価基準を導入し、gpt 3.5を使用した判定方法を提案しました。提案したモデルはTREC iKATデータセットにおいて有効であることが示され、情報検索の精度を向上させることができました。
———————————
【ニュース】2024-04-05 OpenAIが「Sora」の学習にYouTube動画を使ったとすれば違反──YouTubeのモーハンCEO https://www.itmedia.co.jp/news/articles/2404/05/news098.html
2024/4/4のピックアップ
【AIの活用】 2024-04-04 ‘Lavender’: The AI machine directing Israel’s bombing spree in Gaza https://www.972mag.com/lavender-ai-israeli-army-gaza/
イスラエル軍は、「Lavender」という人工知能(AI)システムを利用して、ガザ地区の数万人の住民を暗殺対象として特定しています。このシステムは人間の介入が限られており、被害者に対する許容度が高いポリシーを持っています。「Lavender」は、ハマスやパレスチナ・イスラミック・ジハード(PIJ)の軍事部門に属すると疑われる人々を、低階級のものも含めて、爆撃の潜在的な対象としてマークすることを目的としています。戦争の初期にはこのシステムが中心的な役割を果たしました。約37,000人のパレスチナ人が戦闘員として疑われ、彼らの家が空爆の可能性のある対象としてマークされました。システムによる選択の理由や、それに基づく生データのチェックなしに、「Lavender」の殺害リストが広範囲に承認されました。このシステムは、約10%のケースで誤って人を特定し、そのうちのいくつかは戦闘員グループとの関連が薄かったり、全く関連がない人々でした。イスラエル軍は、標的となった個人が家族と一緒に自宅にいる時に、特に夜間に家族全員がいる場合に限らず、システム的に攻撃を加えました。このAIの決定によって、戦闘に関与していない多くの女性や子どもを含む数千人のパレスチナ人が、戦争の最初の数週間にイスラエルの空爆で亡くなりました。
———————————
【新サービス】 2024-04-04 Stable Audio 2.0 のご紹介 https://ja.stability.ai/blog/stable-audio-20
StabilityAIのStable Audio 2.0は、AIを使って44.1KHzのステレオで最大3分の高品質な音楽トラックを生成します。自然言語を用いて音楽のサンプルをアップロードし、それを変換することができる機能を持っています。テキストからオーディオへの変換だけでなく、オーディオからオーディオへの変換も可能で、サウンドエフェクトの生成やスタイル転送などの新機能が追加されています。Stable Audio 1.0に基づいて開発され、TIME誌から高い評価を受けています。このモデルはStable Audioのウェブサイトで無料で利用でき、今後APIを通じても利用できるようになります。オートエンコーダと拡散トランスフォーマー(DiT)を使用して大規模な音楽構造を認識し、再現する能力を持っています。AudioSparxの800,000以上のオーディオファイルとテキストメタデータを使用してトレーニングされ、Audible Magicと提携して著作権を保護するための技術を使用しています。
———————————
【新サービス】 2024-04-04 ChatGPT、有料版がDALL-E作成画像の“編集”に対応 https://www.watch.impress.co.jp/docs/news/1581712.html
OpenAIはChatGPTの有料版において、DALL-Eでは生成された画像の中から特定の領域を選択し、その部分を新しい指示に基づいて編集できるようになります。この機能はWebとAndroid/iOSアプリで利用でき、ChatGPT Plusのような有料プランを購入しているユーザーが使用できます。
———————————
【スキルアップ】 2024-04-04 プログラミング言語をすぐに試せる「プレイグラウンド」まとめ。2024年版 https://www.publickey1.jp/blog/24/2024.html
新しいプログラミング言語や技術を試したいとき、環境構築は大変ですが、Webブラウザ上で即座に試せる「プレイグラウンド」が役立ちます。多くのプログラミング言語に対応したプレイグラウンドが、公式サイトや他のウェブサイト上に存在します。MDN、CodePen、jsFiddleなどのサイトはHTML/CSS/JavaScript、StackBlitzはNode.js、CodeSandboxは複数の言語、TypeScriptやJava、Go、Rustなどの言語専用プレイグラウンドもあります。
———————————
【AIの活用】 2024-04-04 不登校になりそうな児童生徒をAIが予測、戸田市の教育データ活用実証が示したこと https://xtech.nikkei.com/atcl/nxt/column/18/00138/040101500/
———————————
【その他】 2024-04-04 「PPAP」「決裁にハンコ」をやる人たちは何を考えている? 謎慣習が消えぬ理由を上原哲太郎教授が解説【フォーカス】 https://levtech.jp/media/article/focus/detail_410/
———————————
【LLM新技術】 2024-04-04 ReALM: Reference Resolution As Language Modeling https://arxiv.org/abs/2403.20329
参照解決とは、人間やコンピュータが「それ」「これ」などのあいまいな表現の意味をコンテキストから理解することを指します。これは、会話の中や、ユーザーの画面上に表示されるエンティティ(例えば、特定のアプリや情報)など、さまざまな場面で必要とされます。Appleの研究チームは、大規模言語モデル(LLM)を用いて、テキストのみでこの参照解決を行う新しい方法を提案しています。これにより、会話や画面上に表示されるオブジェクトへの参照など、さまざまなタイプの参照を効率的に処理できるようになります。実験結果から、提案されたモデルは、画面上の参照に対して5%以上の改善を達成しました。また、GPT-3.5およびGPT-4という既存の大規模言語モデルと比較しても、優れた性能を発揮しました。特に、提案されたモデルはGPT-4と同等の性能を持ちながら、より少ないパラメータ(モデルの「サイズ」を意味します)を使用しており、より効率的な参照解決システムの構築が可能です。
———————————
【新サービス】 2024-04-03 日本語最高性能のRerankerをリリース / そもそも Reranker とは? https://secon.dev/entry/2024/04/02/070000-japanese-reranker-release/
Rerankerは、AIが質問文に最も関連する文書を選び出し、再ランク付けする技術です。これは、文章の意味や質問の意図をより深く理解することに特化しています。この日本語特化のRerankerは、小さなものから大きなものまで様々なサイズで提供されており、日本語の質問に対する文書の関連性を精密に評価することが可能です。評価実験では、いくつかの日本語タスクで高い性能を示しました。これは、従来公開されていなかった日本語を学習させたRerankerの効果を示しています。Rerankerの利点は、質問と文書の関連性をより詳細に理解できる点にありますが、その分、リアルタイムでの計算コストがかかるという欠点もあります。実際の検索システムでは、まず文ベクトルなどで関連する文書を絞り込み、その後Rerankerでより正確に再ランク付けすることで、全体の精度を向上させることができます。この技術により、日本語の文書検索精度が向上し、ユーザーが求める情報をより早く、より正確に見つけ出すことが可能になります。
———————————
【新サービス】 2024-04-04 Introducing Jpegli: A New JPEG Coding Library https://opensource.googleblog.com/2024/04/introducing-jpegli-new-jpeg-coding-library.html
Jpegliは、従来のJPEGに比べて高い圧縮効率と画質を実現する新しいライブラリです。これは画像の圧縮時に35%向上しています。libjpeg-turboやMozJPEGと互換性があり、既存のJPEG画像と同様に扱うことができます。画質を向上させるために、より精密な計算を行い、画像をより鮮明にする技術を使用しています。コーディング速度やメモリ使用量に影響を与えることなく、既存の開発フローに簡単に統合できます。10ビット以上の高い色深度をサポートしており、これにより色の滑らかな遷移を実現し、画質を向上させます。新しい技術を採用しており、画像のノイズを減らし、画質を向上させます。これにはJPEG XLからの技術も含まれています。
———————————
【LLMの評価】 2024-04-03 Are large language models superhuman chemists? https://arxiv.org/abs/2404.01475
LLMsは、化学分野でテキストデータを処理し、化学反応や実験の予測・最適化などのタスクを実行する能力があることで注目されています。”ChemBench”はLLMsの化学に関する知識と推論能力を評価するためのフレームワークで、これにより人間の化学者と比較してLLMsの性能を測定しています。研究ではLLMsが平均して人間の化学者よりも優れた結果を示しましたが、特定の推論タスクや安全性に関する予測では課題があります。この研究はLLMsが化学分野で有用であることを示していますが、その安全性と有効性をさらに向上させるための研究が必要であることを示しています。また、化学教育のカリキュラムの改善やLLMsの評価方法の開発の重要性を示しています。
———————————
【量子コンピュータ】 2024-04-04 Advancing science: Microsoft and Quantinuum demonstrate the most reliable logical qubits on record with an error rate 800x better than physical qubits https://blogs.microsoft.com/blog/2024/04/03/advancing-science-microsoft-and-quantinuum-demonstrate-the-most-reliable-logical-qubits-on-record-with-an-error-rate-800x-better-than-physical-qubits/
MicrosoftとQuantinuumは、物理キュービットと比較してエラー率が800倍改善された、記録上最も信頼性の高い論理キュービットを示しました。これは量子計算の分野で大きな進歩です。キュービットは、量子ビットの略で、量子コンピューターの基本的な情報単位です。これは、キュービットの仮想化とエラー診断、修正技術の適用により、エラーなしで多数の実験を成功させることができたためです。この技術の進歩により、量子計算がより信頼性が高くなり、科学研究や産業革新に変革をもたらすハイブリッドスーパーコンピューティングシステムの構築に向けた重要なステップとなります。このシステムは、エラーを訂正しながら論理キュービットのエラーを診断できるようにし、「能動的シンドローム抽出」と呼ばれる大きな進歩を表しています。
———————————
【その他】 2024-04-04 Python普及しろ協会に入会したい https://zenn.dev/nagataaaas/articles/b75f685ab30de6
2024/4/3のピックアップ
【国内ニュース】 2024-04-02 警察庁にサイバー特捜部発足 長官「国際捜査、リードを」 https://www.itmedia.co.jp/news/articles/2404/02/news162.html
———————————
【新サービス】 2024-04-02 漫画家の著作権を守るAI https://prtimes.jp/main/html/rd/p/000000002.000139404.html
エンドルフィン株式会社と株式会社SUPERNGINEは、漫画家自身の絵柄のみを学習させる「ピュアモデルAI」という技術を使って、マンガ制作の新しい方法を提案しました。一般的な生成AIとは違い、ピュアモデルAIは契約した漫画家の作品だけから学習することで、その漫画家独自の「個性」を守りながら、著作権を侵害することなくマンガを制作できます。このシステムは漫画家の許可がないと使用できないようになっており、漫画家は自分の作品に対する完全なコントロールを保持できます。これにより、漫画家とその作品のオリジナリティを守ることができます。例として、里中満智子先生と倉田よしみ先生の作品がこのAIを用いて制作されました。このプロジェクトでは、漫画のストーリー構成とネームは漫画家が手がけ、以降の工程はAIが担当しています。このAIサービスは、漫画制作を短時間で行う、アイデアを迅速に作品化する、単純作業を減らすなど、漫画家の負担を軽減し、効率化を図ることができます。これにより、漫画家は新しいチャレンジをしやすくなり、新たな収益の機会を得ることができます。
———————————
【ニュース】 2024-04-03 Intel discloses $7 billion operating loss for chip-making unit https://www.reuters.com/technology/intel-discloses-financials-foundry-business-2024-04-02/
インテルのファウンドリ事業(顧客が設計した半導体のチップを製造するための工場を運営)は、2023年に70億ドルの運営損失を記録しました。これは、前年の52億ドルから増加した数値です。同事業部の収益は、前年比31%減の189億ドルでした。この報告が米国証券取引委員会(SEC)に提出された後、インテルの株価は4.3%下落しました。インテルのCEOであるPat Gelsinger氏は、2024年が同社チップ製造事業にとって最も運営損失が大きい年になると予測していますが、2027年には運営基盤で黒字化を達成することを目指しています。運営損失を深めた原因の一つに、オランダASML社の極端紫外線(EUV)装置の使用を避けた決定があります。これらの装置は150億ドル以上のコストがかかりますが、従来のチップ製造ツールよりコスト効率が良いです。この決定により、インテルは生産の約30%を外部の契約メーカーにアウトソースしていましたが、現在はEUVツールの使用に切り替えており、生産ニーズの増加に応じて従来の機械を段階的に廃止しています。
———————————
【LLM新技術】 2024-04-03 Many-shot jailbreaking https://www.anthropic.com/research/many-shot-jailbreaking
「Many-shot jailbreaking」とは、大規模言語モデル(LLM)の安全ガードを回避する手法で、LLMが入力として処理できる情報の量、つまり「コンテキストウィンドウ」を利用します。この手法では、人間とAIアシスタント間の架空の対話をプロンプト内に大量に含めることで、LLMに有害な回答をさせることが可能になります。対話の数が一定数を超えると、モデルは安全対策を上回って危険な質問に回答するようになります。「In-context learning」というプロセスがこの手法の有効性に関連しています。これは、LLMがプロンプト内の情報のみを使用して学習するプロセスです。この学習方式は、正常な状況下でも、多数のプロンプトデモンストレーションによって性能が向上するという統計的なパターンに従います。研究公開の目的は、この問題に対処するための戦略を加速させ、LLM提供者や研究者間での情報共有を促進することです。大規模モデルでは、Many-shot jailbreakingがより効果的であることが確認されており、今後のモデルに対するリスクが高まる可能性があります。
———————————
【AIと法律・規制】 2024-04-03 Billie Eilish and Nicki Minaj want stop to ‘predatory’ music AI https://www.bbc.com/news/technology-68717863
ビリー・アイリッシュとニッキー・ミナージュをはじめとする200人以上のアーティストが、音楽産業におけるAIの捕食的な使用に反対する公開書簡に署名しました。この書簡では、AIがチェックされないままにされると、アーティストの独自性を脅かし、音楽産業の価値を下げる「最底辺への競争」を引き起こすと警告しています。アーティストたちは、テック企業に対して、人間のアーティストの創造性を置き換えたり、彼らに公正な報酬を否定するようなAI音楽生成ツールの開発を行わないよう呼びかけています。一部のAIモデルやシステムがアーティストの作品をトレーニングに使用している現状は、アーティストたちによって「人間の創造性への攻撃」と表現されています。ドレイクやザ・ウィークエンドの声を模倣したAIによる曲がオンラインで話題になった後、AIの使用について意見を述べるアーティストが増えています。しかし、グライムスやデビッド・ゲッタなど、AIの使用を支持する音楽家もいます。グライムスは、自身の声を使ったAI生成トラックについて、成功した場合のロイヤリティを分け合うことを奨励しています。
———————————
【その他】 2024-04-03 国土交通省が新サイト「不動産情報ライブラリ」を無料公開、早くも神サイトと評判【やじうまWatch】 https://internet.watch.impress.co.jp/docs/yajiuma/1581368.html
———————————
【その他】 2024-04-03 “UIデザイン用に、AIで色彩理論に基づいたカラーパレットを生成してくれる無料オンラインツール -AI Color Combination Generator” https://coliss.com/articles/build-websites/operation/design/ai-color-combination-generator.html
———————————
【AIと法律・規制】 2024-04-03 “テクノロジ業界の新たな協定による選挙の AI ディープフェイク対策” https://news.microsoft.com/ja-jp/2024/04/03/240403-ai-deepfakes-elections-munich-tech-accord/
テクノロジ業界は、選挙におけるAIディープフェイクの問題に対処するために新しい協定を発表しました。この協定は、選挙関係者の外見や声、行動を偽造または改ざんするディープフェイクへの対抗措置を含んでいます。この協定には20社が署名しており、選挙の公平性と公共の信頼を保護することが目的です。この協定によって、選挙の公正さと信頼を守るために必要な具体的なコミットメントが設定されています。具体的な対策としては、コンテンツ生成ツールのリスク評価と管理の強化、コンテンツの出所確認の推進が含まれています。これらの措置により、悪質なアクターによるディープフェイクの作成が困難になることが期待されます。さらに、マイクロソフトは「Content Credentials as a Service」という新サービスを立ち上げる予定です。このサービスは、政治家や候補者が自身に関するディープフェイクに対する懸念を報告できるプラットフォームを提供するものです。
———————————
【ニュース】2024-04-03 OpenAI to open Tokyo office as part of global expansion https://www.japantimes.co.jp/business/2024/04/01/companies/openai-tokyo-office/ OpenAIは2024年4月に東京にオフィスを開設する予定で、これがアジアでの初めての拠点となります。この情報は内部の人物から得たものです。日本オフィスは、OpenAIにとってロンドンとダブリンに続く3番目の国際的なロケーションになります。ChatGPTを公開して以来、OpenAIはAI分野で大きな注目を集めており、過去には少なくとも1000億ドルの評価額で資金調達を行う交渉があったと報じられています。日本では、ソフトバンクや日本電信電話などの企業が日本語サービスの展開を急いでおり、AIの採用が広がっています。OpenAIの共同創設者でありCEOのサム・オルトマンは、昨年4月に岸田文雄首相と会談した後、日本オフィスの開設を見据え、日本語サービスの拡充や政府とのリスク軽減および規制実施に向けた協力を計画していると述べました。
———————————
【技術解説】 2024-04-03 「数千万円かかるコスト」と「山のような技術的課題」 開発者たちが語る、日本語LLMの現在地 https://logmi.jp/tech/articles/330362
———————————
【AIの未来】 2024-04-03 「この絵、生成AI使ってますよね?」──“生成AIキャンセルカルチャー”は現代の魔女狩りなのか 企業が採るべき対策を考える https://www.itmedia.co.jp/aiplus/articles/2404/03/news042.html
2024/4/2のピックアップ
【スキルアップ】 2024-04-01 データ分析のためのSQLを書けるようになるために https://zenn.dev/dmmdata/articles/694e32c34dbd4c
———————————
【LLMツール】 2024-04-02 llamafile v0.7 https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.7
llamafile v0.7は、大規模言語モデルを一つのファイルで配布・実行するツールです。このバージョンでは、CPUとGPUでの計算の速度と正確さが向上し、セキュリティが強化されました。tinyBLASは、数値計算の一つであるKahan合計を使い、よりcuBLASと一致する結果を出すようになりました。特にWindowsユーザーにとって有益です。CPU上でのプロンプト評価が非常に高速になり、例えばRaspberry Pi 5でのf16重みは以前の8倍の速度で動作します。bf16データ型のサポートが新たにCPU用に追加されました。bf16はGoogle Brainが提案した浮動小数点数フォーマットです。
———————————
【国内ニュース】 2024-04-02 ラピダスの次世代半導体開発に5900億円規模の追加支援 https://www.watch.impress.co.jp/docs/news/1581229.html
経済産業省が、ラピダスという企業が進める次世代半導体の製造に向けて、5,900億円の追加資金を提供することを決めました。この支援金は、半導体の基本的な製造プロセスに5,365億円、さらに新しい技術の開発に535億円が割り当てられます。ラピダスは、アメリカとの協力のもと、2ナノメートルという非常に小さい半導体を製造するための研究や技術開発を北海道で進めており、2025年の春には試験的な生産ラインを動かす予定です。また、新しく始まるプロジェクトでは、これらの小さな半導体を効率的に組み合わせる技術や、消費電力を抑える技術の開発が進められます。この研究は、千歳市の工業団地にある施設で行われる予定です。
———————————
【ニュース】 2024-04-02 ChatGPT、会員登録不要で誰でも利用可能に https://www.watch.impress.co.jp/docs/news/1581040.html
———————————
【データ基盤】 2024-04-02 “Cloudflare、CDNエッジでサーバレスなSQLiteを提供する「Cloudflare D1」正式リリース。非同期レプリケーションによる分散データベース機能も” https://www.publickey1.jp/blog/24/cloudflarecdnsqlitecloudflare_d1.html
Cloudflareは、SQLiteを基にした「Cloudflare D1」というデータベースサービスを正式に開始しました。このサービスは、世界中にあるCloudflareのCDNエッジでサーバレスで動作し、管理が容易です。CloudflareのJavaScriptランタイム「Cloudflare Workers」やHTTP APIを介して使えるため、アプリケーションと簡単に統合できます。10GBまでのデータベースをサポートし、Cloudflare R2というオブジェクトストレージ上にデータベースが作成され、安全性が確保されています。障害が発生した場合でも短時間でデータベースを回復でき、30日間のデータを遡って復元できるタイムトラベル機能が備わっています。無料プランもあり、日々の利用限度内であればコストを気にせずに使用できます。さらに、Cloudflare D1は将来的に非同期レプリケーションを使って、世界各地で低遅延の分散データベースを実現する計画があります。これにより、世界中どこからのアクセスも高速に処理できるようになります。
———————————
【スキルアップ】 2024-04-02 “AWS Skill Builder 入門 -AWS 学習に役立つオンライン学習センターについてまとめてみた- | DevelopersIO” https://dev.classmethod.jp/articles/aws-skill-builder-tips/
AWS Skill Builderは、AWSが提供するオンラインの学習プラットフォームです。ここでは、AWSに関するスキルを身につけるための様々な学習コンテンツが用意されています。利用は基本的に無料で、600以上のデジタルコースなど、豊富な学習素材を自由に使えます。更に深い学習を求める場合は、有料のサブスクリプションを選択することも可能です。学習コンテンツには、テキストや動画で学ぶオンデマンドコースのほか、実際にAWSを操作して学べるハンズオン型コンテンツや、ゲーム形式で楽しみながら学べるコンテンツがあります。これらを利用して、AWSの知識を広げることができます。AWS認定試験の準備に役立つコンテンツも充実しており、試験に必要な知識を効率的に学習できます。AWS Skill Builderは、AWSのスキルを身につけたいと考えている人にとって、非常に有用なリソースです。
———————————
【ニュース】2024-04-02 Google agrees to delete Incognito data despite prior claim that’s “impossible” https://arstechnica.com/tech-policy/2024/04/google-agrees-to-delete-private-browsing-data-to-settle-incognito-mode-lawsuit/
Googleは、Chromeのプライベートモードにおけるユーザーのプライベートブラウジングデータの削除に同意しました。これは、以前は「不可能」と主張されていたことであり、技術大手に対する正直さと説明責任の要求として、歴史的な一歩と評価されています。この和解により、Googleは過去に収集したプライベートブラウジングデータを削除し、サードパーティクッキーのデフォルトのブロックを維持することが求められます。これにより、今後5年間にわたってユーザーの追加のプライバシーが保護され、Googleが収集するデータ量が制限されます。和解金は47.5億ドルから78億ドルと評価されており、クラスメンバーには個別に損害賠償を請求する権利が保持されますが、直接的な金銭的補償は含まれていません。Googleは和解に満足しているとしながらも、提訴された主張には同意していないと述べています。また、削除されるデータについては、個人とは関連付けられていなかった古い技術データであり、パーソナライゼーションには使用されていなかったとしています。
———————————
【LLM新技術】 2024-04-01 Long-form factuality in large language models https://arxiv.org/abs/2403.18802
長文形式での事実の正確さを評価する新しい方法として、「Search-Augmented Factuality Evaluator (SAFE)」が提案されました。これは、大規模言語モデルを用いて長文の応答を個々の事実に分け、それぞれの事実の正確性をGoogle検索を用いた複数ステップの推論で評価します。この手法は、約16,000の事実に対して人間のアノテータと72%の一致率を達成し、100の不一致事例で76%の勝率を記録するなど、人間のアノテータよりも高いパフォーマンスを示しました。さらに、SAFEは人間のアノテータに比べてコストが大幅に低いことが示されています。研究チームは、Gemini、GPT、Claude、PaLM-2といった異なるモデルファミリーの13の言語モデルを評価し、一般的にモデルのサイズが大きいほど長文での事実性が高まることを発見しました。提案されたSAFE方法、使用されたプロンプトセット「LongFact」、そして実験に用いられたすべてのコードは公開されており、研究や開発に自由に利用できます。
———————————
【ニュース】 2024-04-02 “Microsoft、Teamsのバンドル販売を停止 Microsoft 365から分離” https://www.watch.impress.co.jp/docs/news/1581000.html Microsoftは、自社の提供するオフィススイートであるMicrosoft 365とOffice 365から、コミュニケーションツールのTeamsを分離し、これらを別々に販売する新たな方針を発表しました。これにより、これまでのバンドル販売は終了し、ユーザーは必要に応じてTeamsを別途購入することになります。この変更は、欧州経済領域(EEA)とスイスで既に始まっており、今後は世界中で実施されます。ただし、この方針変更は企業向けプランに限定され、一般消費者や教育機関、非営利団体には適用されません。欧州委員会による独占禁止法違反の可能性の調査や、デジタル市場法(DMA)の施行など、欧州での法規制の動きを受けた対応とみられます。これによりMicrosoftは、Teamsを含む製品のライセンス構造を見直し、欧州の規制に対応するとともに、グローバルでのサブスクリプション体系を再編することにしました。
———————————
【ニュース】 2024-04-01 Microsoft, OpenAI plan $100 billion data-center project, media report says https://www.reuters.com/technology/microsoft-openai-planning-100-billion-data-center-project-information-reports-2024-03-29/
MicrosoftとOpenAIは、人工知能の分野での最先端技術を推進するために、”Stargate”という名前のスーパーコンピュータを含む大規模なデータセンタープロジェクトを計画しています。このプロジェクトは、生成型AIの急速な普及に対応し、従来のデータセンターよりも複雑な処理が可能なAI専用のデータセンターを目指しています。プロジェクトの総コストは最大で1000億ドルに上ると予想され、これはいくつかの大規模データセンターの建設費用と比較しても100倍以上の規模です。この巨大な投資により、AI技術の新たなフロンティアを切り開くインフラが構築されることになります。この計画は、AIチップの取得など、今後のフェーズにおけるコストが特に重要となります。AIチップの高価格がプロジェクトの費用を押し上げる一因となっており、最終的な費用はMicrosoftの昨年の資本支出の3倍以上に達する可能性があります。
———————————
【その他】2024-04-01 Pythonが教育用途において十分だという話 https://zenn.dev/ssssssigma/articles/python-in-education
→ Python滅ぼす協会に入会したい https://dev.thanaism.com/2023/05/python-sucks/
2024/4/1のピックアップ
【国内ニュース】 2024-04-01 労務管理クラウドの「WelcomeHR」、個人情報15万人分漏えい マイナカード画像も https://www.watch.impress.co.jp/docs/news/1580927.html
———————————
【国内ニュース】 2024-04-01 【文字数カウント】サイト閉鎖 ユーザー「一番使いやすかった」「ありがとうございました」 https://www.itmedia.co.jp/news/articles/2404/01/news121.html
———————————
【ニュース】 2024-04-01 AT&T、約7300万人分の個人データ流出を確認 社会保障番号が含まれるものもあり https://www.itmedia.co.jp/news/articles/2404/01/news068.html
———————————
【ニュース】 2024-04-01 “XZ Utilsの脆弱性 CVE-2024-3094 についてまとめてみた – piyolog” https://piyolog.hatenadiary.jp/entry/2024/04/01/035321
【ニュース】 2024-04-01 “「XZ Utils」にバックドア、オープンソースエコシステム全体の信頼を揺るがす事態に/0.5秒の遅延からたまたま発覚、数年をかけた周到なやり口が明るみに” https://forest.watch.impress.co.jp/docs/news/1580604.html
———————————
【ニュース】 2024-04-01 Amazon and Anthropic deepen their shared commitment to advancing generative AI https://www.aboutamazon.com/news/company-news/amazon-anthropic-ai-investment
Amazonは、生成型人工知能(AI)技術の発展を目指してAnthropicとの提携を強化しており、その一環としてAnthropicに合計40億ドルを投資しました。この投資により、AmazonはAnthropicの少数株主となります。Anthropicは、安全性研究や将来の基盤モデルの開発など、ミッションクリティカルな作業にAmazon Web Services(AWS)を使用します。これには、AWSのTrainiumとInferentiaチップを利用して、将来のモデルの構築、トレーニング、デプロイが含まれます。Amazon Bedrockを介して、Anthropicの最先端のClaude AIモデルが顧客に提供され、これを使って顧客はユーザーエクスペリエンスの再構想、ビジネスの再発明、生成型AIジャーニーの加速に取り組んでいます。Claude 3は、他のモデルよりも優れた性能を持ち、特に推論、数学、コーディングの分野で顕著な成果を上げています。
———————————
【新サービス】 2024-04-01 “Webブラウザで3Dモデルを高速に描画する「Babylon.js 7.0」正式リリース。MMD(MikuMikuDance)やApple Vision Proサポート” https://www.publickey1.jp/blog/24/web3dbabylonjs_70mmdmikumikudanceapple_vision_pro.html
アイキャッチ
「白黒タキシード猫が青空のもと、満開の桜の木の下に座っている 水彩画風」に、追加で「桜の花は地面には生えていません。そこを修正して再度出力してください」と指示してDALL-Eに生成してもらいました。
その後Canvaで文字を入れました。
知らなかったんですけど、生成された画像をクリックすると、生成画像の一部を選択してそこだけ修正の指示を出すことができるんですね。すごい便利だ…!
コメント