- 2024/3/31のピックアップ
- 2024/3/30のピックアップ
- 2024/3/29のピックアップ
- 2024/3/28のピックアップ
- 2024/3/27のピックアップ
- 2024/3/26のピックアップ
- 2024/3/25のピックアップ
- 2024/3/24のピックアップ
- 2024/3/23のピックアップ
- 2024/3/22のピックアップ
- 2024/3/21のピックアップ
- 2024/3/20のピックアップ
- 2024/3/19のピックアップ
- 2024/3/18のピックアップ
- 2024/3/17のピックアップ
- 2024/3/16のピックアップ
- 2024/3/15のピックアップ
- 2024/3/14のピックアップ
- 2024/3/13のピックアップ
- 2024/3/12のピックアップ
- 2024/3/11のピックアップ
- 2024/3/10のピックアップ
- 2024/3/9のピックアップ
- 2024/3/8のピックアップ
- 2024/3/7のピックアップ
- 2024/3/6のピックアップ
- 2024/3/5のピックアップ
- 2024/3/4のピックアップ
- 2024/3/3のピックアップ
- 2024/3/2のピックアップ
- 2024/3/1のピックアップ
- アイキャッチ
2024/3/31のピックアップ
【ニュース】 2024-03-31 “xzの脆弱性(バックドア埋め込み: Critical: CVE-2024-3094) – SIOS SECURITY BLOG” https://security.sios.jp/vulnerability/xz-security-vulnerability-20240330/
———————————
【つくってみた・やってみた】 2024-03-31 “新連載「AIだけで作った曲を音楽配信する」。生成AIが作り上げた架空バンド「The Midnight Odyssey」を世界デビューさせる、その裏側 | テクノエッジ TechnoEdge” https://www.techno-edge.net/article/2024/03/31/3079.html
新連載では、生成AIが作成した架空バンド「The Midnight Odyssey」の音楽配信の裏側を紹介します。大規模言語モデル(LLM)を使用してコンセプトを考え、AI作曲サービス「Suno」で楽曲を制作し、音楽配信します。架空のロックバンド「The Midnight Odyssey」のコンセプトアルバムは完全にAIで制作され、音楽の作り方が変わりました。筆者は長年の音楽制作経験を持ち、自らが運営する音楽レーベルからAI楽曲を配信することに協力しました。配信プラットフォームのAI楽曲に対する姿勢を調査し、SpotifyやYouTube Music、Apple Musicの動向を検討しました。音源のミックス・マスタリング作業を通じて、生成AI楽曲の品質を向上させました。生成AIによる楽曲配信は新たな可能性を秘めており、アルバム「The Odyssey of Echoes」は主要ストアを通じてワールドワイドでリリースされました。
2024/3/30のピックアップ
【新しいLLM】 2024-03-29 Announcing Grok-1.5 https://x.ai/blog/grok-1.5
xAIのGrok-1.5は、文書や問題を長い文脈で理解し、複雑な推論を行うことができる最新のAIモデルです。コーディングや数学の問題を解く能力が向上しており、特定のベンチマークテストで高いスコアを記録しました。長い文書からの情報利用能力が向上しており、最大128Kトークンの文脈を処理できるようになりました。カスタムの分散トレーニングフレームワークを使用しており、大規模な計算リソースを効率的に活用し、トレーニングの信頼性と速度を向上させています。間もなく早期テスターや既存のユーザーに提供開始され、新機能の追加も予定されています。
———————————
【新サービス】 2024-03-29 カンペ見ても「カメラ目線」へ自動補正 動画のAI吹き替えツール「Captions」にPC版、実際に試してみた https://www.itmedia.co.jp/news/articles/2403/29/news194.html
———————————
【その他】 2024-03-29 携帯電話ショップが“にぎわっているのに”閉店? 「売れない」以外の構造的な理由 https://www.itmedia.co.jp/mobile/articles/2403/29/news190.html
———————————
【国内ニュース】 2024-03-30 “読書感想文コンクール AI生成文章を不適切引用で審査対象外に | NHK” https://www3.nhk.or.jp/news/html/20240330/k10014407321000.html
———————————
【ニュース】 2024-03-30 “xz-utils backdoor situation” https://gist.github.com/thesamesam/223949d5a074ebc3dce9ee78baad9e27
2024年3月29日に、xz-utils(開発者が無損失圧縮を行うためのソフトウェアスイート)にバックドアが見つかりました。このパッケージは、リリース用のtarballやソフトウェアパッケージ、カーネルイメージ、initramfsイメージの圧縮に広く使用されています。このバックドアは特定の条件が満たされた時のみ動作し、まだ他の条件も存在する可能性があります。遠隔地からの非特権システムが公開SSHポートに接続した場合にトリガーされることがわかっています。システムが脆弱であるためには、glibcを使用しているディストリビューションであること、xzまたはliblzmaのバージョンが5.6.0または5.6.1であることが必要です。systemdとパッチが適用されたopensshを使用している組み合わせが脆弱であることがわかっていますが、他の設定についてはまだ分析中です。公開されているsshdを実行している場合、おそらく脆弱です。そうでなければ今のところは不明ですが、可能な限り早くアップデートすることが推奨されます。glibcとxz-5.6.0またはxz-5.6.1を使用している.debまたは.rpmベースのディストリビューションを使用している場合、公開アクセス可能なsshを使用している場合は「今すぐにアップデートする」ことが推奨されます。
———————————
【ニュース】 2024-03-30 “Everything I know about the XZ backdoor” https://boehs.org/node/everything-i-know-about-the-xz-backdoor
2021年にJia Tan(JiaT75)という人物がGitHubアカウントを作成し、libarchiveプロジェクトに疑わしい変更を加えたPRを提出しました。
2022年には、Jia TanがXZプロジェクトに関連して活動を開始し、XZプロジェクトに別のメンテナーを追加するように圧力をかけました。
2023年には、Jia TanがXZリポジトリで信頼を得て、Googleのoss-fuzzプロジェクトの主要連絡先を自分のものに変更しました。
2024年には、XZプロジェクトのコントロールをさらに強化し、バックドアを実行するために必要なコミットを追加しました。
このバックドアの発見は、liblzmaを使用している際にCPU使用率が異常に高いことから始まり、その後の調査で発見されました。このバックドアが含まれているバージョンをDebianやFedora、Ubuntuに含めようとする動きがありました。GitHubは、JiaT75のアカウントを停止し、XZプロジェクトのリポジトリへのアクセスを制限しました。Jia Tanに関するさらなる情報が、IRCやLinkedIn、Gitのログを通じて得られましたが、彼の正確な身元は依然として不明です。
———————————
【技術解説】 2024-03-30 “大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み” https://speakerdeck.com/kunishou/da-gui-mo-yan-yu-moderukai-fa-notamenori-ben-yu-instruction-detasetutozuo-cheng-noqu-rizu-mi
———————————
【その他生成AI】 2024-03-30 “Generative AI to quantify uncertainty in weather forecasting” http://blog.research.google/2024/03/generative-ai-to-quantify-uncertainty.html
Googleが、天気予報が正確さとタイムリーな提供を実現できるように研究投資を行っています。SEEDSという新しい生成AIモデルは、物理ベースのモデルに依存せずに、大量のアンサンブル予報を効率的に生成することができます。これにより、低コストで極端な天気イベントを予測することが可能になります。このモデルは、従来の方法と比較して同等かそれ以上の精度を持ち、特に極端な天気イベントの予測において高い性能を発揮します。SEEDSはGoogle Cloudのリソースを活用して高速に大量のアンサンブルメンバーを生成でき、スケールアップも容易です。このアプローチは、数個の物理ベースの予報を使用して、追加の予報をより効率的に生成する新しい予報システムを提案しており、これにより計算資源を節約し、予報の解像度を高めるか、頻度を上げることができます。
———————————
【技術解説】 2024-03-29 “LLMの現在 – Speaker Deck” https://speakerdeck.com/pfn/llmnoxian-zai
———————————
【やってみた・つくってみた】 2024-03-30 “MediaPipe LLM Inference API による LLM のオンデバイス推論を試す” https://note.com/npaka/n/n1bd7bdabeb0c
———————————
【新サービス】Navigating the Challenges and Opportunities of Synthetic Voices https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices
OpenAIは「Voice Engine」というモデルを紹介しました。これは、テキストと15秒の音声サンプルから元の話者に似た自然な音声を生成することができます。Voice Engineは2022年末に開発され、テキスト音声APIのプリセット音声、ChatGPT Voice、Read Aloudの基盤として使用されています。合成音声の悪用のリスクを考慮して、公開には慎重な姿勢を取っています。合成音声の責任ある使用について社会との対話を進め、広範なリリースについての判断を下す予定です。Voice Engineは教育支援、コンテンツの翻訳、遠隔地でのサービス提供の改善、非発声者への支援、話し言葉の障害を持つ人々の回復支援など、様々な用途での利用が検討されています。合成音声の安全な開発には、選挙年における特別なリスクへの注意、使用ポリシーの遵守、声の認証や不正使用の防止などが重要です。
———————————
【LLM新技術】FIT-RAG: Black-Box RAG with Factual Information and Token Reduction https://arxiv.org/abs/2403.14374
大規模言語モデル(LLM)のファインチューニングは、膨大なパラメータ数のため多くのケースで現実的ではありません。これに対処する一つの方法は、LLMを変更せずに(ブラックボックスとして)、検索強化生成(RAG)システムを組み合わせることです。ブラックボックスRAGは知識集約タスクで成功を収めていますが、従来の方法では2つの問題があります:(1) リトリバー(検索機能)が重要な事実情報を見落とすこと、(2) 不必要な文書情報を結合することでトークンの無駄遣いをすること。これらの問題に対処するため、FIT-RAGでは文書からの事実情報の利用と、トークン数の削減に焦点を当てた新しいフレームワークを提案しています。FIT-RAGは、事実情報を利用するために「二ラベル文書スコアラー」を導入し、さらに「自己知識認識器」と「サブドキュメントレベルのトークン削減器」を用いて、不要なトークンを削除します。結果として、FIT-RAGはTriviaQA、NQ、PopQAの3つのオープンドメイン質問応答データセットで、回答の正確さを大幅に向上させるとともに、平均でトークン使用量を約半分に削減することができました。
2024/3/29のピックアップ
【国内ニュース】 2024-03-28 政府が宇宙技術戦略を初策定 自立性確保に向け、技術的優位性など狙う https://www.itmedia.co.jp/news/articles/2403/28/news184.html
———————————
【国内ニュース】 2024-03-28 北朝鮮のIT技術者へのアプリ開発業務発注 日本企業からの報酬の90%前後を支払いか https://www.itmedia.co.jp/news/articles/2403/28/news151.html
【国内ニュース】 2024-03-29 「北朝鮮IT労働者」が日本人になりすまして業務受注、警察庁が注意喚起 その特徴は? https://www.itmedia.co.jp/news/articles/2403/29/news152.html
———————————
【通信技術】 2024-03-29 既存の光ファイバ伝送で、伝送容量と周波数帯域の世界記録を達成〜マルチバンド波長多重技術により光通信インフラの通信容量を拡大〜 https://www.nict.go.jp/press/2024/03/29-1.html
光ファイバを使った通信で、一秒間に378.9テラビット(1テラビットは1兆ビット)のデータを送る実験に成功し、これまでの最高記録を更新しました。この実験では、37.6テラヘルツの周波数帯域を使用しました。周波数帯域が広いほど、より多くの情報を同時に送ることができます。伝送には、これまでに使われてきたC帯とL帯の他に、O帯、E帯、S帯、U帯を含む複数の波長帯を使用する「マルチバンド波長多重技術」を採用しました。これにより、より多くのデータを同時に送ることが可能になります。また、各波長帯ごとに最適な方法で光を増幅させる技術を使って、これら全ての波長帯で効率よくデータを送れるようにするシステムを開発しました。この研究成果は、世界最大の光ファイバ通信に関する国際会議であるOFC 2024で高く評価され、最優秀ホットトピック論文に選ばれました。
———————————
【DL技術】 2024-03-29 Introducing Jamba: AI21’s Groundbreaking SSM-Transformer Model https://www.ai21.com/blog/announcing-jamba
Jambaは、AI21社が開発した新しいAIモデルで、Mambaという技術とトランスフォーマーアーキテクチャを組み合わせた先進的なモデルです。これにより、データを処理する際の速度や効率性が大きく向上しています。このモデルは、一度に処理できるデータ量(コンテキストウィンドウ)が非常に大きい(256K)ことが特徴で、これまでのモデルよりも多くの情報を扱うことができます。さまざまなテストで他の最先端のAIモデルと同等またはそれ以上の性能を発揮しており、特に長い文書を処理する際の速度(スループット)が3倍になるなど、効率が大きく改善されています。このモデルはオープンソースで公開されており、誰でも利用や改善が可能です。また、NVIDIAのプラットフォームでも利用できるようになっています。Hugging Faceというプラットフォームで利用開始でき、AIの研究者や開発者が簡単にアクセスできるようになっています。これにより、カスタムソリューションの開発やチューニングがより手軽になります。
———————————
【国内ニュース】 2024-03-29 日本郵便とセイノー、物流2024問題解決に向けた共同運行 https://www.watch.impress.co.jp/docs/news/1580329.html
———————————
【国内ニュース】 2024-03-29 「モビルスーツ」の社会実装を目指すプロジェクト進行中 “動くガンダム”開発メンバーら中心に https://www.itmedia.co.jp/news/articles/2403/29/news142.html
———————————
【ニュース】 2024-03-29 米連邦政府、全政府機関に最高AI責任者(CAIO)の任命を義務付け https://www.itmedia.co.jp/news/articles/2403/29/news132.html
———————————
【科学技術】 2024-03-29 Evidence for chiral graviton modes in fractional quantum Hall liquids https://www.nature.com/articles/s41586-024-07201-w
分数量子ホール効果に関する研究で、物質の内部の量子的な形状の変動を表す新しい種類の波動、キラル重力子モード(CGM)が存在する可能性の強力な証拠が見つかりました。これらのモードは、理論上存在が予想されているが、これまで実験的には確認されていなかった重力子と似た性質を持つものです。CGMは、特定の向きを持つ(キラリティが+2または−2の)状態で存在し、そのエネルギーの隙間(ギャップ)が、分数量子ホール液体における基本的な励起状態であるマグネトロトンと一致します。研究者たちは、特定の円偏光の光を使った実験を通じて、これらのモードを直接観測することに成功しました。充填因子ν=1/3では、非常に長い波長でも観測される特定のギャップモードが見つかりました。さらに、充填因子の値によって、これらモードのキラリティ(向き)が変わることも明らかになりました。これらのモードは、温度や充填因子に応じてその強度が変わることから、長波長マグネトロトンとしての性質を持つことが確認されました。この研究は、分数量子ホール効果における新しい物理現象を理解する上での重要な進歩を示しており、将来の物理学や材料科学において重要な役割を果たす可能性があります。
———————————
【マネジメント】 2024-03-29 話し相手の意思決定ロジックを理解して業務コミュニケーションをサクサクにする https://www.wantedly.com/companies/wantedly/post_articles/894929
コミュニケーションを行う際には、ただ丁寧に話すだけではなく、相手が実際に知りたいと思っている内容を提供することが求められます。これには、相手の立場や彼らが直面している問題、意思決定に至るロジックを理解し、その上で最も関連性の高い情報を選択して伝える必要があります。たとえば、あるプロジェクトの進行に関して上司に報告する場合、上司がプロジェクトの全体像や進捗状況、特に注意が必要なポイントを把握したいと考えている可能性が高いです。そのため、単に「プロジェクトは順調です」と伝えるのではなく、具体的な進捗状況、達成された成果、直面している課題やそれに対する提案など、上司が次の意思決定を行うために必要な情報を提供することが重要になります。同様に、チームメンバーや他部署の同僚とのコミュニケーションでも、相手が自分の仕事にどのように関わるか、どのような情報が彼らの意思決定に影響を与えるかを考慮して、適切な情報を提供することがコミュニケーションを効果的にする鍵となります。
———————————
【DL技術】 2024-03-29 “AutoBNN: Probabilistic time series forecasting with compositional bayesian neural networks” http://blog.research.google/2024/03/autobnn-probabilistic-time-series.html AutoBNNは、時系列予測のための新しいツールで、高品質な不確実性の推定と大規模データセットでの効率的な使用を可能にします。このツールは、確率分布を持つ重みを用いるベイズニューラルネットワーク(BNN)に基づいており、予測の不確かさを表現できます。BNNは、データポイントの数にほぼ線形にスケールするため、大きなデータセットを扱う際に計算コストが低く、GPUやTPUでの高速化が可能です。AutoBNNは加算や乗算などの操作を通じて、より複雑な時系列モデルの構築を可能にします。TensorFlow Probabilityで使用でき、flax.linenライブラリを使用して実装されています。線形、二次、マターンなどの基本カーネルや、加算、乗算といった演算子が含まれています。さまざまなモデル構造を容易に探索できるように設計されており、モデルの複雑さを調整することが可能です。トレーニングにはMAP推定やMCMC推定などの方法が提供されており、様々なデータタイプに対応した尤度関数を組み合わせることができます。
2024/3/28のピックアップ
【ニュース】 2024-03-27 High throughput chips for LLMs https://matx.com/
MatXは、大規模な人工知能モデル用の専用ハードウェアを作っている会社です。このハードウェアは、大量のデータを処理する大規模モデルのために特化されており、一般的な製品に比べて10倍の計算速度を実現します。この会社は、大規模モデルを訓練するためのコストを抑えることに注力しており、特にプレトレーニングと本番環境での推論処理において、コスト対効果とレイテンシ(遅延時間)の面で最適化を図っています。70Bクラスのモデルに対して、トークンごとに10ミリ秒未満の処理速度を達成しています。トランスフォーマーモデルやMoE(Mixture of Experts)モデルなど、7B以上のパラメータを持つ大規模なAIモデルに最適化されており、これらのモデルを用いた推論やトレーニングで高性能を発揮します。数千人のユーザーが同時に使用する推論処理や、7Bクラスで1022トータルトレーニングFLOPsを超えるトレーニングに対応できる設計になっています。ハードウェアは、数十万チップを含む大規模クラスターでも優れたパフォーマンスを発揮します。専門家向けには、ハードウェアの低レベル制御を可能にする機能も提供しており、詳細な設定やカスタマイズが可能です。
——————————
【国内ニュース】 2024-03-28 SLIM、2度目の“越夜”に成功 極寒に耐え、再び航法カメラの画像を送る https://www.itmedia.co.jp/news/articles/2403/28/news124.html
——————————
【ニュース】Amazon and Anthropic deepen their shared commitment to advancing generative AI
https://www.aboutamazon.com/news/company-news/amazon-anthropic-ai-investment
Amazonは、人工知能分野の企業Anthropicに合計40億ドルを投資しており、このパートナーシップを通じて、Anthropicの最先端AIモデル「Claude」をAmazonのクラウドサービスAWSを介して利用可能にしています。Anthropicは、AWSの専用チップTrainiumとInferentiaを使用して、AIモデルの開発や訓練、適用(デプロイメント)を行います。これにより、効率的かつ高速に大規模なAIモデルを構築し、広範囲にわたる顧客に提供することが可能になります。特に、Claude 3モデルは、論理的思考や数学、コーディングの分野で優れた性能を発揮し、現在利用可能な他のAIモデル、例えばOpenAIのGPT-4を上回る能力を持っています。AWS、Anthropic、Accentureは共同で、健康医療、公共セクター、銀行、保険などの厳しく規制された産業で、企業がジェネラティブAIを責任を持って導入し、応用を広げるための支援を行います。AmazonとAnthropicの戦略的コラボレーションの一環として、追加の27.5億ドルを投資し、合計40億ドルの投資を完了しました。
——————————
【AWS】 2024-03-28 “今さら聞けない!? AWSの生成AIサービス Amazon Bedrock入門!” https://speakerdeck.com/minorun365/jin-sarawen-kenai-awsnosheng-cheng-aisabisu-amazon-bedrockru-men
——————————
【新サービス】2024-03-28 “Docker互換のコンテナエンジン「Podman 5.0」正式リリース。Macでの安定性や性能が大幅に向上” https://www.publickey1.jp/blog/24/dockerpodman_50mac.html
Podman 5.0は、コンテナを管理するためのツールであり、Dockerに代わる選択肢として開発されています。Red Hatによって主導されるこのプロジェクトは、オープンソースであり、OCI(Open Container Initiative)に準拠したDockerイメージを扱うことができます。Podmanの特徴は、デーモンを使用せずに動作する点にあります。これにより、システムリソースを節約しつつ高速に動作させることが可能です。また、ルート権限なしでコンテナを操作できるため、セキュリティの観点からも優れています。特にMacユーザーにとって重要なのは、Podman Machineが大幅に改善されたことです。以前はQEMUを用いた実装でしたが、5.0からはmacOSのハイパーバイザを使用することで、起動時間の短縮、安定性の向上、ファイル共有性能の改善が実現されました。Kubernetesとの連携も強化されており、Podmanから直接KubernetesのYAMLファイルを生成できるため、クラウドネイティブなアプリケーション開発がよりスムーズに行えるようになります。
——————————
【技術解説】2024-03-28 GitHub、Copilotでより高い精度のコードを生成させる方法を指南。関連ファイルを開く、トップレベルのコメントを書くなど https://www.publickey1.jp/blog/24/githubcopilot.html
GitHub Copilotは、プログラミング時にAIを利用してコードの生成を支援するツールです。このツールは、入力される情報(コンテキスト)に基づいて適切なコードを提案します。コンテキストが豊富であればあるほど、AIはより正確なコードを生成することができます。そのため、以下のテクニックが役立ちます。
- 関連ファイルを開く:GitHub Copilotは開かれているファイルを参照してコンテキストを理解します。関連するファイルを開いておくことで、より適切なコード生成が可能になります。
- トップレベルのコメントを書く:ファイルの冒頭に何をするコードなのか説明するコメントを書くと、AIが全体的な目的を理解しやすくなります。
- インクルードや参照を設定する:必要なライブラリやモジュールの参照を明確にすることで、AIはより適切なコード提案を行えます。
- 意味のある命名:関数や変数などに意味のある名前をつけることで、AIはその目的を理解しやすくなります。
- 関数コメントを具体的に:関数の目的や動作を詳細に説明するコメントを書くと、AIはその機能を正確に把握できます。
- サンプルコードを提供する:特にユニットテストなどでは、個々の機能のサンプルコードを提供することで、AIが具体的な要求を理解しやすくなります。
——————————
【新しいLLM】2024-03-28 PKSHA、日本マイクロソフト支援のもと新たな大規模言語モデルを開発 https://prtimes.jp/main/html/rd/p/000000147.000022705.html
PKSHA Technologyとは、人とソフトウェアの共進化を目指す企業で、今回日本マイクロソフトの支援を受けて新しいタイプの言語モデルを開発しました。このモデルはRetNet(Retentive Network)と呼ばれる新技術を用いており、これは従来のTransformerモデルの後継技術として期待されています。特に、学習と推論の速度が速く、少ないメモリで効率的に動作する点が特徴です。LLM(Large Language Model)とは、大量のテキストデータから言語のパターンを学習し、文章の生成や理解を行うAIモデルのことです。PKSHAが開発したモデルは、従来のものよりも約3倍の速度で回答を生成でき、コンタクトセンターや社内ヘルプデスクなどの即時性が求められる場面での活用が期待されています。DeepSpeedはMicrosoftによって開発された深層学習フレームワークで、このプロジェクトで利用されています。DeepSpeedは、高い並列分散処理能力を持ち、大規模なAIモデルの学習を効率的に行えます。
——————————
【新しいLLM】2024-03-28 Announcing DBRX: A new standard for efficient open source LLMs https://www.databricks.com/blog/announcing-dbrx-new-standard-efficient-open-source-customizable-llms
Databricksは、企業が独自のデータを活用してAIシステムを構築できるよう支援することを目的としています。この目的の下、DatabricksのMosaic Researchチームによって開発されたDBRXは、特に言語理解、プログラミング、数学、論理の分野で優れた性能を持ち、既存のオープンソースモデルやGPT-3.5と比べても高い性能を示しています。これは、オープンソースモデルの質が向上している現在のトレンドに寄与しています。DBRXはMixture-of-Experts(MoE)モデルであり、MegaBlocksの研究とオープンソースプロジェクトに基づいて構築されています。MoEモデルは、より大きなモデルをトレーニングし、高速なスループットで提供することを可能にします。DBRXは、132億パラメータの中から任意の時点で36億パラメータを使用し、速度と性能の両方を実現しています。Databricksプラットフォームでは、企業はDBRXを使用し、独自データに基づくカスタマイズモデルを構築できます。これにより、企業はオープンソースLLMを自社の知的財産として活用し、業界内での競争力を高めることができます。
2024/3/27のピックアップ
【AIの活用】 2024-03-26 “MIT-derived algorithm helps forecast the frequency of extreme weather” https://news.mit.edu/2024/mit-derived-algorithm-helps-forecast-frequency-extreme-weather-0326 MITのチームは、機械学習と動的システム理論を利用して、気候モデルの予測を修正する新しい方法を開発しました。これにより、将来の極端な天候の頻度をより正確に予測できるようになります。この方法では、大規模な気候モデルのシミュレーションを実際の状況により近づけるために「調整」します。これは、過去の気温や湿度などのデータを学習して、気象特性間の基本的な動的関連を理解する機械学習のアルゴリズムに基づいています。研究チームは、米国エネルギー省が運用するEnergy Exascale Earth System Model(E3SM)という気候モデルを使って、この新しいアプローチのテストを行いました。その結果、修正されたモデルは過去36年間の実際の気候パターンとより一致する結果を生成しました。
——————————
【その他】 2024-03-27 任天堂が「人材に対する考え方」公開 世界的エンタメ企業が求める人材像とは? https://www.itmedia.co.jp/news/articles/2403/27/news141.html
——————————
【新技術】 2024-03-27 The Penrose Tiling is a Quantum Error-Correcting Code https://arxiv.org/abs/2311.13040
ペンローズのタイリングは、平面を繰り返しのない方法で敷き詰める手法で、特異な特徴を多数持ちます。量子エラー訂正コードは、量子情報をエンコードすることによってノイズから保護する技術です。この技術では、情報に高度な形の冗長性を加えます。この論文では、ペンローズのタイリングが、量子情報を量子幾何学によってエンコードする、新しいタイプの量子エラー訂正コードを作り出す、またはそのようなコードであるということを示しています。このコードでは、どんな大きさの有限領域における局所的なエラーやデータの消失でも、識別し修正が可能です。また、このコードの異なるバージョンを作成しました。これらは、Ammann-Beenkerタイリングやフィボナッチタイリングに基づいており、有限空間トーラス、離散スピンシステム、あるいは任意の空間次元に適用可能です。この研究は、量子コンピューティング、凝縮物理学、そして量子重力といった分野とのつながりを探っています。
——————————
【ニュース】2024-03-27 Appleの年次開発者会議「WWDC2024」は6月10日から ヒントは「AI」 https://www.itmedia.co.jp/news/articles/2403/27/news104.html
Appleは、毎年恒例の開発者向け会議「WWDC2024」を6月10日から14日にかけてオンラインで実施すると発表しました。この会議は無料で参加でき、開発者や学生は事前申し込みをすることで、リアルイベントにも参加可能です。2024年のWWDCのヒントとして、AI(人工知能)が大きな役割を果たすことが示唆されており、Appleの幹部がこの点を強調しています。Appleは過去にもAIに関する研究を行っており、特に生成AIに関しては、詳細を年内に公開すると発表しています。これは、技術的な進歩や新機能の実装に対する期待を高めています。WWDC2024では、iOS、macOS、watchOS、visionOSの新しいバージョンが発表されると予想されており、特にiOS 18にはAIをベースとした新しい機能が搭載されると噂されています。
——————————
【開発技術】 2024-03-26 “業務で使えるかもしれない…!?GitHub Actions の Tips 集 / CI/CD Test Night #7” https://speakerdeck.com/ponkio_o/cd-test-night-number-7
——————————
【LLM新技術】RAFT: Adapting Language Model to Domain Specific RAG https://arxiv.org/abs/2403.10131
現在、大量のテキストデータを使って学習させた大規模言語モデル(LLM)を使うことが一般的ですが、これらのモデルに最新の知識や特定の分野の知識をどう組み込むかは、解決されていない課題です。この研究では、「Retrieval Augmented FineTuning (RAFT)」と呼ばれる新しい訓練方法を提案しており、この方法を使うことでモデルが特定の分野の質問に「オープンブック」形式でより正確に答えられるようになります。RAFTは、質問に関連するドキュメントの中から質問に答えるのに役立つ情報のみを選んで利用し、質問に関係ない情報を持つドキュメントを無視するようにモデルを訓練します。この手法により、モデルは質問に対する答えを導くためのロジックをよりうまく組み立てることができ、推論能力が向上します。RAFTを用いることで、PubMed、HotpotQA、Gorillaといった特定のドメインのデータセットにおいて、モデルのパフォーマンスが一貫して向上しました。RAFTの訓練手法のコードとデモは、公開されており、自由にアクセスして使用することが可能です。
——————————
【動画生成AI】2024-03-27 “OpenAI Sora に使われる技術” https://zenn.dev/elith/articles/8567f55b655d0c
Soraの動画生成プロセスは、まず動画を低次元の潜在空間に圧縮することから始まります。この圧縮は、動画のデータ量を効率的に扱えるようにするために必要です。圧縮されたデータは、潜在空間と呼ばれる高度に抽象化されたデータ表現に変換されます。圧縮された動画データ(潜在空間データ)は、時空間パッチと呼ばれる小さな区切りに分割されます。これは動画を時間軸と空間軸の両方に分けることを意味します。これにより、動画の各フレームが独立したトークンとして扱われるようになります。これらのトークンは、Diffusion-Transformerによって処理されます。Diffusion-Transformerは、拡散モデルとTransformerを組み合わせたアーキテクチャで、拡散モデルによるノイズの段階的な追加と除去のプロセスを学習し、Transformerによって複雑なパターンや関係性を捉えます。このプロセスを通じて、Soraは与えられたテキストや初期フレームなどの入力に基づいて、新しい動画フレームを生成します。動画の生成において、Soraは時間的な連続性だけでなく、視覚的な品質も高いレベルで保持することができます。
——————————
【技術解説】 2024-03-27 “Macで始める画像生成AI 「Stable Diffusion」ComfyUIの使い方 (1/5)” https://ascii.jp/elem/000/004/190/4190538/
2024/3/26のピックアップ
【ニュース】 2024-03-25 EU leaders showcase quantum technology ambitions after signing landmark pact https://qt.eu/news/2024/2024-03-22_eu-leaders-showcase-quantum-technology-ambitions-after-signing-landmark-pactEUのリーダーたちは、「量子パクト」という重要な協定に署名することで、量子技術に関する野心を表明しました。この協定は、EUが科学と産業の競争力において量子技術の重要性を認識し、ヨーロッパを世界の「量子の谷」にすることを目指します。「ヨーロッパの量子未来を形成する」という会議では、加盟国の代表や特別ゲストがこの宣言を公式に祝いました。EUの内部市場担当コミッショナーであるティエリー・ブルトン氏は、このパクトの署名を、ヨーロッパの量子技術の未来を形成する上での歴史的な一歩であると賞賛しました。この協定は、ヨーロッパの20の国々の代表によって署名され、ヨーロッパ全体で量子技術のコラボレーションとイノベーションを推進することを目的としています。会議では、ベルギー量子サークルという新しいイニシアチブが発表され、ベルギー内およびヨーロッパ全体での量子技術に関するコラボレーションとイノベーションをさらに促進することを目指しています。
——————————
【国内ニュース】 2024-03-26 スターリンクをソーラー発電所の草刈り機自動運転に活用 ドコモら3社 https://www.watch.impress.co.jp/docs/news/1579301.html
——————————
【科学技術】 2024-03-26 カニの殻が半導体や蓄電池に利用できる可能性。東北大らが発見 https://pc.watch.impress.co.jp/docs/news/1579244.html
——————————
【AIエージェント】 2024-03-26 OSSプロジェクト「Devika」登場 全自動でゲームもつくれる完全自律型AIエンジニア「Devin」超え目指す【技術紹介】 https://levtech.jp/media/article/column/detail_404/
「Devika」とは、GitHubで公開されているプログラミングを自動で行うためのシステムです。このシステムは、プログラミング作業を効率的に行うAI「Devin」を基に開発されました。「Devin」は、プログラムのコードを自動で生成したり、プログラムの誤り(バグ)を見つけ出したりする能力を持っています。また、「Devin」はプログラミングにおける問題を自身で解決することができ、ウェブサイトの開発や公開(デプロイ)も可能です。性能はSWE-benchというテストで他の類似モデルよりも優れていることが確認されています。「Devika」の構造は、ユーザーインターフェース、中核となるエージェント、言語モデル、計画・推論エンジンなど、様々な部分から成り立っており、これらが連携して高度なプログラミングを可能にします。このプロジェクトは、外部からの貢献を歓迎しており、コラボレーションや議論を行うためのDiscordサーバーが用意されています。
——————————
【AIと法律・規制】Commission opens non-compliance investigations against Alphabet, Apple and Meta under the Digital Markets Act https://ec.europa.eu/commission/presscorner/detail/en/ip_24_1689
欧州委員会は、Google PlayでのGoogleによる消費者誘導ルールやGoogle Searchでの自己優遇、AppleのApp Storeでの消費者誘導ルールやSafariの選択画面、そしてMetaの「支払うか同意するか」モデルについて、デジタル市場法(DMA)の遵守状況に関する非遵守調査を開始しました。これらの調査は、これらの大手IT企業がDMAに基づく義務を遵守しているかどうかを評価するためのものです。DMAは、デジタルセクターにおける公平で競争的な市場を確保することを目的としています。Appleに関しては、iOS上でのソフトウェアアプリケーションの簡単なアンインストールやデフォルト設定の変更、iPhone上でのブラウザーや検索エンジンなどの代替デフォルトサービスを選択するための選択画面の提示に関する措置が調査されています。Metaの「支払うか同意するか」モデルは、ユーザーが個人データの組み合わせや異なるコアプラットフォームサービス間での使用に同意する場合にのみ適用されるモデルで、DMAの要件に違反しているかどうかが調査されています。調査の結果、これらの企業がDMAの要件を完全に満たしていないと判断された場合、欧州委員会は企業に対して重い罰金を課す可能性があります。
——————————
【ニュース】 2024-03-26 AI分野でのNVIDIA一強状態を崩すためにIntel・Google・富士通・Armなどが参加する業界団体がCUDA対抗のAI開発環境を構築中 https://gigazine.net/news/20240326-ai-software-uxl-foundation-break-nvidia/
NVIDIAがAI開発の分野で使用されるGPUと開発環境CUDAで大きなシェアを獲得していることに対抗するため、IntelやGoogle、富士通、Armをはじめとするテクノロジー企業が「Unified Acceleration Foundation (UXL Foundation)」を設立しました。この団体は、よりオープンで多様なハードウェアに対応可能なソフトウェア開発環境を構築することを目指しており、Intelが開発をリードする「oneAPI」を基にしています。CUDAはNVIDIAのGPUに特化しているため、開発者はNVIDIAのGPUを選択せざるを得ない状況がありました。しかし、UXL Foundationが目指すoneAPIは、異なる種類のプロセッサ(CPUやGPUなど)に対応し、オープンソースで開発されています。2024年上半期には、この新しい開発環境の仕様が確定する予定であり、多くの企業からの技術的な貢献を受けています。これにより、開発者がNVIDIA以外の選択肢を持てるようになることを目指しています。
——————————
【新サービス】2024-03-26 NTT版LLM「tsuzumi」サービス開始 軽量でも日本語処理はGPT-3.5超え https://www.watch.impress.co.jp/docs/news/1578993.html
NTTが「tsuzumi」という名前の大規模言語モデルを開発し、企業向けにそのサービスを開始しました。このモデルは、日本語を含む複数の言語に対応し、特に日本語の処理能力が非常に高いことが特徴です。「tsuzumi」は、他の類似モデルと比較して非常に小さく軽量でありながら、高い性能を持っています。これにより、企業が自社のセキュリティ環境内で容易に導入し、運用することができます。日本語における処理能力は、他のモデルよりも優れているとされ、日本語のテキスト処理における新しい可能性を提示しています。NTTは、このモデルを活用して、顧客対応の改善、従業員の業務効率の向上、ITシステム運用の自動化といった分野でソリューションを提供開始しました。これにより、企業は顧客サービスの質の向上や、内部業務の効率化、システム管理の負担軽減など、様々な利点を得ることが期待されます。
——————————
【LLM新技術】LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression https://arxiv.org/abs/2403.12968
Microsoftの研究チームはプロンプトをどのように短く(圧縮して)するかに焦点を当てています。目的は、AIが様々なタスクに一般化して対応できるようにしながら、処理速度を向上させることです。従来のプロンプト圧縮手法では、言語モデルが生成する情報のエントロピーを基にしてプロンプトを短くしていました。しかし、この方法では一方向の文脈しか考慮しておらず、プロンプト圧縮に必要な全ての情報を捉えられないこと、また圧縮の目標とエントロピーが必ずしも一致しないため、最適な圧縮が行えない可能性がありました。研究チームは、大規模言語モデルから情報を抽出する「データ蒸留」という方法を用いて、必要な情報を失わずにプロンプトを圧縮する新しい手法を提案しました。また、プロンプト圧縮をトークンの分類問題として扱い、トランスフォーマーエンコーダを用いて双方向の文脈から必要な情報を抽出します。この方法では、XLM-RoBERTa-largeやmBERTといった比較的小さなモデルを使用して、圧縮の目標を直接学習することで、処理速度の向上を実現します。この手法をいくつかのデータセットで評価したところ、従来の方法と比較して優れた性能を示し、異なる大規模言語モデルに対しても堅牢に機能することが示されました。また、この手法は既存のプロンプト圧縮方法に比べて3倍から6倍速く、エンドツーエンドの処理遅延を1.6倍から2.9倍加速し、圧縮比は2倍から5倍に達しました。
2024/3/25のピックアップ
【科学技術】 2024-03-24 Neuronal dynamics direct cerebrospinal fluid perfusion and brain clearance https://www.nature.com/articles/s41586-024-07108-6
代謝廃棄物の蓄積が神経系障害の主な原因とされていますが、脳がどのように自己浄化するかについては、まだ完全には理解されていません。神経ネットワークがアクションポテンシャル(神経細胞が情報を伝達するために発生する電気的信号)を同期させることで、脳の間質液中に大振幅の波動を発生させ、これがグリンパティック流(脳内の廃棄物排出システム)の活性化に寄与しています。ケモジェネティクス(薬物を用いて特定の神経細胞の活動を制御する技術)によるイオン波の活動の抑制は、脳脊髄液の脳実質への浸透や廃棄物の除去を阻害します。光遺伝学(光を使って特定の神経細胞の活動を制御する技術)により生成された波は、脳脊髄液の脳実質への浸透を促進し、より効果的な脳の清浄化を可能にします。ニューロンが脳の清浄化プロセスにおいて中心的な役割を果たし、脳の大規模な波動の理解に新たな枠組みを提供することが示されました。
——————————
【その他】 2024-03-24 オブジェクト指向宗教史 https://speakerdeck.com/tanakahisateru/obuziekutozhi-xiang-zong-jiao-shi
——————————
【LLM新技術】 2024-03-25 Natural language instructions induce compositional generalization in networks of neurons https://www.nature.com/articles/s41593-024-01607-5
人は言語の指示を受けて、経験がない新しいタスクもこなせますが、その背後にある脳の働きはまだ十分には解明されていません。言語処理技術の発展を利用して、言語指示による一般化能力を持つ神経モデルを開発しました。このモデルは、様々な心理物理学タスクでトレーニングされ、事前にトレーニングされた言語モデルからの指示をもとに作業します。最も優れたモデルは、言語指示だけを頼りに初めて見るタスクを平均83%の精度で解決できます。言語はセンサーモータ表現の支えとなり、タスク間の関係性を幾何学的に共有し、新しい状況でのスキル組み合わせの手がかりとして機能します。モデルは、未知のタスクを言語で記述し、それをもとに他のモデルがそのタスクを実行する手助けをする方法も示しています。提案されたモデルは、言語情報がどのように脳内で表され、どのようにして一般的な認知を促進するかについて、実験で検証可能な予測を提供します。
——————————
【AIと法律・規制】 2024-03-25 PHOTOS: Gov. Lee Signs ELVIS Act Into Law https://www.tn.gov/governor/news/2024/3/21/photos–gov–lee-signs-elvis-act-into-law.html
米国のテネシー州知事がAIによる音楽業界の不正使用から保護する新法「ELVIS法案」に署名しました。この法律は、AIが生成する声の不正使用からソングライターやパフォーマーを保護します。テネシー州の音楽産業は、多くの雇用を生み出し、経済に大きく貢献しています。以前の法律は、人間の声や画像を無許可で使用するAI技術を具体的にはカバーしていませんでした。新法「ELVIS法案」により、音楽産業の専門家の「声」も保護されることになりました。
——————————
【ニュース】 2024-03-25 中国政府がIntelおよびAMD製チップの使用をやめる方針、「安全で信頼できる」中国企業製品へ置き換えへ https://gigazine.net/news/20240325-china-blocks-use-of-intel-and-amd-chips/
——————————
【ニュース】 2024-03-25 “「Stable Diffusion」のStability AI、モスタクCEOが辞任” https://www.itmedia.co.jp/news/articles/2403/25/news080.html
——————————
【その他】 2024-03-25 “「会議で話されている内容と、ソースコードが全然違う」〜イオン発の“新ネットスーパー”リリース直前の1年間を語る|イオンネクストCTOインタビュー |AEON TECH HUB” https://engineer-recuruiting.aeon.info/aeon-tech-hub/cto-interview_taruishimasato
——————————
【国内ニュース】 2024-03-25 “はてなへのログインがパスキーと多要素認証に対応し、よりセキュアになりました – はてなの告知” https://hatena-announce.hatenastaff.com/entry/2024/03/25/120000
——————————
【LLMの活用】 2024-03-25 “Engineering household robots to have a little common sense” https://news.mit.edu/2024/engineering-household-robots-have-little-common-sense-0325
MITのエンジニアリングチームが開発した新しい方法により、家庭用ロボットは、例えば床の拭き掃除や食事の提供など、より複雑な家事タスクをこなすことができるようになりました。これらのロボットは、人間の動作を模倣することで学習しています。しかし、ロボットがトレーニングされたパスから外れた状況に直面した場合に、常識を持って対処するようにするために、MITのエンジニアはロボットの動作データと大規模言語モデル(LLM)の「常識知識」を接続する方法を開発しました。このアプローチでは、ロボットが家庭のタスクをサブタスクに論理的に分割し、サブタスク内での障害に物理的に適応して、タスクを最初からやり直すことなく進めることが可能になります。これにより、エンジニアが途中で発生する可能性のある全ての失敗に対して修正をプログラムする必要がなくなります。この方法により、ロボットは、赤いビー玉を別のボウルに移すというタスクを実施中に研究者によって頻繁に中断されたにも関わらず、最終的に成功することができました。
——————————
【LLMの活用】 2024-03-25 “Large language models use a surprisingly simple mechanism to retrieve some stored knowledge” https://news.mit.edu/2024/large-language-models-use-surprisingly-simple-mechanism-retrieve-stored-knowledge-0325
大規模言語モデル(LLM)は、ChatGPTのような人気のある人工知能チャットボットを動かすために使用されていますが、これらのモデルがどのように機能しているかはまだ完全には理解されていません。MITの研究チームは、これらの巨大な機械学習モデルが保存された知識をどのように取り出すかを理解するために、モデルが動作するメカニズムを調査しました。その結果、LLMは線形関数という非常にシンプルな方法を使用して、保存された事実を取り出していることが分かりました。線形関数とは、2つの変数の間の直線的な関係を表す方程式です。この発見により、研究者はモデルが新しい主題について何を知っているかを探ることができ、その知識がモデルのどの部分に保存されているかを特定することが可能になります。この研究は、LLMが間違った回答をする傾向を減らすために、モデル内の不正確な情報を見つけて修正する新しい方法を提供するかもしれません。
——————————
【開発技術】2024-03-24 AWS構成図についてのLT https://speakerdeck.com/k5k/awsgou-cheng-tu-nituitenolt
——————————
【技術まとめ】 2024-03-25 “プログラミング支援AIサービスまとめ。GitHub Copilot、AWS CodeWhispererなど11種類(2024年3月版)” https://www.publickey1.jp/blog/24/aigithub_copilotaws_codewhisperer1120243.html
2024/3/24のピックアップ
【やってみた・つくってみた】 2024-03-24 “GPT-4とClaude 3 Opusを創作系のタスクで比較し、相互に評価させる|oshizo” https://note.com/oshizo/n/nfc5652fdd5a1
——————————
【技術解説】 2024-03-24 SparseなDNNモデルの分散学習 https://speakerdeck.com/pfn/20231220_wandb_pfn_sparse_dnn
——————————
【新サービス】2024-03-23 “論文PDFファイルの可読性を劇的に向上させるGoogle公式Chrome拡張機能「Google Scholar PDF Reader」レビュー” https://gigazine.net/news/20240323-google-scholar-pdf-reader/
→ Supercharge your PDF reading: Follow references, skim outline, jump to figures https://scholar.googleblog.com/2024/03/supercharge-your-pdf-reading-follow.html?m=1
Google Scholarによる新しいPDFリーダーが発表されました。これは研究論文を読む際の使いやすさを大幅に向上させるツールです。テキスト内の引用がクリック可能なリンクに変わり、引用された記事の概要をすぐに見ることができるようになります。自動生成された目次を通して、目的のセクションへ簡単にナビゲートでき、図表へのリンクも同様に直接ジャンプできます。引用をコピーしたり、後で引用するために参考文献管理ツールに保存したりする機能があります。読んでいる論文に関連する記事や引用記事を検索する機能も付加されています。目に優しいディスプレイテーマを選択することが可能で、これはChromeブラウザの拡張機能として提供されています。
2024/3/23のピックアップ
【LLM新技術】2024-03-22 Googleなど、API経由でブラックボックスLLMの隠れ次元数を特定できる脆弱性を示す ※OpenAI社はこれを受け対策済み https://ai-data-base.com/archives/66085
→ Stealing Part of a Production Language Modelhttps://arxiv.org/abs/2403.06634
ブラックボックス状態の本番環境言語モデルから、具体的で重要な情報を抽出するための最初の攻撃方法を紹介しています。これは、OpenAIのChatGPTやGoogleのPaLM-2のようなモデルを対象としています。この攻撃は、APIアクセスを通じてトランスフォーマーモデルの埋め込み投影層を抽出することができます。これはモデルの一部で、データの次元削減や特徴抽出に関連しています。この方法で、20米ドル未満のコストでOpenAIのAdaとBabbageの全投影行列を取得し、これらのモデルがそれぞれ1024と2048の隠れ次元を持つことを初めて明らかにしました。また、gpt-3.5-turboモデルの隠れ次元サイズを正確に特定し、全投影行列を抽出するコストは2,000米ドル未満であると推測しています。
——————————
【新サービス】 2024-03-22 “AI音声合成ソフト「VoiSona Talk」が正式公開 ~女性ボイス「田中傘」とともに無償提供/同社のAI歌唱ソフト「VoiSona」をベースにした読み上げツール” https://forest.watch.impress.co.jp/docs/news/1578395.html
——————————
【スキルアップ】 2024-03-23 “GitHub、「GitHub Copilot」の活用方法や組織への展開方法を学べるコースを無料公開” https://atmarkit.itmedia.co.jp/ait/articles/2403/23/news046.html
2024/3/22のピックアップ
【DL技術】2024-03-21 “Modeling Extremely Large Images with xT” http://bair.berkeley.edu/blog/2024/03/21/xt/ コンピュータビジョンの分野において、大きな画像を扱う際に直面する問題を解決するための新しいフレームワーク「xT」が紹介されました。xTは、大きな画像を小さな部分に階層的に分割し、各部分を個別に理解した上で、それらを大きな画像として統合するアプローチを採用しています。このプロセスは「ネステッドトークン化」と呼ばれ、画像をトークンに分割し、さらにサブリージョンに分割して詳細を把握します。xTはリージョンエンコーダーとコンテキストエンコーダーという二つのエンコーダーを使い、画像のローカルな詳細とグローバルな文脈を統合します。実験では、iNaturalist 2018での細かな種類分類、xView3-SARでのコンテキスト依存のセグメンテーション、MS-COCOでの検出など、様々なベンチマークタスクにおいて高い精度を達成しました。
——————————
【つかってみた・やってみた】 2024-03-21 “Claude3とAzure AI Document Intelligenceを使ってドキュメント読み取りの精度をあげてみた” https://dev.classmethod.jp/articles/fix-claude3-text-recognition-mistake-with-azure-document-intelligence/
——————————
【ニュース】 2024-03-22 米司法省、アップルを提訴 スマホ市場の独占を指摘 https://www.watch.impress.co.jp/docs/news/1578172.html
——————————
【新サービス】2024-03-21 “アドビ、Substance 3DにFirefly搭載 3Dモデルのテクスチャを生成AIで” https://www.watch.impress.co.jp/docs/news/1578088.html ——————————
【AIツール】 2024-03-22 “GaLore – 家庭用ハードウェアでの大規模モデルの学習” https://note.com/npaka/n/n8e4537502e3e
→ GaLore: Advancing Large Model Training on Consumer-grade Hardware https://huggingface.co/blog/galore
GaLoreは、大規模言語モデル(LLMs)を低コストのハードウェアで効率的にトレーニングすることを可能にする技術です。これにより、AI研究の範囲が広がり、より多くの研究者や実践者が先進的なAIモデルのトレーニングを行うことが可能になります。この技術の特徴は、トレーニングプロセス中のオプティマイザー状態や勾配に関連するメモリ要件を大幅に削減することにあります。具体的には、勾配の低ランク構造を利用して、保存および操作が必要なデータの次元を減少させます。GaLoreは、低次元部分空間に勾配を投影することで、オプティマイザー状態のメモリフットプリントを削減します。これにより、同じメモリ制約内でより大きなモデルをトレーニングするか、より大きなバッチサイズを使用することが可能になります。トレーニング中に異なる低ランク部分空間を動的に切り替えることで、モデルがパラメータ空間の限定された部分に閉じ込められることなく、フルパラメータ学習の能力を維持します。GaLoreを8ビット精度のオプティマイザーと組み合わせることで、メモリ効率を最大化し、トレーニングプロセスの品質を保ちながら、大規模なモデルのトレーニングが可能になります。
——————————
【新サービス】 2024-03-22 “AI作曲サービス「Suno」、無料ユーザーにも高品質版V3を開放。1日20曲、1曲2分が生成可能(CloseBox) | テクノエッジ TechnoEdge” https://www.techno-edge.net/article/2024/03/22/3020.html
——————————
【その他】 2024-03-22 “[python / pandas] DataFrame を扱う人が覚えておきたい、ちょっとレアな便利技16選 – Qiita” https://qiita.com/siruku6/items/4bd337d80d7aaceae542
——————————
【新サービス】 2024-03-22 GitHub、脆弱性のあるコードの自動修正機能発表。AIボットが修正済みコードと解説をプルリクエスト https://www.publickey1.jp/blog/24/githubai.html
——————————
【AIの活用】 2024-03-22 Googleが洪水を1週間前に予測し世界80カ国4億6000万人を水害から救えるAIを発表 https://gigazine.net/news/20240322-google-ai-global-flood-forecasting/
→ Global prediction of extreme floods in ungauged watersheds https://www.nature.com/articles/s41586-024-07145-1
この研究は、特に開発途上国のように、流量計が密に配置されていない地域での洪水予測の改善に焦点を当てています。これらの地域は、洪水の影響を最も受けやすいにもかかわらず、正確な洪水警報を得るための十分なインフラを持っていません。AI技術を用いて、未計測流域での極端な洪水イベントを最大5日前までに予測できるようになり、これは現在の技術よりも進んでいます。これにより、早期警報が可能となり、洪水リスクの軽減につながります。さらに、このAIモデルは80カ国以上でリアルタイムに公開されており、無料でアクセス可能な早期警報システムを提供しています。これにより、多くの人々が洪水リスクから守られる可能性が高まります。
——————————
【DL技術】 2024-03-21 “AI generates high-quality images 30 times faster in a single step” https://news.mit.edu/2024/ai-generates-high-quality-images-30-times-faster-single-step-0321 MIT CSAILの研究者たちは、従来の反復的なプロセスを必要とする伝統的な拡散モデルを単一のステップに単純化する新しいフレームワークを紹介しました。このアプローチは、配布マッチング蒸留(DMD)と呼ばれ、生成された画像の品質を維持しつつ、画像生成を大幅に高速化します。この革新的な方法は、生成的敵対ネットワーク(GAN)の原理と拡散モデルの原理を組み合わせることで、現在の拡散モデルに比べて30倍の速度で視覚コンテンツの生成を可能にします。DMDフレームワークは、既存のモデルから新しいモデルに知識を移転する教師-学生モデルのタイプを利用します。これにより、より複雑なオリジナルのモデルを模倣する新しいコンピューターモデルを教育します。DMDは回帰損失と配布マッチング損失の2つのコンポーネントを利用します。回帰損失は、学習をより安定させるために画像の空間を粗く整理するためのマッピングをアンカーにするのに使われ、配布マッチング損失は、生成された画像が実際に起こる確率に対応するようにします。
——————————
【ニュース】 2024-03-22 国連がAIに関する初の世界決議を全会一致で採択、個人情報の保護・AIのリスク監視など https://gigazine.net/news/20240322-un-general-assembly-resolution-on-ai/
→ General Assembly adopts landmark resolution on artificial intelligence https://news.un.org/en/story/2024/03/1147831
国連総会は、「安全で安心し、信頼できる」人工知能(AI)システムの促進に関する画期的な決議を採択しました。この決議は、持続可能な開発にも貢献します。決議は、AIの設計、開発、展開、使用における人権の尊重、保護、促進を強調しています。このテキストは、120以上の他の加盟国によって「共同提案」または支持されました。国連総会は、AIシステムが持続可能な開発目標(SDGs)の17に達するための進歩を加速し、可能にする潜在能力を認識しています。すべての加盟国と関係者に対し、国際人権法に準拠して運用することが不可能であるか、人権の享受に不当なリスクをもたらすAIシステムの使用を控えるか中止するよう呼びかけています。また、国連総会は、AIの安全で安心し、信頼できる使用に関連する規制およびガバナンスアプローチとフレームワークを開発し、支援するよう全ての国、民間部門、市民社会、研究機関、メディアに促しています。
2024/3/21のピックアップ
【開発技術】 2024-03-21 “HTMLにカスタム要素を実現する標準技術Web Components。事例をもとに技術特徴を解説” https://levtech.jp/media/article/column/detail_403/
Web Componentsは、HTMLに新しいタグを追加できる技術(API群)です。WHATWGが定めるHTML Living Standardに基づき、ブラウザは動作しますが、個人が新しいタグを作りたくても標準では対応していません。ReactやVueのようなライブラリを使い、コンポーネント指向で独自のタグを作る試みがありますが、これらは特定のライブラリに依存するため、学習コストが発生します。Web Componentsはカスタム要素、シャドウDOM、テンプレートHTMLの3つの技術で構成され、標準化された方法でカスタム要素を作成できます。カスタム要素を作るには、JavaScriptで動作を定義し、HTMLでそのコードを使ってタグとして記述します。2011年に提案されたWeb Componentsは、各ブラウザで段階的に実装されてきました。Web Componentsを扱うためのライブラリには、Litがあり、カスタム要素の作成をより簡単にします。Ionic FrameworkはWeb Componentsを利用したUIツールキットで、ReactやVueとWeb Componentsを組み合わせて使うこともできますが、相互運用には注意が必要です。
——————————
【LLM新技術】Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews https://arxiv.org/abs/2403.07183
Weixin Liangらは、LLMによって大幅に修正または生成された可能性があるテキストの割合を推定する手法を提案しています。専門家が書いた参照テキストとAIが生成した参照テキストを活用する最大尤度モデルを用いて、実世界でのLLMの使用状況を効率的かつ正確に評価できます。この手法を、ChatGPTのリリース後に行われたAIカンファレンスの科学的なピアレビュー(ICLR 2024, NeurIPS 2023, CoRL 2023, EMNLP 2023)のケーススタディに適用しました。結果として、これらのカンファレンスに提出されたピアレビューのテキストのうち、6.5%から16.9%がLLMによって大幅に修正された可能性があることが示唆されました。これは、スペルチェックや軽微な文章の更新を超える修正です。LLMで生成されたテキストが発生する状況から、ユーザー行動についての洞察が得られます:LLMで生成されたテキストの推定割合は、自信が低いレビュー、締切間際に提出されたレビュー、著者の反論に応答しない可能性が高いレビュアーで高くなります。また、個々のレベルでは検出が難しい可能性がある生成テキストのコーパスレベルでのトレンドを観察し、ピアレビューに与える影響について考察しています。
——————————
【国内ニュース】物流センター初!東京流通センターに「LUUP」のポートを導入 https://luup.sc/news/2024-03-21-trc/
株式会社Luupは、東京流通センター(TRC)の敷地内に電動マイクロモビリティのシェアリングサービス「LUUP」のポートを設置予定です。この取り組みは、物流センターでの従業員の移動効率化を目的としており、物流業界が直面する「2024年問題」の解決に貢献することを目指しています。「LUUP」のサービスは、電動キックボードと電動アシスト自転車を提供し、TRC構内だけでなく、街中のポート間の移動も可能にします。利用料金は、ライド基本料金50円に加え、時間料金は1分あたり15円です。利用にはアプリからの年齢確認書類の登録と交通ルールテストの連続満点合格が必要になります。設置されるポートはTRC構内の複数の場所に予定されており、停車可能台数は合計で約30台前後を見込んでいます。このプロジェクトは、TRCで働く人々の通勤アクセスの向上や、流通センター駅前からテナントの倉庫付近、テナントの倉庫からセンタービルへのアクセス向上など、多くの効果が期待されています。
——————————
【国内ニュース】タクシーアプリを提供するS.RIDE、自動運転技術開発に向けた「モビリティデータサービス」を事業化 https://prtimes.jp/main/html/rd/p/000000167.000036935.html
S.RIDE株式会社は、タクシーアプリ「S.RIDE」を通じて、自動運転の技術開発事業者向けに「モビリティデータサービス」を4月から提供開始します。このサービスでは、実際に公道を走行しているタクシー車両にセンシング機器を設置し、様々な条件下での走行データを収集・提供します。カスタマイズされたセンシング機器の設置を通じて、顧客の開発要件に合わせたデータ収集が可能です。これにより、自動運転技術の進化への貢献と、自動運転社会の実現を目指しています。自動運転EV開発を行うTuring株式会社と大和自動車交通株式会社との共同プロジェクトでは、実際のタクシー車両にデータ収集キットを設置し、2024年1月から2月にかけて公道走行データの収集を行いました。収集されたデータは、チューリング社による完全自動運転技術の基盤モデル開発に利用される予定です。
——————————
【LLM新技術】進化的アルゴリズムによる基盤モデルの構築 https://sakana.ai/evolutionary-model-merge-jp/
Sakana AIは、自然界の進化や集合知に着想を得て、コンピュータ上でモデルを進化させる手法で基盤モデルの開発を進めています。「進化的モデルマージ」とは、多様な機能を持つ様々なオープンソースモデルを組み合わせ(マージして)、新しいモデルを作り出す方法です。進化的アルゴリズムを使って、これらの組み合わせ方を探索し、最適な方法を見つけ出します。進化的アルゴリズムは、生物の進化を模倣したアルゴリズムで、多くの可能性の中から最適なものを選び出すことができます。このアプローチにより、人間では思いつかないような新しいモデルの組み合わせ方を発見できるようになります。実験では、日本語で数学的推論が可能な言語モデル(EvoLLM-JP)、日本語で対話可能な画像言語モデル(EvoVLM-JP)、高速な日本語画像生成モデル(EvoSDXL-JP)を開発しました。これらのモデルは、特定の能力において従来のモデルを超える性能を示しています。進化的アルゴリズムを使うことで、従来のモデル開発方法に比べて、新しいモデルを効率的かつ自動的に生成することが可能になります。これにより、大規模な計算資源やデータを必要とせずに、新しい基盤モデルを開発できるようになります。今回の成果は進化的アプローチを使った基盤モデル開発の初歩的なステップであり、今後もこの分野の研究を進めていく予定です。
——————————
【新しいLLM】楽天、日本語に最適化したオープンかつ高性能なLLMを公開 https://corp.rakuten.co.jp/news/press/2024/0321_01.html
楽天が公開した「Rakuten AI 7B」は、日本語と英語の大量のインターネットデータを使って事前学習された、70億パラメータを持つ言語モデルです。フランスのAIスタートアップMistral AI社のオープンモデル「Mistral-7B-v0.1」をベースとしています。この事前学習は、楽天の高性能GPUクラスター上で行われ、高速かつ大規模なデータセットでの学習が可能になりました。さらに、インストラクションチューニングとは、モデルに特定の指示に従うように学習させるプロセスのことで、これにより「Rakuten AI 7B Instruct」モデルが生成されました。また、チャットモデルは会話形式のデータを使ってさらにファインチューニングされ、自然な対話生成が可能になります。このモデルシリーズは高品質なデータの使用と楽天独自の技術である形態素解析器を利用し、日本語テキストの処理効率を高めています。全モデルはHugging Faceリポジトリからダウンロード可能で、文章生成、要約、質問応答などの様々なNLPタスクに使用できます。これらのモデルは商用目的でも使用でき、また、基盤モデルとして他のモデルの開発にも役立ちます。
——————————
【LLMの活用】Software Vulnerability and Functionality Assessment using LLMs https://arxiv.org/abs/2403.08429
ソフトウェア開発におけるコードレビューは重要ですが、手間とコストがかかる作業です。この研究では、コードレビューの過程で大規模言語モデル(LLM)がどのように役立つかを調べています。コードにセキュリティ脆弱性がないかをチェックし、ソフトウェアが設計通りの機能を果たしているかを検証することが、良いレビューの基本と考えられています。研究者たちは、コード生成に関する既存のデータセットと、セキュリティ脆弱性を含むコード例を使用し、LLMがこれらのタスクにどれだけ有効かをテストしました。使用されたプロンプティング技術には、事前にトレーニングされた知識だけを使用するゼロショットと、複数のステップを経て問題解決を試みるチェーン・オブ・ソートがあります。OpenAIの独自モデルと、一般に利用可能な小規模なLLMを比較した結果、OpenAIのモデルが大きなマージンで優れていることが明らかになりました。さらに、モデルにセキュリティ脆弱性についての詳細な説明を提供させたところ、生成された説明の約36.7%が実際のCWE脆弱性と一致することが示されました。これは、LLMがセキュリティ脆弱性の識別と説明においても有用である可能性を示唆しています。
——————————
【新サービス】 2024-03-21 “「iPhoneで空間スキャン」に本命あらわる 無料アプリ「Scaniverse」が3D Gaussian Splattingに対応” https://www.itmedia.co.jp/news/articles/2403/21/news151.html
「Scaniverse 3.0」は、3D空間スキャンを行うためのアプリで、最新の技術「3D Gaussian Splatting」によって、より高品質なスキャン結果を得ることができるようになりました。これは、以前は高度なグラフィック処理能力を必要としていた作業を、スマートフォンで処理できるようにする大きな進歩を示しています。3D Gaussian Splatting技術は、画像から3Dの情報を再構築する際に、実際には存在しないモヤ(ゴースト)が出てくるという問題を解決します。これにより、よりクリアで正確な3Dモデルを作成できます。特に、この技術は光の反射や光沢のある表面など、従来の3Dスキャン技術では難しかった部分の処理に強みを持っています。Scaniverseアプリは、この処理をスマートフォンのローカルで完結させることができるため、ユーザーは高品質な3Dスキャンをいつでもどこでも行うことが可能になります。また、Nianticによる買収後、Scaniverseアプリの全機能が無料で提供されるようになり、より多くのユーザーがこの先進的な3Dスキャン技術を利用できるようになりました。
——————————
【LLM新技術】What Was Your Prompt? A Remote Keylogging Attack on AI Assistants https://arxiv.org/abs/2403.09751
AIアシスタントからの通信が安全に行われているかの問題を扱っているこの研究では、「トークン長サイドチャネル」という新しい問題点を指摘しています。これは、通信が暗号化されていても、トークン(AIが生成するテキストの単位)の長さのパターンを解析することで、送信されたメッセージの内容をある程度推測できるというものです。ただし、この情報だけではメッセージの内容を完全に解読するのは困難です。そこで研究者たちは大規模言語モデル(LLM)を活用し、推測を行う新しい技術を開発しました。これには、LLMを使ってトークン長のシーケンスから実際の言葉へと翻訳する作業、コンテキスト情報を用いて可能性のある応答を絞り込む作業、そして特定のライティングスタイルへのモデルのファインチューニングを含みます。実験では、この技術を使ってAIアシスタントの応答の約3割を再構築し、半分以上の応答からは話題を正確に推測することができました。
——————————
【データ基盤】Siglens 1025x faster than elasticsearch https://www.siglens.com/blog/siglens-1025x-faster-than-elasticsearch.html
SigLensは、大量のデータを効率的に扱うために特化した列指向データベースで、特にログデータや監視データなどの分析を行う際に、その処理速度と効率性で大きな利点を提供します。SigLensとElasticsearchの間でNYC Taxi Datasetを使用した性能テストが行われ、SigLensが大幅に高速な結果を出しました。このデータセットはニューヨーク市のタクシーやUberによる10億回以上の旅行記録を含んでいます。テストは、同じハードウェア設定、同じデータセット、同じクエリセットを使用して実施されました。4つの異なるクエリがテストに使用され、データのインジェストとクエリの処理に関する詳細なステップが提供されています。Elasticsearchは分散型検索エンジンであり、SigLensは観測データのためにゼロから構築された列指向データベースです。SigLensは列毎の動的圧縮や列毎の微細インデックスを使用しており、AgileAggregationTreeアルゴリズムを採用して高速な集約クエリを実現しています。テストの結果、SigLensはすべてのクエリタイプでElasticsearchよりも大幅に高速であることが示されました。これにより、複雑なデータセットに対するフィルタや集約クエリを高速に実行することが可能になります。
2024/3/20のピックアップ
【AI の活用】2024-03-20 “TacticAI: an AI assistant for football tactics” https://deepmind.google/discover/blog/tacticai-ai-assistant-for-football-tactics/
TacticAIはGoogle DeepmindとリバプールFCとの共同研究から生まれた、コーナーキック専門のAIシステムです。システムは予測型と生成型のAIモデルを使って、過去のプレイを分析し、将来のプレイを改善するための提案を行います。プレイヤー間の相互作用をグラフとして表現し、幾何学的ディープラーニングを用いることで、限られたデータからも一般化可能な予測を行うことができます。コーチはTacticAIを利用して、戦術を試行し、特定の目的(例えばショット確率の減少)を達成するためにプレイヤーの配置を調整できます。専門家による評価では、実際の戦術に比べてTacticAIの提案が90%の場合で評価されました。
——————————
【LLM新技術】Executing Natural Language-Described Algorithms with Large Language Models: An Investigation https://arxiv.org/abs/2403.00795
自然言語で書かれたコンピュータープログラムを動かすことは、長い間コンピューターサイエンスの目標でした。この論文では、現在のLLMが自然言語で説明されたアルゴリズムをどの程度理解し、実行できるかを探ります。「アルゴリズム入門」という有名な教科書から選ばれた、30の重要なアルゴリズムをテストセットとして用意しました。合計300のランダムな例を作成し、人気のあるLLMがこれらのアルゴリズムをどれだけ理解し実行できるかを評価しました。特にGPT-4のようなLLMは、複雑な数値計算が必要ない場合、自然言語で書かれたプログラムを効率的に実行できることがわかりました。
——————————
【ニュース】Mustafa Suleyman, DeepMind and Inflection Co-founder, joins Microsoft to lead Copilot https://blogs.microsoft.com/blog/2024/03/19/mustafa-suleyman-deepmind-and-inflection-co-founder-joins-microsoft-to-lead-copilot/
AI技術会社DeepMindとInflectionの創業者であるムスタファ・スレイマンとカレン・シモニャンがマイクロソフトに参加しました。新しい「Microsoft AI」という組織が作られ、Copilotや他の消費者向けAI製品と研究の推進を担当します。ムスタファはMicrosoft AIの最高執行責任者(EVP)兼最高経営責任者(CEO)として、カレンは最高科学責任者としてそれぞれの役割を果たします。Inflectionからもいくつかのメンバーがマイクロソフトへの参加を選びました。マイクロソフトは、AI分野でのOpenAIとの戦略的なパートナーシップを継続し、その上にイノベーションを構築します。組織変更により、Copilot、Bing、Edgeを含む複数のチームがムスタファに報告する形になります。ケビン・スコットは引き続き全社のAI戦略を統括する技術責任者(CTO)およびAIの最高執行責任者として活動します。ラジェシュ・ジャはExperiences & Devicesの最高執行責任者として、Microsoft 365用Copilotの開発を進めます。
2024/3/19のピックアップ
【新サービス】 2024-03-19 NVIDIA、GPUプラットフォーム「Blackwell」発表 「兆パラメータ規模のAIモデル実現」 https://www.itmedia.co.jp/news/articles/2403/19/news092.html
→ https://www.nvidia.com/ja-jp/data-center/technologies/blackwell-architecture/
NVIDIAは、AI開発向けの新しいプラットフォーム「Blackwell」を公開しました。このプラットフォームは、非常に大きなAIモデルを扱うことができ、リアルタイムでのデータ生成や処理が可能です。主要な特徴は、「GB200 Grace Blackwell Superchip」で、これは新しいGPU「B200」とGrace CPUを組み合わせたチップです。「B200」は従来のGPUよりも大幅にトランジスタ数が多く、AIの処理能力が5倍向上しています。この新チップのおかげで、以前は8000個のGPUが必要だった大規模AIモデルのトレーニングが2000個で済むようになり、電力消費も大幅に削減されます。「Blackwell」を搭載した製品やサービスは、今年の後半から利用可能になる予定です。これにより、データサイエンティストやAI研究者は、より高度なAIモデルの開発や実験がしやすくなります。
———————————
【新サービス】 2024-03-19 “NVIDIA、「Apple Vision Pro」と「Omniverse」で連携” https://www.itmedia.co.jp/news/articles/2403/19/news159.html
NVIDIAはAppleの最新の空間コンピューティングデバイス「Apple Vision Pro」と連携し、新しいプラットフォームを発表しました。このプラットフォームは、企業の顧客がApple Vision Proを使用して高品質なデジタルツインをリアルタイムで体験できるよう設計されています。「Omniverse Cloud API」と「OpenUSD」という技術を利用することで、NVIDIAのOmniverseプラットフォームをクラウド上でより広く利用できるようになりました。これは、実世界の物体や環境の精密なデジタル複製(デジタルツイン)を作成し、それを様々な目的で使用することを意味します。開発者は、Appleの開発ツールを使って、この新プラットフォームに合わせたアプリケーションを作成できます。これにより、エンドユーザーはApple Vision Proを介してこれらのデジタルツインを視覚的に探索し、対話することが可能になります。
———————————
【人間とAIの未来】2024-03-19 YouTube、生成AIを使ったリアルな動画へのラベル付け義務化開始 https://www.itmedia.co.jp/news/articles/2403/19/news093.html
YouTubeは、AI技術を用いて作られたリアルな動画コンテンツに、それがAIによって生成されたものであることを示すラベルの付与を必須としました。この措置は、視聴者に対してより高い透明性を提供し、AIの使用が明確になるようにするためです。具体的には、実在する人物の顔や声をAIで作成した場合、実際には起こっていない出来事をリアルに描写した場合、リアルに見える架空のシーンを生成した場合などにラベルが必要です。ただし、動画の脚本やキャプションをAIで生成した場合や、明らかにファンタジーな内容の場合は、このルールの適用外となります。YouTubeは、この新ルールに従わないクリエイターに対しては、将来的にコンテンツ削除やYouTubeパートナープログラムからの除外などのペナルティを科すことも考えています。
———————————
【DL技術】 2024-03-19 “New algorithm unlocks high-resolution insights for computer vision” https://news.mit.edu/2024/featup-algorithm-unlocks-high-resolution-insights-computer-vision-0318
「FeatUp」は、MITの研究チームによって開発された新しい技術で、深層学習モデルが画像や動画から「見る」際の解像度を劇的に向上させることができます。これにより、オブジェクトの認識やシーンの解析がより正確になります。一般に、深層学習アルゴリズムは画像を小さな正方形に分割して処理しますが、このプロセスで画像の細かいディテールが失われがちです。FeatUpは、この情報の損失を防ぎ、深層ネットワークの解像度を高めることができます。FeatUpの重要なアプローチは、画像を微妙に変化させ(例えば、少し左右に動かすなど)して、その小さな変化に対するアルゴリズムの反応を観察し、それに基づいて高解像度の特徴マップを生成することです。このアルゴリズムは、オブジェクト検出やセマンティックセグメンテーション(画像内のピクセルにオブジェクトのラベルを割り当てる)、深度推定など、多岐にわたるコンピュータビジョンタスクの性能を向上させることができます。これは、自動運転車から医療画像診断まで、幅広い応用が期待されます。
———————————
【その他生成AI】VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis https://enriccorona.github.io/vlogger/
VLOGGERは、音声とテキストを用いて、単一の画像から話している人物のビデオを生成する技術です。この手法は、確率的拡散モデルを用いた2段階のプロセスで構成され、音声からビデオへの多対多のマッピングをモデリングします。最初のネットワークは、音声波形から中間の身体モーション制御を生成し、次のネットワークはこれらの身体制御を使って対応するフレームを生成します。VLOGGERによって生成されたモデルは、オリジナルの主題の多様な分布のビデオを生成します。背景は固定されているにもかかわらず、全てのビデオがリアルに見えます。主な応用例としては、既存のビデオの編集や、新しい音声に合わせた顔や唇のエリアの編集などがあります。これは、ビデオ翻訳の場面で特に有効です。
———————————
【国内ニュース】2024-03-18 次期マイナンバーカード、デザインを公開 性別は券面記載なし https://www.watch.impress.co.jp/docs/news/1577363.html
日本のデジタル庁が新しいマイナンバーカードのデザインを発表しました。新しいカードは2026年に導入される予定です。カードには、持ち主の名前、生年月日、住所、写真が書かれますが、性別の情報は書かず、ICチップに保存されます。この性別情報は、専用のアプリを使って読み取ります。カードの表面には、名前や生年月日など基本情報とともに、マイナンバーカードの有効期限やフリガナ(名前のカタカナ表記)も記載されます。裏面には、個人番号や名前、生年月日などの詳細情報と追記欄があり、追記欄は今より大きくなります。もし住民票に旧姓が記載されていれば、それもカードに載ります。名前のローマ字表記は、漢字の名前と一緒に本文に書かれ、パスポートと同じ表記になるように配慮されています。マイナンバーカードの名前も変わるかもしれません。新しい名前は公募で決める予定です。スマートフォン用の電子証明書の発行や更新がより簡単になるように計画しており、将来的にはカード自体が不要になるかもしれません。
———————————
【国内ニュース】 2024-03-19 文字起こしAI「オートメモ」に要約機能 議事録作成時間を8割削減 https://www.watch.impress.co.jp/docs/news/1577672.html
ソースネクスト社は、「オートメモ」というAIによる文字起こしサービスに新たに要約機能を追加しました。この機能は音声をテキストに変換した後、そのテキストを自動で要約してくれるものです。オートメモはインターネットを通じてどこからでも利用でき、音声データをテキスト化してクラウド上に保存したり、編集や共有が可能です。料金は使用時間に応じて、無料プランから月額や年額の有料プランが選べます。要約機能は最新のAI技術、GPT-4を使っており、会議全体の要点や決定事項、共有事項を効率的にまとめて出力します。さらに、話者ごとの詳細な要約も提供し、誰が何を言ったかも明確にします。文字起こしの精度は非常に高く、98.9%に達しています。この精度を支えているのは、OpenAIが開発した音声認識モデル「Whisper」など、複数の技術が組み合わさっています。現在、要約機能はベータ版として提供されており、有料プランのユーザーは月5回、無料プランのユーザーは月1回まで無料で利用できます。今後、このサービスはさらに発展していく予定です。
———————————
【ニュース】 2024-03-19 “Azureも他社クラウド移行時のデータ転送料を無料に Google Cloud、AWSに続き” https://www.itmedia.co.jp/news/articles/2403/19/news123.html
Microsoft Azureは、クラウドサービス間でのデータ移動の際にかかる費用の一部をなくすことを発表しました。これは、他の大手クラウドサービスプロバイダーであるGoogle CloudやAWSがすでに実施している施策と同様です。特に、他のクラウドサービスや自社のデータセンター(オンプレミス)への移行時に、外部へのデータ転送費用を無料にします。Azureでは、顧客がサービスを離れる際に、インターネットを通じてデータをAzureから外部へ転送する際の料金を免除します。これにより、データをAzureから他のプラットフォームへ移行する際のコストが削減され、より柔軟なクラウド利用が可能になります。
———————————
【開発技術】 2024-03-18 “たった2つのステップを意識するだけで書けない単体テストがほぼなくなる – Qiita” https://qiita.com/_mi/items/ce66aa922ee46b00ab2d
この記事では、古いコード(レガシーコード)に単体テストを追加するときに直面する問題、特にコードの一部が他の部分に依存していることが原因でテストを書きにくい状況に対処する方法を紹介しています。
解決策として、2つの主要なステップが提案されています。
- 第1ステップは、依存している部分を独立させるために「接合部」という特定の部分を設けることです。
- 第2ステップは、その接合部にテスト用の偽物(偽装オブジェクト)を挿入して、本物のコードの代わりにテスト中に使用することです。
モックオブジェクト(テスト用に振る舞いを模倣したオブジェクト)を使いすぎるとテストの質が下がる可能性があるため、その使用を控えめにし、依存関係の排除に焦点を当てることが推奨されています。依存関係を適切に管理することで、テストが書きやすくなるだけでなく、コードの品質も向上します。
———————————
【その他】 2024-03-19 なぜオフショア開発でベトナムがひとり勝ちしているのか? https://offshore.icd.co.jp/blog/offshore-vietnam
ベトナムがオフショア開発に適している主な理由は、政府がIT人材を国策として育成しており、開発コストが他国と比べて安価であるためです。ベトナム政府は、IT産業を支援するために「2025年までの国家デジタルトランスフォーメーションプログラム」を承認し、これによりIT産業の育成と発展が進んでいます。日本と比べて開発コストを大幅に抑えることができ、インフラも整っているため、開発プロジェクトをスムーズに進められます。時差が少ないため、日本とベトナム間でのコミュニケーションに遅れが生じにくいです。治安が良く、日本文化を好む国民性も日本企業にとっては魅力的なポイントです。オフショア開発会社を選ぶ際は、日本に本社があるか、技術力が高いか、そしてアジャイル開発の採用状況などをチェックすることが重要です。
———————————
【開発技術】2024-03-19 “CSSでスタイルクエリ(@container style())を使えるようになると、実装がいろいろ便利になる” https://coliss.com/articles/build-websites/operation/css/superpowered-container-style-queries.html
———————————
【つくって・つかってみた】 2024-03-18 “LangGraph ではじめるAIエージェント操作 その2 on Azure OpenAI” https://qiita.com/hiromitsu_iwasaki/items/ee44e982c2a53d410b47
【つくって・つかってみた】 2024-03-19 ZOZOTOWNにおけるマーケティングメール配信基盤の構築 https://techblog.zozo.com/entry/mass-mail-delivery
【つくって・つかってみた】 2024-03-19 “ZOZOTOWNのネットワークをDirect Connect 10Gから100Gに移行した話” https://techblog.zozo.com/entry/zozo-dx100g
———————————
【マネジメント】 2024-03-19 こんなマネージャーと仕事がしたい────カケハシいくおさんインタビュー https://agend.jp/media/kakehashi-ikuo/
2024/3/18のピックアップ
【ニュース】Apple Is in Talks to Let Google Gemini Power iPhone AI Features https://www.bloomberg.com/news/articles/2024-03-18/apple-in-talks-to-license-google-gemini-for-iphone-ios-18-generative-ai-tools?embedded-checkout=true
Appleは、GoogleのGeminiというLLMをiPhoneに組み込むために交渉しています。この取り決めが進むと、iPhoneのソフトウェアに新しい機能が加わる予定です。Appleは同様にOpenAIとも提携の可能性について話し合いを持ち、その技術の使用を検討していました。AppleとGoogleが合意に至れば、これまでに行われた両社間の検索サービスに関するパートナーシップを拡大する形となります。しかし、Appleは自社のAIモデルを基にしたiOS 18の新機能も開発中です。これらの機能は、クラウド経由ではなく、デバイス上で直接動作することに焦点を当てています。Apple自身も、Ajaxという名前の大規模言語モデルや、Apple GPTと呼ばれる基本的なチャットボットを開発しテストしていますが、これらはGoogleや他の競合他社の技術と比較して劣っているとされています。
———————————
【新サービス】2024-03-18 “quanto: a pytorch quantization toolkit” https://huggingface.co/blog/quanto-introduction
QuantoはPyTorch用の量子化ツールキットで、深層学習モデルの計算量とメモリ使用量を削減するために開発されました。このツールキットは、モデルの重みと活性化関数を、通常の32ビット浮動小数点数ではなく、8ビット整数のような低精度のデータ型で表現することにより、メモリの使用量を減らします。Quantoは多機能で、Eagerモードのサポート、任意のデバイスへの配置、自動的な量子化/逆量子化の挿入、機能操作やモジュールの自動量子化などを提供します。さまざまな量子化(重みにはint2、int4、int8、活性化にはint8、float8を含む)をサポートしており、大規模言語モデル以外にも幅広いモデルに適用可能です。量子化の過程では、モデルを動的に量子化した後に、必要に応じてキャリブレーションや量子化認識トレーニングを行い、重みを固定する手順が含まれます。QuantoはHugging FaceのTransformersライブラリと統合されており、QuantoConfigを使用することで任意のモデルを簡単に量子化できます。
———————————
【新サービス】Microsoft Copilot GPT Builder の概要 https://support.microsoft.com/ja-jp/topic/microsoft-copilot-gpt-builder-の概要-65499971-a502-4a96-a5c3-265cb59c012d Microsoft Copilot Proに新機能「Copilot GPT Builder」が追加され、この機能によりユーザーは自分専用のAIを設計できるようになりました。このカスタムAI、つまりCopilot GPTを利用すると、特定の知識を活用したり、定型作業を自動化したりすることが可能です。たとえば、食事の計画から買い物リストを自動生成するような使い方ができます。Copilot GPTの作成や管理は、Copilot Proサブスクリプションを持つユーザーに限られ、他の人と共有することもできますが、編集は作成者だけに制限されます。このツールへのアクセス方法はウェブサイト上で簡単に説明されており、初心者でも直感的に操作できる設計になっています。Copilot GPTはパソコンだけでなく、モバイルデバイスでも利用可能ですが、そのためにはCopilot Proサブスクリプションは必須ではありません。
———————————
【新サービス】 2024-03-18 イーロン・マスクの生成AI「Grok-1」、オープンソース化 https://www.watch.impress.co.jp/docs/news/1577245.html
イーロン・マスク氏が設立した企業のxAIは、「Grok-1」という名前の大きなAI言語モデルを誰でも使えるように公開しました。この「Grok-1」は、3,140億個のパラメータを持ち、専門家混合モデル(MoE)を用いてxAIが最初から自社で作成しました。公開されたのは、2023年10月に完成した訓練初期段階のデータです。これはまだ、特定の目的のために細かい調整はされていません。Grokという名前のこのAIは、「銀河ヒッチハイク・ガイド」というSF小説に触発されたチャットサービスです。これはX(旧Twitter)が提供する有料サービス「X Premium+」で使うことができます。
———————————
【新しいLLM】MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training https://arxiv.org/abs/2403.09611
MM1は、Appleが発表した大規模なマルチモーダル言語モデル(MLLM)です。事前学習では、画像-キャプションデータ、交互に提供される画像とテキストのデータ、テキストのみのデータの混合を用いています。この混合は、異なるタイプのデータから学習することで、モデルの柔軟性と汎用性を高めます。通常の密集したモデル(dense models)と、専門家の混合(Mixture of Experts, 略してMoE)と呼ばれる特別なタイプのモデルが含まれています。MoEモデルは、いくつかの「専門家」と呼ばれる部分から成り、それぞれが異なるタスクに特化しています。モデルが新しいデータを処理する際には、最も適切な専門家が選ばれてタスクを実行します。この方法により、モデルは効率的に、かつ高い精度で様々な問題を解決することができます。また、画像エンコーダー、画像解像度、画像トークンの数がモデル性能に大きな影響を与えることが明らかにされました。視覚言語コネクターの設計は、比較的影響が少ないとされています。大規模事前学習により、MM1は文脈内学習や多画像推論など、複数の高度な能力を持ちます。
———————————
【LLM新技術】Logits of API-Protected LLMs Leak Proprietary Information https://arxiv.org/abs/2403.09539
商用大規模言語モデルは、独自モデルに対してAPIのみのアクセスを提供することで保護されています。研究では、APIを通じて少数のクエリ(例えばOpenAIのgpt-3.5-turboで$1,000未満)だけで、LLMについて多くの非公開情報を学ぶことが可能であることが示されています。現代のLLMsが抱えるsoftmaxボトルネックという問題を中心に、モデルの出力が限定される現象があります。この特性を利用することで、低コストでLLMの隠れ層のサイズの発見、全語彙出力の取得、モデル更新の検出と区別、単一の出力からのLLMの特定、出力層のパラメータ推定が可能になります。
実証的な調査により、これらの方法が有効であることが示され、例えばOpenAIのgpt-3.5-turboの埋め込みサイズを約4,096と推定できます。LLMプロバイダがこれらの攻撃から保護する方法と、これらの機能が透明性と説明責任の向上に寄与する可能性についても議論されています。
———————————
【LLM新技術】Logits of API-Protected LLMs Leak Proprietary Information https://arxiv.org/abs/2403.09539
ウェブ開発で、「視覚言語モデル(VLMs)」という技術を使うことで、UI(ユーザーインターフェース)の見た目のスクリーンショットや手書きのスケッチから、それをウェブページとして再現するHTMLコードを自動生成することが期待されています。VLMsは多くのタスクで進化していますが、スクリーンショットからHTMLコードへの変換という特定の課題は、適切なデータセットがないため、十分に研究されていません。この問題を解決するため、「WebSight」という名前のデータセットが作成されました。これは、HTMLコードとそれに対応するスクリーンショットの2百万組み合わせで構成される合成データセットです。研究チームは、このデータセットを使ってVLMを特別に調整し(微調整)、ウェブページのスクリーンショットを正しく機能するHTMLコードに変換できることを実証しました。この技術分野の研究を促進するために、WebSightデータセットはオープンソースとして公開されました。
———————————
【国内ニュース】 2024-03-18 KDDI、東大発AIベンチャー・ELYZAを連結子会社化 春以降、生成AI関連サービスを提供へ https://www.itmedia.co.jp/news/articles/2403/18/news140.html
ELYZAはKDDIグループと提携し、KDDIの支援のもとでAI技術の社会実装を加速します。具体的には、KDDIがELYZAの株式の大部分を保有し、ELYZAを子会社にします。ELYZAは、東京大学の松尾研究室から生まれた企業で、日本で高性能な人工知能言語モデルを開発しています。このモデルは、700億パラメータを持ち、世界的なモデルと競合する性能を持っています。この提携を通じて、AIの技術開発とその社会への応用をさらに進めることが目的です。具体的には、日本語に特化した汎用的な言語モデルの開発、特定の業界や問題に特化したモデルの開発、そしてこれらの技術を活用した新しいサービスやソリューションの提供が予定されています。例えば、顧客サービスセンター向けに特化した言語モデルの開発など、特定の領域に焦点を当てたプロジェクトが進められます。
———————————
【DL技術】Neighborhood Attention Transformer https://arxiv.org/abs/2204.07143
ネイバーフッドアテンション(NA)は、視覚タスクのための新しい効率的でスケーラブルな注意機構で、自己注意を近隣のピクセルに限定することで計算の複雑さを大幅に削減します。NAは、自己注意の計算を最も近い隣接ピクセルに限定し、従来の自己注意の二次的な計算コストに比べて、時間と空間の両方で線形の複雑さを達成しています。このスライディングウィンドウパターンにより、追加のピクセルのシフトを必要とせずに受容野を拡大でき、Swin Transformerのウィンドウ自己注意と異なり、平行移動同値性を維持します。NATTENは、NAをより高速かつメモリ効率的に実行するためのPythonパッケージで、C++およびCUDAカーネルによる最適化を提供します。ImageNet、MS-COCO、ADE20Kのベンチマークで優れたパフォーマンスを達成しました。このプロジェクトはオープンソース化されており、研究コミュニティに向けてチェックポイントも公開されています。
———————————
【つくって・つかってみた】 2024-03-18 ZOZOTOWN検索における精度評価手法の運用で見えた課題とその改善アプローチ https://techblog.zozo.com/entry/improve-search-quantitative-evaluation
2024/3/17のピックアップ
【DL技術】 2024-03-16 “Elasticsearchの機械学習における異常検知(Anomaly Detection)再入門” https://qiita.com/daixque/items/770f9560db12d8d88aba
Elasticsearchは時系列データに対する異常検知(Anomaly Detection)機能を提供しており、データの過去の振る舞いを学習して、新しいデータが通常と異なるかどうかをSeverityという0から100の数値で評価します。Anomaly Detectionを使用すると、ユーザーが閾値を設定することなく、自動的に異常を検知することが可能になりますが、突発的な事象の事前検知や明確な時間軸パターンがない場合には適していません。Anomaly Detectionの処理はMLノード上で実行され、Elasticsearchに送信されたデータはリアルタイムでインデックスに保存され、MLノードが非同期でデータを分析します。時間情報の取り扱いにおいて重要なのは「Bucket Span」で、これはデータを集計する時間間隔を指定します。適切なBucket Spanの設定は、異常検知の精度に大きな影響を与えます。アラート機能では、Elasticsearchが異常を検知した際にユーザーに通知する仕組みがあり、KibanaのAlert機能が推奨されていますが、Watcherを使用することも可能です。
———————————
【LLMの活用】 2024-03-17 “GPT APIを組み込んだ業務システムを開発するときの虎の巻” https://qiita.com/ishitoki47259/items/fcf646d69734f5e09257
GPT APIを業務システムに組み込む際の重要なポイントは、プロンプトをできるだけ単純化し、タスクを一つに絞ることです。タスクを小さく分けて、それぞれに対してプロンプトを作成し、プログラムでこれらを組み合わせて使用するのが良いとされています。処理能力とコストの観点から、GPT3.5-turboとGPT4を使い分けることが推奨されています。すべてのタスクにGPT4が必要なわけではないため、タスクに応じて選択します。GPTは高い汎用性を持ちますが、コストがかかり出力が安定しないことがあります。そのため、GPTにできるだけ専門的なタスクを任せ、その他はプログラムや他のAIで解決することが望ましいです。function_callingやJSONモードを利用することで、GPTの出力を安定させることができます。これにより、システムの信頼性が向上します。処理速度やコストの面での課題を解決するためには、バッチ処理を活用し、事前に処理できる部分は処理しておくと効率的です。
2024/3/16のピックアップ
【ニュース】Oregon passes expansive right-to-repair law, defying tech industry concerns https://www.oregonlive.com/silicon-forest/2024/03/oregon-passes-expansive-right-to-repair-law-defying-tech-industry-concerns.html
オレゴン州が、家庭用電子機器を自分で修理する消費者の権利を支持する法案を成立させました。この法案は、修理に必要な工具、部品、取扱説明書を製造業者が提供することを義務付けています。この法律は、特にアップルなどの大手技術企業から、デバイスのセキュリティや安全性に悪影響を及ぼす可能性があるとの批判を受けています。2027年7月1日から、この法律に違反すると最大で1日あたり1,000ドルの罰金が課されます。この規制は、2015年7月1日以降に製造された消費者向け電子機器や2021年7月1日以降に製造された携帯電話に適用されます。法案により、第三者の部品を使っても製品の性能を低下させたり、誤解を招く警告を送ることが禁止されます。これにより、修理費用を抑え、より多くの修理オプションが消費者に提供されることが期待されています。
———————————
【ニュース】Google suspends Gemini AI chatbot’s ability to generate pictures of people https://apnews.com/article/google-gemini-ai-chatbot-image-generation-1bd45f1e67dfe0f88e5419a6efe3e06f
Googleは、マルチモーダルLLM「Gemini」の機能を一時的に停止しました。ユーザーは、実際には白人が多数を占めていた歴史的シーンを、多様な人種のキャラクターで描写した画像をSNSに投稿し、人種バイアスへの過剰な対応を問題視しました。Geminiが一部の歴史的描写で不正確な画像を生成していることをGoogleは認め、改善を約束しました。過去の研究では、AIによる画像生成が、訓練データに存在する人種や性別の偏見を増幅する可能性があることが示されています。
———————————
【技術解説】 2024-03-15 “BitNet b1.58(BitLinear)を実装してMNISTで検証してみた(Tensorflow/Torch)” https://qiita.com/pocokhc/items/09128e92654783a5fa5b
BitNet b1.58は、データをビットで処理することで、計算速度を速めたりメモリ使用量を減らしたりする技術です。この技術は、Transformerだけでなく、様々なニューラルネットワークに適用可能です。この記事では、論文を元にしたBitNet b1.58の具体的な実装方法を解説し、PythonのライブラリTensorFlowとTorchで書かれたコードを紹介しています。BitLinear層は、通常のLinear層(ニューロン間の接続を表す層)を改良し、重みを1ビットで表現し、入力値を8ビットで表現します。この量子化によって、計算に乗算が不要になり、加算だけで処理できるようになります。これは計算の効率化につながります。実装では、微分できない関数の勾配を逆伝搬させるために、Straight-through estimator (STE) という技術を使います。実験では、MNISTデータセットを用いてBitLinear層を使用したモデルが、従来のDense層を使用したモデルと同等かそれ以上の精度であることが確認されました。実際には、学習が完了した後に重みを量子化し、固定化する処理が必要とされます。
———————————
【LLM新技術】Introducing Devin, the first AI software engineer https://www.cognition-labs.com/introducing-devin
DevinはAIを使ってソフトウェアエンジニアリングのタスクを自動で行う最初のソフトウェアです。複雑なタスクを計画し、それに必要な多数の判断を下しながら作業を進めることができます。この過程で、関連する情報を思い出し、学習し、ミスを修正する能力を持っています。開発作業に必要なツール(シェル、コードエディタ、ブラウザなど)を備えており、エンジニアが通常行う作業をサンドボックス化された環境で実行できます。進捗状況の報告、フィードバックの受け入れ、設計選択の共同作業など、ユーザーとの能動的な協力が可能です。SWE-benchベンチマークにおいて、従来モデルの性能を大幅に上回る成果を達成しました。
———————————
【新サービス】NumPy 2.0.0 Release Notes https://numpy.org/devdocs/release/2.0.0-notes.html
NumPy 2.0.0は、約16年ぶりの大きなバージョンアップで、多くの新機能やAPIの変更が行われています。主な変更点には、新しい機能としては、可変長の文字列型(StringDType)、すべてのnumpy.fft関数でのfloat32とlongdoubleのサポート、メインのnumpy名前空間でのarray API標準のサポートがあります。性能は、ソート関数の加速、macOSでの線形代数演算の高速化とバイナリホイールのサイズ縮小、固定長文字列操作の高速化、ハードウェア固有のカーネルを確認する新しいAPIによって向上しました。Python APIでは、公開APIと非公開APIの分離、非推奨の関数の削除、型名の標準化などが改善されました。これらの改善と将来の拡張性向上のために、後方互換性が犠牲になっています。特にABIの互換性が破られています。ABIは「Application Binary Interface」の略で、アプリケーションバイナリインターフェースを指します。これは、ソフトウェアのバイナリレベルでのインターフェースの定義であり、異なるプログラム(または、異なるバージョンの同じプログラム)間でのデータや関数の呼び出し規約を統一します。サポートされるPythonのバージョンは3.9から3.12です。
———————————
【開発技術】 2024-03-16 “あなたが教わってるそのCSSテクニックはもう古い | TAKLOG” https://www.tak-dcxi.com/article/that-css-technique-you-learned-is-outdated/
2024/3/15のピックアップ
【ニュース】 2024-03-15 マクドナルド公式アプリで障害か モバイルオーダー&デリバリーが利用できず https://www.itmedia.co.jp/news/articles/2403/15/news165.html
マクドナルドの公式アプリで、モバイルオーダーやデリバリーを行う機能が使えなくなっています。2024年3月15日の午後3時半の時点で、アプリを開くと「配達サービスはメンテナンス中です」というメッセージが出て、その機能が使えません。この問題に関して、マクドナルドからはまだ詳しい情報の発表がありません。ニュース報道によると、マクドナルドでのシステム障害が原因で、食べ物の注文ができない状況になっており、いつ正常に戻るかもまだ分かっていません。
———————————
【国内ニュース】 2024-03-15 富士通が使う業務用PCにマルウェア 「個人情報や顧客情報が不正に持ち出せる状態に」 https://www.itmedia.co.jp/news/articles/2403/15/news183.html
富士通とその関連会社の業務用パソコンがマルウエアによって感染し、これにより個人情報や顧客情報が外部に流出する可能性があると発表されました。このマルウエアがどのようにしてパソコンに侵入したのか、どれだけの情報が影響を受ける可能性があるのかは、まだ調査中です。危険にさらされる情報には、企業の名前や個人の氏名、住所、電話番号などが含まれます。感染したマルウエアは、データを人質に取って身代金を要求するタイプ(ランサムウエア)ではありません。マルウエアがいつ発見されたかについては、セキュリティ上の理由から公表されていません。
———————————
【国内ニュース】 2024-03-15 日産とホンダがタッグ 戦略的パートナーシップの検討開始を正式発表 EV・ソフトウェア分野で https://www.itmedia.co.jp/news/articles/2403/15/news167.html
→ 「時間はあまりない」 日産とホンダが提携発表を急いだ理由 https://www.itmedia.co.jp/news/articles/2403/16/news049.html
日産とホンダは、電気自動車やスマートカーに関連する技術開発での協力を検討するためにパートナーシップを結ぶことを決定しました。この提携は、変化が激しい自動車産業の中で、他の自動車メーカーと競争する上での強みを持つことを目的としています。具体的には、車内のソフトウェア、電気自動車用のバッテリーや、モーターやインバーターなどをまとめたコア部品の開発で協力することを考えています。まだ初期段階で、資本提携(株式の交換や共有)は考えていません。新しい自動車メーカーや、自動車産業以外からの新規参入企業も増えており、これまでのやり方だけでは競争に勝てない可能性が高まっています。特に電気自動車や自動運転技術には、多くの投資や技術開発が必要で、単独では難しいため、パートナーシップを通じて力を合わせることが重要と考えられています。
———————————
【技術解説】 2024-03-14 OpenAIのEmbeddingモデルを活用したベクトルの理解と次元の可視化 https://qiita.com/Detroit/items/99ac1d5b6ec8c07eb48b
ベクトルは、データの特性を表すために科学や機械学習で広く使用されています。これは数値の並びで、データの特徴を表すことができます。数学では、ベクトルは方向と大きさを持つものとして扱われます。機械学習でのベクトルは、データ点を表す数値の配列として使用され、それぞれの数値がデータの異なる属性を示します。Embeddingモデルは、単語やフレーズの意味を数値化するために用いられ、これによりテキストデータの解析や生成が行われます。OpenAIのEmbeddingモデルは、テキストを高次元の数値ベクトルに変換し、これを分析することでテキストの深い意味を理解します。可視化を通じて、単語間の意味的な関係や文脈の理解、異なる言語間での単語の関係、スペルミスに対するモデルの反応などが観察できます。
———————————
【つくって・つかってみた】 2024-03-15 Claude3にプロジェクト全体をぶち込むためのプロジェクトの構造とファイル内容を自動でまとめるPythonスクリプト https://zenn.dev/olemi/articles/7b7992c055c64a
2024/3/14のピックアップ
【新サービス】 2024-03-14 “What’s new in TensorFlow 2.16” https://blog.tensorflow.org/2024/03/whats-new-in-tensorflow-216.html
TensorFlow 2.16リリース
- Windows上でTensorFlowのCPU用のプログラムを作るときの標準のツールとして、Clangというプログラムが使われるようになりました。
- ニューラルネットワークを設計するためのライブラリであるKerasのバージョン3が、今回から標準で使われるようになりました。
- Pythonのバージョン3.12がサポートされるようになりました。
- TensorFlowのコア機能において、LLVM/Clangのバージョン17がサポートされました。
- Kerasの新しいバージョンの情報は、Keras 3.0からkeras.ioで公開される予定です。
- Kerasのバージョン2をTensorFlow 2.16以降でも使いたい場合、特定の手順を踏む必要があります。
- tf.estimatorというAPIが削除されました。このAPIを使いたい場合は、TensorFlow 2.15かそれ以前を使用する必要があります。
- Appleのシリコンチップを使っている場合、TensorFlowをインストールする方法が変わりました。これまでの「tensorflow-macos」というパッケージの代わりに、「tensorflow」というパッケージを使うようにしてください。
———————————
【AIと法律・規制】Artificial Intelligence Act: MEPs adopt landmark law https://www.europarl.europa.eu/news/en/press-room/20240308IPR19015/artificial-intelligence-act-meps-adopt-landmark-law
欧州議会は、基本的人権の遵守を確保し、イノベーションを促進する人工知能法を採択しました。
この法律では、特に以下のような人工知能アプリケーションが規制されます:
- 感情認識の使用(職場や学校での使用が含まれる)
- 社会的採点システム
- 予測型警察活動(個人のプロファイリングや特性評価に基づく場合)
- 人間の行動を操作するAIや人々の脆弱性を悪用するAI
- 敏感な特性に基づく生物学的分類システム
- インターネットやCCTV映像からの顔画像の無差別なスクレイピングによる顔認識データベースの作成
消費者は、自分たちの権利に影響を与える高リスクAIシステムに基づく決定について苦情を提出し、説明を受ける権利があります。一般目的AI(GPAI)システムは、EUの著作権法の遵守やトレーニングに使用されるコンテンツの詳細な要約の公開など、特定の透明性要件を満たす必要があります。中小企業やスタートアップが、自社の人工知能技術や製品を市場に投入する前に、それらを実際の環境で開発し、テストすることができるようにするための制度を設けます。
———————————
【LLM新技術】Stealing Part of a Production Language Model https://arxiv.org/abs/2403.06634
この研究は、OpenAIのChatGPTやGoogleのPaLM-2のような、外部から内容が見えない製品言語モデルから重要な情報を引き出す最初の試みとして、モデル盗用攻撃を紹介しています。攻撃者はAPIを通じて通常のアクセス権を利用し、トランスフォーマーモデルの埋め込み層の詳細な情報を特定できるようになります。特に、20ドル以下のコストでOpenAIのAdaとBabbageモデルの埋め込み層の完全な構造を把握し、これらのモデルがそれぞれ1024と2048の隠れ層の大きさを持つことを明らかにしました。また、gpt-3.5-turboモデルについても、完全な構造を解明するのに2,000ドル未満かかると推測しています。研究の終わりには、このような攻撃からモデルを守るための方法や、今後この攻撃方法が発展する可能性についての考察も述べられています。
———————————
【AIエージェント】2024-03-13 “SIMA generalist AI agent for 3D virtual environments” https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
Google DeepMindが開発した、「SIMA(Scalable Instructable Multiworld Agent)」というAIエージェントは、様々なビデオゲームの世界で自然言語の指示に従って任務をこなすことが可能です。この研究は、ビデオゲームを利用して、AIシステムがどのように有益なエージェントになりうるかを探求するためのものです。8つのゲームスタジオと共同で、9つの異なるビデオゲームでSIMAを訓練及びテストしました。SIMAは、画像と言語を正確に結びつけるモデルと、次に画面上で何が起こるかを予測するビデオモデルを含む、キーボードとマウスの動作を出力する主モデルから成り立っています。ゲームのソースコードや専用のAPIにアクセスする必要がなく、画面の画像とユーザーから提供される自然言語の指示だけを入力として使用します。SIMAは、「左を向く」や「はしごを登る」といった600の基本技能を実行する能力があり、将来は「資源を探してキャンプを作る」のような高度な計画と複数のサブタスクが必要なタスクへの挑戦を目指しています。
———————————
【新サービス】Microsoft Copilot for Security is generally available on April 1, 2024, with new capabilities https://www.microsoft.com/en-us/security/blog/2024/03/13/microsoft-copilot-for-security-is-generally-available-on-april-1-2024-with-new-capabilities/
Microsoft Copilot for Securityは、2024年4月1日から利用可能となります。これはセキュリティとITの専門家を支援するための最初の生成AIソリューションです。AIの使用によって発生する可能性のある機密データの漏洩や、高リスクアプリケーションへのアクセスなど、AI使用に関連するリスクを識別する機能、AIアプリケーション及びそれによって生成または処理されるデータの保護、そしてAIアプリケーションの使用を管理し、組織のポリシー違反や規制違反を検出して対処する機能があります。利用量に応じた支払いモデルを採用しており、これによりさまざまな規模の組織がアクセスできるようになります。全世界で利用可能で、8言語でのプロンプト処理と25言語でのインターフェイスをサポートしています。Microsoft Defender、Microsoft Entra、Microsoft Purview、Microsoft Intuneとの統合を含む、様々な新機能を提供します。
———————————
【ニュース】 2024-03-14 “Filing: Microsoft agrees to settle a patent lawsuit by Caltech, which settled lawsuits with Apple and Broadcom over some of the same Wi-Fi patents in 2023 (Blake Brittain/Reuters)” http://www.techmeme.com/240314/p6#a240314p6
MicrosoftはCaltechからWi-Fi技術に関する特許侵害で訴えられ、和解に至りました。この訴訟は、無線通信技術における特定の技術や方法が法的に保護された「特許」に関するものです。Caltechは、これ以前にもAppleとBroadcomに対して、似たようなWi-Fi特許を巡る訴訟で大きな勝利を収めています。特にAppleとの訴訟では、10億ドル以上の賠償金を勝ち取っています。訴訟の具体的な内容や和解の詳細は明かされていません。Caltechは、HP IncとDellをTexasでWi-Fi特許を侵害したとして訴えています。これらの訴訟はまだ進行中です。
———————————
【ニュース】Global news partnerships: Le Monde and Prisa Media https://openai.com/blog/global-news-partnerships-le-monde-and-prisa-media
OpenAIは、フランスのニュース組織Le MondeとスペインのPrisa Mediaと提携しました。この提携により、ChatGPTユーザーはLe MondeとPrisa Mediaの最新のニュース内容に触れることができます。Le MondeとPrisa Mediaのコンテンツは、ChatGPTのトレーニングにも寄与します。
———————————
【つくって・つかってみた】 2024-03-14 ChatOpsによる運用作業の自動化 https://techblog.zozo.com/entry/automation-with-chatops
【つくって・つかってみた】 2024-03-14 OpenAIのEmbeddingモデルを活用したベクトルの理解と次元の可視化 https://qiita.com/Detroit/items/99ac1d5b6ec8c07eb48b
———————————
【スキルアップ】 2024-03-13 クラスメソッドに入社してもうすぐ2年なのでエンジニアとしてどのように働き学んできたかを振り返る https://dev.classmethod.jp/articles/2-years-at-classmethod-engineering-life/
【スキルアップ】2024-03-14 “今あらためてコンテナ界隈を俯瞰する「Docker/Kubernetes コンテナ開発入門」” https://dev.classmethod.jp/articles/docker-kubernetes-second/
【スキルアップ】 2024-03-13 “AWSを学べるゲーム「AWS Cloud Quest日本語版」ソリューションアーキテクト編が登場” https://www.publickey1.jp/blog/24/awsaws_cloud_quest.html
———————————
【科学技術】中年太りの仕組みを解明 ~肥満による生活習慣病の画期的な予防・治療法へ大きな 1 歩~ https://www.nagoya-u.ac.jp/researchinfo/result/2024/03/-1-5.html
2024/3/13のピックアップ
【新しいLLM】博報堂テクノロジーズ、日本語特化の視覚と言語を組み合わせた事前学習モデルを開発―画像検索において、英語モデルを上回る検索精度を実現― https://prtimes.jp/main/html/rd/p/000000019.000113498.html
博報堂テクノロジーズが日本語に特化した視覚と言語を組み合わせた事前学習モデルを開発し、そのモデルを無償で公開したと発表しました。このモデルは、画像検索やテキストからの画像生成、画像のタグ付け、画像に対する質問応答など、多岐にわたる応用が可能です。特に、日本語データに対する検索精度が英語モデルを上回ることが特徴です。
———————————
【ニュース】Building Meta’s GenAI Infrastructure https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
MetaはAIの将来のために2つの24k GPUクラスターを立ち上げました。AIモデルのトレーニングや研究開発に必要な高性能計算資源を提供します。これらのクラスターは、Grand Teton、OpenRack、PyTorchといったオープンソース技術を使用して構築されています。Metaは、2024年末までに350,000 NVIDIA H100 GPUsを含むより大規模なインフラストラクチャーの構築を目指しています。これにより、AIモデルのさらなる発展が可能になります。また、RoCEおよびInfiniBandネットワークファブリックを使用しています。TectonicとHammerspaceによって支えられたストレージは、大量のデータを効率的に扱うことができ、AIトレーニングの効率を大幅に向上させています。
———————————
【ニュース】2024-03-13 Apple、EUのDMA対応でアプリのWeb配布へ 厳しい条件も https://www.watch.impress.co.jp/docs/news/1575976.html
→ Update on apps distributed in the European Union https://developer.apple.com/jp/support/dma-and-apps-in-the-eu/
Appleは、EUのデジタル市場法(DMA)に準拠するために、iOS、Safari、およびApp Storeに関するいくつかの重要な変更を発表しました。これらの変更は、EUの27加盟国でアプリを配布する開発者に限定され、EU内のユーザーに配布されるアプリにのみ適用されます。開発者は、代替アプリマーケットプレイスや自身が所有するWebサイトからiOSアプリを配布できる新しいオプションを利用できるようになります。これにより、App Store以外からもアプリの配布が可能になり、新たなセキュリティ対策としてノタリゼーションが導入されます。ノタリゼーション(Notarization)は、アプリケーションやソフトウェアの開発者が作成したコードが安全であることを第三者(特に、アプリケーションを配布するプラットフォームやオペレーティングシステムの提供者)が確認し、証明するプロセスです。また、代替支払いサービスプロバイダ(PSP)を利用する新しいオプションが導入され、開発者はこれらの方法を通じてデジタル商品やサービスの支払いを処理できるようになります。
———————————
【ニュース】 2024-03-13 民間ロケット「カイロス」発射直後に爆発 関連企業の株価も一時急落 https://www.itmedia.co.jp/news/articles/2403/13/news118.html
【ニュース】 2024-03-13 ロケットで話題の企業「スペースワン」とは キヤノン電子、IHIエアロスペースなど出資し設立 https://www.itmedia.co.jp/news/articles/2403/13/news121.html
———————————
【開発技術】 2024-03-13 クライアントサイドとサーバサイドの「良いとこ取り」。SSRとは違うサーバコンポーネントのメリットとは? https://levtech.jp/media/article/column/detail_399/
———————————
【技術解説】 2024-03-13 “マーケティングを加速させろ!ZOZO Marketing Platform(ZMP)の紹介” https://techblog.zozo.com/entry/about-zmp
———————————
【つくって・つかってみた】2024-03-13 “Federated SNS~分散型SNS×生成AIチャットボットによるコミュニケーション活性化の効果検証実験と活用アイデアソンを実施” https://blog.fltech.dev/entry/2024/03/13/federated-sns-ideathon?utm_source=feed
【つくって・つかってみた】 2024-03-13 機密情報も安心!ローカル実行可能なLLMでvscode開発環境を作る https://qiita.com/kota33/items/63ba76dee2535374af0d
【つくって・つかってみた】 2024-03-13 “世田谷区がAI botを内製 非エンジニア職員がローコードで開発 ChatGPT活用「ヒデキ」” https://www.itmedia.co.jp/news/articles/2403/13/news123.html
———————————
【AIと法律・規制】 2024-03-13 “生成AIによる著作権侵害の実例、文化庁が収集開始…クリエイターらの不安解消狙う(読売新聞オンライン) – Yahoo!ニュース” https://news.yahoo.co.jp/articles/6d6193cfe99572d0592607b90e6bb52b71dc0e4e
———————————
【AIツール】 2024-03-13 “これは便利!「Stable Diffusion」が超簡単に始められる「Stability Matrix」 (1/3)” https://ascii.jp/elem/000/004/188/4188510/
→ https://github.com/LykosAI/StabilityMatrix
Stability Matrixは、Stable Diffusionを利用するための統合されたツールで、多様なプラットフォームでのパッケージ管理とユーザーインターフェースを提供します。「Inference」はStable Diffusionをより簡単に使えるようにするビルトインのインターフェースで、ComfyUIを基にしています。このツールは、Stable Diffusionに関連する様々なパッケージや拡張機能のインストールと更新を簡単に行うことができます。Pythonの依存関係を管理する機能や、アプリケーションの移動やバックアップが容易になる完全なポータビリティを提供します。様々なモデルを簡単にインポートし、利用するための機能が備わっており、特にCivitAIやHuggingFaceからのモデルインポートがサポートされています。複数の言語に対応しており、世界中のユーザーが利用できるようになっています。オープンソースであり、ソフトウェアの改良やカスタマイズが可能ですが、バイナリと実行可能リリースには特定のエンドユーザーライセンス契約が適用されます。
2024/3/12のピックアップ
【新しいLLM】2024-03-12 “AI-powered robot maker Covariant debuts RFM-1, an AI model the company says can process physics, may limit the need for bespoke robotics programming, and more (Brian Heater/TechCrunch)” http://www.techmeme.com/240311/p24#a240311p24
カリフォルニア大学バークレー校発のベンチャーであるCovariantが、ロボット用のChatGPTとして「RFM-1」を開発しました。RFM-1は、ロボットの言語を解釈するためのLLMをベースにしています。このシステムは、Covariantが運用するBrain AIプラットフォームから収集された膨大なデータを利用しています。Covariantは、RFM-1を使用して、倉庫だけでなく、製造、食品加工、リサイクル、農業、サービス業、そして家庭でのロボットの利用を拡大したいと考えています。現在は主に倉庫でのタスクをこなす産業用ロボットアームにこのソフトウェアが使われていますが、将来的には様々なハードウェアで利用できるようにする計画です。このシステムは、顧客がテキストで命令を入力すると、その命令に基づいてロボットがオブジェクトを識別し、最適な行動を選択できるようにします。
———————————
【新しいLLM】ELYZA、グローバルモデルに匹敵する日本語LLMを開発、デモ公開 https://prtimes.jp/main/html/rd/p/000000042.000047565.html
株式会社ELYZAは、700億パラメータの日本語大規模言語モデル「ELYZA-japanese-Llama-2-70b」を開発し、国内モデルとしては最高性能を達成しました。このモデルはグローバルモデルと比較しても同等の性能を有しています。ELYZAはこのモデルをはじめとする日本語大規模言語モデル群を「ELYZA LLM for JP」シリーズとして提供開始し、安全なAPIサービスや共同開発プロジェクトなど様々な形態で提供を予定しています。提供開始を記念して、チャット形式のデモサイトが公開されており、このモデルの性能を実際に体験することができます。「ELYZA-japanese-Llama-2-70b」はELYZA独自の事後学習により、公開されている他の日本語大規模言語モデルよりも優れた性能を発揮し、グローバルモデルとも競合する性能を達成しています。
———————————
【データ基盤】 2024-03-12 “大規模データを扱う現場でどんな変化が? Snowflake導入5社のデータ基盤アーキテクチャと設計意図 – Findy Tools” https://findy-tools.io/articles/snowflake-2/6
Snowflake導入により、各社はデータ基盤の設計意図とアーキテクチャにおいて、運用の簡易化、開発者体験の向上、セキュリティの強化を重視しています。Algoageでは、データパイプラインの高速化とエラーの減少を実現。GROWTH VERSEではDB管理の効率化とレスポンス速度の改善が見られました。マイナビは運用の標準化とセキュリティ対策に注力し、ノバセルは高速なデータ処理を可能にしました。セゾン情報システムズは全社員が簡単にデータを利用できる環境を作り、社内のコラボレーションを促進しています。Snowflakeの柔軟性、スケーラビリティ、簡易な管理が、大規模データを扱う企業にとって大きなメリットをもたらしていることが分かります。
———————————
【Web技術】Announcing Speedometer 3.0: A Shared Browser Benchmark for Web Application Responsiveness https://browserbench.org/announcements/speedometer3/
Speedometer 3.0は、Webアプリケーションの応答性を測るためのブラウザベンチマークで、Apple、Google、Microsoft、Mozillaが共同でリリースしました。この新しいバージョンは、ユーザー体験を幅広くカバーするテストを追加し、実際のWeb使用をより正確に反映しています。このプロジェクトは、ブラウザエンジン間の初の産業横断的協力により、新しいガバナンスモデルで開発されました。Speedometer 3.0は、ユーザーの操作をシミュレートすることで、ブラウザのパフォーマンスを評価します。新しいテストには、チャートの描画、コード編集、WYSIWYG編集、ニュースサイト閲覧など、現代のWeb使用シナリオが含まれています。また、テストランナーも改善され、ブラウザが行うペイントや非同期タスクなどの作業をより多く測定します。
———————————
【IT・AIの活用】2024-03-12 “Going top shelf with AI to better track hockey data” https://www.sciencedaily.com/releases/2024/03/240311145909.htm ウォータールー大学の研究者たちは、人工知能(AI)ツールを使ってプロのホッケー試合からデータをより速く、より正確に収集・分析する方法を開発しました。従来のホッケーアナリティクスは、試合のビデオ映像を人手で分析していました。研究チームが開発したAIツールは、ディープラーニング技術を利用して選手の追跡と分析を自動化し、向上させます。チームはNHLの放送ビデオクリップを1フレームごとにマークし、このデータをディープラーニングネットワークで処理して、ゲームを観察し、情報を集め、正確な分析と予測を行う方法をシステムに教えました。このシステムは、選手の追跡に94.5%、チームの識別に97%、個別の選手の識別に83%の高い精度を示しました。コーチ、スカウト、統計家が勝利の戦略を練ったり、選手を探したり、チームに追加のアドバンテージを与える方法を特定したりするために使用できる、多目的なデータを生成することができます。
———————————
【つくって・つかってみた】 2024-03-12 “SageMaker JumpStartでGoogleの軽量LLM Gemmaを試す” https://qiita.com/kanuazut/items/c4de7f81c1c6bbdaecb1
———————————
【技術まとめ】 2024-03-11 “話題のチャットAI「Claude 3」のプロンプト集、公式が公開中 「Excelの数式作って」など64種” https://www.itmedia.co.jp/news/articles/2403/11/news182.html
→ プロンプトライブラリ https://docs.anthropic.com/claude/prompt-library
2024/3/11のピックアップ
【AIと法律・規制】 2024-03-11 “画像生成AIの著作権問題、文化庁議論で争点はっきり (1/4)” https://ascii.jp/elem/000/004/188/4188529/
2023年7月より「AIと著作権」に関する議論が行われ、2月29日に最終案に近い「素案」が発表されました。パブコメでは約2万5000件の意見が集まり、それらに対する回答が公開されました。文化庁は、393項目に分類されたパブコメに対して回答しましたが、基本的に素案の内容を大きく修正する意向はなく、内容の周知と精緻化を目的としています。AIによるディープフェイク対策は著作権法の範囲外とされました。
素案では、「作風」はアイデアにとどまり、著作権侵害の対象にはならないとされていますが、特定のクリエイターの作品群からなる作品に対する意図的な追加学習(LoRA含む)は著作権侵害の可能性があるとされました。
著作権法第30条の4に関する議論では、開発・学習段階における規定であり、生成・利用段階での著作権侵害と直結しない可能性があるとされました。
学習段階で海賊版を使用することに対し、より厳格な対応が求められていますが、具体的な義務化には至っていません。
新聞協会の意見を反映し、将来的にデータベースとして販売する予定のあるニュース記事は学習データとして使用できない可能性があるとされましたが、過去の実績が必要などの条件が設けられました。
———————————
【ニュース】2024/3/10 GPT-3.5で生成した対話可能なデジタルなマリリン・モンロー、SXSWでデビュー https://www.itmedia.co.jp/news/articles/2403/10/news055.html
Soul Machines社が、60年以上前に亡くなった米国の女優マリリン・モンローのデジタル版「Digital Marilyn」を発表し、音楽、映画、インタラクティブメディアのイベント「SXSW」で披露しました。このAIアバターは、人間の神経系を模倣する独自の生成AI「Biological AI」、高度な自然言語処理、深層学習、GPT-3.5を使用しており、リアルタイムでのファンとの20分間の対話が可能です。デジタルマリリンは、マリリン・モンローのハスキーボイスや笑い方を再現し、自分が出演した映画についての逸話を話すなどします。このプロジェクトは、マリリン・モンローの肖像権を持つ米ブランド管理企業Authentic Brands Groupとの提携によって実現しました。
———————————
【データ基盤】 2024-03-11 “[新機能]あのSnowflake Hybrid Tablesが遂に日本上陸!!” https://dev.classmethod.jp/articles/snowflake-hybrid-tables-are-now-available-in-japan/
———————————
【新技術】 2024-03-11 薄型フィルムで握手などの触覚をリアルに再現 産総研ら https://www.watch.impress.co.jp/docs/news/1575352.html
産総研、東北大学、筑波大学、Adansonsが共同で開発した「双方向リモート触覚伝達システム」は、極薄ハプティックMEMSを活用して、振動を用いたリアルな触覚を再現する技術です。このシステムは、触覚デバイスと触覚信号編集技術を組み合わせることで、幅広い周波数帯域の触覚信号の体験を可能にします。東北大学が開発したISM (Intensity Segment Modulation)は、接触振動や音響振動などの高周波信号を、人の触覚知覚特性に基づいて計算し、デバイスで再生しやすい低周波の信号に変換します。これにより、小型の振動子でも幅広い帯域の体感振動を提供できます。また、様々な形状のデバイスを製作でき、日常生活や仕事中など多岐にわたるシーンでの活用が見込まれます。
———————————
【ニュース】 2024-03-10 OpenAIのAPIの課金が後払いから前払いに変わった https://qiita.com/kyotoman/items/044304d7f6c9baa99efb
———————————
【技術まとめ】 2024-03-11 “[20240220 第38回MLOps勉強会] MLflowを用いたLLMモデル開発と評価” https://speakerdeck.com/bstabeyp/mlflowwoyong-itallmmoderukai-fa-toping-jia-20240220-di-38hui-mlopsmian-qiang-hui
———————————
【つくって・つかってみた】 2024-03-10 “【データ可視化/Streamlit】Streamlitで作ったアプリからSnowflakeのテーブルを自由に更新する方法 – Qiita” https://qiita.com/Ayumu-y/items/0d7c26cad3813327e87d
2024/3/10のピックアップ
【新しいLLM】Inflection-2.5: meet the world’s best personal AI https://inflection.ai/inflection-2-5
Inflectionは、人々の日常生活に役立つパーソナルAI、Piの新しいバージョンであるInflection-2.5をリリースしました。この新モデルは、現在の最先端の大規模言語モデルと競合する高い性能を持ち合わせています。Inflection-2.5は、GPT-4の性能に匹敵しながら、トレーニングに必要な計算リソースを大幅に削減しました。数学やコーディングなど、知的能力(IQ)が求められる分野でのパフォーマンスが特に向上し、Piが技術の最前線を押し進めることを保証しています。Piユーザーは、最新の情報を得るためのリアルタイムWeb検索機能も利用できるようになりました。技術的な結果として、Inflection-2.5は、STEM分野を含む幅広いIQ指向のタスクでGPT-4の平均性能の94%以上を達成し、様々なベンチマークで顕著な性能向上を実現しています。
———————————
【つくって・つかってみた】 2024-03-09 “クラウド3社で使えるマルチモーダルモデルを試してみた(Claude 3/gpt4-v/Gemini Pro Vision)” https://qiita.com/kanuazut/items/ae954c9630c2c6a0b421
【つくって・つかってみた】 2024-03-09 RAGは検索しているに過ぎず、学習しているとは言えないと思う https://qiita.com/suzuki_sh/items/938f779d2125c5456b7f
———————————
【スキルアップ】 2024-03-09 “スクラムガイドに載っていないスクラムのはじめかた – チームでスクラムをはじめるときに知っておきたい5個のコツ – / How to start Scrum that is not written in the Scrum Guide” https://speakerdeck.com/takaking22/how-to-start-scrum-that-is-not-written-in-the-scrum-guide
2024/3/9のピックアップ
【ニュース】 2024-03-08 “Review completed & Altman, Brockman to continue to lead OpenAI” https://openai.com/blog/review-completed-altman-brockman-to-continue-to-lead-openai
2024-03-08 “OpenAI announces new members to board of directors” https://openai.com/blog/openai-announces-new-members-to-board-of-directors
OpenAIの取締役会特別委員会は、法律事務所WilmerHaleによる調査を完了しました。この調査は、OpenAIの運営とガバナンスに関する複数の問題を評価しました。Sam AltmanとGreg Brockmanのリーダーシップに全面的な支持を示し、AltmanはCEOとして取締役会に戻ります。また、取締役会に3人の新メンバーが加わりました。医療と非営利セクターのリーダーであるDr. Sue Desmond-Hellmann、法律と企業ガバナンスの専門家であるNicole Seligman、そして消費者技術業界のベテランであるFidji Simoです。取締役会は、企業ガバナンスガイドラインの更新、利益相反ポリシーの強化、内部通報ホットラインの設置、およびミッションと戦略に焦点を当てた新しい委員会の作成など、ガバナンス構造の重要な改善を導入しました。
———————————
【人間とAIの未来】2024-03-09 “Over 100 scientists sign an agreement that seeks to prevent their AI-aided research for designing new proteins from being used for the development of bioweapons (Cade Metz/New York Times)” http://www.techmeme.com/240309/p5#a240309p5
90人以上の科学者が、AIを利用した生物学研究が将来的に世界に害を及ぼさないようにするための合意書に署名しました。この取り組みは、AI技術の発展を阻止するのではなく、新しい遺伝子物質を製造するために必要な機器の使用を規制することを目的としています。合意に署名した科学者たちは、AI技術による新しいワクチンや薬品の開発など、技術の利益がリスクを上回ると主張しています。AnthropicのCEOは、AI技術の進展により、専門知識がない人でも大規模な生物学的攻撃が可能になる可能性があると議会に警告しました。
———————————
【スキルアップ】 2024-03-09 “AWS 認定トレーニング「Advanced Architecting on AWS」を受講してみた” https://dev.classmethod.jp/articles/advanced-arc-on-aws-hirane-report/
———————————
【つくって・つかってみた】 2024-03-09 GPT4を使用したVision&Languageモデルの評価手法LLaVA-Benchを試す https://qiita.com/toshi_456/items/050a4ba98d90b7ca7bac
2024/3/8のピックアップ
【機械学習モデル】Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation https://arxiv.org/abs/2003.07853
Axial-DeepLabは、画像内の広範囲の情報を効率的に捉えるために開発されたモデルです。従来の畳み込みネットワークでは捉えられない、遠く離れた場所の情報も考慮することが可能です。このモデルは、2次元の自己注意を1次元の自己注意に分解することで、計算の複雑さを削減しつつ、全域にわたる情報を捉えられるように工夫されています。位置情報を考慮することで、画像内の各ピクセルがどの位置にあるかを考慮しながら、より正確な情報処理が可能になります。パラメータ効率が3.8倍、計算効率が27倍になる小型のバリエーションもあり、効率的ながら高性能なモデルとなっています。Mapillary VistasやCityscapesといった他の大規模データセットでも最先端の結果を達成しています。
———————————
【AIと法律・規制】 2024-03-08 欧州のビッグテック規制「デジタル市場法(DMA)」開始 https://www.watch.impress.co.jp/docs/news/1574740.html
→ About the Digital Markets Act https://digital-markets-act.ec.europa.eu/about-dma_en
デジタル市場法(DMA)は、EUがデジタルセクターの公平性と競争を促進するために制定した法律です。DMAは、オンライン検索エンジンやアプリストアなどを提供する大手デジタルプラットフォーム(ゲートキーパー)を特定し、これらの企業が守るべきルールを定めています。ゲートキーパーとは、EUのデジタル市場法で定義された、大きな影響力を持つデジタルプラットフォームを運営する企業のことです。これらの企業は、例えばGoogleのような検索エンジンや、AppleのApp Storeのようなアプリストア、LINEやWhatsAppのようなメッセージングサービスを提供しています。ゲートキーパーには、第三者とのサービス連携を許可する、ビジネスユーザーが生成したデータへのアクセスを許可するなどの「やるべきこと」があり、自社製品を他社製品より優遇することの禁止などの「やってはいけないこと」が定められています。DMAは2022年に採択され、2023年5月から適用されました。この法律は、当初から存在する基本プラットフォームサービスにのみ適用されます。違反した企業には、年間総売上の最大10%の罰金や、繰り返し違反の場合は最大20%の罰金が科されることがあります。
———————————
【新サービス】 2024-03-07 “生成AIや動画編集を統合した新アプリ「Adobe Express」” https://www.watch.impress.co.jp/docs/news/1574699.html
———————————
【データ基盤】 2024-03-08 “2024年2月にリリースされたSnowflakeの新機能・変更点の注目情報まとめ #SnowflakeDB” https://dev.classmethod.jp/articles/snowflake-latest-info-202402/
———————————
【国内ニュース】 2024-03-07 小型ロケット「カイロス」、国内ベンチャー初の人工衛星打ち上げへ 目指す手軽な「宇宙宅配便」 https://www.itmedia.co.jp/news/articles/2403/07/news168.html
【国内ニュース】 2024-03-08 ドコモ、“デジタル近居”サービス「ちかく」 離れた親とほどよい距離感 https://www.watch.impress.co.jp/docs/news/1574876.html
———————————
【つくって・つかってみた】 2024-03-08 “【Databricks】1000人分のワークスペースとクラスターを1日で作る方法【SDK for Python】” https://qiita.com/Sugiyama_Shingo/items/78ab050dcdbe125f5311
【つくって・つかってみた】2024-03-08 “「GPT-4超え」とうわさのAI「Claude 3」を試す 仕事は任せられる? 若手記者の所感” https://www.itmedia.co.jp/news/articles/2403/08/news064.html
【つくって・つかってみた】 2024-03-07 “GitHub Copilot Enterprise のススメ” https://voluntas.medium.com/github-copilot-enterprise-のススメ-d2f660355091
———————————
【その他】2024-03-08 その後の対応も閲覧可。トコジラミが発生した国内施設をまとめたGoogleマイマップ登場【やじうまWatch】 https://internet.watch.impress.co.jp/docs/yajiuma/1573987.html
【その他】 2024-03-08 美大生にとっての生成AIの話|砂大28 https://note.com/fang0465/n/n0294e51993f0
2024/3/7のピックアップ
【LLM新技術】Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy https://arxiv.org/abs/2402.19379
12個のLLMを用いたアンサンブルアプローチは、925人の人間の予測者の集合と比較して、未来の出来事に関する31の二項質問に対する予測で同等の性能を示しました。LLMは、人間の中央値予測を情報として取り入れることで予測精度を17%から28%向上させることができますが、人間と機械の予測を平均する方がより精度が高いです。「群衆の知恵」効果は、多くの人の予測を一つにまとめることで、未来の出来事についての予測精度を高めることができるというものです。これまでの研究では、LLMは、個々の予測者としては人間の集団に比べて予測能力が劣るとされていました。LLMが予測の集約を通じて人間の群衆予測トーナメントと同等の予測精度を達成できることが示され、LLMにおける「群衆の知恵」効果が確認されました。これにより、社会全体でさまざまな用途にLLMを使用する道が開かれました。
———————————
【LLM新技術】ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs https://arxiv.org/abs/2402.11753
この研究はASCIIアートを用いて大規模言語モデルの安全対策を回避する新しい攻撃手法を提案し、複数の最先端モデルでその効果を実証しました。ASCIIアートは、文字を使った芸術形式で、フォーラムのユーザーが画像情報を伝えるためによく使用されます。この論文では、LLMがセマンティクスのみによって解釈できないプロンプトを認識する能力を評価するためのベンチマーク「Vision-in-Text Challenge (ViTC)」を導入しました。五つの最先端LLM(GPT-3.5、GPT-4、Gemini、Claude、Llama2)は、ASCIIアートで提供されたプロンプトを認識するのに苦労していることが示されました。これに基づき、「ArtPrompt」というジェイルブレイク攻撃を開発し、LLMがASCIIアートを認識するのに不十分であることを利用して、安全対策を回避し、望ましくない挙動を引き出すことができることが示されました。
———————————
【技術解説】 2024-03-07 “最新鋭のLLMモデルによるセキュアコーディング四番勝負 〜脆弱性を見抜くのはキミだ!〜” https://qiita.com/meique/items/6125b81492cd1b24e24e
【技術解説】2024-03-07 GPT開発の悩みの種「速度」「精度」「評価」の壁をどう超えるか https://speakerdeck.com/hirosatogamo/gptkai-fa-nonao-minozhong-su-du-jing-du-ping-jia-nobi-wodouchao-eruka
———————————
【ニュース】 2024-03-07 元Googleのエンジニア、AI機密情報を中国企業に売った疑いで逮捕 https://www.itmedia.co.jp/news/articles/2403/07/news122.html
———————————
【スキルアップ】 2024-03-07 “AWSのデッキ構築型カードゲーム「AWS BuilderCards」が日本語化” https://www.itmedia.co.jp/news/articles/2403/07/news129.html
「JAWS DAYS 2024」というイベントで、AWSが開発したカードゲーム「AWS BuilderCards」の日本語版が紹介されました。このゲームは、AWSのサービスをテーマにしたカードを使って、効率的なシステムを構築する戦略を学ぶことができます。カードには、そのサービスを利用する際のコストやメリットなどが記載されており、プレイヤーはこれらの情報を基にゲームを進めます。このカードゲームは非売品で、AWS re:InventやJAWS DAYSなどの特定のイベントで配布される非売品です。ゲームのルールやプレイ方法については、ブログやYouTubeで情報が公開されているので、興味がある人はチェックしてみると良いでしょう。
2024/3/6のピックアップ
【LLM新技術】The Unreasonable Effectiveness of Eccentric Automatic Prompts https://arxiv.org/abs/2402.10949
研究では、「ポジティブ思考」といった前向きな言葉をプロンプトに加えることがモデルのパフォーマンスにどのような影響を与えるかを定量的に調べ、これをシステム的にプロンプトを最適化する方法と比較しました。モデルに対して前向きな言葉や肯定的なメッセージをプロンプト(命令文や問いかけ文)に組み込むことで、多くの場合でモデルのパフォーマンスを向上させる効果があることを見出しました。自動プロンプト最適化ツールは、プロンプトを自動で調整し、モデルのパフォーマンスを向上させる最適な文言を見つけ出します。自動で最適化されたプロンプトは人間が通常考えるものとは大きく異なり、非常に特異で予想外の内容であることも発見されました。これは、自動最適化が従来の手法や直感とは異なる新たなアプローチを提示していることを意味します。
———————————
【新サービス】VSCode Update February 2024 (version 1.87) https://code.visualstudio.com/updates/v1_87
Visual Studio Codeの最新リリースでは、エディターでの音声入力、多言語サポート、改善されたPythonインポート機能など、多数の新機能と改善があります。アクセシビリティ機能が強化され、言語モデルへのアクセス管理に新APIが導入されました。エディターの利便性が向上し、デバッグやリモート開発の機能が強化されています。PythonやJupyterのサポートが改善され、GitHub Pull Requestsの管理がより便利になりました。拡張機能開発者向けには、新しいAPIやテストカバレッジの生成ツールが提供されています。
———————————
【国内ニュース】 2024-03-06 KDDI、月面にモバイルネットワーク ロボットで基地局設置 https://www.watch.impress.co.jp/docs/news/1574116.html
GITAI USAとKDDIという企業が協力して、2023年12月7日に月面でモバイルネットワーク基地局のアンテナをロボットで設置するテストを行い、成功しました。5メートルの支柱に、地球外ローバーが運んだアンテナを2台のアーム型ロボットが設置し、そのアンテナを電源に接続する作業を行いました。宇宙ステーションでのロボットによる自律作業の成功経験を持つGITAIと、地上でモバイルネットワークを構築した経験を持つKDDIが協力し、月面でのモバイルネットワーク構築に向けて無人で基地局を設置する技術開発を進めています。
———————————
【ニュース】 2024-03-06 AWS、他社クラウドなどへの移行時にはデータ転送料金を無料にすると発表 https://www.publickey1.jp/blog/24/aws_8.html
【ニュース】2024-03-06 “「Windows Subsystem for Android」のサポートが2025年3月5日で終了/「Amazonアプリストア」のAndroidアプリをWindows 11アプリのように動かせる技術” https://forest.watch.impress.co.jp/docs/news/1574031.html
【ニュース】 2024-03-06 “OpenAI and Elon Musk” https://openai.com/blog/openai-elon-musk
【ニュース】 2024-03-06 “iOS 17.4公開 ポッドキャスト文字起こしや新しい絵文字” https://www.watch.impress.co.jp/docs/news/1574034.html
———————————
【技術まとめ】 2024-03-06 “[2024年3月6日号]個人的に気になったModern Data Stack情報まとめ” https://dev.classmethod.jp/articles/modern-data-stack-info-summary-20240306/
———————————
【データ基盤】 2024-03-06 “[新機能]SnowflakeでMistral AI・LLaMA 2・Gemmaを用いたLLMが関数一つで簡単に使用可能に!Snowflake Cortex LLM Functionsを試してみた” https://dev.classmethod.jp/articles/snowflake-try-cortex-llm-functions/
———————————
【IT・AIの活用】 2024-03-06 【石野純也のモバイル通信SE】身につけるAI「Humane」が日本に来る? “ポストスマホ”の可能性 https://www.watch.impress.co.jp/docs/series/ishino/1573687.html
———————————
【日本のTech産業の未来】2024-03-06 文化庁「AIと著作権の考え方」の“パブコメ反映版”はどんな内容? 弁護士が注目ポイント解説 https://www.itmedia.co.jp/aiplus/articles/2403/06/news052.html
———————————
【つくって・つかってみた】 2024-03-05 GPTs+FastAPI+Renderで機能性♾️チャットボット開発 https://qiita.com/milukyna/items/16493a90d5ed1c516ffd
【つくって・つかってみた】 2024-03-06 “大規模言語モデルをフルスクラッチする練習 (環境構築ー事前学習まで)|Kan Hatakeyama” https://note.com/kan_hatakeyama/n/nbea55ed4498d
———————————
【マネジメント】 2024-03-05 “管理職が罰ゲームと化している――負担ばかりで新しい仕事もなかなかできない そうなってしまった背景とは? 管理職を苦しめている構造を変える4つのアプローチとは?” https://internet.watch.impress.co.jp/docs/news/1573840.html
2024/3/5のピックアップ
【新サービス】Introducing the next generation of Claude https://www.anthropic.com/news/claude-3-family
AnthropicはLLM「Claude 3」の3つのモデルを発表しました。Claude 3 SonnetはAmazon Bedrockで利用可能であり、OpusとHaikuも近い将来に利用可能になる予定です。
- Claude 3 Opus
- 最も高度な知能を持つモデルで、高度なタスクにおける市場最高のパフォーマンスを実現。
- 200Kのコンテキストウィンドウを持ち、特定の使用例では1Mトークンを処理可能。
- コストは入力あたり15ドル、出力あたり75ドル。
- Claude 3 Sonnet
- 知能と速度のバランスが取れており、特に企業のワークロードに適している。
- コストは入力あたり3ドル、出力あたり15ドルで、同等の知能を持つ他のモデルよりもコストパフォーマンスが高い。
- Claude 3 Haiku
- 最速でコンパクトなモデルで、単純な問い合わせやリクエストに対して即時に応答する。
- コストは入力あたり0.25ドル、出力あたり1.25ドルで、類似の知能カテゴリの中で最もスマートかつ手頃な価格。
———————————
【LLM新技術】Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication https://arxiv.org/abs/2402.18439
自然言語は人間の思考やコミュニケーションにとって主要な方法ですが、LLMは、プログラミングコードや論理式など、自然言語以外の情報も学習しています。この研究では、LLMが自分で推論や他のエージェントとのコミュニケーションを行う際に、最も適した形式(自然言語やその他の形式)を選べるようにすると、効率が向上することがわかりました。具体的には、推論の速度が3.3〜5.7%向上し、コミュニケーションに必要なデータ量が最大72.7%減少しましたが、コミュニケーションの質は保たれています。また、LLMが選んだコミュニケーションの形式は、人間が使うエージェント間のコミュニケーション言語と似ており、エージェント同士がより効率的で構造的にコミュニケーションする方向へ自然に進化していることを示唆しています。
———————————
【新サービス】2024-03-05 開発者向けAI検索エンジン「Phind」を触ってみたので紹介する https://qiita.com/mia106/items/c8f02fbb437d4c2654d4
———————————
【新サービス】TripoSRのご紹介:単一画像からの高速3Dオブジェクト生成 https://ja.stability.ai/blog/triposr-3d-generation
StabilityAIのTripoSRは、0.5秒未満で単一の画像から高品質な3Dを再構築するモデルです。このモデルは、変換器アーキテクチャを利用し、LRMネットワークアーキテクチャに基づいて改良を加えています。公開データセットでの評価は、他のオープンソース代替品と比較して、量的および質的に優れた性能を示しています。MITライセンスの下で公開され、研究者、開発者、クリエイティブな作業をサポートすることを目的としています。
———————————
【新サービス】2024-03-05 ChatGPTに音声読み上げ機能追加 モバイルでも https://www.itmedia.co.jp/news/articles/2403/05/news100.html
———————————
【データ基盤】 2024-03-05 dbt導入によるデータマート整備 https://techblog.zozo.com/entry/dbt-adoption
———————————
【国内ニュース】 2024-03-05 総務省|報道資料|LINEヤフー株式会社に対する通信の秘密の保護及びサイバーセキュリティの確保に係る措置(指導) https://www.soumu.go.jp/menu_news/s-news/01kiban18_01000224.html
→ https://www.soumu.go.jp/main_content/000932387.pdf
———————————
【国内ニュース】 2024-03-04 「官主導から民主導へ」ベンチャー初の衛星打ち上げ、約51分で軌道投入へ スペースワン https://www.itmedia.co.jp/news/articles/2403/04/news164.html
【国内ニュース】 2024-03-05 自治体の1割、標準化システムへの移行困難 デジタル庁 https://www.itmedia.co.jp/news/articles/2403/05/news128.html
【国内ニュース】 2024-03-05 スマホにマイナンバーカード搭載へ。スマホだけで本人確認可能に https://www.watch.impress.co.jp/docs/news/1573753.html
【国内ニュース】 2024-03-05 KDDI、ペットの健康管理や保険をまとめた「auわんにゃんサポート」 https://www.watch.impress.co.jp/docs/news/1573723.html
———————————
【スキルアップ】 2024-03-05 プライベートの時間は極力削らない。Kubernetesエキスパート青山真也氏のコスパ最高な情報収集術 https://levtech.jp/media/article/interview/detail_396/
2024/3/4のピックアップ
【新しいLLM】Nemotron-4 15B Technical Report https://arxiv.org/abs/2402.16819
Nvidiaが発表した「Nemotron-4 15B」は、15億のパラメータを持つ大規模な多言語言語モデルであり、英語、多言語、およびコーディングのタスクで強力なパフォーマンスを発揮します。
- 15億のパラメータを持ち、英語の自然言語データ、多言語自然言語データ、ソースコードデータの3種類から構成される8兆トークンの事前学習データセットで訓練されています。
- 英語、多言語、およびコーディングのタスクで、類似サイズの既存のオープンモデルを上回っています。特に多言語能力では、サイズが4倍以上のモデルや、多言語タスク専用のモデルをも上回る性能を示しています。
- 標準的なデコーダーのみのTransformerアーキテクチャを使用しています。
- NVIDIAのH100 GPU上で、特定のバッチサイズと効率メトリクスを使用して約13日間で訓練が完了しました。
- 訓練の最終段階で使用されるデータの分布を変更することで、モデルがより高品質なソースから学習するように調整します。このアプローチにより、モデルは事前学習段階で扱ったデータとは異なる、新たに強調されたデータ領域に対して、より良く適応することができます。
- 学習率の「崩壊スケジュール」(学習率を徐々に減少させていく戦略)を調整することで、訓練の終わりにかけてモデルの更新がより細かく、慎重に行われるようにします。これにより、モデルが過学習を避け、既存の知識を損なうことなく新しい情報を効率的に取り込むことが可能になります。
———————————
【技術まとめ】 2024-03-04 “クラスメソッド データアナリティクス通信(機械学習編) – 2024年3月号” https://dev.classmethod.jp/articles/cm-da-news-ml-202403/
———————————
【AIの現状と将来の展望】 2024-03-04 【西田宗千佳のイマトミライ】GPUからの脱却と「AI半導体」の可能性 https://www.watch.impress.co.jp/docs/series/nishida/1573326.html https://qiita.com/doran/items/d7fdadd4947f17e0dfb8
【AIの現状と将来の展望】 2024-03-04 「伝説のエンジニア」が明かすエヌビディアの死角 https://toyokeizai.net/articles/-/738180
———————————
【技術解説】 2024-03-04 “先日リリースされたGitHub Copilot Enterprise の最速レビュー!〜進化したGitHub Copilotを使ってみた〜 | CyberAgent Developers Blog” https://developers.cyberagent.co.jp/blog/archives/46542/
→ GitHub Copilot Enterprise について https://docs.github.com/ja/copilot/github-copilot-enterprise/overview/about-github-copilot-enterprise
→ Check! GitHub Copilot Enterprise betaでできることまとめ https://zenn.dev/dzeyelid/articles/6b7d2c8f01a5d9
GitHub Copilot Enterpriseは、プログラミング作業を支援するAIツールの企業版で、現在はテスト段階(beta版)で公開されています。このツールを試すためには、GitHub Enterpriseの契約が必要です。また、ウェイトリストに登録する必要があります。主な機能には、コードを理解し会話を行うチャット、ドキュメントの検索や要約、プルリクエストの内容を要約する機能などがあります。これらはプログラミング作業を効率化します。企業や組織単位でこのツールを有効にでき、GitHubのウェブサイト上で直接AIとチャットが可能になります。特定のリポジトリ(プロジェクトフォルダ)やドキュメントをAIに認識させ、それに基づいたチャットができるようになります。これにより、プロジェクト固有の情報に基づいたサポートを受けられます。リポジトリの内容を事前にAIが学習することで(インデックス生成)、より精度の高い情報検索や会話が可能になります。
プルリクエスト(コード変更の提案)に対する要約機能を使うことで、変更内容を簡潔に理解するのに役立ちます。
———————————
【スキルアップ】 2024-03-04 英語の技術動画から学ぶためにやっている5つのこと https://qiita.com/ymgc3/items/e154be8c39e798889b9f
【スキルアップ】2024-03-04 視聴体験を追求せよ。技術記事や登壇の資料づくりとトークの技術 https://levtech.jp/media/article/column/detail_391/
———————————
【マネジメント】 2024-03-04 “みんなで夢中で開発するチームを目指したら リリースまでの時間が1/3に減った話” https://speakerdeck.com/kentayoshitani/3nijian-tutahua
———————————
【ニュース】 2024-03-04 「世界サーバ投げ選手権」ドイツで開催 最大40人が参加 https://www.itmedia.co.jp/news/articles/2403/04/news124.html
2024/3/3のピックアップ
【DL技術】Simple Baselines for Image Restoration https://arxiv.org/abs/2204.04676
画像を修復する技術は進歩していますが、より複雑になっているため、比較や分析が難しくなっています。この研究では、計算効率が高く、より単純で、既存の最先端技術よりも優れた新しい方法「NAFNet」を提案しています。画像を修復する際に使われる非線形活性化関数を使わずに、単純な乗算や省略で置き換えることが可能であることを示しました。
NAFNetは、画像のぼけを取り除いたり、ノイズを除去するなど、様々な難しいテストで最先端の成果を出しました。例えば、ぼけを除去するテストでは、以前の最先端技術よりも優れた結果を出し、その計算コストは大幅に減少しました。
———————————
【DL技術】CBAM: Convolutional Block Attention Module https://arxiv.org/abs/1807.06521
CBAMは、画像を分析するためのニューラルネットワークに、どの部分に注目すべきかを教える追加のモジュールです。画像の情報を表すデータ(特徴マップ)に対して、「チャネル」(色やテクスチャなどの情報を分類)と「空間」(画像内の位置情報)の2つの視点から、重要な部分に注意を向けるようにします。このモジュールは追加できる部品のようなもので、既存のCNNと一緒に効率的に訓練でき、さほど計算コストを増やすことなく性能を向上させることができます。実際に大規模な画像データセットを用いた実験では、画像分類や物体検出の精度が向上することが確認されました。
———————————
【DL技術】FcaNet: Frequency Channel Attention Networks https://arxiv.org/abs/2012.11879
コンピュータビジョン分野では、チャネルアテンションメカニズムが非常に成功していますが、チャネルを単一の数値で表現することによる情報の大量損失という問題がありました。
「FcaNet」は画像を効率的に理解するために、画像の「周波数」(色や明るさの変化のパターン)を使って、画像のどの部分が重要かを判断し、その情報をより詳細に捉える新しい技術です。
この研究では、画像の特徴を平均値を使って単純化する手法(グローバル平均プーリング)が、実は画像の「周波数」(画像の明るさや色の変化のパターン)を分析する一つの方法であることを、数学を使って証明しました。この周波数の分析方法をさらに発展させ、画像の各部分に異なる重要度を与える(チャネルアテンション)ことを周波数の観点から行い、さらに複数の「周波数」を考慮することで(マルチスペクトル)、より精密に画像の特徴を捉える新しい方法を開発したという意味です。
FcaNetは実装が簡単で、既存のアテンションメカニズムに数行を加えるだけで導入可能です。画像分類や物体検出、インスタンスセグメンテーションなどのタスクで最先端の成果を達成し、既存のSENetなどの方法と比較しても、同じ計算コストで性能が向上します。
———————————
【技術解説】 2024-03-03 ローカルLLMのフレームワークの選び方 https://qiita.com/yosim/items/be8ce1290cd48ddf5089
———————————
【RAG】Towards Long Context RAG https://www.llamaindex.ai/blog/towards-long-context-rag Googleが開発したGemini 1.5 Proは、1Mのコンテキストウィンドウを持ち、大量の情報を横断して理解し合成する能力が特徴です。RAGは、情報検索と生成を組み合わせた技術ですが、Gemini 1.5 Proのような大規模言語モデルは、より大きなコンテキストウィンドウを通じて、これらのプロセスをより効率的に行うことができるため、一部ではRAGの必要性が問われています。
LlamaIndexの目標は、RAG技術を進化させることで、半構造化データや複雑なドキュメント上での質問応答(QA)など、新たなユースケースを開発者が実現できるようにすることです。
長いコンテキストを持つLLMは、文書のチャンキング(分割)の調整や、文書間の深い分析を必要とする質問に対する処理が容易になるなど、RAGに関連するいくつかの課題を解決しますが、大規模な文書コーパスの処理や、コストと遅延の問題など、解決すべき課題も残っています。
長いコンテキストLLMの能力を最大限に活かし、新たな課題に対応するためには、新しいRAGアーキテクチャの開発が必要です。
———————————
【Web技術】 2024-03-03 Reactはなぜそんなに人気なのか?翳りは訪れるのか? https://zenn.dev/y_ta/articles/1eb1403af45909
【Web技術】 2024-03-03 “Rustでリレーショナルデータベースを自作したときの成果と反省と学び – Yoshisaurのメモ” https://yoshisaur.hatenablog.jp/entry/2024/03/03/162352
———————————
【Web技術】WXT Next-gen Web Extension Framework -Introduction https://wxt.dev/guide/introduction.html
WXTは、全ブラウザ向けのウェブ拡張機能を構築するためのフレームワークで、無料かつオープンソースです。Nuxtに基づいており、TypeScriptや自動インポートなどを用いた開発体験を目指しています。プロジェクトの一貫性を保ちつつ、エントリポイントの設定やタイプセーフティに重点を置いています。開発サーバーはHMRをサポートし、高速な開発モードを提供します。ホットリロードできない変更は個別にリロードされます。本番ビルドはストアレビューに最適化されており、Firefoxのソースコード要件を完全にサポートします。
———————————
【その他】 2024-03-02 賛同しないがコミットする https://dev.classmethod.jp/articles/disagree-and-commit/
2024/3/2のピックアップ
【機械学習FW】 2024-03-02 “誰でも出来る「機械学習ワークフローを自動化する」 チュートリアルをもとに機械学習 (CI/CD)を理解する” https://qiita.com/kimuni-i/items/0e49b0775167f61a82da
———————————
【LLM新技術】Adaptive Chameleon or Stubborn Sloth: Revealing the Behavior of Large Language Models in Knowledge Conflicts https://arxiv.org/abs/2305.13300
研究者たちは、LLMが自分の記憶と矛盾する情報にどう反応するかを調べるために、特定の方法を使って実験しました。新しい情報が一貫性があり、説得力がある場合、LLMはそれを受け入れることができますが、その情報がLLMの既存の知識と一部一致している場合、矛盾する情報にもかかわらずそれを強く信じる傾向があります。
———————————
【技術解説】 2024-03-01 “GitHub – frodo821/BitNet-Transformers: 0️⃣1️⃣🤗 BitNet-Transformers: Huggingface Transformers Implementation of “”BitNet: Scaling 1-bit Transformers for Large Language Models”” in pytorch with Llama(2) Architecture” https://github.com/frodo821/BitNet-Transformers
【技術解説】 2024-03-02 “速報:話題の 1ビットLLMとは何か?|寺田英雄(㈱オープンストリームCTO)” https://note.com/3d_vizionist/n/n0e7130ef92a2
———————————
【ニュース】 2024-03-01 イーロン・マスク氏、米OpenAIとサム・アルトマンCEOを提訴 「営利追及するのは契約違反」 https://www.itmedia.co.jp/news/articles/2403/01/news188.html
2024/3/1のピックアップ
【動画生成AI】EMO: Emote Portrait Alive – Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions https://humanaigc.github.io/emote-portrait-alive/
Alibaba Groupが開発したEMOは、参照画像と音声データ(例えば、話し声や歌声)から、その人物の動きや表情が豊かなビデオを作成する技術です。ビデオの長さは入力された音声の長さによって決まります。この技術は、最初に「フレームズエンコーディング」ステージで画像とモーションフレームから重要な特徴を抽出し、次に「拡散プロセス」ステージで音声データを処理して、顔の動きを生成します。生成過程では、キャラクターの顔の識別性を保ちつつ、動きを調整するために、特定のアルゴリズム(参照アテンションとオーディオアテンション)が使用されます。また、動きの速度を調整するために時間モジュールが用いられます。歌声だけでなく、様々な言語での話し声にも対応しており、歴史上の人物や絵画、3Dモデルなど、幅広いコンテンツにリアリズムをもたらすことができます。
———————————
【ニュース】Stack Overflow and Google Cloud Announce Strategic Partnership to Bring Generative AI to Millions of Developers https://stackoverflow.co/company/press/archive/google-cloud-strategic-gen-ai-partnership
Stack OverflowとGoogle Cloudは、開発者が新しいAI機能を利用できるようにするための提携を発表しました。Google Cloudは、開発者がStack Overflowの知識に簡単にアクセスできるように、Google Cloudコンソール内にその知識を直接表示します。このパートナーシップは、Stack Overflowの広範囲にわたるコミュニティ知識とGoogle CloudのAI機能を組み合わせることで、開発者がAIをより効率的に活用できるようにすることを目的としています。
———————————
【LLM新技術】Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance https://arxiv.org/abs/2402.14531
プロンプトの礼儀正しさが大言語モデルのパフォーマンスに影響を与えることを調査しました。礼儀正しい言葉遣いは効果があり、無礼な言葉遣いは応答の質を下げることがあることがわかりました。英語、中国語、日本語のタスクでプロンプトの礼儀正しさの影響を評価しました。最適な礼儀正しさのレベルは言語によって異なります。
———————————
【IT・AIの活用】 2024-03-01 “【鈴木淳也のPay Attention】マイナンバーカード、震災で見えた課題とiPhone搭載で変わること” https://www.watch.impress.co.jp/docs/series/suzukij/1572808.html
———————————
【技術まとめ】2024-03-01 “【論文丁寧解説】BitNet b1.58とは一体何者なのか” https://qiita.com/tech-Mira/items/67dec9c5a5f025d2727a
———————————
【LLMの評価・比較】 2024-02-29 RAGアプリケーションの品質評価戦略 https://qiita.com/ymgc3/items/471a1851816534c4a220
———————————
【つくって・つかってみた】2024-03-01 情報検索の評価指標の弱点と選択バイアスを考慮した改善アプローチ https://techblog.zozo.com/entry/biased-search-evaluation-improvement
【つくって・つかってみた】 2024-03-01 セルフレジにおける不正行為を自動検知するレジ不正監視を一般公開しました https://blog.fltech.dev/entry/2024/03/01/cashier-fraud-monitoring-ja?utm_source=feed
———————————
【国内ニュース】 2024-03-01 「プロバイダ責任制限法」は「情プラ法」へ 誹謗中傷対応の迅速化を狙い改正案 https://www.itmedia.co.jp/news/articles/2403/01/news170.html
【国内ニュース】 2024-03-01 通信品質は本当に改善したのか? ポジティブな話題が少ない「ドコモのいま」 https://www.itmedia.co.jp/news/articles/2403/01/news163.html
【国内ニュース】 2024-03-01 JAXA、太陽観測衛星「SOLAR-C」プロジェクトチーム発足 28年度打ち上げ目指す https://www.itmedia.co.jp/news/articles/2403/01/news131.html
【国内ニュース】 2024-03-01 大和ハウス、最大300億円規模のベンチャーキャピタル組成 LLMなど6領域に投資 運用は2055年まで https://www.itmedia.co.jp/news/articles/2403/01/news158.html
———————————
【マネジメント】 2024-02-29 アジャイル開発がうまくいっていない気がするというチームに確認すべきこと https://www.ryuzee.com/contents/blog/14588
アイキャッチ
3月なので、ひな祭りにしようと思ったのですが、着物や背景をいい感じにするのが難しかったので、菜の花にしてみました。
「the tuxedo cat facing forward in the field of rapeseed flowers, presented in a watercolor style.」というプロンプトでDALL-Eにお願いし、Canvaで文字を入れました。
コメント