【2023年12月】1ヶ月のITニュースをふりかえる

はじめに

月の半ばで、1ヶ月のITニュースを振り返ってみることにします。

参考文献

1ヶ月で書いた記事

よかったらついでに読んでいってください(^^)

1ヶ月のニュースふりかえり

Image-to-videoの生成AI 「Stable Video Diffusion」, 「Animate Anyone」 ,「MagicAnimate」がすごい!

StabilityAIの「Stable Video Diffusion」は単一の画像から多視点合成を行うなど、様々なビデオアプリケーションに適応可能であり、このモデルは14から25フレームを3から30フレーム/秒のカスタマイズ可能なフレームレートで生成できます。

「Animate Anyone」は、中国のAlibaba Groupなどに所属する研究者たちが開発した、画像内のキャラクターや人物をアニメーション化する技術です。この新しいモデルは、一枚の画像とポーズシーケンス(骨格動画)を入力として使用し、ポーズシーケンスに沿って画像内のキャラクターを滑らかに動かすモーションアニメーションを生成します。

「MagicAnimate」はTikTokの運営元ByteDanceによって開発された高精度な動画生成手法です。重要な特徴は、参照画像に忠実なアニメーション生成を行うために時間情報を符号化するビデオ拡散モデルの開発と、フレーム間の一貫性を維持するために新しいappearance encoderの導入です。また、動画拡散モデル(Temporal Consistency Model)を新しく構築して「ちらつき」対策も行っています。

音楽生成AI 「SunoAI」がすごい!

テキストから歌詞・歌・音楽を生成してくれる。 https://www.suno.ai/

Googleの「Gemini」に大注目!

Gemini」は、Googleによって開発されたAIモデルで、データセンターからモバイルデバイスまで幅広い場所で効率的に動作する柔軟性を持っています。異なるサイズで最適化された三つのバージョンがあり、特に「Gemini Ultra」は、多様なタスクに対応する最高性能のモデルです。

Geminiはマルチモーダルタスクに優れ、テキスト、ビジョン、音声、コーディングなど多岐にわたる分野で高いパフォーマンスを発揮します。また、プログラミング言語の理解や高品質なコード生成にも長けています。

Hands-on with Gemini: Interacting with multimodal AI
Gemini is our natively multimodal AI model capable of reasoning across text, images, audio, video and code. This video h...

LLMの研究最前線

あたらしいLLM・Chat AI

その他のあたらしいLLM・Chat AI

未来の技術

LLMの評価と性能改善

その他のLLMの評価と性能改善技術
  • LCM LoRAの概要発表 :Stability AIが開発したLCM LoRAは、画像合成の分野における革新的なアプローチです。これは、Stable-Diffusionモデルに適用された技術で、メモリ消費を大幅に削減し、画像生成の品質を向上させます。Latent Consistency Models(LCMs)LCMsは、テキストから画像への生成プロセスを加速することで卓越した能力を示しており、最小限の推論ステップで高品質な画像を生成します。これらは事前にトレーニングされた潜在拡散モデル(LDMs)から抽出され、GPUトレーニング時間が大幅に少なくなります。LCMにLoRAを統合することで、より大きなモデルを扱いつつメモリ消費を削減し、優れた画像生成品質を維持することが可能になります。
  • Starling-7B – RLAIFによるLLM改善
  • RAG評価ツール「RAGAS」発表

AWS re:Invent 2023

Amazon Q」は、米Amazonの傘下であるAWSが「AWS re:Invent 2023」で発表した新しいAIアシスタントです。この企業向けの業務専用チャットボットは、OpenAIの「ChatGPT Enterprise」、Microsoftの「Copilot」、Googleの「Duet AI」と競合する製品として位置付けられています。

Amazon Bedrockの「Knowledge base」はAWS re:Invent 2023で発表されたAmazon Bedrockの新機能です。この機能は、Retrieval Augmented Generation (RAG) に基づいており、特にデータの取得と生成を組み合わせたアプローチに焦点を当てています。

Amazon Bedrock」はAPIを通じて基盤モデル(Foundation Models、FM)を利用できる完全マネージド型サービスで、これには大規模言語モデル(LLM)も含まれます。Amazon Titan, Jurassic, Claude (Anthropic社のLLM), Llama 2 , Stable Diffusionが使えます。

その他のAWS re:Invent 2023の発表

OpenAI騒動

OpenAIの騒動は、Sam Altman CEOとGreg Brockman社長の突然の解任から始まり、その後の両者の復帰により解決しました。

この騒動は、理事会の再構築、Microsoftの議決権のないオブザーバー参加、独立委員会による調査などを伴いました。

原因には、OpenAIの二重ガバナンス構造やAIリスク、特に「Q*」という強力なAIアルゴリズムに関する対立が関係していると考えられます。また、Altman CEOは汎用人工知能(AGI)の実現とそれに続く「超知能」の開発に対する熱意を表明しています。

Microsoft の「Copilot in Windows」

「Copilot in Windows」は、Windows 11のアップデートで追加された対話型インターフェース機能です。この機能は、AIを統合したWindows OSの一部として提供され、音声操作や情報検索などをサポートします。これにより、作業効率と生産性の向上が期待されています。

また、AIの活用により、より正確で自然な対話が可能になり、従来の音声アシスタント「Cortana」と比べて進化した点があります。

Windowsの操作やMicrosoft 365の利用、開発者向け機能など、幅広い用途で使用できます。

Microsoft Edgeのサイドバー、Copilot in Windows、Windowsの検索ボックスからも利用できます。

その他のCopilotに関する情報

オープンで安全なAIの開発にむけて、世界でガイドラインやルールの作成など

EUはAI利用の規制法案を大筋で合意

この法案は、人工知能(AI)の開発や利用を規制するもので、世界で初めての包括的なAI規制法案とされています。透明性を確保することと、生体認証システムや一般的なAIモデルに関する厳格な規制を含んでいます。違反企業には総売上の最大7%の罰金が科せられる可能性があり、この法案は今後2年以内に施行される予定です。

中国国内の生成AIの規制案

アルゴリズムの透明性に関する届出制度が特徴的であり、事業者はその使用するアルゴリズムについての明示義務を負います。

日本の岸田首相とNVIDIA会談、日本に「できるだけ多くの」GPUを供給するよう要請

日本の法律とAI

その他

技術の勉強

コメント

タイトルとURLをコピーしました