- はじめに
- 1ヶ月のニュースふりかえり
- Image-to-videoの生成AI 「Stable Video Diffusion」, 「Animate Anyone」 ,「MagicAnimate」がすごい!
- 音楽生成AI 「SunoAI」がすごい!
- Googleの「Gemini」に大注目!
- LLMの研究最前線
- あたらしいLLM・Chat AI
- 未来の技術
- LLMの評価と性能改善
- AWS re:Invent 2023
- OpenAI騒動
- Microsoft の「Copilot in Windows」
- オープンで安全なAIの開発にむけて、世界でガイドラインやルールの作成など
- EUはAI利用の規制法案を大筋で合意
- 中国国内の生成AIの規制案
- 日本の岸田首相とNVIDIA会談、日本に「できるだけ多くの」GPUを供給するよう要請
- 日本の法律とAI
- その他
- 技術の勉強
はじめに
月の半ばで、1ヶ月のITニュースを振り返ってみることにします。
参考文献
1ヶ月で書いた記事
よかったらついでに読んでいってください(^^)
- 【書評】『性格のいい会社』〜「採れる・辞めない・成果出る」な会社にするにはどうしたらいいか?
- 【書評】『世界一流エンジニアの思考法』〜つよつよエンジニアに近づきたい人はみんな読むべき!
- 【書評】『女性部下や後輩をもつ人のための1on1の教科書』〜キャリア1on1のテクニックが満載!
- 【書評】TALENT – 「人材」を見極める科学的なアプローチ 〜採用面接で使えそうな質問例がいっぱい!
- 【書評】『部下が勝手に活躍する魔法の質問』 〜部下とのコミュニケーションスキルを高めよう!
- 【書評】『ここはウォーターフォール市、アジャイル町』〜ウォーターフォールとアジャイルは共存できる!
- 【書評】『生成AI時代の「超」仕事術大全』〜スーパーコンサルの本気!全人類必読!
- 【書評】『GAFAも学ぶ!最先端のテック企業はいま何をしているのか』〜中国のテクノロジー活用はすごい!
- 非IT学部卒からデータサイエンティストになった勉強法
- 【書評】『データ×AI人材キャリア大全 職種・業種別に見る必要なスキルとキャリア設計』〜できるデータサイエンティストになるために必要なことがすべて書いてあった!
- こつこつ続けていることと、これからやりたいこと〜LeetCode, Duolingo, AWS SAA, E資格などなど
1ヶ月のニュースふりかえり
Image-to-videoの生成AI 「Stable Video Diffusion」, 「Animate Anyone」 ,「MagicAnimate」がすごい!
StabilityAIの「Stable Video Diffusion」は単一の画像から多視点合成を行うなど、様々なビデオアプリケーションに適応可能であり、このモデルは14から25フレームを3から30フレーム/秒のカスタマイズ可能なフレームレートで生成できます。
「Animate Anyone」は、中国のAlibaba Groupなどに所属する研究者たちが開発した、画像内のキャラクターや人物をアニメーション化する技術です。この新しいモデルは、一枚の画像とポーズシーケンス(骨格動画)を入力として使用し、ポーズシーケンスに沿って画像内のキャラクターを滑らかに動かすモーションアニメーションを生成します。
「MagicAnimate」はTikTokの運営元ByteDanceによって開発された高精度な動画生成手法です。重要な特徴は、参照画像に忠実なアニメーション生成を行うために時間情報を符号化するビデオ拡散モデルの開発と、フレーム間の一貫性を維持するために新しいappearance encoderの導入です。また、動画拡散モデル(Temporal Consistency Model)を新しく構築して「ちらつき」対策も行っています。
- 動画生成AI「Stable Video Diffusion」公開 , 動画生成AI「Stable Video Diffusion」解説
- 人物動画生成モデル「Animate Anyone」の論文要約 , 中国アリババの「Animate Anyone」
- 中国ByteDanceの「Magic animate」論文解説 , 1枚の絵とモーションデータだけでぬるぬる動き出す「Magic Animate」
- Metaの動画・画像生成AI「Emu Video」と「Emu Edit」発表
音楽生成AI 「SunoAI」がすごい!
テキストから歌詞・歌・音楽を生成してくれる。 https://www.suno.ai/
Googleの「Gemini」に大注目!
「Gemini」は、Googleによって開発されたAIモデルで、データセンターからモバイルデバイスまで幅広い場所で効率的に動作する柔軟性を持っています。異なるサイズで最適化された三つのバージョンがあり、特に「Gemini Ultra」は、多様なタスクに対応する最高性能のモデルです。
Geminiはマルチモーダルタスクに優れ、テキスト、ビジョン、音声、コーディングなど多岐にわたる分野で高いパフォーマンスを発揮します。また、プログラミング言語の理解や高品質なコード生成にも長けています。
LLMの研究最前線
あたらしいLLM・Chat AI
- Microsoftは小規模な言語モデルの開発を進めている。Microsoftの小規模言語モデル「Phi-2」, Microsoftの言語モデル『Orca2』開発
- Anthropicの「Claude 2.1」リリース
- 無料大規模言語モデル「Mixtral 8x7B」, 言語モデル「Mixtral 8x7B」の概要
その他のあたらしいLLM・Chat AI
- Stable Diffusion高速化の新技術 , Stability AIの生成AI機動展開
- Stability AIが日本語画像言語モデル「Japanese Stable VLM」をリリース
- Stability AIのリアルタイムAI画像生成「SDXL Turbo」
- 大規模言語モデル「OpenChat」の検証
- アリババのチャットAI「Qwen-72B」公開
- 医療特化のオープンソースLLM「Meditron」
- イーロン・マスクのチャットAI「Grok」
- マネーフォワード、言語モデル「houou」公開
- インターネット最新情報対応LLM「pplx-7b-online」
- GoogleがLLM「switch-c-2048」公開
未来の技術
- 脳細胞を使用したAIの音声認識研究
- L4Sによるインターネット高速化
- Tesla「Optimus Gen 2」新型人型ロボット
- Google DeepMindの1分天気予測AI「GraphCast」
- Google DeepMindの新結晶構造発見
LLMの評価と性能改善
- LLMの信頼性評価法「Arthur Bench」, LLMの信頼性評価方法「LangCheck」
- 日本語LLMの推論速度検証
- LLMをLoRAで強化する情報:LoRA (Low-Rank Adaptation)は大規模言語モデルをより効率的に微調整するために使用される技術です。特に、リソースが限られたデバイス上での大規模言語モデルの微調整に有用です。全てのパラメータを調整する代わりに、LoRAは新しい小さなパラメータセットのみを追加して調整します。
その他のLLMの評価と性能改善技術
- LCM LoRAの概要発表 :Stability AIが開発したLCM LoRAは、画像合成の分野における革新的なアプローチです。これは、Stable-Diffusionモデルに適用された技術で、メモリ消費を大幅に削減し、画像生成の品質を向上させます。Latent Consistency Models(LCMs)LCMsは、テキストから画像への生成プロセスを加速することで卓越した能力を示しており、最小限の推論ステップで高品質な画像を生成します。これらは事前にトレーニングされた潜在拡散モデル(LDMs)から抽出され、GPUトレーニング時間が大幅に少なくなります。LCMにLoRAを統合することで、より大きなモデルを扱いつつメモリ消費を削減し、優れた画像生成品質を維持することが可能になります。
- Starling-7B – RLAIFによるLLM改善
- RAG評価ツール「RAGAS」発表
AWS re:Invent 2023
「Amazon Q」は、米Amazonの傘下であるAWSが「AWS re:Invent 2023」で発表した新しいAIアシスタントです。この企業向けの業務専用チャットボットは、OpenAIの「ChatGPT Enterprise」、Microsoftの「Copilot」、Googleの「Duet AI」と競合する製品として位置付けられています。
Amazon Bedrockの「Knowledge base」はAWS re:Invent 2023で発表されたAmazon Bedrockの新機能です。この機能は、Retrieval Augmented Generation (RAG) に基づいており、特にデータの取得と生成を組み合わせたアプローチに焦点を当てています。
「Amazon Bedrock」はAPIを通じて基盤モデル(Foundation Models、FM)を利用できる完全マネージド型サービスで、これには大規模言語モデル(LLM)も含まれます。Amazon Titan, Jurassic, Claude (Anthropic社のLLM), Llama 2 , Stable Diffusionが使えます。
その他のAWS re:Invent 2023の発表
OpenAI騒動
OpenAIの騒動は、Sam Altman CEOとGreg Brockman社長の突然の解任から始まり、その後の両者の復帰により解決しました。
この騒動は、理事会の再構築、Microsoftの議決権のないオブザーバー参加、独立委員会による調査などを伴いました。
原因には、OpenAIの二重ガバナンス構造やAIリスク、特に「Q*」という強力なAIアルゴリズムに関する対立が関係していると考えられます。また、Altman CEOは汎用人工知能(AGI)の実現とそれに続く「超知能」の開発に対する熱意を表明しています。
- OpenAI騒動の背景:AI規制派と効果的加速主義(e/acc) , DeepMind・OpenAIの設立経緯とAIリスク, OpenAIの新型AI「Q*」に関する推測
- OpenAI騒動のその後 OpenAIの新取締役3人のプロフィール , OpenAI、Microsoftをオブザーバーに
Microsoft の「Copilot in Windows」
「Copilot in Windows」は、Windows 11のアップデートで追加された対話型インターフェース機能です。この機能は、AIを統合したWindows OSの一部として提供され、音声操作や情報検索などをサポートします。これにより、作業効率と生産性の向上が期待されています。
また、AIの活用により、より正確で自然な対話が可能になり、従来の音声アシスタント「Cortana」と比べて進化した点があります。
Windowsの操作やMicrosoft 365の利用、開発者向け機能など、幅広い用途で使用できます。
Microsoft Edgeのサイドバー、Copilot in Windows、Windowsの検索ボックスからも利用できます。
その他のCopilotに関する情報
オープンで安全なAIの開発にむけて、世界でガイドラインやルールの作成など
- IBM, Meta, StabilityAIなど「AI Alliance」結成、OpenAI, Microsoft, Googleは不参加
- 世界18カ国が「セキュアなAIシステム開発のためのガイドライン」共同発表
- G7、生成AIの包括ルール合意
EUはAI利用の規制法案を大筋で合意
この法案は、人工知能(AI)の開発や利用を規制するもので、世界で初めての包括的なAI規制法案とされています。透明性を確保することと、生体認証システムや一般的なAIモデルに関する厳格な規制を含んでいます。違反企業には総売上の最大7%の罰金が科せられる可能性があり、この法案は今後2年以内に施行される予定です。
中国国内の生成AIの規制案
アルゴリズムの透明性に関する届出制度が特徴的であり、事業者はその使用するアルゴリズムについての明示義務を負います。
日本の岸田首相とNVIDIA会談、日本に「できるだけ多くの」GPUを供給するよう要請
日本の法律とAI
その他
- Python互換言語「Mojo」GPU対応
- iOSで機械学習:CreateMLの活用
- AMDのAIチップ「Instinct MI300」
- Googleの新AIチップ「TPU v5p」
- LangChainの新記法「LCEL」入門
- Apple MLチームが「MLX」を公開
コメント