Gen-2がテキストからビデオを生成、映画制作も視野に入れている。
RunwayのGen-2開発の道筋と今後の展望
原題: Runway Research | Scale, Speed and Stepping Stones: The path to Gen-2
重要度の根拠: 新しいビデオ生成技術が大きな影響を及ぼすため
要約
RunwayのCTOで共同創設者のアナスタシス・ガーマニディス氏が、Gen-2の開発過程と今後のクリエイティビティについて語ります。Gen-2は、テキストからビデオを生成するシステムで、従来の構造条件なしにテキストガイドのビデオ生成を実現しました。特に、映像生成において高い忠実度と時間的安定性を追求することが重要視されています。最終的には、2時間の映画を生成する能力を目指しており、物語やクリエイティビティのための幅広いシステムが必要であると述べています。
要点
- Gen-2はテキストからビデオを直接生成
- 高忠実度と時間的安定性を重視
- 2時間映画の生成を目指す
- 構造条件なしで動きを予測
- 映像生成の幅広いシステムが必要
開発者向け技術解説(API・実装詳細・破壊的変更)を見る
RunwayのGen-2は、画像からビデオを生成する際の時間的一貫性の問題を解決するために、ラテントディフュージョンアーキテクチャを使用しています。Gen-1では、入力ビデオに基づく構造条件を設定しましたが、Gen-2ではそれを排除し、任意の画像から動きを予測する能力を持っています。最新の更新では、任意の開始フレームを使用してビデオを生成できるようになりました。具体的には、次のフレームを予測するタスクを通じて、視覚的な世界の深い理解を得ることが目指されています。
本文の日本語訳(全文)を見る
RunwayのCTOで共同創設者のアナスタシス・ガーマニディス氏が、Gen-2の開発過程と今後のクリエイティビティについて語ります。まず、2022年4月にラテントディフュージョンモデルに関する研究を発表し、2023年6月にGen-2を紹介するまでのステップを教えてください。テキストからビデオを生成するシステムを構築することを長い間夢見ていましたが、Genモデルの開発は2022年9月に本格化しました。前月にStable Diffusionがリリースされたことで、特定の品質の閾値が達成されると、その分野の進展を促進する存在証明となることがわかりました。画像生成ではそれが達成されましたが、ビデオではまだそこに達していませんでした。その時の最先端モデルはCogVideoで、私たちの最初の目標はラテントディフュージョンアーキテクチャを使用してその結果を改善することでした。
初めに解決すべき問題は時間的一貫性でした。画像生成モデルを使用してフレームごとにビデオを生成すると、各フレーム間で多くのフリッカーやコンテンツの変化が生じます。さらに、特定の動きやアクションを生成することができません。フレームごとの画像生成手法(Deforumのような)は、美的に魅力的な独自のスタイルを生み出していますが、私たちはフォトリアリスティックなビデオ生成の問題に取り組むことに興味がありました。最初からエンドツーエンドの生成を解決しようとするのではなく、Gen-1を使用して、入力ビデオを条件として出力ビデオの構造を決定するというよりシンプルなバージョンを解決することにしました。数ヶ月後、Gen-2をリリースし、構造条件を必要とせずにテキストガイドのビデオ生成に直接取り組みました。最近では、任意の開始フレームを使用して画像からビデオを生成できるようにする大規模な更新を行いました。
より広く見ると、Gen-2は実世界の画像や生成された画像のいずれかから任意の開始画像を取得し、その動きを予測できるモデルと考えることができます。言語モデルに関する過去数年間の大きな洞察は、文中の次のトークンを予測するようにモデルを訓練することで、広く役立つ非常に能力の高いAIシステムを構築できるということです。つまり、この次のトークン予測タスクをうまく解決するためには、モデルが世界の詳細な表現を構築する必要があります。この原則はビデオにも当てはまり、次のフレームを予測するようにモデルを訓練することで、視覚的世界の深い理解を得られます。
このプロセスを通じて、あなたの北極星は何でしたか?どこに向かおうとしていましたか?私たちは常に2時間の映画を生成する能力を北極星に設定してきました。それは、単純なプロンプトから映画全体が完全に具現化されることを期待しているわけではなく、むしろ誰かが生成モデルを使用して、シーンごとに映画全体を反復的に構築できることを意味しています。また、私たちのモデルが機能長編映画の生成のみに使用されるわけではありません。それは、機能長編映画のマイルストーンに到達するための道のりの中で直面するすべての課題を解決するためには、物語やクリエイティビティのための幅広い有用なシステムを構築する必要があるという点に関するものです。
階層的に考えると、最初の個々のフレームは可能な限り高忠実度であるべきです。ほとんどの映画では、ショットは数秒間続き、そのショット内で時間的安定性と高忠実度を確保する方法を見つける必要があります。そして、シーンを構築するにつれて、キャラクターや設定など、異なるショット間での一貫性に関する課題に直面します。
さらに一歩進めて、ストーリーテリングや全体の物語を構築する際に、生成モデルがどのようにそれらの異なる要素がどのように組み合わさるかを理解するのに役立つかを考える必要があります。
この技術をコミュニティがどのように活用することを望んでいますか?Genモデルのリリース前に私たちが思い描いていた多くの夢のシナリオはすでに実現しています。
出典: https://runwayml.com/research/scale-speed-and-stepping-stones-the-path-to-gen-2
媒体: Runway
※本記事は Anthropic / OpenAI / Google / Meta / Mistral / DeepSeek / Sakana 等各社の公開情報を基に AI (OpenAI GPT-4o-mini) が日本語で要約・分類した二次的著作物です。著作権法第32条の引用要件に基づき出典 URL を必ず併記しています。要約は AI 生成のため誤訳・誤解釈を含む可能性があります。詳細・正確な情報は必ず出典元の原文をご確認ください。