簡単・安全にフィジカルAI(物理AI)開発を一気に加速させる世界基盤モデル(WFM)のご紹介


NVIDIA Cosmos™ とは?
NVIDIA Cosmos™は、自動運転車(AV)およびロボティクス開発者向けに、
- 最先端の生成型世界基盤モデル
 (WFM)
- 高度なトークナイザー 
 (ビデオを効率的に処理するための技術)
- ガードレール 
 (AIの安全な利用を保証する仕組み)
- キュレーションパイプライン
 (物理AIシステム開発を目的に構築されたビデオ処理パイプライン)
を提供するプラットフォームです。
        フィジカル(物理)AIモデルの構築、評価、展開、シミュレーションを高速化すると同時に、実世界におけるテストと検証のリスクを最小限に抑えます。
また、NVIDIA Cosmos™ はオープンソースとして公開されており、開発者はNVIDIAの商用利用を認めるオープンモデルライセンスに基づき自由に利用することができます。
NVIDIA Cosmos™ の利点
世界基盤モデルでフィジカル AI 開発を加速。
 
            物理対応
2000万時間のロボット工学と運転のデータを含む、9,000兆個のトークンでトレーニングされた第一世代のビデオモデルスイート。
                テキスト、画像、ビデオのようなマルチモーダル入力から高品質のビデオを生成します。
 
            オープン
Cosmos WFM とトークナイザーは NVIDIA Open Model ライセンスの下でご利用いただけます。
                世界中の開発者が高額な費用を支払うことなくフィジカル AI システムを大規模に構築することができます。
 
            データ処理と
キュレーションを加速
              CUDA™-X と NVIDIA AI で高速化するツールからなる NVIDIA NeMo Curator パイプラインは、100 PB超のデータ処理でデータキュレーションのスピードを20倍にします。
                最適化には面倒な設定がなく、総所有コスト (TCO) を最小限に抑え、市場投入までの時間を短縮します。
 
            カスタムモデルの
開発
              Cosmos トークナイザーは、8 倍効率的な圧縮技術と 12 倍高速の処理スピードでビジュアル データを高忠実度のトークンに変換します。
                NVIDIA NeMo™ は、フィジカル AI 向けのマルチモーダル生成 AI モデルを構築するためのアクセラレーテッド トレーニングとファインチューニングを備えています。
NVIDIA Cosmos™ の3つの事前学習済みモデル
NVIDIA Cosmos™ を構成する3つの事前学習済みモデルはそれぞれ明確な役割を持っています。
Cosmos Predict は、テキスト、画像、ビデオのプロンプトから多様なビデオシーンを生成します。ロボットや自動運転車などのファインチューニングに最適です。
Cosmos Transfer は、物理ベースのビデオにマルチコントロールスタイルの変換を適用して照明や環境を変化させます。多くの場合 NVIDIA Omniverse などのシミュレーターで作成されます。
Cosmos Reason は、ビデオおよび画像による入力に対して推論を行い、テキストクエリに回答します。
              たとえば、Cosmos Predict の1本のビデオから新しい多様なテキストプロンプトを生成したり、Predict や Transfer からの合成データに評価や注釈を付けたりすることができます。
❶ Cosmos Predict
Cosmos Predict は、将来の状態を予測したビデオを生成できる世界基盤モデルです。
          テキスト・画像・ビデオなどのデータとこれから発生する出来事を予想したテキストプロンプトを入力すると、
          物理的に正確なビデオが生成されます。
          現在、Cosmos Predict 1 と Cosmos Predict 2 という2つのモデルが存在します。

| Cosmos Predict 1 には以下のコンポーネントが含まれます。 | |
|---|---|
| Diffusion Models (拡散モデル) | テキストまたはビデオプロンプトを用いて視覚的シミュレーションを生成します。 | 
| Autoregressive Models (自己回帰モデル) | ビデオプロンプトとオプションのテキストプロンプトを用いて視覚的シミュレーションを生成します。 | 
| Tokenizers (トークナイザー) | 画像やビデオを連続トークン(潜在ベクトル)と離散トークン(整数)に効率的かつ効果的に分割します。 | 
| Post-training Scripts (ポストトレーニングスクリプト) | 開発者が特定の物理AIユースケース向けに拡散モデルおよび自己回帰モデルをポストトレーニングするのを支援します。 | 
| Pre-training Scripts (プレトレーニングスクリプト) | 開発者がWFM(物理ベースモデル)をゼロからトレーニングするのを支援します。 | 
Diffusion Models(拡散モデル)の例をご紹介します。
※toを2と表現します。
Text to Image ➡ Text2Image
▶ テキストの説明が与えられた場合、それぞれ57フレームの6つのカメラビュービデオを生成
▶ テキストの説明と9フレームの入力ビデオが与えられると、将来の24フレームを予測し生成 ▶ 最初のフレームとしてテキストの説明と画像が与えられると、将来の32フレームを予測し生成
Cosmos Predict 2 はテキスト記述から
              高品質な画像を作成するテキスト画像生成機能( Text2Image )と、
              ビデオ入力から視覚的なシミュレーションを作成するビデオ世界生成機能( Video2World )という、
              2つの強力な機能が追加され、パフォーマンスも向上しました。
| 利用可能なモデル※2Bと14Bは解像度の違いです。 | ||
|---|---|---|
| Text2Image | テキスト ➡ 画像の生成 | Cosmos-Predict2-2B-Text2Image Cosmos-Predict2-14B-Text2Image | 
| Video2World | テキスト + 画像/ビデオ ➡ ビデオの生成 | Cosmos-Predict2-2B-Video2World Cosmos-Predict2-14B-Video2World | 
| Text2World | 上記の Text2Image 及び Video2World のモデルを用いて、テキストからビデオを生成 | |
▶ 最初のフレームとしてテキストの説明と画像が与えられた場合、将来のフレームを予測しビデオを生成。
- InputText
- A high-definition video captures the precision of robotic welding in an industrial setting. The first frame showcases a robotic arm, equipped with a welding torch, positioned over a large metal structure. The welding process is in full swing, with bright sparks and intense light illuminating the scene, creating a vivid display of blue and white hues. A significant amount of smoke billows around the welding area, partially obscuring the view but emphasizing the heat and activity. The background reveals parts of the workshop environment, including a ventilation system and various pieces of machinery, indicating a busy and functional industrial workspace. As the video progresses, the robotic arm maintains its steady position, continuing the welding process and moving to its left. The welding torch consistently emits sparks and light, and the smoke continues to rise, diffusing slightly as it moves upward. The metal surface beneath the torch shows ongoing signs of heating and melting. The scene retains its industrial ambiance, with the welding sparks and smoke dominating the visual field, underscoring the ongoing nature of the welding operation.
 
 ❷ Cosmos Transfer 1
Cosmos Transfer 1 は、セグメンテーション、深度、エッジなど、
          様々なモダリティにわたる複数の空間制御入力に基づいて
          世界シミュレーションを生成できる事前学習済み拡散ベースの条件付き世界モデルです。
Cosmos Transfer ではセグメンテーション・深度・エッジ情報からのビデオ生成やデータ拡張などの変換(Transfer)に焦点をおいています。
様々な空間位置や時間インスタンスにおいて、異なる条件入力に異なる重み付けを行う柔軟性を提供し、高度にカスタマイズ可能な世界生成を可能にします。この機能は、Sim2Realを含む様々な世界間転送アプリケーションに特に有用です。
※Sim2Real ➡ Simulation to Real
| Cosmos Transfer 1 は以下のコンポーネントを含みます。 | |
|---|---|
| ControlNet-based single modality conditional world generation (ControlNetベースの単一モダリティ条件付き世界生成) | セグメンテーションビデオ、深度ビデオ、エッジビデオ、ぼかしビデオ、LiDARビデオ、HDMapビデオのいずれか1つのモダリティに基づいて視覚シミュレーションを生成します。 ▶ Cosmos-Transfer1-7B [Depth | Edge | Keypoint | Segmentation | Vis] ▶ Cosmos-Transfer1-7B [LiDAR | HDMap] | 
| MultiControlNet-based multimodal conditional world generation (MultiControlNet ベースのマルチモーダル条件付き世界生成) | セグメンテーションビデオ、深度ビデオ、エッジビデオ、ぼかしビデオ(AV サンプルでは LiDARビデオと HDMap)の任意の組み合わせと、時空間制御マップを用いて視覚シミュレーションを生成します。この時空間制御マップにより、空間と時間における各モダリティの強さを制御します。 ▶ Cosmos-Transfer1-7B ▶ Cosmos-Transfer1-7B-Sample-AV | 
| 4KUpscaler | 720p解像度の動画を4K解像度にアップスケーリングが可能です。 ▶ Cosmos-Transfer1-7B-4KUpscaler | 
Transfer1のモデル例をご紹介します。
▶ テキストプロンプトと1つまたは複数(最大4つ)のコントロール入力ビデオ(Edge、Seg、Depthなど)を入力すると、
コントロール入力ビデオのガイダンスを活用して、フォトリアリスティックな出力ビデオを予測します。
▶ テキスト記述、HDMap ビデオ、LiDAR ビデオを入力して高品質の運転ビデオを生成できます。
Omniverseとの連携
Omniverseは、街並みや工場のデータモデル、ロボットの動作など現実世界に近い仮想空間を3Dデータで再現できる、高精度なシミュレーション基盤です。
                開発者は、Omniverse シミュレーションを Cosmos Transfer モデルに指示映像として入力し、制御可能な写真のようにリアルな合成データを生成することができます。
                両方を活用すると、Omniverse からはトレーニング前後のシミュレーション環境が提供され、Cosmos からはビデオデータを生成し、フィジカル AI モデルをトレーニングするための基盤モデルが提供されます。

❸ Cosmos Reason 1
Cosmos Reason 1 は動き、オブジェクトの相互作用、時空関係を理解するために
          特別に開発された、完全にカスタマイズ可能なマルチモーダル AI 推論モデルです。
          2 つのマルチモーダル大規模言語モデル (MLLM)、 8B と 56B バージョンをリリースしました。
このモデルは、実世界の物理学に基づいて推論し、自然言語で明確な文脈を認識した応答を生成します。
              Cosmos Reason 1 は、他のフィジカル AI モデルに対するデータ(PredictやTransferからの合成データなど)の批判および品質フィルタのコンポーネントとして、また具現化されたエージェントの次の行動を推論する計画モデルとしても使用できます。 
| Cosmos Reason 1 には以下のツールが含まれます。 | |
|---|---|
| Model(モデル) | 本リリースには2つのマルチモーダルLLM(Cosmos-Reason1-8B と Cosmos-Reason1-56B)が含まれ、これらは4段階(視覚事前学習、汎用SFT、物理AI SFT、物理AI強化学習)で訓練されています。 | 
| Ontologies(オントロジー) | Cosmos Reason 1は物理的常識と身体化された推論のためのオントロジーを定義します。 | 
| Benchmarks(ベンチマーク) | Cosmos Reason 1にはマルチモーダルLLMの物理AI推論能力を評価するためのベンチマークが含まれます。 | 
以下は、動画と質問に対してモデルが示した回答と推論の一部です。
- User prompt
- Is it safe to turn right? 右折しても安全ですか?
 
- Assistant response
- <think> Okay, let's see. The user is asking if it's safe to turn right based on the video provided. First, I need to ... The key points here are the parked vehicles. There are cars parked on both sides of the road, ... </think> <answer> Based on the video, turning right may not be entirely safe due to the following factors: ... </answer> <think>よし、考えてみよう。ユーザーは提供された動画に基づいて右折が安全かどうか尋ねている。まず、私は... ここでの重要なポイントは駐車車両だ。道路の両側に車が駐車している... </think> <answer> 動画に基づくと、以下の要因により右折は完全に安全とは言えない可能性があります:... </answer>
- User prompt
- Analyze the video for any artifacts or anomalies. 動画に欠陥や異常がないか分析する。
 
- Assistant response
- <component name="Orange Bottle Interaction"> <analysis> The left robot arm approaches the orange bottle and makes contact with it. However, instead of grasping the bottle firmly, the gripper wraps around it in an awkward manner, failing to secure a proper hold ... suggesting a glitch in the interaction physics. </analysis> </component>... <answer> Based on the video, turning right may not be entirely safe due to the following factors: ... </answer> <component name="オレンジボトル操作"> <analysis> 左ロボットアームがオレンジボトルに接近し接触する。しかし、ボトルを確実に把持する代わりに、グリッパーがぎこちなく巻き付く形で接触し、適切な把持ができていない... 操作物理に不具合が生じていることを示唆している。</analysis> </component>...
その他のモデル例
▶ テキスト記述と最初のフレームとなる画像が与えられた場合、将来のフレームを予測しビデオを生成。
- InputText (prompt)
- A nighttime city bus terminal gradually shifts from stillness to subtle movement. At first, multiple double-decker buses are parked under the glow of overhead lights, with a central bus labeled '87D' facing forward and stationary. As the video progresses, the bus in the middle moves ahead slowly, its headlights brightening the surrounding area and casting reflections onto adjacent vehicles. The motion creates space in the lineup, signaling activity within the otherwise quiet station. It then comes to a smooth stop resuming its position in line. Overhead signage in Chinese characters remains illuminated, enhancing the vibrant, urban night scene.
 
            Predict2
2B
Video2World
モデル
※H200にて、約6秒間の動画を約6分半で生成可能
▶ テキスト記述と最初のフレームとなるビデオ/画像が与えられた場合、その後120フレームを予測し生成。
- InputText (prompt)
- The video is set in a modern, well-lit office environment with a sleek, minimalist design. The background features several people working at desks, indicating a busy workplace atmosphere. The main focus is on a robotic interaction at a counter. Two robotic arms, equipped with black gloves, are seen handling a red and white patterned coffee cup with a black lid. The arms are positioned in front of a woman who is standing on the opposite side of the counter. She is wearing a dark vest over a gray long-sleeve shirt and has long dark hair. The robotic arms are articulated and move with precision, suggesting advanced technology.
Predict1
7B
Text2World
モデル
※H200 GPU(4x)にて、約4秒間の動画で約4分で生成可能
▶ テキスト記述と最初のフレームとなるシミュレーションビデオ/画像が与えられた場合、その後120フレームを予測しリアルなビデオを生成。
- InputText (prompt)
- Inside a warm, rustic farmhouse kitchen, a bi-manual robot gently closes the door of a vintage-style refrigerator with a curved handle. The kitchen exudes charm with wooden cabinets, open shelves lined with ceramic dishware, and a cast-iron stove nearby. Sunlight streams in through a window adorned with lace curtains, illuminating the tiled floor. The fridge door latches with a soft click as the robot completes its task.
Predict1
7B
Text2World
モデル
※H200 GPU(4x)にて、約4秒間の動画で約4分で生成可能
ロボティクス、自動運転車、ビジョン AI 業界のモデル開発者は、
      NVIDIA Cosmos™ を使用してフィジカル AI 開発を高速化しています。
      ご興味がある方は下記、お問い合わせからご連絡ください。

オリジナル動画で NVIDIA の
テクノロジーを紹介しています。
ご興味のある方は下記よりご覧ください。
Partnerパートナー募集
NPNパートナー募集!
この NVIDIA Cosmos™ を一緒に展開していくパートナー様を募集しております。
        ご興味ある方は「仕入先をお探しの企業様」からご連絡下さい。
Contact Usお問い合わせ
株式会社アスクは「 NVIDIA社 」の
          国内正規代理店です。
        NVIDIA Cosmos™ に関するご質問や納期のご確認、お見積り依頼など、
          お気軽にお問い合わせください


