映像資産を“意味”に変える―
NVIDIA「VSS」が実現する、
監視カメラから始めるデジタルツイン
NVIDIA VSS とは?
膨大なビデオアーカイブや監視カメラ映像を
ただ撮影しただけの資産から “意味ある情報”へと変える技術 が、NVIDIAの「 VSS(Video Search and Summarization)」です。
フィジカルAI「Cosmos Reason」と連携するVSSの概要と、
ドローン検査や工場管理などのユースケースをご紹介するとともに、
ローカル環境での利用を可能にした最新バージョンのVSS 2.4や、
デジタルツインの新たな入口としての可能性を解説します。
動画生成AIとは逆アプローチでビデオ分析を行う技術「VSS」
NVIDIAが推進する「VSS」は、
ビデオ映像をAIが深く理解して検索や要約を可能にする
最先端の技術です。
テキストプロンプトから動画を生成する動画生成AIとは逆のアプローチで、
「VSS」は動画を見てプロンプト(テキストの要約や分析結果)を生成します。
開発の背景
VSS開発の背景には、NVIDIAが次世代のAIとして位置付ける「フィジカルAI」があります。現在の生成AI、その次に実用化が進むエージェント型AIのさらに先にあるフィジカルAIは、ロボットや自動運転車が物理世界を正確に理解し、行動するために不可欠な技術とされています。
NVIDIAは2025年1月、フィジカルAIモデルとして「 Cosmos 」を発表しましたが、その1つのコンポーネント「 Cosmos Reason 」は、画像や動画に映る物体が「何であり、どうなっているか」をAIが判断するためのモデルです。
例えば、ロボットアームがパンを掴んでトースターに入れる動作には、周囲の環境、トースターの形状、パンの位置と状態を正確に認識する必要があります。
これを実現するのが、Cosmos Reasonが提供する VLA(Vision Language Action)、すなわち視覚と言語と行動を結びつける機能です。
VSSは、このCosmos Reasonの強力な映像理解能力と連携するかたちで開発されました。VSSの技術的な基盤となっているのはVLM(Vision Language Model)であり、マルチモーダルな入力を処理し、映像から高度なインサイトを引き出します。
膨大な映像資産がVSSで意味ある情報に
VSSがもたらす最大の価値は、
企業や組織が保有する膨大なビデオアーカイブや、リアルタイムでながれ続ける監視カメラ映像を、単なる記録から実用的な情報へと変換することにあります。
建設業界などでは「ドローンで撮影した点検映像が大量にあるが、
人手不足でチェックしきれない」という課題が常態化しています。
VSSは、こうした映像の
分析・レポート作成を
人間の100倍以上の速度
で実行できます。
具体的なユースケース
VSSの応用範囲は多岐にわたります。
産業インフラ
ドローン撮影の長時間の橋梁点検映像をVSSに読み込ませるだけで、
AIが錆と腐食を自動で検出できる。
物流・製造
倉庫内のカメラ映像を解析し「作業員が通路に落ちた箱を拾った」といった特定の行動を要約したり、作業員が安全装備を正しく着用しているかをリアルタイムで監視したりできる。
工場
監視カメラ映像をAIが常時監視し、通路上の障害物や危険エリアへの侵入を検知。
その他
▶ スポーツ中継映像から各選手のパフォーマンスを分析
▶ サファリパークの映像から動物の種類と行動を自動でテキスト化
VSS 2.4の登場で導入コストが大幅に低下
9月にリリースされたVSS 2.4では、
「NVIDIA DGX Spark」を含むNVIDIA Blackwell世代のプラットフォームがサポート対象となり、
ワークステーションやエッジデバイスでもVSSが実行可能となりました。
とくに DGX Sparkは約65万円という破格のAIシステム で、そのコストパフォーマンスの高さに驚きます。
さらにVSSのソフトウェア自体は無料で提供されているため、自由に利用することができます。
NVIDIA DGX Spark
NVIDIA DGX Sparkは「約65万円で買えるスーパーコンピュータ」として注目されるコンパクトなAIシステム。
Blackwell世代のアーキテクチャを採用し、従来は数千万円クラスのサーバが必要だったVSSのような高度なAIビデオ分析処理を、ローカルのワークステーション環境で実行可能にします。
デジタルツインの活用と、AIの民主化を大きく前進させるモデルとして、2025年秋より国内出荷が開始されています。

VSSの主なユースケース

※「NVIDIA H100」を8台用いた際のパフォーマンス
- ❶レポート生成やビデオ検索を、
入力ビデオの長さに比べて100倍高速に実行する
膨大なビデオアーカイブの理解 - ❷要約やビデオ検索を1分間に70クリップ処理する
多数の短いクリップを一括処理 - ❸145台のライブカメラに対して、
リアルタイムアラートの生成やQ&Aを提供する
ライブカメラの監視
VSSのモデル例
ビデオクリップから作業員の行動を分析し、
安全性の逸脱や環境的危険などを特定・要約しています。
VSSは、大規模な環境構築は不要で、
DGX Sparkなどのローカル環境でリアルタイムにVSSを活用できます。
NVIDIA APIカタログ
開発者が最新のAI技術を手軽に試せる場として「NVIDIA APIカタログ」を公開しています。
VSSも登録されており、無料でその機能を体験することができます。
橋梁検査やサファリパーク、倉庫作業などのサンプル映像を使い、
実際にAIがどのように映像を分析し、テキストで要約を生成するかをインタラクティブに試すことが可能です。
APIカタログにはVSS以外にも230種類を超える多種多様なAI APIが公開されており、
デジタルツインやAI活用の検証の手始めとして、まずはこのAPIカタログに触れ、VSSがもたらす「動画生成AIの逆」の世界を体験してみてください。
NVIDIA APIカタログを使って
VSSを無料で体験
詳細はこちら

オリジナル動画で NVIDIA の
テクノロジーを紹介しています。
ご興味のある方は下記よりご覧ください。
Partnerパートナー募集
NPNパートナー募集!
この NVIDIA 「VSS」 を一緒に展開していくパートナー様を募集しております。
ご興味ある方は「仕入先をお探しの企業様」からご連絡下さい。
Contact Usお問い合わせ
株式会社アスクは「 NVIDIA社 」の
国内正規代理店です。
NVIDIA 「VSS」 に関するご質問や納期のご確認、お見積り依頼など、
お気軽にお問い合わせください