Open AIのCLIPOpenAIのCLIPを使って「YES/NOカメラ」を実現できるか? その3

ごんた🐶です。DeepX社のDX-M1とCLIPを使用してYES/NOカメラのデモを作ってみるの途中経過です。DeepX社が用意しているCLIPのデモをカスタマイズしてテキストに対してのスコアが閾値を超えていた場合はYESのアイコンを表示、超えない場合はNOのアイコンを表示するようにカスタムしてみました。

読み込ませた動画は生成AIで作成したものです。CLIPではYESを判断させるテキストは得意ですがNOを判断させるテキストは苦手なようなので動画に対して以下の2つのテキストを入力しています。

①A large brown bear walking on an urban city street

②An empty city street with buildings and parked cars

今は2つのテキスト入力に対して、それぞれでYES/NOを判断させて表示していますが最終的には1つの目的(今回は市街地に熊がいるかどうかの判断)を達成するために複数のテキスト入力に対する結果から総合的に判断させる必要があると考えています。

続く