シングルステージ検出器マシンビジョンシステムの説明

CONTENTS

シェアする

シングルステージ検出器マシンビジョンシステムの説明

シングルステージ検出器マシンビジョンシステムは、7つのネットワークパスを使用して、物体検出を迅速かつ直接的に実行します。これらのシステムは領域提案ステップを省略し、画像内の物体とその位置を高速に予測します。YOLOv120などの最新モデルは、以下に示すように、信頼性の高い精度を維持しながらXNUMXフレーム/秒を達成します。

FPS と mAP における YOLO モデルを比較した棒グラフ

リアルタイム検出により安全性と生産性が向上するため、業界ではロボット工学、交通監視、製造などの分野でシングルステージ検出器マシンビジョンシステムテクノロジーが使用されています。

主要なポイント(要点)

  • シングルステージ検出器は、物体検出を 1 ステップで実行するので、2 ステージ検出器よりもはるかに高速です。
  • これらのシステムは、オブジェクトの場所とクラスを直接予測し、余分な手順を省略して速度と効率を向上させます。
  • YOLO や SSD などのモデルは、ロボット工学、監視、モバイル デバイスに適した、優れた精度のリアルタイム検出を提供します。
  • シングルステージ検出器は、グリッド、アンカー ボックス、またはアンカーフリー メソッドを使用してさまざまなオブジェクト サイズを処理し、柔軟な検出を実現します。
  • シングルステージ検出器とツーステージ検出器の選択 アプリケーションで速度や高精度が求められるかどうかによって異なります。

シングルステージ検出器マシンビジョンシステム

核心概念

シングルステージ検出器マシンビジョンシステムは、畳み込みニューラルネットワークを1回通過して画像を処理することで物体検出を行います。このアプローチでは、2ステージ検出器に見られる領域提案段階を省略します。代わりに、システムは入力画像から直接境界ボックスとクラスラベルを予測します。パイプラインは、特徴抽出から始まります。 バックボーンネットワーク多くの場合、大規模なデータセットで事前学習されています。バックボーンは分類層を削除し、空間サイズは縮小されますがチャネル深度は増加した特徴マップを出力します。これらの特徴マップにより、検出器は画像内のあらゆる領域に対して一度に物体検出予測を行うことができます。

YOLO、SSD、RetinaNet、FCOSといった一般的な物体検出モデルは、この単一ステージアプローチを採用しています。各モデルは、バックボーンと予測ヘッドを適応させることで、検出と分類の精度を向上させます。例えば、YOLOは画像をグリッドセルに分割し、各セルはセルの中心がそのセル内に含まれる物体を予測します。SSDは異なるスケールの複数のグリッドを使用し、RetinaNetはクラスの不均衡に対処するためにFocal Lossを導入しています。FCOSは、アンカーボックスに依存しない、完全畳み込み型の単一ステージ物体検出手法です。

シングルステージ検出器は、特徴抽出、分類、バウンディングボックス回帰を統合ネットワークに統合しているため、リアルタイムアプリケーションに最適です。この統合により、高速性と効率性が向上し、動的な環境に最適です。

実証研究によると、シングルステージ検出器を搭載したマシンビジョンシステムは、速度と精度の両方で従来の手法を上回ることが示されています。ベンチマークデータセットでは、YOLOやSSDなどのシングルステージ検出器は、45ステージ検出器と比較して、より高いフレーム/秒(FPS)を達成し、高い精度を維持しています。例えば、VOC63.4データセットでは、YOLOは約59FPSで平均精度(mAP)は79.8%ですが、SSDは2007FPSでmAPは6%です。RetinaNetは、COCOデータセットにおいて、以前のモデルと比較して平均精度を9~XNUMX%向上させています。これらの結果は、リアルタイム物体検出におけるシングルステージ検出器の実用的な利点を浮き彫りにしています。

他社とのちがい

シングルステージ検出器マシンビジョンシステムは、他の物体検出モデルとは異なるいくつかの重要な機能を備えています。

  • 直接検出と分類検出器は、単一のフォワードパスで境界ボックスとクラス確率を予測します。この完全畳み込みによる一段階の物体検出プロセスにより、別途領域提案ステップを実行する必要がなくなります。
  • グリッドセルと予測ヘッドYOLOやSSDなどのモデルは、画像をグリッドセルに分割します。各セルには複数の予測ヘッドが含まれており、それぞれが異なる物体のサイズと形状に対応しています。検出器は、各グラウンドトゥルースオブジェクトを、グラウンドトゥルースボックスに対するIOU(Intersection over Union)が最も高い予測ヘッドに割り当てます。この戦略により、学習と精度が向上します。
  • アンカーボックスとマルチスケール検出SSDは、異なるスケールとアスペクト比の複数のグリッドとアンカーボックスを使用します。この設計により、検出器は様々なサイズのオブジェクトを処理できます。YOLOはトレーニングデータセットのk-meansクラスタリングから得られたアンカーボックスを使用しますが、SSDは数式ベースのアプローチを使用します。
  • 信頼スコアと非最大抑制各予測ヘッドは、物体の存在確率を示す信頼度スコアを出力します。非最大値抑制により、重複する境界ボックスが削除され、最も信頼性の高い予測のみが残ります。
  • 効率的なトレーニングと堅牢性シングルステージアプローチはピクセルレベルのアノテーションの必要性を減らし、大規模データセットへの拡張を容易にします。YOLOv5のような完全畳み込みシングルステージ物体検出モデルは、医療画像において高い精度と再現率を示しており、バランスの取れたF1スコアと特定の病変タイプにおける低い偽陽性率を実現しています。
  • リアルタイムのパフォーマンスシングルステージ検出器は計算リソースが少なくて済むため、エッジデバイスやモバイルデバイスへの導入が容易です。この効率性により、ロボット工学、監視、製造などのアプリケーションにおけるリアルタイム検出が可能になります。
モデル バックボーン グリッド/アンカー戦略 FPS(VOC2007) mAP(%) 注目すべき機能
YOLO ダークネット/ResNet シングルグリッド、アンカーボックス 〜45 63.4 高速なグリッドベースの予測
SSD VGG-16 マルチグリッド、アンカーボックス 〜59 79.8 マルチスケール検出
レティナネット ResNet + FPN アンカーボックス、焦点損失 〜30 80+ 階級の不均衡に対処する
FCOS レスネット アンカーフリー、完全変換。 〜35 80+ アンカーフリー、高密度予測
  • YOLOv5のような0.927段階検出器は、医療用物体検出タスクにおいて、バランスの取れたF0.796スコアと低い平均偽陽性率を備え、高い適合率(最大1)と再現率(約XNUMX)を達成しました。これらの結果は、完全畳み込み型のXNUMX段階物体検出モデルが、多くのシナリオにおいてXNUMX段階検出器の性能に匹敵、あるいは上回ることができることを示しています。
  • IOUを用いて予測ヘッドにグラウンドトゥルースオブジェクトを割り当てることで、各検出器が特定のオブジェクトの種類またはサイズに特化することが保証されます。この特化は、信頼度スコアリングと非最大抑制と組み合わせることで、正確で信頼性の高いオブジェクト検出予測を実現します。

リアルタイム物体検出

スピードと効率

単段検出器 リアルタイム物体検出タスクにおいて、これらの検出器は好んで用いられる選択肢となっています。これらの検出器は、領域提案ステップを省略し、1回のネットワークパスですべての境界ボックスとクラスを予測するため、画像を高速に処理します。この設計により、検出器はデータセットの各画像を数ミリ秒で分析できるため、即時のフィードバックが必要なアプリケーションに最適です。

Mini-YOLOv4-tinyなどの軽量アーキテクチャは、速度と効率の両方において明確な改善を示しています。例えば、Mini-YOLOv4-tinyは、モバイルデバイス上での推論速度をYOLOv4-tinyと比較してほぼ37倍に向上させながら、パラメータを19%、FLOPを0.3%削減しています。また、このモデルは、PASCAL VOCデータセットで平均精度(mAP)を2.8%、MS COCOデータセットで4.02%向上させています。また、積和(IoU)はXNUMX%向上しており、これは検出器がグラウンドトゥルースボックスをより正確に一致させていることを意味します。

YOLOv4-tiny と比較した Mini-YOLOv4-tiny の検出および効率性の向上を示す棒グラフ

同じデータセットで異なるモデルを比較すると、シングルステージ検出器の効率性が際立ちます。例えば、YOLOv8は25画像あたり55.2ミリ秒で処理し、mAP(平均認識率)は5%です。もう一つの人気の検出器であるYOLOv30は、50.5画像あたりXNUMXミリ秒で、mAPはXNUMX%です。これらのモデルはより小型のアーキテクチャを使用しているため、エッジデバイスへの導入が容易です。一方、Faster R-CNNやMask R-CNNなどのXNUMXステージ検出器は、XNUMX画像あたりの処理時間が長く、モデルも大規模であるため、リアルタイム展開には適していません。

モデル 推論速度(ミリ秒/画像) 精度(mAP@0.5) 効率性と展開に関する注意事項
YOLOv8 25 55.2% 高速、小型モデル、リアルタイム使用
YOLOv5 30 50.5% ベースライン、YOLOv8より遅い
レティナネット 無し グッド YOLOより遅いが、精度は良い
より高速なR-CNN 単段式より遅い より高い精度 リアルタイムタスクには適していません

アプリケーション

産業界は多くの用途でシングルステージ検出器に依存しています リアルタイムの物体検出 ロボット工学、監視システム、組み込みシステムは、これらの検出器の速度と効率性から恩恵を受けています。ロボット工学では、機械が周囲の環境に反応できるよう、検出器はデータセットの各画像を迅速に処理する必要があります。監視システムでは、検出器を用いてビデオフィードをスキャンし、物体や人物をリアルタイムで識別します。スマートカメラやドローンなどの組み込みシステムでは、限られたハードウェアで実行できる軽量モデルが必要です。

検出器設計における近年の進歩により、精度と効率の両方が向上しました。例えば、YOLOv9はMS COCOデータセットで平均適合率72.8%を達成し、推論時間は23画像あたりわずか58ミリ秒です。モデルサイズは9MBに縮小され、エッジデプロイメントに適しています。また、YOLOv49はYOLOv43と比較してパラメータを8%、計算要件を0.6%削減し、mAPをXNUMX%向上させています。これらの改善により、検出器はグラウンドトゥルースオブジェクトをより正確に一致させ、より少ないハードウェアでより大きなデータセットを処理できるようになります。

さまざまなトレーニング バリアント間の平均 mAP メトリックを比較した棒グラフ

産業分野では、合成画像と実データデータセット画像をデータ拡張と組み合わせることで、平均mAPが向上し、汎化性能が向上します。例えば、合成データと実データの両方で学習させた検出器は、平均mAPが66.7%に達し、高い適合率と再現率を示します。このアプローチは、検出器が複雑な環境下でも真の物体を認識するのに役立ちます。大規模なデータセットを処理し、真のラベルを迅速に照合できるため、シングルステージ検出器は、現代のアプリケーションにおけるリアルタイム物体検出において最適な選択肢となっています。

1段階の物体検出と2段階の物体検出

1段階の物体検出と2段階の物体検出

ワークフローの違い

1段階の物体検出と2段階のアプローチでは、異なる検出パイプラインが使用されます。1段階のシステムでは、検出器は画像を1回のパスで処理します。検出器は特徴マップから直接バウンディングボックスとクラスラベルを予測します。このパイプラインは領域提案ステップを省略します。検出器は特徴マップ上のアンカーを使用し、IOUを適用して予測値を正解オブジェクトと照合します。各予測ヘッドは、正解ボックスを用いてIOUを計算し、検出を割り当てます。その後、検出器は非最大値抑制時にIOUを再度使用し、最適なバウンディングボックスのみを保持します。

Faster R-CNNなどの2段階検出器は、より複雑なパイプラインを辿ります。第1段階では、Region Proposal Network(RPN)を用いて候補領域を生成します。次に、検出器はROIプーリングを適用し、これらの候補領域から特徴を抽出します。第2段階では、各領域を分類し、境界ボックスを精緻化します。このプロセスでは、IOUを用いて、両段階で候補領域と正解オブジェクトをマッチングさせます。以下の表は、ワークフローの主な違いを示しています。

側面 2段階検出器(例:Faster R-CNN) ワンステージ検出器(例:RetinaNet)
ワークフロー 2段階:RPN、次に分類 シングルパス、直接予測
地域提案 RPNはアンカーと提案を生成する 特徴マップ上で直接使用されるアンカー
ROIプーリング プレゼント、オーバーヘッドを追加 不在、合理化
トレーニングの効率 より遅く、より多くの計算を必要とする より速く、より効率的
微分不可能な成分の扱い ROIプーリングに近似値を使用する 微分可能な損失関数を使用する
実用的な意味 高精度、高コスト リアルタイム、効率的

精度と使用例

1 段式検出器と 2 段式検出器のどちらを選択するかは、速度または高精度のどちらが必要かによって決まります。 1段検出器YOLOやRetinaNetなどのシステムは、リアルタイム検出タスクに優れています。検出器はIOUを用いて予測ボックスを実際のオブジェクトと照合することで、高速かつ安定した検出精度を実現します。自動運転車や監視カメラなどのシナリオでは、検出器は画像を高速に処理する必要があります。検出パイプラインはIOUを用いて各予測ボックスを実際のラベルと比較することで、レイテンシを低く抑えます。

Faster R-CNNのような8段階検出器は、複雑な環境でも高い精度を実現します。検出器は各段階でIOUを使用し、提案と予測を真の物体と照合します。この手法は、検出精度が極めて重要な医療画像解析、顔認識、衛星画像に適しています。比較研究によると、XNUMX段階の物体検出は高品質および中品質の画像で安定した精度を維持するのに対し、XNUMX段階アプローチは低品質の画像でより優れたパフォーマンスを発揮することが示されています。実際のテストでは、YOLOvXNUMXはほとんどのデータセットで高い精度を達成していますが、Faster R-CNNは困難なケースでYOLOvXNUMXを上回っています。両システムの検出パイプラインは、信頼性の高い結果を確保するためにIOUと真の物体との照合を利用しています。

ヒント:検出器を選ぶ際には、用途を考慮してください。リアルタイムタスクの場合、1段階検出器は速度と効率性に優れています。高い精度が求められるタスクの場合は、2段階アプローチの方が適している場合があります。

技術的詳細

損失関数

シングルステージ検出器は 損失関数 予測を改善し、データセット内のクラスの不均衡に対処します。RetinaNet で使用されている Focal Loss は、簡単に否定されるオブジェクトに与えられる信頼度を下げることで、モデルが検出が難しいオブジェクトに焦点を当てるのに役立ちます。このアプローチは、特にデータセットにターゲット オブジェクトよりも背景オブジェクトが多い場合に精度を向上させます。研究によると、データセットの不均衡が増すにつれて、Focal Loss と関連する損失は他の損失よりも優れていることが示されています。たとえば、Focal Loss はオブジェクト検出タスクで精度を約 5% 向上させることができます。研究者は、損失関数を比較するために、F1 スコアや ROC 曲線などの指標も使用します。これらの指標は、モデルが予測を真のオブジェクトにどれだけ一致させるかを測定します。技術ドキュメントでは、損失関数が分類項と回帰項を組み合わせ、IOU を使用して予測を真のボックスと一致させる方法について説明しています。一部の研究では損失関数のパフォーマンスが分離されていませんが、損失関数が向上すると予測の信頼度が高まり、精度が向上することが示されています。

アンカーベースとアンカーフリー

シングルステージ検出器は、アンカーベースまたはアンカーフリーのいずれかの手法を使用して予測を生成します。YOLO や SSD などのアンカーベースモデルは、特徴マップ上にプリセットのアンカーボックスを配置します。次に、モデルはこれらのボックスを調整して、データセット内の真のオブジェクトと一致させます。ただし、プリセットアンカーはすべてのオブジェクトサイズをカバーしない可能性があり、IOU が低下し、予測の信頼性が低下します。FCOS などのアンカーフリーモデルは、アンカーボックスを使用せずにオブジェクトの中心を直接予測します。最近の比較では、アンカーフリーの手法は、特に小さなオブジェクトの場合、アンカーベースの手法と同等かそれ以上の精度を達成することが示されています。たとえば、アンカーフリーの手法は、難しいデータセットでマルチステージモデルに近い平均精度に達し、差はわずか 0.3% でした。また、アンカーフリーモデルは、予測を真のオブジェクトと一致させる際に高い IOU と信頼性を示し、多様なデータセットに対して堅牢です。

方法 データセット 地図 IOU Notes
YOLOv4(アンカーベース) DIOR 24.5% ロー 幅の広い物体のサイズでは精度が低い
アンカーフリー DIOR ~カスケード-RCNN 49.8% 小さな物体の検出に最適

トレーニングに関する考慮事項

シングルステージ検出器の学習には、データセット、IOU閾値、そして正解ラベルの割り当てを慎重に扱う必要があります。モデルは、IOUを用いて予測結果を正解ラベルに一致させることを学習する必要があります。適切なIOU閾値を設定することで、高い信頼度の予測結果のみが正しい検出としてカウントされるようになります。閾値が低すぎると、モデルは不完全な一致を受け入れてしまい、精度が低下する可能性があります。一方、高すぎると、真の物体を見逃してしまう可能性があります。データ拡張は、様々なデータセット画像にモデルを曝露することで、モデルの一般化を促進します。また、モデルはバイアスを回避するために、バランスの取れた正解ラベルを必要とします。学習中、モデルは各予測結果が正解ラベルにどれだけ一致しているかに基づいて、その信頼度を調整します。研究者は、以下の点をモニタリングすることを推奨しています。 信頼スコア トレーニング中に IOU を使用することで、データセット全体でモデルの精度と信頼性が向上します。


シングルステージ検出器マシンビジョンシステムは、リアルタイムアプリケーションにおいて高速かつ正確な物体検出を実現します。リソースが限られた環境や、ロボット工学や農業など、スピードが最重要となる動的なタスクに最適です。

  1. 2 段階検出器は高い精度を実現しますが、より多くの計算能力が必要です。
  2. YOLOv10 や RetinaNet などのシングルステージ検出器は、迅速な推論と効率的なモデルを提供します。
  3. 適切なシステムの選択は、アプリケーションのニーズと利用可能なリソースによって異なります。
検出器 主な利点 業績ハイライト
YOLOv10 リアルタイムのスピード、エンドツーエンドのトレーニング RT-DETR-R1.8より18倍高速、レイテンシは46%低い
レティナネット クラスの不均衡、マルチスケール検出を処理 最先端の精度、2段階モデルよりも高速
効率的なデット 柔軟なスケーリング、効率的なバックボーン モバイルやエッジデバイスに最適な小型、高速、高精度

意思決定者は、複数の基準分析を使用して検出システムを特定の目標と一致させ、各シナリオに最適なものを確保できます。

よくあるご質問

シングルステージ検出器と 2 ステージ検出器の違いは何ですか?

シングルステージ検出器は、物体の位置とクラスを1つのステップで予測します。2ステージ検出器は、まず物体の可能性のある領域を検出し、次にそれらを分類します。シングルステージ検出器は動作が高速で、リアルタイムタスクに適しています。

シングルステージ検出器はモバイルデバイスで実行できますか?

はい、多くのシングルステージ検出器は軽量モデルを採用しています。これらのモデルはメモリと消費電力が少なく、スマートフォンやドローンなどのデバイスで高速な物体検出に使用できます。

シングルステージ検出器は安全アプリケーションに十分な精度がありますか?

YOLOのような単段検出器 RetinaNetは高い精度を実現しています。多くの業界では、交通や機械の監視といった安全対策に利用されており、速度と精度のバランスが優れています。

シングルステージ検出器はさまざまなオブジェクトサイズをどのように処理しますか?

ほとんどのシングルステージ検出器は、アンカーボックスまたはマルチスケールグリッドを使用します。これらの機能により、システムは画像内の小さな物体と大きな物体の両方を検出できます。FCOSなどの一部のモデルでは、 アンカーフリー法 柔軟性が向上します。

も参照してください

電子機器がマシンビジョンシステムを動かす仕組みを理解する

マシンビジョン技術におけるカメラの役割

画像処理がマシンビジョンシステムを強化する方法

製品欠陥を検出するためのマシンビジョンソリューション

半導体におけるマシンビジョンの包括的ガイド

も参照してください

ポンプハウジング
製造業者向け品質検査マシンビジョンシステムの説明
顔認識マシンビジョンシステムの仕組み
2025年に向けた自律航行マシンビジョンシステムの定義
組立検証マシンビジョンシステムと品質管理におけるその役割
2025年にポイントクラウドツールがマシンビジョンをどのように強化するか
マシンビジョンにおけるラベリングツールの定義と機能の探究
マシンビジョンシステムの主な用途と使用例は何ですか?
マシンビジョンにおける深度画像処理ライブラリの初心者向けガイド
マシンビジョンにおけるPythonとC++の応用を理解する
上へスクロール