So sánh YOLOv8n (one-stage, anchor-free) và Faster R-CNN ResNet-50 FPN (two-stage) trên Pascal VOC 2012 — mAP, FPS, phân tích lỗi.
Nguyễn Trung Phong · Giảng viên: Lê Thành Sách
| Mô hình | Loại | mAP@0.5 | mAP@0.5:0.95 | FPS | Params |
|---|---|---|---|---|---|
| YOLOv8n | One-stage | 63.5% | 44.4% | 19.6 | 3.0M |
| Faster R-CNN ResNet-50 FPN | Two-stage | 64.0% | 35.7% | 10.9 | 41.4M |
* Cả hai model fine-tune 2 epoch trên Pascal VOC 2012 (5,717 ảnh train · 5,823 ảnh val). YOLOv8n nhanh gần 2× so với Faster R-CNN — minh họa rõ trade-off speed vs accuracy giữa kiến trúc one-stage và two-stage.
| Lớp | YOLOv8n | Faster R-CNN |
|---|---|---|
| person | 82.3% | 79.5% |
| cat | 80.2% | 79.7% |
| bus | 77.0% | 74.2% |
| car | 72.9% | 74.7% |
| bicycle | 67.0% | 76.5% |
| ⋯ 10 lớp ở giữa (xem biểu đồ đầy đủ bên dưới) | ||
| chair | 48.8% | 48.3% |
| sofa | 53.8% | 44.6% |
| bottle | 49.9% | 56.0% |
| boat | 41.6% | 46.2% |
| pottedplant | 41.1% | 47.1% |
* Các lớp dễ (person, cat, bus, car, bicycle) có nhiều mẫu training và đặc trưng rõ ràng — cả hai model đều đạt >65%. Lớp khó (pottedplant, boat, bottle, sofa, chair) thường bị che khuất hoặc có biến thể hình dạng/góc nhìn — cả hai model đều <55%. YOLOv8n nhỉnh hơn ở vài lớp (person, cat, bus, sofa) nhờ anchor-free + dense prediction; Faster R-CNN tốt hơn ở các lớp cần precision cao (bicycle, bottle, pottedplant, boat).