Bài Tập Lớn #1 · CO5085

Phân loại Ảnh, Văn bản
& Đa phương thức

So sánh CNN vs. ViT (ảnh) · RNN vs. Transformer (văn bản) · CLIP Zero-shot Retrieval trên Flickr30k

📄 Nội Dung Trình Bày

Chi tiết từng phần báo cáo
1
Báo cáo EDA – Khám phá Tập Dữ Liệu
CIFAR-100 · 20 Newsgroups · Flickr30k (1,000 ảnh × 5 captions)
✅ Done
2
Dataset, DataLoader & Augmentation
CIFAR-100 loaders · 20 Newsgroups loaders · Augmentation preview
✅ Done
3
Xây dựng, Huấn luyện & Đánh giá Mô hình
ResNet-50 · ViT-B/16 · GRU · DistilBERT · CLIP (5 models chính)
✅ Done
4
Kết quả Thực nghiệm
ViT-B/16 89.60% · CLIP 20-shot 93.00% (Flickr30k) · DistilBERT 69.04% · Biểu đồ so sánh đầy đủ
✅ Done
5
Mở rộng: Grad-CAM, Error Analysis, Demo App
Grad-CAM ResNet-50 · Confusion Matrix · Fine-tune Strategy · Gradio Demo
✅ Done

📊 Kết Quả Thực Nghiệm

Cập nhật lần cuối: 25/03/2026 · Hoàn thành 5/5 model chính · Task 3: Flickr30k Retrieval

🖼️ Image Classification (CIFAR-100)

ModelTypeTest AccuracyF1-MacroParamsEpochs
ResNet-50CNN44.11%0.434025.6M5
ViT-B/16ViT89.60%0.895986M5

📝 Text Classification (20 Newsgroups)

ModelTypeTest AccuracyF1-MacroEpochs
GRURNN37.85%0.36085
DistilBERTTransformer69.04%0.66823

🔀 Multimodal – CLIP Zero-shot vs. Few-shot (Flickr30k, 10 classes)

Phương phápTrain ảnhAccuracyF1-Macro
Zero-shot054.60%0.5173
1-shot1032.80%0.3383
5-shot5061.20%0.6221
10-shot10076.40%0.7655
20-shot20093.00%0.9322

Dataset: Flickr30k test split · 1,000 ảnh · 10 classes (keyword labeling) · CLIP ViT-B/32