Bài Tập Lớn #1 · CO5085

Phân loại Ảnh, Văn bản
& Đa phương thức

So sánh CNN vs. ViT (ảnh) · RNN vs. Transformer (văn bản) · CLIP Zero-shot Retrieval trên Flickr30k

Demo ứng dụng phân loại trực tiếp

Video Trình Bày

Báo cáo và bảo vệ kết quả (YouTube)

Notebooks và modules Python

Slide trình bày tổng hợp

📄 Nội Dung Trình Bày

Chi tiết từng phần báo cáo

Báo cáo EDA – Khám phá Tập Dữ Liệu

CIFAR-100 · 20 Newsgroups · Flickr30k (1,000 ảnh × 5 captions)

Dataset, DataLoader & Augmentation

CIFAR-100 loaders · 20 Newsgroups loaders · Augmentation preview

Xây dựng, Huấn luyện & Đánh giá Mô hình

ResNet-50 · ViT-B/16 · GRU · DistilBERT · CLIP (5 models chính)

Kết quả Thực nghiệm

ViT-B/16 89.60% · CLIP 20-shot 93.00% (Flickr30k) · DistilBERT 69.04% · Biểu đồ so sánh đầy đủ

Mở rộng: Grad-CAM, Error Analysis, Demo App

Grad-CAM ResNet-50 · Confusion Matrix · Fine-tune Strategy · Gradio Demo

📊 Kết Quả Thực Nghiệm

Cập nhật lần cuối: 25/03/2026 · Hoàn thành 5/5 model chính · Task 3: Flickr30k Retrieval

🖼️ Image Classification (CIFAR-100)

Model	Type	Test Accuracy	F1-Macro	Params	Epochs
ResNet-50	CNN	44.11%	0.4340	25.6M	5
ViT-B/16	ViT	89.60%	0.8959	86M	5

📝 Text Classification (20 Newsgroups)

Model	Type	Test Accuracy	F1-Macro	Epochs
GRU	RNN	37.85%	0.3608	5
DistilBERT	Transformer	69.04%	0.6682	3

🔀 Multimodal – CLIP Zero-shot vs. Few-shot (Flickr30k, 10 classes)

Phương pháp	Train ảnh	Accuracy	F1-Macro
Zero-shot	0	54.60%	0.5173
1-shot	10	32.80%	0.3383
5-shot	50	61.20%	0.6221
10-shot	100	76.40%	0.7655
20-shot	200	93.00%	0.9322

Dataset: Flickr30k test split · 1,000 ảnh · 10 classes (keyword labeling) · CLIP ViT-B/32