Dongyoon Han

VisualScratchpad: Grounding Visual Concepts in Large Vision Language Models featured image

Vision-Language Models

VisualScratchpad: Grounding Visual Concepts in Large Vision Language Models

Grounding visual concepts in large vision-language models via a attention-based linking mechanism.

hyesu-lim

• Apr 1, 2026 • 1 min read

Towards Calibrated Robust Fine-Tuning of Vision-Language Models featured image

Vision-Language Models

Towards Calibrated Robust Fine-Tuning of Vision-Language Models

Calibrated, robust fine-tuning method for vision-language models that preserves uncertainty estimates under distribution shift.

changdae-oh

• Dec 1, 2024 • 1 min read