Byeongho Heo

VisualScratchpad: Grounding Visual Concepts in Large Vision Language Models featured image

Vision-Language Models

VisualScratchpad: Grounding Visual Concepts in Large Vision Language Models

Grounding visual concepts in large vision-language models via a attention-based linking mechanism.

hyesu-lim

• Apr 1, 2026 • 1 min read