Google znalac

J Zhang, W Yang, S Lai, Z **e, L ** - arxiv preprint arxiv:2406.19101, 2024 - arxiv.org

Current multimodal large language models (MLLMs) face significant challenges in visual
document understanding (VDU) tasks due to the high resolution, dense text, and complex …

Spremi Citiraj Spominje se 7 puta Srodni članci Svih 3 inačica Prikaži kao HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

ST: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming

J Zhuang, L Lu, M Dai, R Hu, J Chen, Q Liu… - arxiv preprint arxiv …, 2024 - arxiv.org

Multimodal large language models (MLLMs) enhance their perceptual capabilities by
integrating visual and textual information. However, processing the massive number of …

Spremi Citiraj Spominje se 1 puta Srodni članci Svih 2 inačica Prikaži kao HTML

Stvori obavijest

Citiraj

Napredno pretraživanje

Spremljeno u Moju knjižnicu

Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model

Dockylin: A large multimodal model for visual document understanding with efficient visual slimming

ST: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming