Google Académico

Artículos

Académico

2 resultados (0.02 s)

Mi perfil Mi biblioteca

Enhancing advanced visual reasoning ability of large language models

Buscar en artículos que citan

[Free GPT-4]

[PDF] arxiv.org

Large Vision-Language Model Alignment and Misalignment: A Survey Through the Lens of Explainability

D Shu, H Zhao, J Hu, W Liu, L Cheng, M Du - arxiv preprint arxiv …, 2025 - arxiv.org

Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities in
processing both visual and textual information. However, the critical challenge of alignment …

Guardar Citar Artículos relacionados Las 2 versiones Versión en HTML

[Free GPT-4]

[PDF] acm.org

Exploring annotation-free image captioning with retrieval-augmented pseudo sentence generation

Z Li, D Liu, H Wang, C Zhang, W Cai - Proceedings of the 6th ACM …, 2024 - dl.acm.org

Recently, training an image captioner without annotated image-sentence pairs has gained
traction. Previous methods have faced limitations due to either using mismatched corpora for …

Guardar Citar Citado por 1 Artículos relacionados Las 3 versiones

Crear alerta

Citar

Búsqueda avanzada

Guardado en Mi biblioteca

Enhancing advanced visual reasoning ability of large language models

Large Vision-Language Model Alignment and Misalignment: A Survey Through the Lens of Explainability

Exploring annotation-free image captioning with retrieval-augmented pseudo sentence generation