Google Academic

Turnitin 降AI改写早检测系统早降重系统 Turnitin-UK版万方检测-期刊版维普编辑部版 Grammarly检测 Paperpass检测 checkpass检测 PaperYY检测

Internlm-xcomposer2-4khd: A pioneering large vision-language model handling resolutions from 336 pixels to 4k hd

X Dong, P Zhang, Y Zang, Y Cao… - Advances in …, 2025 - proceedings.neurips.cc

Abstract The Large Vision-Language Model (LVLM) field has seen significant
advancements, yet its progression has been hindered by challenges in comprehending fine …

Salvați Citați Citat de 115 ori Articole cu conținut similar Toate cele 5 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Internlm-xcomposer-2.5: A versatile large vision language model supporting long-contextual input and output

P Zhang, X Dong, Y Zang, Y Cao, R Qian… - arxiv preprint arxiv …, 2024 - arxiv.org

We present InternLM-XComposer-2.5 (IXC-2.5), a versatile large-vision language model that
supports long-contextual input and output. IXC-2.5 excels in various text-image …

Salvați Citați Citat de 84 ori Articole cu conținut similar Toate cele 3 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] thecvf.com

Aigiqa-20k: A large database for ai-generated image quality assessment

C Li, T Kou, Y Gao, Y Cao, W Sun… - Proceedings of the …, 2024 - openaccess.thecvf.com

With the rapid advancements in AI-Generated Content (AIGC) AI-Generated Images (AIGIs)
have been widely applied in entertainment education and social media. However due to the …

Salvați Citați Citat de 18 ori Articole cu conținut similar Toate cele 7 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] neurips.cc

Naturalbench: Evaluating vision-language models on natural adversarial samples

B Li, Z Lin, W Peng, JD Nyandwi… - Advances in …, 2025 - proceedings.neurips.cc

Vision-language models (VLMs) have made significant progress in recent visual-question-
answering (VQA) benchmarks that evaluate complex visio-linguistic reasoning. However …

Salvați Citați Citat de 8 ori Articole cu conținut similar Toate cele 3 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

What If We Recaption Billions of Web Images with LLaMA-3?

X Li, H Tu, M Hui, Z Wang, B Zhao, J **ao… - arxiv preprint arxiv …, 2024 - arxiv.org

Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate that
semantically aligning and enriching textual descriptions of these pairs can significantly …

Salvați Citați Citat de 27 ori Articole cu conținut similar Toate cele 4 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Motionclone: Training-free motion cloning for controllable video generation

P Ling, J Bu, P Zhang, X Dong, Y Zang, T Wu… - arxiv preprint arxiv …, 2024 - arxiv.org

Motion-based controllable video generation offers the potential for creating captivating
visual content. Existing methods typically necessitate model training to encode particular …

Salvați Citați Citat de 23 ori Articole cu conținut similar Toate cele 3 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] neurips.cc

Lotlip: Improving language-image pre-training for long text understanding

W Wu, K Zheng, S Ma, F Lu, Y Guo… - Advances in …, 2025 - proceedings.neurips.cc

In this work, we empirically confirm that the key reason causing such an issue is that the
training images are usually paired with short captions, leaving certain tokens easily …

Salvați Citați Citat de 5 ori Articole cu conținut similar Toate cele 3 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Pyramiddrop: Accelerating your large vision-language models via pyramid visual redundancy reduction

L **ng, Q Huang, X Dong, J Lu, P Zhang… - arxiv preprint arxiv …, 2024 - arxiv.org

In large vision-language models (LVLMs), images serve as inputs that carry a wealth of
information. As the idiom" A picture is worth a thousand words" implies, representing a …

Salvați Citați Citat de 13 ori Articole cu conținut similar Toate cele 3 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

E5-v: Universal embeddings with multimodal large language models

T Jiang, M Song, Z Zhang, H Huang, W Deng… - arxiv preprint arxiv …, 2024 - arxiv.org

Multimodal large language models (MLLMs) have shown promising advancements in
general visual and language understanding. However, the representation of multimodal …

Salvați Citați Citat de 19 ori Articole cu conținut similar Toate cele 3 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Finecliper: Multi-modal fine-grained clip for dynamic facial expression recognition with adapters

H Chen, H Huang, J Dong, M Zheng… - Proceedings of the 32nd …, 2024 - dl.acm.org

Dynamic Facial Expression Recognition (DFER) is crucial for understanding human
behavior. However, current methods exhibit limited performance mainly due to the …

Salvați Citați Citat de 13 ori Articole cu conținut similar Toate cele 5 versiuni

Citați

Căutare avansată

Salvat în Bibliotecă

Internlm-xcomposer2-4khd: A pioneering large vision-language model handling resolutions from 336 pixels to 4k hd

Internlm-xcomposer-2.5: A versatile large vision language model supporting long-contextual input and output

Aigiqa-20k: A large database for ai-generated image quality assessment

Naturalbench: Evaluating vision-language models on natural adversarial samples

What If We Recaption Billions of Web Images with LLaMA-3?

Motionclone: Training-free motion cloning for controllable video generation

Lotlip: Improving language-image pre-training for long text understanding

Pyramiddrop: Accelerating your large vision-language models via pyramid visual redundancy reduction

E5-v: Universal embeddings with multimodal large language models

Finecliper: Multi-modal fine-grained clip for dynamic facial expression recognition with adapters