Google Наука

Y Deldjoo, Z He, J McAuley, A Korikov… - Proceedings of the 30th …, 2024 - dl.acm.org

Traditional recommender systems typically use user-item rating histories as their main data
source. However, deep generative models now have the capability to model and sample …

Запазване Позоваване С позовавания в 47 Сродни статии Всички 7 версии

[Free GPT-4]
[DeepSeek]

[PDF] neurips.cc

Tabpedia: Towards comprehensive visual table understanding with concept synergy

W Zhao, H Feng, Q Liu, J Tang, B Wu… - Advances in …, 2025 - proceedings.neurips.cc

Tables contain factual and quantitative data accompanied by various structures and
contents that pose challenges for machine comprehension. Previous methods generally …

Запазване Позоваване С позовавания в 14 Сродни статии Всички 6 версии Във вид на HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Recommendation with generative models

Y Deldjoo, Z He, J McAuley, A Korikov… - arxiv preprint arxiv …, 2024 - arxiv.org

Generative models are a class of AI models capable of creating new instances of data by
learning and sampling from their statistical distributions. In recent years, these models have …

Запазване Позоваване С позовавания в 12 Сродни статии Всички 5 версии Във вид на HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Leveraging temporal contextualization for video action recognition

M Kim, D Han, T Kim, B Han - European Conference on Computer Vision, 2024 - Springer

We propose a novel framework for video understanding, called Temporally Contextualized
CLIP (TC-CLIP), which leverages essential temporal information through global interactions …

Запазване Позоваване С позовавания в 4 Сродни статии Всички 8 версии

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Rethinking clip-based video learners in cross-domain open-vocabulary action recognition

KY Lin, H Ding, J Zhou, YM Tang, YX Peng… - arxiv preprint arxiv …, 2024 - arxiv.org

Building upon the impressive success of CLIP (Contrastive Language-Image Pretraining),
recent pioneer works have proposed to adapt the powerful CLIP to video data, leading to …

Запазване Позоваване С позовавания в 9 Сродни статии Всички 3 версии Във вид на HTML

[Free GPT-4]
[DeepSeek]

[PDF] techrxiv.org

Foundation models for video understanding: A survey

N Madan, A Møgelmose, R Modi, YS Rawat… - Authorea …, 2024 - techrxiv.org

Video Foundation Models (ViFMs) aim to develop general-purpose representations for
various video understanding tasks by leveraging large-scale datasets and powerful models …

Запазване Позоваване С позовавания в 19 Сродни статии Всички 4 версии Във вид на HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Awt: Transferring vision-language models via augmentation, weighting, and transportation

Y Zhu, Y Ji, Z Zhao, G Wu, L Wang - arxiv preprint arxiv:2407.04603, 2024 - arxiv.org

Pre-trained vision-language models (VLMs) have shown impressive results in various visual
classification tasks. However, we often fail to fully unleash their potential when adapting …

Запазване Позоваване С позовавания в 4 Сродни статии Всички 3 версии Във вид на HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Llavidal: Benchmarking large language vision models for daily activities of living

R Chakraborty, A Sinha, D Reilly, MK Govind… - arxiv preprint arxiv …, 2024 - arxiv.org

Large Language Vision Models (LLVMs) have demonstrated effectiveness in processing
internet videos, yet they struggle with the visually perplexing dynamics present in Activities …

Запазване Позоваване С позовавания в 3 Сродни статии Всички 5 версии Във вид на HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Mote: Reconciling generalization with specialization for visual-language to video knowledge transfer

M Zhu, Z Wang, M Hu, R Dang, X Lin, X Zhou… - arxiv preprint arxiv …, 2024 - arxiv.org

Transferring visual-language knowledge from large-scale foundation models for video
recognition has proved to be effective. To bridge the domain gap, additional parametric …

Запазване Позоваване С позовавания в 2 Сродни статии Всички 3 версии Във вид на HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training

H Wang, C Ju, W Lin, S **ao, M Chen, Y Huang… - arxiv preprint arxiv …, 2024 - arxiv.org

In rapidly evolving field of vision-language models (VLMs), contrastive language-image pre-
training (CLIP) has made significant strides, becoming foundation for various downstream …

Запазване Позоваване С позовавания в 2 Сродни статии Всички 2 версии Във вид на HTML

Създаване на сигнал

Позоваване

Разширено търсене

Запазено в „Моята библиотека“

Froster: Frozen clip is a strong teacher for open-vocabulary action recognition

A review of modern recommender systems using generative models (gen-recsys)

Tabpedia: Towards comprehensive visual table understanding with concept synergy

Recommendation with generative models

Leveraging temporal contextualization for video action recognition

Rethinking clip-based video learners in cross-domain open-vocabulary action recognition

Foundation models for video understanding: A survey

Awt: Transferring vision-language models via augmentation, weighting, and transportation

Llavidal: Benchmarking large language vision models for daily activities of living

Mote: Reconciling generalization with specialization for visual-language to video knowledge transfer

Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training