Jiashuo Yu

Citace

	Všechny	Od 2020
Citace	1493	1493
h-index	13	13
i10-index	15	15

1200

600

300

900

202220232024202516 204 1153 117

Veřejný přístup

Zobrazit všechny

5 článků

1 článek

dostupné

nedostupné

Vychází ze zplnomocnění pro financování

Spoluautoři

Yu QiaoProfessor of Shanghai AI Laboratory; Shenzhen Institutes of Advanced Technology, CASE-mailová adresa ověřena na: siat.ac.cn
Yinan HeShanghai Al LaboratoryE-mailová adresa ověřena na: pjlab.org.cn
Limin WangNanjing UniversityE-mailová adresa ověřena na: nju.edu.cn
Yi WangShanghai AI LaboratoryE-mailová adresa ověřena na: cse.cuhk.edu.hk
Yali WangProfessor, Shenzhen Institutes of Advanced Technology，Chinese Academy of SciencesE-mailová adresa ověřena na: siat.ac.cn
Kunchang LiShenzhen Institutes of Advanced Technology, Chinese Academy of SciencesE-mailová adresa ověřena na: siat.ac.cn
Yaohui WangShanghai AI Laboratory | InriaE-mailová adresa ověřena na: inria.fr
Xinyuan ChenShanghai AI LaboratoryE-mailová adresa ověřena na: sjtu.edu.cn
Ziwei LiuAssistant Professor, Nanyang Technological UniversityE-mailová adresa ověřena na: ntu.edu.sg
Ying ChengFudan UniversityE-mailová adresa ověřena na: fudan.edu.cn
Xinhao LiNanjing UniversityE-mailová adresa ověřena na: smail.nju.edu.cn
Ziqi HuangPh.D. Student, MMLab@NTU, Nanyang Technological UniversityE-mailová adresa ověřena na: e.ntu.edu.sg
Junfu PuTencent ARC Lab; University of Science and Technology of ChinaE-mailová adresa ověřena na: mail.ustc.edu.cn

Sledovat

Jiashuo Yu

Shanghai AI Laboratory

E-mailová adresa ověřena na: fudan.edu.cn

Audio-Visual Learning Computer Vision Multimodal Learning


Název Seřadit podle citací Seřadit podle roku Seřadit podle názvu	Citace Citace	Rok
Internvideo: General video foundation models via generative and discriminative learning Y Wang, K Li, Y Li, Y He, B Huang, Z Zhao, H Zhang, J Xu, Y Liu, Z Wang, ... arXiv preprint arXiv:2212.03191, 2022	327	2022
Lavie: High-quality video generation with cascaded latent diffusion models Y Wang, X Chen, X Ma, S Zhou, Z Huang, Y Wang, C Yang, Y He, J Yu, ... International Journal of Computer Vision, 1-20, 2024	219	2024
Internvid: A large-scale video-text dataset for multimodal understanding and generation Y Wang, Y He, Y Li, K Li, J Yu, X Ma, X Li, G Chen, X Chen, Y Wang, C He, ... ICLR2024, 2023	218	2023
Vbench: Comprehensive benchmark suite for video generative models Z Huang, Y He, J Yu, F Zhang, C Si, Y Jiang, Y Zhang, T Wu, Q Jin, ... CVPR2024, 2023	205	2023
Internvideo2: Scaling video foundation models for multimodal video understanding Y Wang, K Li, X Li, J Yu, Y He*, G Chen, B Pei, R Zheng, J Xu, Z Wang, ... ECCV2024, 2024	118*	2024
Seine: Short-to-long video diffusion model for generative transition and prediction X Chen, Y Wang, L Zhang, S Zhuang, X Ma, J Yu, Y Wang, D Lin, Y Qiao, ... ICLR2024, 2023	94	2023
Interngpt: Solving vision-centric tasks by interacting with chatgpt beyond language Z Liu, Y He, W Wang, W Wang, Y Wang, S Chen, Q Zhang, Z Lai, Y Yang, ... arXiv preprint arXiv:2305.05662, 2023	90	2023
MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual Event Localization and Video Parsing J Yu, Y Cheng, RW Zhao, R Feng, Y Zhang ACM MM2022, 2021	54	2021
Internvideo-ego4d: A pack of champion solutions to ego4d challenges G Chen, S Xing, Z Chen, Y Wang, K Li, Y Li, Y Liu, J Wang, YD Zheng, ... ECCV2022 Ego4D Workshop, 2022	43	2022
Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection J Yu, J Liu, Y Cheng, R Feng, Y Zhang ACM MM2022, 2022	40	2022
Mpn: Multimodal parallel network for audio-visual event localization J Yu, Y Cheng, R Feng ICME2021, 2021	24	2021
Long-Term Rhythmic Video Soundtracker J Yu, Y Wang, X Chen, X Sun, Y Qiao ICML2023, 2023	16	2023
Exploring Logical Reasoning for Referring Expression Comprehension Y Cheng, R Wang, J Yu, RW Zhao, Y Zhang, R Feng ACM MM2021, 2021	13	2021
OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text Q Li, Z Chen, W Wang, W Wang, S Ye, Z Jin, G Chen, Y He, Z Gao, E Cui, ... arXiv preprint arXiv:2406.08418, 2024	10	2024
Learning Music-Dance Representations through Explicit-Implicit Rhythm Synchronization J Yu, J Pu, Y Cheng, R Feng, Y Shan IEEE Transactions on Multimedia, 2023	10*	2023
Improving multimodal speech enhancement by incorporating self-supervised and curriculum learning Y Cheng, M He, J Yu, R Feng ICASSP2021, 2021	6	2021
Vbench++: Comprehensive and versatile benchmark suite for video generative models Z Huang, F Zhang, X Xu, Y He, J Yu, Z Dong, Q Ma, N Chanpaisit, C Si, ... arXiv preprint arXiv:2411.13503, 2024	5	2024
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling X Li, Y Wang, J Yu*, X Zeng, Y Zhu, H Huang, J Gao, K Li, Y He, ... arXiv preprint arXiv:2501.00574, 2024	1	2024
InternVideo2. 5: Empowering Video MLLMs with Long and Rich Context Modeling Y Wang, X Li, Z Yan, Y He, J Yu*, X Zeng, C Wang, C Ma, H Huang, ... arXiv preprint arXiv:2501.12386, 2025		2025
Supplementary File of InternVideo2: Scaling Foundation Models for Multimodal Video Understanding Y Wang, K Li, X Li, J Yu, Y He, G Chen, B Pei, R Zheng, Z Wang, Y Shi, ...

Systém momentálně nemůže danou operaci provést. Zkuste to znovu později.

Články 1–20

Citace za rok

Duplicitní citace

Sloučené citace

Přidat spoluautorySpoluautoři

Sledovat

Citace

Spoluautoři