Cikkek nyilvánosan hozzáférhető megbízással - Sihan ChenTovábbi információ
Valahol hozzáférhető: 6
Vast: A vision-audio-subtitle-text omni-modality foundation model and dataset
S Chen, H Li, Q Wang, Z Zhao, M Sun, X Zhu, J Liu
Advances in Neural Information Processing Systems 36, 72842-72866, 2023
Megbízások: National Natural Science Foundation of China
Vlab: Enhancing video language pre-training by feature adapting and blending
X He, S Chen, F Ma, Z Huang, X Jin, Z Liu, D Fu, Y Yang, J Liu, J Feng
IEEE Transactions on Multimedia, 2023
Megbízások: National Natural Science Foundation of China
Sounding video generator: A unified framework for text-guided sounding video generation
J Liu, W Wang, S Chen, X Zhu, J Liu
IEEE Transactions on Multimedia 26, 141-153, 2023
Megbízások: National Natural Science Foundation of China
Mm21 pre-training for video understanding challenge: Video captioning with pretraining techniques
S Chen, X Zhu, D Hao, W Liu, J Liu, Z Zhao, L Guo, J Liu
Proceedings of the 29th ACM International Conference on Multimedia, 4853-4857, 2021
Megbízások: National Natural Science Foundation of China
GLOBER: coherent non-autoregressive video generation via global guided video decoder
M Sun, W Wang, Z Qin, J Sun, S Chen, J Liu
Advances in Neural Information Processing Systems 36, 2024
Megbízások: National Natural Science Foundation of China
Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner
Z Liu, S Chen, L Guo, H Li, X He, J Liu
Proceedings of the 31st ACM International Conference on Multimedia, 5120-5131, 2023
Megbízások: National Natural Science Foundation of China
A publikációs és a finanszírozási adatokat számítógépes program határozza meg, automatikusan.