Xize Cheng（成曦泽）

نقل شده توسط

	همهٔ موارد	از 2020
نقل‌‏قول‌‏ها	341	341
شاخص h	11	11
شاخص i10	12	12

240

120

180

20232024202548 231 60

دسترسی عمومی

مشاهدهٔ همه

۸ مقاله

۱ مقاله

در دسترس

در دسترس نیست

براساس دستورات هزینه انتشار

نویسندگان مشترک

Zhou ZhaoZhejiang Universityایمیل تأیید شده در zju.edu.cn
Rongjie HuangFAIR, Zhejiang Universityایمیل تأیید شده در zju.edu.cn
Zehan WangZhejiang Universityایمیل تأیید شده در zju.edu.cn
Haifeng HuangZhejiang Universityایمیل تأیید شده در zju.edu.cn
Minghui FangZhejiang Universityایمیل تأیید شده در zju.edu.cn
Wang LinZhejiang Universityایمیل تأیید شده در zju.edu.cn
shengpeng jiZhejiang universityایمیل تأیید شده در zju.edu.cn
Ye WangZhejiang Universityایمیل تأیید شده در zju.edu.cn
Luping Liu (刘路平)The University of Hong Kongایمیل تأیید شده در connect.hku.hk
Ziyue JiangZhejiang Universityایمیل تأیید شده در zju.edu.cn
Zhenhui Ye (叶振辉)Zhejiang universityایمیل تأیید شده در zju.edu.cn
Ziang ZhangZhejiang Universityایمیل تأیید شده در zju.edu.cn
Huadai LiuZhejiang Universityایمیل تأیید شده در zju.edu.cn
Yi Ren (任意)Research Scientist, Tiktokایمیل تأیید شده در bytedance.com

دنبال کردن

Xize Cheng（成曦泽）

Zhejiang University

ایمیل تأیید شده در zju.edu.cn - صفحهٔ اصلی

Audio-Visual Processing Sound Separation Spoken Dialogue System


عنوان به‌ترتیب نقل قول‌ها به‌ترتیب سال به‌ترتیب عنوان	نقل شده توسط نقل شده توسط	سال
Connecting multi-modal contrastive representations‏ Z Wang, Y Zhao, H Huang, J Liu, A Yin, L Tang, L Li, Y Wang, Z Zhang, ...‏ Advances in Neural Information Processing Systems 36, 22099-22114, 2023‏	33	2023
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers‏ H Huang, Y Chen, Z Wang, R Huang, R Xu, T Wang, L Liu, X Cheng, ...‏ arXiv preprint arXiv:2312.08168, 2023‏	27	2023
Wavtokenizer: an efficient acoustic discrete codec tokenizer for audio language modeling‏ S Ji, Z Jiang, W Wang, Y Chen, M Fang, J Zuo, Q Yang, X Cheng, Z Wang, ...‏ arXiv preprint arXiv:2408.16532, 2024‏	25	2024
Mixspeech: Cross-modality self-learning with audio-visual stream mixup for visual speech translation and recognition‏ X Cheng, T Jin, R Huang, L Li, W Lin, Z Wang, Y Wang, H Liu, A Yin, ...‏ Proceedings of the IEEE/CVF International Conference on Computer Vision …, 2023‏	23	2023
Distilling coarse-to-fine semantic matching knowledge for weakly supervised 3d visual grounding‏ Z Wang, H Huang, Y Zhao, L Li, X Cheng, Y Zhu, A Yin, Z Zhao‏ Proceedings of the IEEE/CVF International Conference on Computer Vision …, 2023‏	18	2023
3drp-net: 3d relative position-aware network for 3d visual grounding‏ Z Wang, H Huang, Y Zhao, L Li, X Cheng, Y Zhu, A Yin, Z Zhao‏ arXiv preprint arXiv:2307.13363, 2023‏	17	2023
Opensr: Open-modality speech recognition via maintaining multi-modality alignment‏ X Cheng, T Jin, L Li, W Lin, X Duan, Z Zhao‏ arXiv preprint arXiv:2306.06410, 2023‏	17	2023
Av-transpeech: Audio-visual robust speech-to-speech translation‏ R Huang, H Liu, X Cheng, Y Ren, L Li, Z Ye, J He, L Zhang, J Liu, X Yin, ...‏ arXiv preprint arXiv:2305.15403, 2023‏	15	2023
Tavt: Towards transferable audio-visual text generation‏ W Lin, T Jin, W Pan, L Li, X Cheng, Y Wang, Z Zhao‏ Proceedings of the 61st Annual Meeting of the Association for Computational …, 2023‏	13	2023
Chat-scene: Bridging 3d scene and large language models with object identifiers‏ H Huang, Y Chen, Z Wang, R Huang, R Xu, T Wang, L Liu, X Cheng, ...‏ The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024‏	12	2024
Exploring group video captioning with efficient relational approximation‏ W Lin, T Jin, Y Wang, W Pan, L Li, X Cheng, Z Zhao‏ Proceedings of the IEEE/CVF International Conference on Computer Vision …, 2023‏	11	2023
Freebind: Free lunch in unified multimodal space via knowledge fusion‏ Z Wang, Z Zhang, X Cheng, R Huang, L Liu, Z Ye, H Huang, Y Zhao, T Jin, ...‏ arXiv preprint arXiv:2405.04883, 2024‏	10	2024
Extending multi-modal contrastive representations‏ Z Zhang, Z Wang, L Liu, R Huang, X Cheng, Z Ye, H Liu, H Huang, ...‏ Advances in Neural Information Processing Systems 37, 91880-91903, 2025‏	9	2025
Omnibind: Large-scale omni multimodal representation via binding spaces‏ Z Wang, Z Zhang, H Zhang, L Liu, R Huang, X Cheng, H Zhao, Z Zhao‏ arXiv preprint arXiv:2407.11895, 2024‏	9	2024
Audiolcm: Text-to-audio generation with latent consistency models‏ H Liu, R Huang, Y Liu, H Cao, J Wang, X Cheng, S Zheng, Z Zhao‏ arXiv preprint arXiv:2406.00356, 2024‏	9	2024
Rethinking missing modality learning from a decoding perspective‏ T Jin, X Cheng, L Li, W Lin, Y Wang, Z Zhao‏ Proceedings of the 31st ACM International Conference on Multimedia, 4431-4439, 2023‏	9	2023
Wavchat: A survey of spoken dialogue models‏ S Ji, Y Chen, M Fang, J Zuo, J Lu, H Wang, Z Jiang, L Zhou, S Liu, ...‏ arXiv preprint arXiv:2411.13577, 2024‏	8	2024
Controlspeech: Towards simultaneous zero-shot speaker cloning and zero-shot language style control with decoupled codec‏ S Ji, J Zuo, W Wang, M Fang, S Zheng, Q Chen, Z Jiang, H Huang, ...‏ arXiv preprint arXiv:2406.01205, 2024‏	7	2024
Transface: Unit-based audio-visual speech synthesizer for talking head translation‏ X Cheng, R Huang, L Li, T Jin, Z Wang, A Yin, M Li, X Duan, Z Zhao‏ arXiv preprint arXiv:2312.15197, 2023‏	7	2023
Weakly-supervised spoken video grounding via semantic interaction learning‏ Y Wang, W Lin, S Zhang, T Jin, L Li, X Cheng, Z Zhao‏ Proceedings of the 61st Annual Meeting of the Association for Computational …, 2023‏	7	2023

سیستم در حال حاضر قادر به انجام عملکرد نیست. بعداً دوباره امتحان کنید.

مقاله‌ها 1–20

نقل‌قول‌ها در سال

نقل‌قول تکراری

نقل‌قول‌های ادغام شده

افزودن نویسنده‌های همکارنویسندگان مشترک

دنبال کردن

نقل شده توسط

نویسندگان مشترک