Huadai Liu

引用先

	すべて	2020 年以来
引用	313	313
h 指標	7	7
i10 指標	7	7

200

100

150

202220232024202512 100 187 14

オープンアクセス

すべて表示

2 件の論文

0 件の論文

利用可能

利用不可

助成機関の要件に基づく

共著者

Rongjie HuangFAIR, Zhejiang University確認したメールアドレス: zju.edu.cn
Zhou ZhaoZhejiang University確認したメールアドレス: zju.edu.cn
Yi Ren (任意)Research Scientist, Tiktok確認したメールアドレス: bytedance.com
Jinzheng HeAlibaba Qwen Team, Zhejiang University確認したメールアドレス: zju.edu.cn
Xize Cheng（成曦泽）Zhejiang University確認したメールアドレス: zju.edu.cn
Jinglin Liu (刘静林)Zhejiang University確認したメールアドレス: zju.edu.cn
Zhenhui Ye (叶振辉)Zhejiang university確認したメールアドレス: zju.edu.cn
Zehan WangZhejiang University確認したメールアドレス: zju.edu.cn

フォロー

Huadai Liu

Zhejiang University

確認したメールアドレス: zju.edu.cn

Audio Generation & Multi-modal Understanding


タイトル引用回数順公開年順タイトル順	引用先引用先	年
Prodiff: Progressive fast diffusion model for high-quality text-to-speech R Huang, Z Zhao, H Liu, J Liu, C Cui, Y Ren Proceedings of the 30th ACM International Conference on Multimedia, 2595-2605, 2022	180	2022
Transpeech: Speech-to-speech translation with bilateral perturbation R Huang, J Liu, H Liu, Y Ren, L Zhang, J He, Z Zhao arXiv preprint arXiv:2205.12523, 2022	47	2022
Mixspeech: Cross-modality self-learning with audio-visual stream mixup for visual speech translation and recognition X Cheng, T Jin, R Huang, L Li, W Lin, Z Wang, Y Wang, H Liu, A Yin, ... Proceedings of the IEEE/CVF International Conference on Computer Vision …, 2023	23	2023
RMSSinger: realistic-music-score based singing voice synthesis J He, J Liu, Z Ye, R Huang, C Cui, H Liu, Z Zhao arXiv preprint arXiv:2305.10686, 2023	19	2023
Av-transpeech: Audio-visual robust speech-to-speech translation R Huang, H Liu, X Cheng, Y Ren, L Li, Z Ye, J He, L Zhang, J Liu, X Yin, ... arXiv preprint arXiv:2305.15403, 2023	14	2023
Vit-tts: visual text-to-speech with scalable diffusion transformer H Liu, R Huang, X Lin, W Xu, M Zheng, H Chen, J He, Z Zhao arXiv preprint arXiv:2305.12708, 2023	14	2023
AudioLCM: Text-to-Audio Generation with Latent Consistency Models H Liu, R Huang, Y Liu, H Cao, J Wang, X Cheng, S Zheng, Z Zhao arXiv preprint arXiv:2406.00356, 2024	10*	2024
Wav2sql: Direct generalizable speech-to-sql parsing H Liu, R Huang, J He, G Sun, R Shen, X Cheng, Z Zhao arXiv preprint arXiv:2305.12552, 2023	2	2023
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models Z Du, Y Wang, Q Chen, X Shi, X Lv, T Zhao, Z Gao, Y Yang, C Gao, ... arXiv preprint arXiv:2412.10117, 2024	1	2024
FlashAudio: Rectified Flows for Fast and High-Fidelity Text-to-Audio Generation H Liu, J Wang, R Huang, Y Liu, H Lu, W Xue, Z Zhao arXiv preprint arXiv:2410.12266, 2024	1	2024
Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation P Sun, S Cheng, X Li, Z Ye, H Liu, H Zhang, W Xue, Y Guo arXiv preprint arXiv:2410.10676, 2024	1	2024
MEDIC: Zero-shot Music Editing with Disentangled Inversion Control H Liu, J Wang, X Li, R Huang, Y Liu, J Xu, Z Zhao arXiv preprint arXiv:2407.13220, 2024	1	2024
AntCritic: Argument Mining for Free-Form and Visually-Rich Financial Comments H Liu, W Xu, X Lin, J Huo, H Chen, Z Zhao arXiv preprint arXiv:2208.09612, 2022		2022
Noise-Robust Audio-Visual Speech-Driven Body Language Synthesis X Cheng, X Yang, Z Wang, D Fu, R Huang, H Liu, T Jin, Z Zhao

現在システムで処理を実行できません。しばらくしてからもう一度お試しください。

論文 1–14

年間引用数

重複した引用

結合された引用

共著者を追加共著者

フォロー

引用先

共著者