Haiyang Xu

引用先

	すべて	2020 年以来
引用	3250	3221
h 指標	23	22
i10 指標	39	39

2200

1100

550

1650

2018201920202021202220232024202514 9 34 74 139 575 2179 218

オープンアクセス

すべて表示

9 件の論文

2 件の論文

利用可能

利用不可

助成機関の要件に基づく

共著者

Fei HuangCarnegie Mellon University, IBM Research, Facebook, Alibaba DAMO Academy確認したメールアドレス: alibaba-inc.com
Ji ZhangAlibaba Group確認したメールアドレス: alibaba-inc.com
Chenliang LiAlibaba Inc.確認したメールアドレス: alibaba-inc.com
Qinghao YeByteDance Ltd.; University of California, San Diego確認したメールアドレス: ucsd.edu
Anwen HuAlibaba Group確認したメールアドレス: ruc.edu.cn
Qi QianZoom確認したメールアドレス: zoom.us
Jingren ZhouAlibaba Group, Microsoft確認したメールアドレス: alibaba-inc.com
Songfang Huang（黄松芳）Peking University, Alibaba DAMO, IBM Research, The University of Edinburgh確認したメールアドレス: pku.edu.cn
Kun HanFacebook確認したメールアドレス: cse.ohio-state.edu
Qin Jin中国人民大学信息学院確認したメールアドレス: ruc.edu.cn
Deyu ZhouProfessor, School of computer science and engineering, SEU確認したメールアドレス: seu.edu.cn
Yulan HeProfessor, King's College London; Turing AI Fellow確認したメールアドレス: kcl.ac.uk
Luo SiSalesforce, Alibaba Group Inc, Purdue Univ, Carnegie Mellon Univ確認したメールアドレス: cs.purdue.edu
XU YANGSoutheast University確認したメールアドレス: seu.edu.cn
Rong JinAlibaba Group確認したメールアドレス: cse.msu.edu
Ming YanAlibaba Group

フォロー

Haiyang Xu

Alibaba Group, DIDI AI LABS, SEU

確認したメールアドレス: seu.edu.cn - ホームページ

Natural language processing Machine Learning Multimodal Learning


タイトル引用回数順公開年順タイトル順	引用先引用先	年
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality. Q Ye, H Xu, G Xu, J Ye, M Yan, Y Zhou, J Wang, A Hu, P Shi, Y Shi, C Li, ... arXiv preprint arXiv:2304.14178, 2023	842	2023
mPLUG-Owl2: Revolutionizing multi-modal large language model with modality collaboration Q Ye, H Xu, J Ye, M Yan, H Liu, Q Qian, J Zhang, F Huang, J Zhou CVPR2024 Highlight, 2023	331	2023
Learning alignment for multimodal emotion recognition from speech H Xu, H Zhang, K Han, Y Wang, Y Peng, X Li InterSpeech2019, 2019	181	2019
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections C Li, H Xu, J Tian, W Wang, M Yan, ... EMNLP2022, 2022	160*	2022
mPLUG-2: A modularized multi-modal foundation model across text, image and video H Xu, Q Ye, M Yan, Y Shi, J Ye, Y Xu, C Li International Conference on Machine Learning, ICML, 23-29, 2023	148*	2023
E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning H Xu, M Yan, C Li, B Bi, S Huang, W Xiao, F Huang ACL2021 Oral, 2021	119	2021
UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model J Ye, A Hu, H Xu, Q Ye, M Yan, G Xu, C Li, J Tian, Q Qian, J Zhang, Q Jin, ... EMNLP2023, 2023	113	2023
mPLUG-DocOwl: Modularized multimodal large language model for document understanding J Ye, A Hu, H Xu, Q Ye, M Yan, Y Dan, C Zhao, G Xu, C Li, J Tian, Q Qi, ... arXiv preprint arXiv:2307.02499, 2023	109	2023
Evaluation and analysis of hallucination in large vision-language models J Wang, Y Zhou, G Xu, P Shi, C Zhao, H Xu, Q Ye, M Yan, J Zhang, J Zhu, ... arXiv preprint arXiv:2308.15126, 2023	106	2023
Neural Topic Modeling with Bidirectional Adversarial Training R Wang, X Hu, D Zhou, Y He, Y Xiong, C Ye, H Xu ACL2020, 2020	100	2020
mPLUG-DocOwl 1.5: Unified structure learning for ocr-free document understanding A Hu, H Xu, J Ye, M Yan, L Zhang, B Zhang, C Li, J Zhang, Q Jin, F Huang, ... EMNLP2024, 2024	80	2024
An llm-free multi-dimensional benchmark for mllms hallucination evaluation J Wang, Y Wang, G Xu, J Zhang, Y Gu, H Jia, H Xu, M Yan, J Zhang, ... arXiv preprint arXiv:2311.07397, 2023	80	2023
Hitea: Hierarchical temporal-aware video-language pre-training Q Ye, G Xu, M Yan, H Xu, Q Qian, J Zhang, F Huang ICCV2023, 2022	75	2022
Hallucination augmented contrastive learning for multimodal large language model C Jiang, H Xu, M Dong, J Chen, W Ye, M Yan, Q Ye, J Zhang, F Huang, ... CVPR2024, 2023	70	2023
Mobile-Agent: Autonomous multi-modal mobile device agent with visual perception J Wang, H Xu, J Ye, M Yan, W Shen, J Zhang, F Huang, J Sang ICLR2024 Workshop on Large Language Model (LLM) Agents, 2024	66	2024
Bin Bi, Jiabo Ye, Hehong Chen, Guohai Xu, Zheng Cao, et al. mplug: Effective and efficient vision-language learning by cross-modal skip-connections C Li, H Xu, J Tian, W Wang, M Yan arXiv preprint arXiv:2205.12005 1 (2), 2022	57	2022
mPLUG-Owl3: Towards long image-sequence understanding in multi-modal large language models J Ye, H Xu, H Liu, A Hu, M Yan, Q Qian, J Zhang, F Huang, J Zhou ICLR2025, 2024	49	2024
EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching Y Shi, X Yang, H Xu, C Yuan, B Li, W Hu, ZJ Zha CVPR2022, 2021	41	2021
An unsupervised Bayesian modelling approach for storyline detection on news articles D Zhou, H Xu, Y He EMNLP2015, 1943-1948, 2015	31	2015
mPLUG-PaperOwl: Scientific diagram analysis with the multimodal large language model A Hu, Y Shi, H Xu, J Ye, Q Ye, M Yan, C Li, Q Qian, J Zhang, F Huang MM2024, 2023	30	2023

現在システムで処理を実行できません。しばらくしてからもう一度お試しください。

論文 1–20

年間引用数

重複した引用

結合された引用

共著者を追加共著者

フォロー

引用先

共著者