Jiongxiao Wang

Citat de

	Toate	Din 2020
Referințe bibliografice	451	451
h-index	10	10
i10-index	10	10

320

160

240

20222023202420252 81 310 58

Acces public

Afișați-le pe toate

5 articole

0 articole

disponibile

indisponibile

Pe baza cerințelor privind finanțarea

Urmăriți

Jiongxiao Wang

PhD Student, University of Wisconsin–Madison

Adresă de e-mail confirmată pe wisc.edu - Pagina de pornire

Trustworthy Machine Learning Diffusion Model Large Language Model AI for Science


Titlu Sortați după descrierea bibliografică Sortați după an Sortați după titlu	Citat de Citat de	Anul
On the exploitability of instruction tuning M Shu, J Wang, C Zhu, J Geiping, C Xiao, T Goldstein Advances in Neural Information Processing Systems 36, 61836-61856, 2023	93	2023
Adversarial demonstration attacks on large language models J Wang, Z Liu, KH Park, Z Jiang, Z Zheng, Z Wu, M Chen, C Xiao arXiv preprint arXiv:2305.14950, 2023	77	2023
Densepure: Understanding diffusion models for adversarial robustness C Xiao, Z Chen, K Jin, J Wang, W Nie, M Liu, A Anandkumar, B Li, D Song The Eleventh International Conference on Learning Representations, 2023	77*	2023
Conversational drug editing using retrieval and domain feedback S Liu, J Wang, Y Yang, C Wang, L Liu, H Guo, C Xiao The twelfth international conference on learning representations, 2024	56*	2024
Backdooralign: Mitigating fine-tuning based jailbreak attack with backdoor enhanced safety alignment J Wang, J Li, Y Li, X Qi, J Hu, S Li, P McDaniel, M Chen, B Li, C Xiao Advances in Neural Information Processing Systems 37, 5210-5243, 2025	39*	2025
Defending against adversarial audio via diffusion model S Wu, J Wang, W Ping, W Nie, C Xiao arXiv preprint arXiv:2303.01507, 2023	31	2023
RLHFPoison: Reward poisoning attack for reinforcement learning with human feedback in large language models J Wang, J Wu, M Chen, Y Vorobeychik, C Xiao arXiv preprint arXiv:2311.09641, 2023	19*	2023
Test-time backdoor mitigation for black-box large language models with defensive demonstrations W Mo, J Xu, Q Liu, J Wang, J Yan, C Xiao, M Chen arXiv preprint arXiv:2311.09763, 2023	19	2023
Fast and reliable evaluation of adversarial robustness with minimum-margin attack R Gao, J Wang, K Zhou, F Liu, B Xie, G Niu, B Han, J Cheng International Conference on Machine Learning, 7144-7163, 2022	15	2022
A critical revisit of adversarial robustness in 3D point cloud recognition with diffusion-driven purification J Sun, J Wang, W Nie, Z Yu, Z Mao, C Xiao International Conference on Machine Learning, 33100-33114, 2023	13	2023
Safeguarding vision-language models against patched visual prompt injectors J Sun, C Wang, J Wang, Y Zhang, C Xiao arXiv preprint arXiv:2405.10529, 2024	5	2024
Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset Y Ma, J Wang, F Wang, S Ma, J Li, X Li, F Huang, L Sun, B Li, Y Choi, ... arXiv preprint arXiv:2411.03554, 2024	3	2024
Preference poisoning attacks on reward model learning J Wu, J Wang, C Xiao, C Wang, N Zhang, Y Vorobeychik arXiv preprint arXiv:2402.01920, 2024	3	2024
FATH: Authentication-based Test-time Defense against Indirect Prompt Injection Attacks J Wang, F Wu, W Li, J Pan, E Suh, ZM Mao, M Chen, C Xiao arXiv preprint arXiv:2410.21492, 2024	1	2024
Consistency Purification: Effective and Efficient Diffusion Purification towards Certified Robustness Y Li, Z Chen, K Jin, J Wang, J Lei, B Li, C Xiao Advances in Neural Information Processing Systems 37, 105017-105038, 2025		2025

Sistemul nu poate realiza operația în acest moment. Încercați din nou mai târziu.

Articole 1–15

Referințe bibliografice pe an

Citate duplicat

Citate fuzionate

Adăugați coautoriCoautori

Urmăriți

Citat de