Obserwuj
Xiaomeng Hu
Tytuł
Cytowane przez
Cytowane przez
Rok
Radar: Robust ai-text detection via adversarial learning
X Hu, PY Chen, TY Ho
NeurIPS 2023, 2023
1062023
Gradient cuff: Detecting jailbreak attacks on large language models by exploring refusal loss landscapes
X Hu, PY Chen, TY Ho
NeurIPS 2024, 2024
232024
P3 ranker: Mitigating the gaps between pre-training and ranking fine-tuning with prompt-based learning and pre-finetuning
X Hu, S Yu, C Xiong, Z Liu, Z Liu, G Yu
SIGIR 2022, 2022
162022
Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models
X Hu, PY Chen, TY Ho
AAAI 2025 (Oral), 2025
22025
Nie można teraz wykonać tej operacji. Spróbuj ponownie później.
Prace 1–4