Zeming Wei

Citado por

	Total	Desde 2020
Citas	398	398
Índice h	9	9
Índice i10	9	9

320

160

240

20232024202547 318 32

Acceso público

Ver todo

6 artículos

0 artículos

disponibles

no disponibles

Basado en requisitos de financiación

Coautores

Yisen WangAssistant Professor, Peking UniversityDirección de correo verificada de pku.edu.cn
Yihao ZhangPeking UniversityDirección de correo verificada de stu.pku.edu.cn
Yifei WangPostdoc, MIT CSAILDirección de correo verificada de mit.edu
Yichuan MoPh.D. Candidate, Peking UniversityDirección de correo verificada de stu.pku.edu.cn
Meng SunProfessor, School of Mathematical Science, Peking UniversityDirección de correo verificada de math.pku.edu.cn
Xiyue ZhangUniversity of BristolDirección de correo verificada de bristol.ac.uk
Jingyu ZhuDirección de correo verificada de stu.pku.edu.cn
Chawin SitawarinPostdoctoral Researcher @ MetaDirección de correo verificada de meta.com
David WagnerProfessor of Computer Science, UC BerkeleyDirección de correo verificada de cs.berkeley.edu
Huanran ChenUndergraduate, Beijing Institute of TechnologyDirección de correo verificada de bit.edu.cn
Sun JunProfessor of SCIS, SMUDirección de correo verificada de smu.edu.sg
Stefanie JegelkaTUM and MITDirección de correo verificada de mit.edu
Hangzhou HePeking UniversityDirección de correo verificada de stu.pku.edu.cn
Yuyang WuUndergraduate, Peking UniversityDirección de correo verificada de stu.pku.edu.cn
Yinpeng DongTsinghua UniversityDirección de correo verificada de tsinghua.edu.cn
Jun ZhuProfessor of Computer Science, Tsinghua UniversityDirección de correo verificada de mail.tsinghua.edu.cn

Seguir

Zeming Wei

Undergraduate, Peking University

Dirección de correo verificada de stu.pku.edu.cn - Página principal

Trustworthy AI Adversarial Robustness Explainability


Título Ordenar por citas Ordenar por año Ordenar por título	Citado por Citado por	Año
Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations Z Wei, Y Wang, A Li, Y Mo, Y Wang arXiv preprint arXiv:2310.06387, 2023	174	2023
CFA: Class-wise Calibrated Fair Adversarial Training Z Wei, Y Wang, Y Guo, Y Wang CVPR 2023, 2023	63	2023
Jatmo: Prompt injection defense by task-specific finetuning J Piet, M Alrashed, C Sitawarin, S Chen, Z Wei, E Sun, ..., D Wagner ESORICS 2024, 2024	44	2024
Sharpness-aware minimization alone can improve adversarial robustness Z Wei(✉️), J Zhu, Y Zhang ICML 2023 Workshop on Adversarial Machine Learning, 2023	18*	2023
Fight back against jailbreaking via prompt adversarial tuning Y Mo, Y Wang, Z Wei, Y Wang NeurIPS 2024, 2024	17*	2024
Boosting Jailbreak Attack with Momentum Y Zhang, Z Wei(✉️) ICASSP 2025, 2024	14	2024
Architecture Matters: Uncovering Implicit Mechanisms in Graph Contrastive Learning X Guo, Y Wang, Z Wei, Y Wang NeurIPS 2023, 2023	14	2023
Weighted Automata Extraction and Explanation of Recurrent Neural Networks for Natural Language Tasks Z Wei, X Zhang, Y Zhang, M Sun Journal of Logical and Algebraic Methods in Programming 136, 100907, 2023	11	2023
Extracting weighted finite automata from recurrent neural networks for natural languages Z Wei, X Zhang, M Sun ICFEM 2022, 2022	10	2022
A Theoretical Understanding of Self-Correction through In-context Alignment Y Wang, Y Wu, Z Wei, S Jegelka, Y Wang NeurIPS 2024, 2024	8	2024
On the Duality Between Sharpness-Aware Minimization and Adversarial Training Y Zhang, H He, J Zhu, H Chen, Y Wang, Z Wei(✉️) ICML 2024, 2024	8	2024
Using Z3 for Formal Modeling and Verification of FNN Global Robustness Y Zhang, Z Wei, X Zhang, M Sun arXiv preprint arXiv:2304.10558, 2023	7	2023
Exploring the Robustness of In-Context Learning with Noisy Labels C Cheng, X Yu, H Wen, J Sun, G Yue, Y Zhang, Z Wei(✉️) ICASSP 2025, 2024	5	2024
Adversarial Representation Engineering: A General Model Editing Framework for Large Language Models Y Zhang, Z Wei, J Sun, M Sun NeurIPS 2024, 2024	3*	2024
Automata Extraction from Transformers Y Zhang, Z Wei, M Sun arXiv preprint arXiv:2406.05564, 2024	1	2024
Identifying and Understanding Cross-Class Features in Adversarial Training Z Wei, Y Guo, Y Wang OpenReview preprint, 2023	1*	2023
Towards the Worst-case Robustness of Large Language Models H Chen, Y Dong, Z Wei, H Su, J Zhu arXiv preprint arXiv:2501.19040, 2025		2025
MILE: A Mutation Testing Framework of In-Context Learning Systems Z Wei, Y Zhang, M Sun SETTA 2024, 2024		2024

El sistema no puede realizar la operación en estos momentos. Inténtalo de nuevo más tarde.

Artículos 1–18

Citas por año

Citas duplicadas

Citas combinadas

Añadir coautoresCoautores

Seguir

Citado por

Coautores