Підписатись
Aidan Ewart
Aidan Ewart
Maths Undergrad @ University of Bristol
Підтверджена електронна адреса в bristol.ac.uk - Домашня сторінка
Назва
Посилання
Посилання
Рік
Sparse autoencoders find highly interpretable features in language models
H Cunningham*, LR Smith*, A Ewart*, R Huben, L Sharkey
The Twelfth International Conference on Learning Representations, 2023
2262023
Eight methods to evaluate robust unlearning in llms
A Lynch*, P Guo*, A Ewart*, S Casper, D Hadfield-Menell
arXiv preprint arXiv:2402.16835, 2024
502024
Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs
A Ewart*, A Sheshadri*, PH Guo, A Lynch, C Wu, V Hebbar, H Sleight, ...
Workshop on Socially Responsible Language Modelling Research, 2024
27*2024
Robust unlearning via mechanistic localizations
PH Guo*, A Syed*, A Sheshadri, A Ewart, GK Dziugaite
ICML 2024 Workshop on Mechanistic Interpretability, 2024
6*2024
Latent adversarial training improves robustness to persistent harmful behaviors in llms, 2024
A Sheshadri, A Ewart, P Guo, A Lynch, C Wu, V Hebbar, H Sleight, ...
URL https://arxiv. org/abs/2407.15549, 0
5
Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities
Z Che*, S Casper*, R Kirk, A Satheesh, S Slocum, LE McKinney, ...
arXiv preprint arXiv:2502.05209, 2025
2025
У даний момент система не може виконати операцію. Спробуйте пізніше.
Статті 1–6