Παρακολούθηση
Aidan Ewart
Aidan Ewart
Maths Undergrad @ University of Bristol
Η διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα bristol.ac.uk - Αρχική σελίδα
Τίτλος
Παρατίθεται από
Παρατίθεται από
Έτος
Sparse Autoencoders Find Highly Interpretable Features in Language Models
R Huben, H Cunningham, LR Smith, A Ewart, L Sharkey
The Twelfth International Conference on Learning Representations, 2023
190*2023
Eight methods to evaluate robust unlearning in llms
A Lynch, P Guo, A Ewart, S Casper, D Hadfield-Menell
arXiv preprint arXiv:2402.16835, 2024
43*2024
Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs
A Ewart, A Sheshadri, PH Guo, A Lynch, C Wu, V Hebbar, H Sleight, ...
Workshop on Socially Responsible Language Modelling Research, 2024
19*2024
Robust unlearning via mechanistic localizations
PH Guo, A Syed, A Sheshadri, A Ewart, GK Dziugaite
ICML 2024 Workshop on Mechanistic Interpretability, 2024
5*2024
Δεν είναι δυνατή η εκτέλεση της ενέργειας από το σύστημα αυτή τη στιγμή. Προσπαθήστε ξανά αργότερα.
Άρθρα 1–4