Aidan Ewart

220

110

165

20232024202513 205 95

Phillip GuoUniversity of MarylandПідтверджена електронна адреса в umd.edu
Aengus LynchUniversity College London, MATSПідтверджена електронна адреса в ucl.ac.uk
Lee D SharkeyApollo ResearchПідтверджена електронна адреса в apolloresearch.ai
Dylan Hadfield-MenellMassachusetts Institute of TechnologyПідтверджена електронна адреса в csail.mit.edu
Stephen CasperPhD student, MITПідтверджена електронна адреса в mit.edu
Abhay SheshadriUndergraduate, Georgia Institute of TechnologyПідтверджена електронна адреса в gatech.edu
Henry SleightResearch Manager, Anthropic Fellows Program, Program Manager, ConstellationПідтверджена електронна адреса в constellation.org
Cindy X. WuGoogle DeepMindПідтверджена електронна адреса в google.com
Asa Cooper SticklandPostdoctoral Researcher, New York UniversityПідтверджена електронна адреса в ed.ac.uk
Ethan PerezAnthropic; New York UniversityПідтверджена електронна адреса в anthropic.com
Aaquib SyedMATS 5.0 | Student, University of MarylandПідтверджена електронна адреса в umd.edu
Gintare Karolina DziugaiteGoogle DeepMindПідтверджена електронна адреса в google.com
Logan Riggs Smith
Robert Huben
Hoagy CunninghamIndependent

Aidan Ewart

Підтверджена електронна адреса в bristol.ac.uk - Домашня сторінка


Назва Сортувати за цитуваннями Сортувати за роком Сортувати за назвою	Посилання Посилання	Рік
Sparse autoencoders find highly interpretable features in language models H Cunningham, LR Smith, A Ewart*, R Huben, L Sharkey The Twelfth International Conference on Learning Representations, 2023	226	2023
Eight methods to evaluate robust unlearning in llms A Lynch, P Guo, A Ewart*, S Casper, D Hadfield-Menell arXiv preprint arXiv:2402.16835, 2024	50	2024
Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs A Ewart, A Sheshadri, PH Guo, A Lynch, C Wu, V Hebbar, H Sleight, ... Workshop on Socially Responsible Language Modelling Research, 2024	27*	2024
Robust unlearning via mechanistic localizations PH Guo, A Syed, A Sheshadri, A Ewart, GK Dziugaite ICML 2024 Workshop on Mechanistic Interpretability, 2024	6*	2024
Latent adversarial training improves robustness to persistent harmful behaviors in llms, 2024 A Sheshadri, A Ewart, P Guo, A Lynch, C Wu, V Hebbar, H Sleight, ... URL https://arxiv. org/abs/2407.15549, 0	5
Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities Z Che, S Casper, R Kirk, A Satheesh, S Slocum, LE McKinney, ... arXiv preprint arXiv:2502.05209, 2025		2025

У даний момент система не може виконати операцію. Спробуйте пізніше.

Статті 1–6

Кількість бібліографічних посилань на рік