Aidan Ewart

Παρατίθεται από

	Όλα	Από το 2020
Παραθέσεις	257	257
h-index	4	4
i10-index	3	3

220

110

165

20232024202510 207 40

Συν-συγγραφείς

Phillip GuoUniversity of MarylandΗ διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα umd.edu
Lee D SharkeyApollo ResearchΗ διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα apolloresearch.ai
Aengus LynchUniversity College London, MATSΗ διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα ucl.ac.uk
Dylan Hadfield-MenellMassachusetts Institute of TechnologyΗ διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα csail.mit.edu
Stephen CasperPhD student, MITΗ διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα mit.edu
Abhay SheshadriUndergraduate, Georgia Institute of TechnologyΗ διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα gatech.edu
Asa Cooper SticklandPostdoctoral Researcher, New York UniversityΗ διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα ed.ac.uk
Henry SleightResearch Manager, MATS Program; Visiting Researcher / Astra Fellow, ConstellationΗ διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα matsprogram.org
Ethan PerezAnthropic; New York UniversityΗ διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα anthropic.com
Cindy X. WuGoogle DeepMindΗ διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα google.com
Aaquib SyedMATS 5.0 | Student, University of MarylandΗ διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα umd.edu
Gintare Karolina DziugaiteGoogle DeepMindΗ διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα google.com
Logan Riggs Smith
Robert Huben
Hoagy CunninghamIndependent

Παρακολούθηση

Aidan Ewart

Maths Undergrad @ University of Bristol

Η διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα bristol.ac.uk - Αρχική σελίδα

ML Safety AI Safety AI Alignment


Τίτλος Ταξινόμηση με βάση τις αναφορές Ταξινόμηση κατά έτος Ταξινόμηση κατά τίτλο	Παρατίθεται από Παρατίθεται από	Έτος
Sparse Autoencoders Find Highly Interpretable Features in Language Models R Huben, H Cunningham, LR Smith, A Ewart, L Sharkey The Twelfth International Conference on Learning Representations, 2023	190*	2023
Eight methods to evaluate robust unlearning in llms A Lynch, P Guo, A Ewart, S Casper, D Hadfield-Menell arXiv preprint arXiv:2402.16835, 2024	43*	2024
Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs A Ewart, A Sheshadri, PH Guo, A Lynch, C Wu, V Hebbar, H Sleight, ... Workshop on Socially Responsible Language Modelling Research, 2024	19*	2024
Robust unlearning via mechanistic localizations PH Guo, A Syed, A Sheshadri, A Ewart, GK Dziugaite ICML 2024 Workshop on Mechanistic Interpretability, 2024	5*	2024

Δεν είναι δυνατή η εκτέλεση της ενέργειας από το σύστημα αυτή τη στιγμή. Προσπαθήστε ξανά αργότερα.

Άρθρα 1–4

Παραθέσεις ανά έτος

Διπλότυπες αναφορές

Συγχωνευμένες αναφορές

Προσθήκη από κοινού συγγραφέωνΣυν-συγγραφείς

Παρακολούθηση

Παρατίθεται από

Συν-συγγραφείς