Aengus Lynch

Получаване на мой собствен потребителски профил

Позовавания

	Всички	От 2020
Позовавания	589	589
h-индекс	6	6
i10-индекс	5	5

340

170

255

202220232024202513 139 330 107

Съавтори

Jean KaddourUniversity College LondonПотвърден имейл адрес: ucl.ac.uk
Arthur ConmyGoogle DeepMindПотвърден имейл адрес: google.com
Aidan EwartMaths Undergrad @ University of BristolПотвърден имейл адрес: bristol.ac.uk
Adrià Garriga-AlonsoResearch Scientist, FAR AIПотвърден имейл адрес: far.ai
Ricardo SilvaProfessor of Statistical Machine Learning and Data Science, Department of Statistical Science, UCLПотвърден имейл адрес: stats.ucl.ac.uk
Phillip GuoUniversity of MarylandПотвърден имейл адрес: umd.edu
Henry SleightResearch Manager, Anthropic Fellows Program, Program Manager, ConstellationПотвърден имейл адрес: constellation.org
Stefan HeimersheimInstitute of Astronomy, University of CambridgeПотвърден имейл адрес: cam.ac.uk
Dylan Hadfield-MenellMassachusetts Institute of TechnologyПотвърден имейл адрес: csail.mit.edu
Stephen CasperPhD student, MITПотвърден имейл адрес: mit.edu
Qi LiuLead researcher, GE Global ResearchПотвърден имейл адрес: ge.com
Ethan PerezAnthropic; New York UniversityПотвърден имейл адрес: anthropic.com
Augustine Mavor-ParkerUniversity College LondonПотвърден имейл адрес: cs.ucl.ac.uk
Abhay SheshadriUndergraduate, Georgia Institute of TechnologyПотвърден имейл адрес: gatech.edu
Matt J. KusnerPolytechnique Montréal, Mila - Quebec AI InstituteПотвърден имейл адрес: mila.quebec
Cindy X. WuGoogle DeepMindПотвърден имейл адрес: google.com
Asa Cooper SticklandPostdoctoral Researcher, New York UniversityПотвърден имейл адрес: ed.ac.uk
Gbetondji J-S DovononPhD student, University College LondonПотвърден имейл адрес: ucl.ac.uk
Mrinank SharmaAnthropicПотвърден имейл адрес: anthropic.com
Daniel TanUCLПотвърден имейл адрес: ucl.ac.uk

Следене

Aengus Lynch

University College London, MATS

Потвърден имейл адрес: ucl.ac.uk - Начална страница

AI safety


Заглавие Сортиране по цитати Сортиране по година Сортиране по заглавие	Позовавания Позовавания	Година
Towards automated circuit discovery for mechanistic interpretability A Conmy, A Mavor-Parker, A Lynch, S Heimersheim, A Garriga-Alonso Advances in Neural Information Processing Systems 36, 16318-16352, 2023	255	2023
Causal machine learning: A survey and open problems J Kaddour, A Lynch, Q Liu, MJ Kusner, R Silva arXiv preprint arXiv:2206.15475, 2022	202	2022
Eight methods to evaluate robust unlearning in llms A Lynch, P Guo, A Ewart, S Casper, D Hadfield-Menell arXiv preprint arXiv:2402.16835, 2024	50	2024
Targeted latent adversarial training improves robustness to persistent harmful behaviors in llms A Sheshadri, A Ewart, P Guo, A Lynch, C Wu, V Hebbar, H Sleight, ... arXiv e-prints, arXiv: 2407.15549, 2024	32*	2024
Spawrious: A benchmark for fine control of spurious correlation biases A Lynch, GJS Dovonon, J Kaddour, R Silva arXiv preprint arXiv:2303.05470, 2023	29*	2023
Analysing the generalisation and reliability of steering vectors D Tan, D Chanin, A Lynch, B Paige, D Kanoulas, A Garriga-Alonso, R Kirk Advances in Neural Information Processing Systems 37, 139179-139212, 2025	9	2025
Best-of-N Jailbreaking J Hughes, S Price, A Lynch, R Schaeffer, F Barez, S Koyejo, H Sleight, ... arXiv preprint arXiv:2412.03556, 2024	6*	2024
Evaluating the impact of geometric and statistical skews on out-of-distribution generalization performance A Lynch, J Kaddour, R Silva NeurIPS 2022 Workshop on Distribution Shifts: Connecting Methods and …, 2022	5	2022
H-Space Sparse Autoencoders A Ijishakin, ML Ang, L Baljer, DCH Tan, HL Fry, A Abdulaal, A Lynch, ... Neurips Safe Generative AI Workshop 2024, 2024	1	2024
How Do Large Language Monkeys Get Their Power (Laws)? R Schaeffer, J Kazdan, J Hughes, J Juravsky, S Price, A Lynch, E Jones, ... arXiv preprint arXiv:2502.17578, 2025		2025
Plan B: Training LLMs to fail less severely J Stastny, N Warncke, D Xu, A Lynch, F Barez, H Sleight, E Perez		2024

Системата не може да изпълни операцията сега. Опитайте отново по-късно.

Статии 1–11

Позовавания годишно

Дублирани описания

Обединени библиографски описания

Добавяне на съавториСъавтори

Следене

Позовавания

Съавтори