Folgen
Lucy Farnik
Lucy Farnik
Bestätigte E-Mail-Adresse bei bristol.ac.uk
Titel
Zitiert von
Zitiert von
Jahr
STARC: A general framework for quantifying differences between reward functions
J Skalse, L Farnik, SR Motwani, E Jenner, A Gleave, A Abate
arXiv preprint arXiv:2309.15257, 2023
72023
Inducing Human-like Biases in Moral Reasoning Language Models
A Meek, A Karpov, SH Cho, R Koopmanschap, L Farnik, BI Cirstea
UniReps: 2nd Edition of the Workshop on Unifying Representations in Neural …, 2024
12024
Residual Stream Analysis with Multi-Layer SAEs
T Lawson, L Farnik, C Houghton, L Aitchison
arXiv preprint arXiv:2409.04185, 2024
12024
Sparse Autoencoders Can Interpret Randomly Initialized Transformers
T Heap, T Lawson, L Farnik, L Aitchison
arXiv preprint arXiv:2501.17727, 2025
2025
Das System kann den Vorgang jetzt nicht ausführen. Versuchen Sie es später erneut.
Artikel 1–4