Phillip Guo

Παρατίθεται από

	Όλα	Από το 2020
Παραθέσεις	402	402
h-index	5	5
i10-index	5	5

360

180

270

20232024202519 353 30

Δημόσια πρόσβαση

Προβολή όλων

0 άρθρα

1 άρθρο

διαθέσιμα

μη διαθέσιμα

Σύμφωνα με εντολές χρηματοδότησης

Παρακολούθηση

Phillip Guo

University of Maryland

Η διεύθυνση ηλεκτρονικού ταχυδρομείου έχει επαληθευτεί στον τομέα umd.edu - Αρχική σελίδα

Transformers Interpretability Optimization


Τίτλος Ταξινόμηση με βάση τις αναφορές Ταξινόμηση κατά έτος Ταξινόμηση κατά τίτλο	Παρατίθεται από Παρατίθεται από	Έτος
Representation Engineering: A Top-Down Approach to AI Transparency A Zou, L Phan, S Chen, J Campbell, P Guo, R Ren, A Pan, X Yin, ... arXiv preprint arXiv:2310.01405, 2023	304	2023
Eight Methods to Evaluate Robust Unlearning in LLMs A Lynch, P Guo, A Ewart*, S Casper, D Hadfield-Menell arXiv preprint arXiv:2402.16835, 2024	43*	2024
Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs A Sheshadri, A Ewart, P Guo, A Lynch, C Wu, V Hebbar, H Sleight, ... arXiv preprint arXiv:2407.15549, 2024	19*	2024
Localizing Lying in Llama: Understanding Instructed Dishonesty on True-False Questions Through Prompting, Probing, and Patching J Campbell, R Ren, P Guo* arXiv preprint arXiv:2311.15131, 2023	15	2023
Prune and Tune: Improving Efficient Pruning Techniques for Massive Language Models A Syed, PH Guo, V Sundarapandiyan*	14	2023
Robust Knowledge Unlearning via Mechanistic Localization P Guo, A Syed, A Sheshadri, A Ewart, GK Dziugaite Spotlight at ICML 2024 Workshop on Mechanistic Interpretability, 2024, 2024	3*	2024
Mechanistic Unlearning: Robust Knowledge Unlearning and Editing via Mechanistic Localization P Guo, A Syed, A Sheshadri, A Ewart, GK Dziugaite arXiv preprint arXiv:2410.12949, 2024	2	2024
Bandit-Based Multi-Start Strategies for Global Continuous Optimization P Guo, MC Fu 2022 Winter Simulation Conference (WSC), 3194-3205, 2022	2	2022

Δεν είναι δυνατή η εκτέλεση της ενέργειας από το σύστημα αυτή τη στιγμή. Προσπαθήστε ξανά αργότερα.

Άρθρα 1–8

Παραθέσεις ανά έτος

Διπλότυπες αναφορές

Συγχωνευμένες αναφορές

Προσθήκη από κοινού συγγραφέωνΣυν-συγγραφείς

Παρακολούθηση

Παρατίθεται από