Google Academic

F Barez, T Fu, A Prabhu, S Casper, A Sanyal… - arxiv preprint arxiv …, 2025 - arxiv.org

As AI systems become more capable, widely deployed, and increasingly autonomous in
critical areas such as cybersecurity, biological research, and healthcare, ensuring their …

Salvați Citați Citat de 8 ori Articole cu conținut similar Toate cele 3 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Steering language model refusal with sparse autoencoders

K O'Brien, D Majercak, X Fernandes, R Edgar… - arxiv preprint arxiv …, 2024 - arxiv.org

Responsible practices for deploying language models include guiding models to recognize
and refuse answering prompts that are considered unsafe, while complying with safe …

Salvați Citați Citat de 3 ori Articole cu conținut similar Toate cele 2 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

Y Gur-Arieh, R Mayan, C Agassy, A Geiger… - arxiv preprint arxiv …, 2025 - arxiv.org

Automated interpretability pipelines generate natural language descriptions for the concepts
represented by features in large language models (LLMs), such as plants or the first word in …

Salvați Citați Articole cu conținut similar Toate cele 3 versiuni Afișare ca HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders

B Cywiński, K Deja - arxiv preprint arxiv:2501.18052, 2025 - arxiv.org

Recent machine unlearning approaches offer promising solution for removing unwanted
concepts from diffusion models. However, traditional methods, which largely rely on fine …

Salvați Citați Articole cu conținut similar Afișare ca HTML

Creează alerta

Citați

Căutare avansată

Salvat în Bibliotecă

Applying sparse autoencoders to unlearn knowledge in language models

Open problems in machine unlearning for ai safety

Steering language model refusal with sparse autoencoders

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders