- Academic Search

記事

Scholar

2 件（0.02 秒）

プロフィールマイライブラリ

Direct preference optimization using sparse feature-level constraints

引用している記事内を検索

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking

S Lee, S Ni, C Wei, S Li, L Fan, A Argha… - arxiv preprint arxiv …, 2025 - arxiv.org

Safety alignment mechanism are essential for preventing large language models (LLMs)
from generating harmful information or unethical content. However, cleverly crafted prompts …

保存引用関連記事全 2 バージョン HTMLバージョン

[Free GPT-4]
[DeepSeek]

[PDF] mit.edu

[PDF][PDF] Sparse Autoencoders for Interpretability in Reinforcement Learning Models

C DuPlessie - 2024 - math.mit.edu

Sparse Autoencoders for Interpretability in Reinforcement Learning Models Page 1 Introduction
State of the Art Reinforcement Learning Interpretability Conclusion Sparse Autoencoders for …

保存引用関連記事全 2 バージョン HTMLバージョン

アラートを作成

引用

検索オプション

マイライブラリに保存しました

Direct preference optimization using sparse feature-level constraints

xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking

[PDF][PDF] Sparse Autoencoders for Interpretability in Reinforcement Learning Models