Google Академія

Статті

Академія

Результати: 3 (0,02 с)

Мій профіль Моя бібліотека

Valuecompass: A framework of fundamental values for human-ai alignment

Шукати серед статей із посиланнями

Turnitin 降AI改写早检测系统早降重系统 Turnitin-UK版万方检测-期刊版维普编辑部版 Grammarly检测 Paperpass检测 checkpass检测 PaperYY检测

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Causal graph guided steering of llm values via prompts and sparse autoencoders

Y Kang, J Wang, Y Li, F Zhong, X Feng, M Wang… - arxiv preprint arxiv …, 2024 - arxiv.org

As large language models (LLMs) become increasingly integrated into critical applications,
aligning their behavior with human values presents significant challenges. Current methods …

Зберегти Послатися Цитовано в 1 джерелах Пов’язані статті Кількість версій: 2 Показати у форматі HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Mind the Value-Action Gap: Do LLMs Act in Alignment with Their Values?

H Shen, N Clark, T Mitra - arxiv preprint arxiv:2501.15463, 2025 - arxiv.org

Existing research primarily evaluates the values of LLMs by examining their stated
inclinations towards specific values. However, the" Value-Action Gap," a phenomenon …

Зберегти Послатися Пов’язані статті Кількість версій: 2 Показати у форматі HTML

[Free GPT-4]
[DeepSeek]

[PDF] openreview.net

ICLR 2025 Workshop on Bidirectional Human-AI Alignment

H Shen, Z Ma, R Ghosh, T Knearem, MX Liu… - ICLR 2025 Workshop … - openreview.net

As AI systems grow more integrated into real-world applications, the traditional one-way
approach to AI alignment is proving insufficient. Bidirectional Human-AI Alignment proposes …

Зберегти Послатися Пов’язані статті Показати у форматі HTML

Створити сповіщення

Послатися

Розширений пошук

Збережено в моїй бібліотеці

Valuecompass: A framework of fundamental values for human-ai alignment

Causal graph guided steering of llm values via prompts and sparse autoencoders

Mind the Value-Action Gap: Do LLMs Act in Alignment with Their Values?

ICLR 2025 Workshop on Bidirectional Human-AI Alignment