- Academic Search

Articles

Scholar

2 résultats (0,02 s)

Mon profil Ma bibliothèque

Dishonesty in Helpful and Harmless Alignment

Rechercher parmi les articles qui s'y rapportent

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Locking down the finetuned llms safety

M Zhu, L Yang, Y Wei, N Zhang, Y Zhang - arxiv preprint arxiv …, 2024 - arxiv.org

Fine-tuning large language models (LLMs) on additional datasets is often necessary to
optimize them for specific downstream tasks. However, existing safety alignment measures …

Enregistrer Citer Cité 5 fois Autres articles Les 3 versions Free GPT-4 DeepSeek Version HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging

J Yang, D **, A Tang, L Shen, D Zhu, Z Chen… - arxiv preprint arxiv …, 2025 - arxiv.org

Achieving balanced alignment of large language models (LLMs) in terms of Helpfulness,
Honesty, and Harmlessness (3H optimization) constitutes a cornerstone of responsible AI …

Enregistrer Citer Autres articles Version HTML

Créer l'alerte

Citer

Recherche avancée

Enregistré dans Ma bibliothèque

Dishonesty in Helpful and Harmless Alignment

Locking down the finetuned llms safety

Mix Data or Merge Models? Balancing the Helpfulness, Honesty, and Harmlessness of Large Language Model via Model Merging