Google Наука

Статии

Наука

3 резултата (0,02 сек)

Моят потребителски профил Моята библиотека

Grape: Generalizing robot policy via preference alignment

Да се търси в статиите с позовавания

Turnitin 降AI改写早检测系统早降重系统 Turnitin-UK版万方检测-期刊版维普编辑部版 Grammarly检测 Paperpass检测 checkpass检测 PaperYY检测

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment

C Wang, Z Zhao, Y Jiang, Z Chen, C Zhu… - arxiv preprint arxiv …, 2025 - arxiv.org

Recent advances in large language models (LLMs) have demonstrated significant progress
in performing complex tasks. While Reinforcement Learning from Human Feedback (RLHF) …

Запазване Позоваване Сродни статии Всички 3 версии Във вид на HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization

K Zhu, P **a, Y Li, H Zhu, S Wang, H Yao - arxiv preprint arxiv …, 2024 - arxiv.org

The advancement of Large Vision-Language Models (LVLMs) has propelled their
application in the medical field. However, Medical LVLMs (Med-LVLMs) encounter factuality …

Запазване Позоваване С позовавания в 1 Сродни статии Всички 3 версии Във вид на HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control

J Wen, Y Zhu, J Li, Z Tang, C Shen, F Feng - arxiv preprint arxiv …, 2025 - arxiv.org

Enabling robots to perform diverse tasks across varied environments is a central challenge
in robot learning. While vision-language-action (VLA) models have shown promise for …

Запазване Позоваване С позовавания в 1 Сродни статии Във вид на HTML

Създаване на сигнал

Позоваване

Разширено търсене

Запазено в „Моята библиотека“

Grape: Generalizing robot policy via preference alignment

Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment

MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization

DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control