- Academic Search

บทความ

Scholar

ผลการค้นหา 2 รายการ (0.02 วินาที)

โปรไฟล์ของฉัน ห้องสมุดของฉัน

SePPO: Semi-Policy Preference Optimization for Diffusion Alignment

ค้นหาในบทความที่อ้างถึง

Turnitin 降AI改写早检测系统早降重系统 Turnitin-UK版万方检测-期刊版维普编辑部版 Grammarly检测 Paperpass检测 checkpass检测 PaperYY检测

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Asynchronous federated reinforcement learning with policy gradient updates: Algorithm design and convergence analysis

G Lan, DJ Han, A Hashemi, V Aggarwal… - arxiv preprint arxiv …, 2024 - arxiv.org

To improve the efficiency of reinforcement learning (RL), we propose a novel asynchronous
federated reinforcement learning (FedRL) framework termed AFedPG, which constructs a …

บันทึก อ้างอิง อ้างโดย18 บทความที่เกี่ยวข้อง ทั้งหมด 3 ฉบับ ดูในรูปแบบ HTML

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

In-trajectory inverse reinforcement learning: Learn incrementally before an ongoing trajectory terminates

S Liu, M Zhu - arxiv preprint arxiv:2410.15612, 2024 - arxiv.org

Inverse reinforcement learning (IRL) aims to learn a reward function and a corresponding
policy that best fit the demonstrated trajectories of an expert. However, current IRL works …

บันทึก อ้างอิง อ้างโดย3 บทความที่เกี่ยวข้อง ทั้งหมด 3 ฉบับ ดูในรูปแบบ HTML

สร้างการแจ้งเตือน

อ้างอิง

การค้นหาขั้นสูง

บันทึกไปยังคลังของฉันแล้ว

SePPO: Semi-Policy Preference Optimization for Diffusion Alignment

Asynchronous federated reinforcement learning with policy gradient updates: Algorithm design and convergence analysis

In-trajectory inverse reinforcement learning: Learn incrementally before an ongoing trajectory terminates