- Academic Search

Y Hu, Y Guo, P Wang, X Chen, YJ Wang… - ar** generalist policies capable of
performing multiple tasks. Typically, these policies utilize pre-trained vision encoders to …

Enregistrer Citer Cité 2 fois Autres articles Les 2 versions Free GPT-4 Version HTML

[Free GPT-4]

[PDF] arxiv.org

Prediction with action: Visual policy learning via joint denoising process

Y Guo, Y Hu, J Zhang, YJ Wang, X Chen, C Lu… - arxiv preprint arxiv …, 2024 - arxiv.org

Diffusion models have demonstrated remarkable capabilities in image generation tasks,
including image editing and video creation, representing a good understanding of the …

Enregistrer Citer Cité 2 fois Autres articles Les 3 versions Free GPT-4 Version HTML

[Free GPT-4]

[PDF] arxiv.org

Improving Vision-Language-Action Model with Online Reinforcement Learning

Y Guo, J Zhang, X Chen, X Ji, YJ Wang, Y Hu… - arxiv preprint arxiv …, 2025 - arxiv.org

Recent studies have successfully integrated large vision-language models (VLMs) into low-
level robotic control by supervised fine-tuning (SFT) with expert robotic datasets, resulting in …

Enregistrer Citer Autres articles Version HTML

[Free GPT-4]

[PDF] arxiv.org

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

J Zhang, Y Guo, Y Hu, X Chen, X Zhu… - arxiv preprint arxiv …, 2025 - arxiv.org

Recent advancements in Vision-Language-Action (VLA) models have leveraged pre-trained
Vision-Language Models (VLMs) to improve the generalization capabilities. VLMs, typically …

Enregistrer Citer Autres articles Version HTML

Créer l'alerte

Citer

Recherche avancée

Enregistré dans Ma bibliothèque

Hirt: Enhancing robotic control with hierarchical robot transformers

Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

Prediction with action: Visual policy learning via joint denoising process

Improving Vision-Language-Action Model with Online Reinforcement Learning

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent