- Academic Search

Articles

Scholar

1 résultat (0,01 s)

Mon profil Ma bibliothèque

Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization

Rechercher parmi les articles qui s'y rapportent

[Free GPT-4]

[PDF] arxiv.org

DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs

Z Liu, S Zhang, Y Liu, B Liu, Y Yang, Z Wang - arxiv preprint arxiv …, 2024 - arxiv.org

Direct preference learning offers a promising and computation-efficient beyond supervised
fine-tuning (SFT) for improving code generation in coding large language models (LMs) …

Enregistrer Citer Autres articles Version HTML

Créer l'alerte

Citer

Recherche avancée

Enregistré dans Ma bibliothèque

Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization

DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs