Arian Hosseini

Citée par

	Toutes	Depuis 2020
Citations	687	646
indice h	12	12
indice i10	12	12

240

120

180

201820192020202120222023202420253 37 57 70 102 142 229 45

Coauteurs

Alessandro SordoniMicrosoft ResearchAdresse e-mail validée de microsoft.com
Aaron CourvilleProfessor, DIRO, Université de Montréal, Mila, Cifar CAI chairAdresse e-mail validée de umontreal.ca
Dzmitry BahdanauServiceNow ResearchAdresse e-mail validée de servicenow.com
Rishabh AgarwalStaff Research Scientist, Google DeepMind. Adjunct Prof, McGillAdresse e-mail validée de google.com
Xingdi YuanMicrosoft Research, MontrealAdresse e-mail validée de microsoft.com
Felix HillResearch Scientist, DeepmindAdresse e-mail validée de google.com
Edward HughesStaff Research Engineer, DeepMindAdresse e-mail validée de google.com
Edward GrefenstetteDirector of Research, Google DeepMind | Honorary Professor, UCLAdresse e-mail validée de google.com
Ying ZhangServiceNowAdresse e-mail validée de servicenow.com
Negar RostamzadehResearch Scientist at Google ResearchAdresse e-mail validée de google.com
Wojciech StokowiecDeepMindAdresse e-mail validée de google.com
Chris PalProfessor, Polytechnique Montréal & Mila, ServiceNow Research, Canada CIFAR AI ChairAdresse e-mail validée de polymtl.ca
Mehran KazemiStaff Research Scientist, Google DeepMindAdresse e-mail validée de google.com
Hritik BansalUniversity of California Los Angeles | Indian Institute of Technology DelhiAdresse e-mail validée de g.ucla.edu
Adam TrischlerMicrosoft Research, McGill UniversityAdresse e-mail validée de microsoft.com
Nicolas Le RouxMcGill, UdeMAdresse e-mail validée de le-roux.name
Siva ReddyMcGill University, Mila Quebec AI InstituteAdresse e-mail validée de cs.mcgill.ca
R Devon HjelmApple MLR, MilaAdresse e-mail validée de apple.com
Aviral KumarCMU & Google DeepMindAdresse e-mail validée de andrew.cmu.edu
Stanisław JastrzębskiCTO & Chief Scientist @ Molecule.One, Area Chair @ ICLR '25Adresse e-mail validée de molecule.one

Suivre

Arian Hosseini

Mila

Adresse e-mail validée de umontreal.ca - Page d'accueil

Reasoning Alignment Planning Generalization


Titre Trier par citations Trier par année Trier par titre	Citée par Citée par	Année
Learning to understand goal specifications by modelling reward D Bahdanau, F Hill, J Leike, E Hughes, A Hosseini, P Kohli, ... ICLR 2019, 2018	172	2018
Fashion-Gen: The Generative Fashion Dataset and Challenge N Rostamzadeh, S Hosseini, T Boquet, W Stokowiec, Y Zhang, C Jauvin, ... arXiv preprint arXiv:1806.08317, 2018	165	2018
Understanding by Understanding Not: Modeling Negation in Language Models A Hosseini, S Reddy, D Bahdanau, RD Hjelm, A Sordoni, A Courville NAACL 2021, 2021	88	2021
V-STaR: Training Verifiers for Self-Taught Reasoners A Hosseini, X Yuan, N Malkin, A Courville, A Sordoni, R Agarwal Conference paper at COLM 2024, 2024	62	2024
Generative Verifiers: Reward Modeling as Next-Token Prediction L Zhang, A Hosseini, H Bansal, M Kazemi, A Kumar, R Agarwal arXiv preprint arXiv:2408.15240, 2024	42	2024
Ordered memory Y Shen, S Tan, A Hosseini, Z Lin, A Sordoni, AC Courville Advances in Neural Information Processing Systems 32, 2019	29	2019
Commonsense mining as knowledge base completion? A study on the impact of novelty S Jastrzębski, D Bahdanau, S Hosseini, M Noukhovitch, Y Bengio, ... arXiv preprint arXiv:1804.09259, 2018	29	2018
Joint Prompt Optimization of Stacked LLMs using Variational Inference A Sordoni, X Yuan, MA Côté, M Pereira, A Trischler, Z Xiao, A Hosseini, ... Thirty-seventh Conference on Neural Information Processing Systems, 2023	26	2023
Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling H Bansal, A Hosseini, R Agarwal, VQ Tran, M Kazemi arXiv preprint arXiv:2408.16737, 2024	23	2024
On the Compositional Generalization Gap of In-Context Learning A Hosseini, A Vani, D Bahdanau, A Sordoni, A Courville arXiv preprint arXiv:2211.08473, 2022	21	2022
The N+ Implementation Details of RLHF with PPO: A Case Study on TL; DR Summarization S Huang, M Noukhovitch, A Hosseini, K Rasul, W Wang, L Tunstall Conference paper at COLM 2024, 2024	16	2024
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference A Sordoni, X Yuan, MA Côté, M Pereira, A Trischler, Z Xiao, A Hosseini, ... arXiv preprint arXiv:2306.12509, 2023	13	2023
Not All LLM Reasoners Are Created Equal A Hosseini, A Sordoni, D Toyama, A Courville, R Agarwal arXiv preprint arXiv:2410.01748, 2024	1	2024
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models M Noukhovitch, S Huang, S Xhonneux, A Hosseini, R Agarwal, ... arXiv preprint arXiv:2410.18252, 2024		2024
On the reproducibility of gradient-based Meta-Reinforcement Learning baselines T Deleu, S Guiroy, S Hosseini		2018
Faster, More Efficient RLHF through Off-Policy Asynchronous Learning M Noukhovitch, S Huang, S Xhonneux, A Hosseini, R Agarwal, ... NeurIPS 2024 Workshop on Fine-Tuning in Modern Machine Learning: Principles …, 0

Le système ne peut pas réaliser cette opération maintenant. Veuillez réessayer plus tard.

Articles 1–16

Nombre de citations par an

Citations en double

Citations fusionnées

Ajouter les coauteursCoauteurs

Suivre

Citée par

Coauteurs