Runji Lin

Navedeno

	Vse	Od leta 2020
Navedbe	4466	4463
indeks h	12	12
indeks i10	16	16

3300

1650

825

2475

202320242025185 3244 1017

Javni dostop

Prikaži vse

2 članka

0 člankov

na voljo

ni na voljo

Na podlagi zahtev v povezavi s financiranjem

Soavtorji

Junyang LinQwen Team, Alibaba Group & Peking UniversityPreverjeni e-poštni naslov na alibaba-inc.com
Keming LuUniversity of Southern CaliforniaPreverjeni e-poštni naslov na usc.edu
Yaodong YangBOYA (博雅) Assistant Professor at Peking UniversityPreverjeni e-poštni naslov na pku.edu.cn
Jun WangProfessor, Computer Science, University College LondonPreverjeni e-poštni naslov na cs.ucl.ac.uk
Chang ZhouPeking University ([email protected])Preverjeni e-poštni naslov na pku.edu.cn
Bowen YuQwen Team, Alibaba GroupPreverjeni e-poštni naslov na alibaba-inc.com
Haifeng ZhangInstitute of Automation, Chinese Academy of SciencesPreverjeni e-poštni naslov na ia.ac.cn
Weinan ZhangProfessor, Shanghai Jiao Tong UniversityPreverjeni e-poštni naslov na sjtu.edu.cn
Ying WenAssociate Professor, Shanghai Jiao Tong UniversityPreverjeni e-poštni naslov na sjtu.edu.cn
Muning WenPhD student, Shanghai Jiao Tong UniversityPreverjeni e-poštni naslov na sjtu.edu.cn
Jakub Grudzien KubaUC BerkeleyPreverjeni e-poštni naslov na berkeley.edu
Yali DuTuring Fellow, Associate professor, King's College LondonPreverjeni e-poštni naslov na kcl.ac.uk
Xidong FengGoogle DeepMindPreverjeni e-poštni naslov na google.com
Dixia Fan (范迪夏)Assistant Professor, Westlake UniversityPreverjeni e-poštni naslov na westlake.edu.cn
Zhipeng WangPh.D. student of Queen's UniversityPreverjeni e-poštni naslov na queensu.ca
Yanbing YangCollege of Computer Science， Sichuan UniversityPreverjeni e-poštni naslov na scu.edu.cn

Spremljaj

Runji Lin

Institute of Automation, Chinese Academy of Sciences

Preverjeni e-poštni naslov na ia.ac.cn - Domača stran

Reinforcement Learning Multi-Agent System Large Language Model


Naslov Razvrsti po navedbah Razvrsti po letniku Razvrsti po naslovu	Navedeno Navedeno	Leto
Qwen technical report J Bai, S Bai, Y Chu, Z Cui, K Dang, X Deng, Y Fan, W Ge, Y Han, F Huang, ... arXiv preprint arXiv:2309.16609, 2023	2628	2023
Qwen2. 5 technical report A Yang, B Yang, B Zhang, B Hui, B Zheng, B Yu, C Li, D Liu, F Huang, ... arXiv preprint arXiv:2412.15115, 2024	1142	2024
Multi-Agent Reinforcement Learning is a Sequence Modeling Problem M Wen, JG Kuba, R Lin, W Zhang, Y Wen, J Wang, Y Yang NeurIPS 2022, 2022	218	2022
# instag: Instruction tagging for analyzing supervised fine-tuning of large language models K Lu, H Yuan, Z Yuan, R Lin, J Lin, C Tan, C Zhou, J Zhou arXiv preprint arXiv:2308.07074, 2023	94	2023
Qwen2. 5-math technical report: Toward mathematical expert model via self-improvement A Yang, B Zhang, B Hui, B Gao, B Yu, C Li, D Liu, J Tu, J Zhou, J Lin, K Lu, ... arXiv preprint arXiv:2409.12122, 2024	87*	2024
Routing to the expert: Efficient reward-guided ensemble of large language models K Lu, H Yuan, R Lin, J Lin, Z Yuan, C Zhou, J Zhou NAACL, 2023	66	2023
Qwq: Reflect deeply on the boundaries of the unknown Q Team Hugging Face, 2024	45*	2024
Large language models play starcraft ii: Benchmarks and a chain of summarization approach W Ma, Q Mi, X Yan, Y Wu, R Lin, H Zhang, J Wang NeurIPS 2024, 2023	44	2023
Large Sequence Models for Sequential Decision-Making: A Survey M WEN, R LIN, H WANG, Y YANG, Y WEN, L MAI, J WANG, H ZHANG, ... Frontiers of Computer Science, 2023	38	2023
Processbench: Identifying process errors in mathematical reasoning C Zheng, Z Zhang, B Zhang, R Lin, K Lu, B Yu, D Liu, J Zhou, J Lin arXiv preprint arXiv:2412.06559, 2024	22	2024
Online merging optimizers for boosting rewards and mitigating tax in alignment K Lu, B Yu, F Huang, Y Fan, R Lin, C Zhou arXiv preprint arXiv:2405.17931, 2024	20	2024
The lessons of developing process reward models in mathematical reasoning Z Zhang, C Zheng, Y Wu, B Zhang, R Lin, B Yu, D Liu, J Zhou, J Lin arXiv preprint arXiv:2501.07301, 2025	17	2025
Llm critics help catch bugs in mathematics: Towards a better mathematical verifier with natural language feedback B Gao, Z Cai, R Xu, P Wang, C Zheng, R Lin, K Lu, J Lin, C Zhou, W Xiao, ... arXiv preprint arXiv:2406.14024, 2024	12*	2024
Learn to flap: Foil non-parametric path planning via deep reinforcement learning ZP Wang, RJ Lin, ZY Zhao, X Chen, PM Guo, N Yang, ZC Wang, DX Fan Journal of Fluid Mechanics 984, A9, 2024	11	2024
Scalable Model-based Policy Optimization for Decentralized Networked Systems Y Du, C Ma, Y Liu, R Lin, H Dong, J Wang, Y Yang IROS 2022, 2022	11*	2022
Contextual Transformer for Offline Meta Reinforcement Learning R Lin, Y Li, X Feng, Z Zhang, XHW Fung, H Zhang, J Wang, Y Du, Y Yang NeurIPS 2022 Workshop: Foundation Models for Decision Making, 2022	10	2022
Increasing the Data Rate for Reflected Optical Camera Communication Using Uniform LED Light Z Chen, R Lin, H Duan, Y Chen, Y Yang, R Wu, L Chen IEEE INFOCOM 2020-IEEE Conference on Computer Communications Workshops …, 2020	1	2020
Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence L Ji, R Lin arXiv preprint arXiv:2409.07341, 2024		2024
Learning Robust Communication by Adversarial Training in Networked System Control R Lin, H Zhang Chinese Conference on Swarm Intelligence and Cooperative Control, 605-619, 2023		2023

Sistem trenutno ne more izvesti postopka. Poskusite znova pozneje.

Članki 1–19

Št. navedb na leto

Podvojene navedbe

Združene navedbe

Dodajanje soavtorjevSoavtorji

Spremljaj

Navedeno

Soavtorji