‪Yutao Sun‬ - ‪Academic Search‬

Crea il mio profilo

Citata da

	Tutte	Dal 2020
Citazioni	990	990
Indice H	7	7
i10-index	7	7

0

680

340

170

510

20222023202420257 238 675 66

Coautori

Li DongMicrosoft ResearchEmail verificata su microsoft.com
Furu WeiPartner Research Manager, Microsoft ResearchEmail verificata su microsoft.com
Jianyong WangTsinghua UniversityEmail verificata su tsinghua.edu.cn
Yaru HaoMicrosoft Research AsiaEmail verificata su microsoft.com

Yutao Sun

Yutao Sun

Tsinghua University

Email verificata su mails.tsinghua.edu.cn - Home page

Natural Language Processing Machine Learning


Titolo Ordina per citazioni Ordina per anno Ordina per titolo	Citata da Citata da	Anno
Why can gpt learn in-context? language models implicitly perform gradient descent as meta-optimizers D Dai, Y Sun, L Dong, Y Hao, S Ma, Z Sui, F Wei arXiv preprint arXiv:2212.10559, 2022	385	2022
Retentive network: A successor to transformer for large language models Y Sun, L Dong, S Huang, S Ma, Y Xia, J Xue, J Wang, F Wei arXiv preprint arXiv:2307.08621, 2023	315	2023
A length-extrapolatable transformer Y Sun, L Dong, B Patra, S Ma, S Huang, A Benhaim, V Chaudhary, ... arXiv preprint arXiv:2212.10554, 2022	151	2022
Structured prompting: Scaling in-context learning to 1,000 examples Y Hao, Y Sun, L Dong, Z Han, Y Gu, F Wei arXiv preprint arXiv:2212.06713, 2022	49	2022
Prototypical calibration for few-shot learning of language models Z Han, Y Hao, L Dong, Y Sun, F Wei arXiv preprint arXiv:2205.10183, 2022	40	2022
You only cache once: Decoder-decoder architectures for language models Y Sun, L Dong, Y Zhu, S Huang, W Wang, S Ma, Q Zhang, J Wang, F Wei arXiv preprint arXiv:2405.05254, 2024	32	2024
Differential transformer T Ye, L Dong, Y Xia, Y Sun, Y Zhu, G Huang, F Wei arXiv preprint arXiv:2410.05258, 2024	15	2024
FocusLLM: Scaling LLM's Context by Parallel Decoding Z Li, Y Zhang, T Pan, Y Sun, Z Duan, J Fang, R Han, Z Wang, J Wang arXiv preprint arXiv:2408.11745, 2024	2	2024
Multimodal Latent Language Modeling with Next-Token Diffusion Y Sun, H Bao, W Wang, Z Peng, L Dong, S Huang, J Wang, F Wei arXiv preprint arXiv:2412.08635, 2024	1	2024

Il sistema al momento non può eseguire l'operazione. Riprova più tardi.

Articoli 1–9