Google Академія

Зберегти Послатися Цитовано в 323 джерелах Пов’язані статті Кількість версій: 12 Показати у форматі HTML

Larger language models do in-context learning differently

J Wei, J Wei, Y Tay, D Tran, A Webson, Y Lu… - ar**s. We investigate two setups-ICL with flipped labels and ICL with …

Зберегти Послатися Цитовано в 7 джерелах Пов’язані статті Кількість версій: 3 Показати у форматі HTML

Dissecting the interplay of attention paths in a statistical mechanics theory of transformers

L Tiberi, F Mignacco, K Irie… - Advances in Neural …, 2025 - proceedings.neurips.cc

Despite the remarkable empirical performance of Transformers, their theoretical
understanding remains elusive. Here, we consider a deep multi-head self-attention network …

Зберегти Послатися Цитовано в 9 джерелах Пов’язані статті Кількість версій: 5 Показати у форматі HTML

Transformers are minimax optimal nonparametric in-context learners

J Kim, T Nakamaki, T Suzuki - Advances in Neural …, 2025 - proceedings.neurips.cc

In-context learning (ICL) of large language models has proven to be a surprisingly effective
method of learning a new task from only a few demonstrative examples. In this paper, we …

Зберегти Послатися Цитовано в 7 джерелах Пов’язані статті Кількість версій: 6 Показати у форматі HTML

In-context learning with representations: Contextual generalization of trained transformers

T Yang, Y Huang, Y Liang… - Advances in Neural …, 2025 - proceedings.neurips.cc

In-context learning (ICL) refers to a remarkable capability of pretrained large language
models, which can learn a new task given a few examples during inference. However …

Зберегти Послатися Цитовано в 5 джерелах Пов’язані статті Кількість версій: 4 Показати у форматі HTML

Unveil benign overfitting for transformer in vision: Training dynamics, convergence, and generalization

J Jiang, W Huang, M Zhang… - Advances in Neural …, 2025 - proceedings.neurips.cc

Transformers have demonstrated great power in the recent development of large
foundational models. In particular, the Vision Transformer (ViT) has brought revolutionary …

Зберегти Послатися Цитовано в 16 джерелах Пов’язані статті Кількість версій: 4 Показати у форматі HTML

Bypassing the exponential dependency: Looped transformers efficiently learn in-context by multi-step gradient descent

B Chen, X Li, Y Liang, Z Shi, Z Song - arxiv preprint arxiv:2410.11268, 2024 - arxiv.org

In-context learning has been recognized as a key factor in the success of Large Language
Models (LLMs). It refers to the model's ability to learn patterns on the fly from provided in …

Зберегти Послатися Цитовано в 24 джерелах Пов’язані статті Кількість версій: 6 Показати у форматі HTML

Transformers learn nonlinear features in context: Nonconvex mean-field dynamics on the attention landscape

J Kim, T Suzuki - arxiv preprint arxiv:2402.01258, 2024 - arxiv.org

Large language models based on the Transformer architecture have demonstrated
impressive capabilities to learn in context. However, existing theoretical studies on how this …

Зберегти Послатися Цитовано в 2 джерелах Пов’язані статті Кількість версій: 5 Показати у форматі HTML

Pretrained transformer efficiently learns low-dimensional target functions in-context

K Oko, Y Song, T Suzuki, D Wu - Advances in Neural …, 2025 - proceedings.neurips.cc

Transformers can efficiently learn in-context from example demonstrations. Most existing
theoretical analyses studied the in-context learning (ICL) ability of transformers for linear …

Зберегти Послатися Цитовано в 7 джерелах Пов’язані статті Кількість версій: 7

How does promoting the minority fraction affect generalization? a theoretical study of one-hidden-layer neural network on group imbalance

H Li, S Zhang, Y Zhang, M Wang, S Liu… - IEEE Journal of …, 2024 - ieeexplore.ieee.org

Group imbalance has been a known problem in empirical risk minimization (ERM), where
the achieved high average accuracy is accompanied by low accuracy in a minority group …