Google Академик

Чланци

Академик

2 резултата (0,02 сек)

Мој профил Моја библиотека

A sparse null code emerges in deep neural networks

Претражи унутар чланака са цитатима

Turnitin 降AI改写早检测系统早降重系统 Turnitin-UK版万方检测-期刊版维普编辑部版 Grammarly检测 Paperpass检测 checkpass检测 PaperYY检测

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

Massive activations in large language models

M Sun, X Chen, JZ Kolter, Z Liu - arxiv preprint arxiv:2402.17762, 2024 - arxiv.org

We observe an empirical phenomenon in Large Language Models (LLMs)--very few
activations exhibit significantly larger values than others (eg, 100,000 times larger). We call …

Сачувај Цитирај 153 пута наведен Сродни чланци Све верзије (5) HTML верзија

[Free GPT-4]
[DeepSeek]

[PDF] neurips.cc

Unveil benign overfitting for transformer in vision: Training dynamics, convergence, and generalization

J Jiang, W Huang, M Zhang… - Advances in Neural …, 2025 - proceedings.neurips.cc

Transformers have demonstrated great power in the recent development of large
foundational models. In particular, the Vision Transformer (ViT) has brought revolutionary …

Сачувај Цитирај 5 пута наведен Сродни чланци Све верзије (4) HTML верзија

Направи обавештење

Цитирај

Напредна претрага

Сачувано у мојој библиотеци

A sparse null code emerges in deep neural networks

Massive activations in large language models

Unveil benign overfitting for transformer in vision: Training dynamics, convergence, and generalization