- Academic Search

V Balachandran, J Chen, N Joshi, B Nushi… - arxiv preprint arxiv …, 2024 - arxiv.org

Rigorous and reproducible evaluation is critical for assessing the state of the art and for
guiding scientific advances in Artificial Intelligence. Evaluation is challenging in practice due …

Lưu Trích dẫn Trích dẫn 7 bài viết Bài viết có liên quan Tất cả 3 phiên bản Xem dạng HTML

[Free GPT-4]
[DeepSeek]

[PDF] mit.edu

`Holmes` ⌕ A Benchmark to Assess the Linguistic Competence of Language Models

A Waldis, Y Perlitz, L Choshen, Y Hou… - Transactions of the …, 2024 - direct.mit.edu

We introduce Holmes, a new benchmark designed to assess language models'(LMs')
linguistic competence—their unconscious understanding of linguistic phenomena …

Lưu Trích dẫn Trích dẫn 1 bài viết Bài viết có liên quan Tất cả 3 phiên bản

[Free GPT-4]
[DeepSeek]

[PDF] arxiv.org

GameArena: Evaluating LLM Reasoning through Live Computer Games

L Hu, Q Li, A **e, N Jiang, I Stoica, H **… - arxiv preprint arxiv …, 2024 - arxiv.org

Evaluating the reasoning abilities of large language models (LLMs) is challenging. Existing
benchmarks often depend on static datasets, which are vulnerable to data contamination …

Lưu Trích dẫn Bài viết có liên quan Tất cả 2 phiên bản Xem dạng HTML

Tạo thông báo

Trích dẫn

Tìm kiếm nâng cao

Đã lưu vào Thư viện của tôi

Benchmark agreement testing done right: A guide for llm benchmark evaluation

Eureka: Evaluating and understanding large foundation models

`Holmes` ⌕ A Benchmark to Assess the Linguistic Competence of Language Models

GameArena: Evaluating LLM Reasoning through Live Computer Games

Benchmark agreement testing done right: A guide for llm benchmark evaluation

Eureka: Evaluating and understanding large foundation models

Holmes ⌕ A Benchmark to Assess the Linguistic Competence of Language Models

GameArena: Evaluating LLM Reasoning through Live Computer Games

`Holmes` ⌕ A Benchmark to Assess the Linguistic Competence of Language Models