up:: AIt
llmリーダーボードの比較値が分からなかったので。
Open Japanese LLM Leaderboard - a Hugging Face Space by llm-jp
Open LLM Leaderboard - a Hugging Face Space by open-llm-leaderboard
NLI
Natural Language Inference。自然言語推論。
二つの文、前提と仮説の論理関係を判定する。含意とか矛盾とか。
文脈理解や推論能力。
シンプル。
Papers with Code - Natural Language Inference
QA
Question Answering。質問応答。
質問に対してテキストから答えを抽出・生成する。
検索するならこれが重要?
Papers with Code - Question Answering
RC
Reading Comprehension。読解。
長文を読んで、内容に基づく質問に答える。
複雑な文脈理解や推論能力。
ソースを読んでの回答など、notebooklm的か。
Papers with Code - Reading Comprehension
内容に基づく質問なので、多肢選択も含まれる。
MC
Multiple Choice。多肢選択。
複数の選択肢から正解を選ぶ。
知識や推論能力。
検索だと重要そう。
Papers with Code - Multiple-choice
EL
Entity Linking。実体対応。
文中の実体、人名や地名などを知識ベースのIDに対応付ける。
知識統合や検索システム。
RCに近い様な。
Papers with Code - Entity Linking
FA
Fundamental Analysis。基礎分析。
元ネタが見つからないが、wikiを読んで依存関係抽出や固有表現抽出 - Named Entity Recognitionを行うということでいいんだろうか。
MR
Math Reasoning? 数学的推論。
MAWPS, MAth Word ProblemSで測る。これは数学の文章問題。
Papers with Code - MAWPS Dataset
MT
Machine Translation。機械翻訳。
ある言語のテキストを別の言語に翻訳する。
多言語対応モデル用。
日本リーダーボードとしては最も重要そうな値。
Papers with Code - Machine Translation
STS
Semantic Textual Similarity。意味的テキスト類似性。
二つの文の意味的な類似度を評価する。
文の埋め込み表現の品質測定。
言い換えや重複排除に使う。
Papers with Code - Semantic Textual Similarity
HE
試験問題。
MMLU, Massive Multitask Language Understandingで測る。これは57科目をカバーした広範囲ベンチマーク。
Papers with Code - MMLU Dataset
日本版JMMLUというのもある。
CG
Code Generation。コード生成。
MBPP, Mostly Basic Python Programmingで測る。これは初心者のプログラマーでも溶ける容認設計されたpythonプログラミング問題。
Papers with Code - MBPP Dataset
SUM
Summarization。要約。
長文を短く要約するタスク。
要約の正確性、簡潔性の評価。
notebooklm的だが、検索結果を分かりやすく伝えるのにも使えそう。
Papers with Code - Text Summarization
IFEval
Instruction Following Evaluation。指示正確性?
モデルが指示に正確に従う能力の評価。
プロンプト順守能力の測定。
プロンプトを凝るなら重要そう。キャラクター設定とか。
Papers with Code - Instruction-Following Evaluation for Large Language Models
BBH
BIG-Bench Hard。llm苦手タスク。
言語モデルが苦手とする複雑なタスク、数学的推論や比喩理解といったものを集めたベンチマーク。
限界の特定。
これが高いと人間らしくなりそう。
Papers with Code - BBH Dataset
GPQA
Graduate-Level Google-Proof Q&A。専門家レベルQA。
化学における大学院レベルの難問を含むQAベンチマーク。
高度な知識・推論能力の評価。
GitHub - idavidrein/gpqa: GPQA: A Graduate-Level Google-Proof Q&A Benchmark
MuSR
Multistep Soft Reasoning。
長いテキストの推論と理解。
GitHub - Zayne-sprague/MuSR
Papers with Code - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning
MMLU
Massive Multitask Language Understanding。
数学、法律、医療と歴史を含む57分野の多肢選択問題。
汎用的な知識・推論力の総合評価。
MCの専門版か。