ai2026/5/18 10:27:10

pretrained model向けのベンチマークの構築

pretrained model向けのベンチマークの構築

出典: Preferred Networks (原典を開く)

ニュース概要

Preferred Networks では、大規模言語モデル PLaMo の開発を継続して行っています。 LLM を開発するうえで、モデルの能力を適切に測定するベンチマークは重要です。英語ではさまざまなベンチマークが日々 […] 投稿 pretrained model向けのベンチマークの構築は Preferred Networks Tech Blog に最初に表示されました。

ニュースタイムライン

詳しいタイムライン →

2026年6月1日
GraphARC: グラフベース抽象推論の包括的ベンチマーク
arXiv cs.AI
2026年6月1日
EHRBench: LLMを用いた臨床意思決定のための自動化された信頼性の高いEHRベースベンチマーク
arXiv cs.AI
2026年6月1日
TeachObs：マルチモーダル教授観察とモデル評価のための人間検証済みベンチマーク
arXiv cs.CL
2026年6月1日
項目反応理論によるLLMベンチマークの監査
arXiv cs.CL
2026年6月1日
Gait2Hip-60：マルチケイデンス歩行運動学からの股関節筋力と関節モーメント予測のための統合深層学習ベンチマーク
arXiv cs.LG
2026年6月1日
BilliardPhys-Bench: マルチモーダルLLMの物理推論と視覚ダイナミクスのベンチマーク
arXiv cs.AI
2026年6月2日
大規模言語モデルにおけるインタラクティブ推論の評価:実行可能なゲームを用いた階層的ベンチマーク
arXiv cs.AI
2026年6月2日
TrustLDM: 言語拡散モデルの信頼性ベンチマーク
arXiv cs.CL
2026年6月8日
MacArena: オンラインmacOS環境でのコンピュータ利用エージェントのベンチマーク
arXiv cs.LG
2026年6月8日
UnpredictaBench: LLMにおける分布的ランダム性を評価するためのベンチマーク
arXiv cs.CL

🤖

記事AI質問チャット

PREMIUM

この記事についてAIが質問に答えます。背景・要約・影響まで深堀り。

ログインして利用

🛡️ 読者ファクトチェック0

読者が投稿し、管理者承認後に表示される事実確認情報

まだ承認済みのファクトチェックはありません。

ファクトチェックを投稿するにはログインが必要です

関連記事

こんな記事も読まれています

コメント (0)

コメント投稿にはログインが必要です。

まだコメントはありません。最初のコメントを書いてみましょう。

この記事について疑問がありますか?

事実誤認や不適切な内容について通報できます (要ログイン)。

異議申し立て・通報