News in Focus
ai2026/2/25 15:05:32
コード生成ベンチマークのためのサンドボックス環境の開発

コード生成ベンチマークのためのサンドボックス環境の開発

出典: Preferred Networks (原典を開く)

ニュース概要

はじめに Preferred Networksでは、大規模言語モデル「PLaMo」の開発を行っています。 PLaMoは開発サイクルにて様々なベンチマークによりその能力を評価していますが、今回はコード生成ベンチマークにてモ […] 投稿 コード生成ベンチマークのためのサンドボックス環境の開発 は Preferred Networks Tech Blog に最初に表示されました。

ニュースタイムライン

  1. 2026年6月1日

    Gait2Hip-60:マルチケイデンス歩行運動学からの股関節筋力と関節モーメント予測のための統合深層学習ベンチマーク

    arXiv cs.LG

  2. 2026年6月1日

    BilliardPhys-Bench: マルチモーダルLLMの物理推論と視覚ダイナミクスのベンチマーク

    arXiv cs.AI

  3. 2026年6月1日

    GraphARC: グラフベース抽象推論の包括的ベンチマーク

    arXiv cs.AI

  4. 2026年6月1日

    EHRBench: LLMを用いた臨床意思決定のための自動化された信頼性の高いEHRベースベンチマーク

    arXiv cs.AI

  5. 2026年6月1日

    TeachObs:マルチモーダル教授観察と モデル評価のための人間検証済みベンチマーク

    arXiv cs.CL

  6. 2026年6月2日

    TrustLDM: 言語拡散モデルの信頼性ベンチマーク

    arXiv cs.CL

  7. 2026年6月2日

    大規模言語モデルにおけるインタラクティブ推論の評価:実行可能なゲームを用いた階層的ベンチマーク

    arXiv cs.AI

  8. 2026年6月3日

    すぐ知りたい「Microsoft Build 2026」まとめ ~Windows AI APIがGPUにも対応、RTX Spark搭載の開発用PC、ローカルSLM新モデル、エージェント前提の新デバイスなど/OpenClawも安全?なAI用サンドボックス、パーソナルエージェントも

    窓の杜

  9. 2026年6月8日

    UnpredictaBench: LLMにおける分布的ランダム性を評価するためのベンチマーク

    arXiv cs.CL

  10. 2026年6月8日

    MacArena: オンラインmacOS環境でのコンピュータ利用エージェントのベンチマーク

    arXiv cs.LG

🤖

記事AI質問チャット

PREMIUM

この記事についてAIが質問に答えます。背景・要約・影響まで深堀り。

ログインして利用

🛡️ 読者ファクトチェック0

読者が投稿し、管理者承認後に表示される事実確認情報

まだ承認済みのファクトチェックはありません。

ファクトチェックを投稿するには ログイン が必要です

関連記事

こんな記事も読まれています

コメント (0)

コメント投稿にはログインが必要です。

まだコメントはありません。最初のコメントを書いてみましょう。

この記事について疑問がありますか?

事実誤認や不適切な内容について通報できます (要ログイン)。

異議申し立て・通報