News in Focus

TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

  1. 2025年12月8日

    Kubernetesスケジューラのベンチマークテスト

    本記事は、PFNのインターンシップを経て現在はアルバイトとして勤務されている上田蒼一朗さんによる寄稿です。 はじめに Preferred Networks(以下PFN)ではKubernetesを用いた機械学習基盤の開発・ […] 投稿 Kubernetesスケジューラのベンチマークテスト は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  2. 2026年2月20日

    日本語の自然さを測る評価手法の検証

    Preferred Networksでは大規模言語モデル (LLM) PLaMoの開発を継続して行っています。 LLMを開発するにあたってその能力を評価するベンチマークは非常に重要です。英語においては様々なベンチマークが […] 投稿 日本語の自然さを測る評価手法の検証 は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  3. 2026年2月25日

    コード生成ベンチマークのためのサンドボックス環境の開発

    はじめに Preferred Networksでは、大規模言語モデル「PLaMo」の開発を行っています。 PLaMoは開発サイクルにて様々なベンチマークによりその能力を評価していますが、今回はコード生成ベンチマークにてモ […] 投稿 コード生成ベンチマークのためのサンドボックス環境の開発 は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  4. 2026年5月11日

    BalCapRL: RL ベースのMLLM画像キャプション生成用のバランス型フレームワーク

    画像キャプション生成はコンピュータビジョンの最も基本的なタスクの一つです。その開放性の性質により、マルチモーダル大規模言語モデル(MLLM)の時代に多大な関心を集めています。

    Apple Machine Learning Research

  5. 2026年5月15日

    DatabricksがGPT-5.5をエンタープライズエージェントワークフローに導入

    DatabricksがOfficeQA Proベンチマークで最先端の成績を達成したGPT-5.5をエンタープライズエージェントワークフローに活用しています。

    OpenAI

  6. 2026年5月18日

    pretrained model向けのベンチマークの構築

    Preferred Networks では、大規模言語モデル PLaMo の開発を継続して行っています。 LLM を開発するうえで、モデルの能力を適切に測定するベンチマークは重要です。英語ではさまざまなベンチマークが日々 […] 投稿 pretrained model向けのベンチマークの構築 は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  7. 2026年5月27日

    NVIDIA Vera CPUが競合製品に対して「強力なパンチを繰り出している」

    エージェンシャルAIへのシフトは、AIファクトリーの新しいCPU要件を生み出します:高速コア、膨大なメモリ帯域幅、およびすべてのコアがアクティブな場合でも高いパフォーマンスを維持する能力です。初期ベンチマークでは...

    NVIDIA Blog

  8. 2026年5月29日

    Amazon Bedrock AgentCoreのデータセット管理でエージェントとともに成長するテストスイートを構築

    エージェント評価は、急速に変化するオンラインシグナルと安定したオフラインベースラインを組み合わせることで最も強力になります。エージェントが時間とともに本当に改善されているかどうかを理解するには、固定ベンチマークが必要です。

    AWS Machine Learning Blog

  9. 2026年5月29日

    BEAMS: AI モデリング・シミュレーション評価ベンチマーク

    実世界の意思決定を支援するAIツールは、推奨事項を知らせ解釈可能にするシミュレーションモデルを構築できる必要があります。モデリング実務の側面を自動化できるツールは、人間の専門知識を補完する必要があり、置き換えるべきではありません。BEAMS Initiativeは、開発を指導することを目的としています。

    arXiv cs.AI

  10. 2026年5月29日

    ラベル空間の再構成によるマルチモーダル学習のバランシング

    マルチモーダル学習は、より速く収束するモーダルが最適化を支配する一方で、他のモーダルが訓練不足に陥るモーダルインバランスの問題に悩まされることがあります。既存のアプローチは、通常、弱いモーダルを強化するか、最適化勾配を調整することでこの問題を軽減しますが、そのような戦略には制限があります。

    arXiv cs.LG

  11. 2026年5月29日

    多言語LLMタスク実行における言語役割の分離

    多言語LLMは、指示、ソースコンテンツ、および必要な応答言語が一致しない場合にますます使用されています。既存のベンチマークは多言語命令追従評価を拡張していますが、完全にクロスされた設計内でこれら3つの役割を分離することはめったにありません。MTM-Benchを導入します。

    arXiv cs.CL

  12. 2026年5月29日

    PAST2HARM: マルチモーダルAIのジェイルブレイク用シンプル適応型過去形攻撃

    マルチモーダルAIシステムへのジェイルブレイク攻撃は未だ十分に研究されていません。テキストの不安全な生成よりも深刻な結果をもたらす可能性のある不安全な画像生成が存在する一方で、現在の防御策は比較的成熟していません。本研究ではPAST2HARMという、拒否トレーニングをバイパスする効果的な適応型ジェイルブレイクフレームワークを紹介します。

    arXiv cs.CL

  13. 2026年5月29日

    ReverseMath: 数学問題生成の拡張可能性と検証可能性を実現する逆向き回答手法

    数学推論ベンチマークはLLMの評価に不可欠だが、多くは静的で公開評価やトレーニングパイプラインを通じて繰り返し露出しており、真の推論と暗記を区別することが困難である。一方、新しい数学問題の手動構築は...

    arXiv cs.CL

  14. 2026年5月29日

    表現署名とLLM取引エージェントのリスク・フィードバック整合性

    金融意思決定環境におけるLLMエージェントの行動整合性と表現ダイナミクスを研究します。リスクレポート、実行シミュレーション、メモリ、再生可能なトラジェクトリを備えた監査可能な取引エージェントテストベッドであるTradeArenaを使用して、理論的根拠、ポジション、その他の要因がどのように変化するかを分析します。

    arXiv cs.LG

  15. 2026年5月29日

    ICG:MLLMベースのプロンプティングと個人化された好みアライメントによるカバー画像生成の改善

    arXiv:2605.27374v1 マルチモーダル大言語モデル(MLLM)と拡散モデル(DM)の最近の進歩により、AI生成コンテンツの新しい可能性が開かれた。しかし、パーソナライズされたカバー画像生成は、デジタルプラットフォームでのユーザーエンゲージメント向上における重要な役割にもかかわらず、ほとんど未開拓である。

    arXiv cs.CL

  16. 2026年5月29日

    事実の未来:事実生成と検証のギャップを追跡する

    言語モデルが事実知識へのデフォルトインターフェースになりつつあるが、出力の生成よりも検証の方がより確実に機能することが多い。この生成・検証ギャップ(GV-gap)は最近の自己改善と推論の多くの進展の根底にあるが、その具体的な事実知識に関するダイナミクスについては検討されていない。

    arXiv cs.CL

  17. 2026年5月29日

    PrismFlow:時系列生成のための残差動力学フロー・マッチング

    実世界の信号は振動や高周波変動を含むマルチモーダルパターンと多スケール動力学を示すため、高品質な時系列データの生成は困難です。Flow Matching(FM)は拡散モデルの効率的な代替手段を提供しますが、実装では課題があります。

    arXiv cs.LG

  18. 2026年5月29日

    FormInv: 数学推論ベンチマークにおけるセマンティック不変性の測定プロトコル

    MathCheck(ICLR 2025)のパラフレーズ品質監査により、129グループ中4つのセマンティック的に不正確なパラフレーズ(3.1%)が検出されました。これらを削除するとGPT-4oはランク2からランク4に低下し、Claude HaikuとDeepSeek V3がそれを上回ります。これらのランク変動は単一モデル評価では見えません。

    arXiv cs.LG

  19. 2026年5月29日

    GTA:スケーラブルなWebエージェント用ロングホライズンタスク生成

    arXiv:2605.29218v1 文書の発表。言語モデルをブラウジングおよびツール使用機能と組み合わせたWebエージェントは、オープンなWebアシスタントとしての可能性を示していますが、スケーラブルなプロセスレベルの監督の不足により進展が制限されています。既存のベンチマークは主に手動で構築されており、粗い開始ゴール注釈のみを提供しています。

    arXiv cs.AI

  20. 2026年5月29日

    BenchTrace:LLMエージェントの反省能力と制御された進化をテストするベンチマーク

    arXiv:2605.29225v1 文書の発表。自己進化型エージェントは過去の失敗を反省することで時間とともに改善されますが、既存の評価には2つの制限があります。タスクスコアのみを測定して反省の質は不明であり、エージェント自身のエピソード実行に依存して特定の失敗パターンに対応するメカニズムがありません。本論文では新しいアプローチを提示しています。

    arXiv cs.AI

  21. 2026年5月29日

    ノルネ貯留層システムの逐次物理制約ニューラルオペレータ順方向モデリング

    フーリエニューラルオペレータ(FNO)と物理情報付きの変種(PINO)に特に重点を置いて、ニューラルオペレータを使用した3相ブラックオイル貯留層ダイナミクスの逐次サロゲートモデリング用の包括的な数学および計算フレームワークを開発する。アプリケーションの焦点はノルネシステムである。

    arXiv cs.LG

  22. 2026年5月29日

    検出可能効果の事前登録:4ビット量子化ベンチマーク用ペアリングMDEバジェット、パイロット監査付き

    これはペアリングなしパイロット監査を伴う計画方法に関する注記である。古典的なペアリング二項サンプルサイズ計算(Miettinen, 1968)を量子化ベンチマークに適応させ、ペアリングされた最小検出可能効果(MDE)の保守的な下限を提供している。

    arXiv cs.LG

  23. 2026年5月29日

    チェーンが保たれる、答えが折れる:敵対的圧力下での推論モデルの軌跡と答えの乖離

    推論モデルはシングルターンベンチマークで評価されているが、ユーザーが正解に異議を唱えるマルチターン対話環境に配備されている。継続的な敵対的圧力下では、これまで文書化されていない障害モードが見つかった:思考の連鎖は最初のターンから最後まで事実上正確であるが、回答は変わる。

    arXiv cs.AI

  24. 2026年5月29日

    VFEAgent: 有限要素解析エンドツーエンド自動化のためのマルチモーダルエージェントフレームワーク

    有限要素解析(FEA)は現代工学設計の根幹をなします。しかし、そのワークフローは本質的に複雑であり、領域知識に大きく依存しています。最近のLLMのFEA統合の試みにもかかわらず、既存のアプローチは複数の側面の処理における制限に直面しています。

    arXiv cs.AI

  25. 2026年5月30日

    GS Plus 第4弾「GS Plus 日本株式(TOPIXアルファ)」新登場!

    ゴールドマン・サックスが新たな日本株投資商品「GS Plus 日本株式(TOPIXアルファ)」を発表した。この商品は、TOPIXの構成銘柄から割安性や成長性などの指標で優良企業を厳選し、指数を上回るリターンを目指すもの。日本株が長期停滞する中、機関投資家のニーズが従来のベンチマーク運用からアルファ追求型へシフトしており、データ科学や機械学習を活用した新しい運用戦略が業界で広がっている。

    PR TIMES

  26. 2026年6月1日

    生成型AIにおける多元的アライメント評価フレームワーク

    arXiv:2605.31021v1 現在の生成型AIのアライメント手法は、人間の判断の多様性を集計された統計的基準に縮約する単一的なベンチマーク枠組みに依存しており、文化的、人口統計学的、文脈的な評価のばらつきが見落とされている。本論文では、これらの違いを考慮したペルソナベースの評価フレームワークを提案する。

    arXiv cs.AI

  27. 2026年6月1日

    項目反応理論によるLLMベンチマークの監査

    LLMベンチマークのラベルはリリース時に固定され、エラーを含めたまま下流ベンチマークに静かに伝播される。本論文は項目反応理論に基づくインジケータを導入し、7つの選好評価および多肢選択ベンチマークにおいて95%の精度でトップ200の例における誤りラベルの可能性を検出する。

    arXiv cs.CL

  28. 2026年6月1日

    CanLegalRAGBench:カナダ判例法に対する検索拡張生成の評価

    RAGベースの法律アシスタントの人気が高まっているが、LLMの幻覚問題は依然として重要な課題であり、正義に�悪影響を及ぼす可能性がある。ベンチマークは開発されているが、多くは合成クエリに依存しており、現実的な法律シナリオではない。さらに、カナダ法は未だ十分に評価されていない。

    arXiv cs.CL

  29. 2026年6月1日

    EUDAIMONIA: AIにおける望ましくないダイナミクスの評価

    大規模言語モデル(LLM)は伴侶関係、感情開示、対人アドバイスのための会話パートナーとしてますます使用されているが、これらのインタラクションの社会的ダイナミクスは能力指向的または従来の安全性評価によってキャプチャされないハームを生じさせる可能性がある。本研究ではこれを評価するための手法を導入する。

    arXiv cs.CL

  30. 2026年6月1日

    汎用的または特定の埋め込みどちらが優れているか?非英語言語での臨床コーディング検索の実証研究

    文意検索用の文埋め込みモデルは主に英語コーパスで開発・評価されている。他言語、特にICD-10-CM/CIE-10コード検索での臨床検索に適用すると、リコールが劣化する傾向がみられるが、これは集約的ベンチマークでしばしば見過ごされている。

    arXiv cs.CL