TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2025年12月8日
Kubernetesスケジューラのベンチマークテスト
本記事は、PFNのインターンシップを経て現在はアルバイトとして勤務されている上田蒼一朗さんによる寄稿です。はじめに Preferred Networks（以下PFN）ではKubernetesを用いた機械学習基盤の開発・ […] 投稿 Kubernetesスケジューラのベンチマークテストは Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年2月20日
日本語の自然さを測る評価手法の検証
Preferred Networksでは大規模言語モデル (LLM) PLaMoの開発を継続して行っています。 LLMを開発するにあたってその能力を評価するベンチマークは非常に重要です。英語においては様々なベンチマークが […] 投稿日本語の自然さを測る評価手法の検証は Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年2月25日
コード生成ベンチマークのためのサンドボックス環境の開発
はじめに Preferred Networksでは、大規模言語モデル「PLaMo」の開発を行っています。 PLaMoは開発サイクルにて様々なベンチマークによりその能力を評価していますが、今回はコード生成ベンチマークにてモ […] 投稿コード生成ベンチマークのためのサンドボックス環境の開発は Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年3月18日
AGI への進捗を測定する：認知フレームワーク
AGI への進捗を測定するフレームワークを導入し、関連する評価を構築するための Kaggle ハッカソンを開始
Google DeepMind
2026年3月23日
Optunaベースの内製フレームワーク × Work Suite: ユーザフィードバック駆動型プロンプト最適化を用いた新機能について
はじめに Preferred Networksの加藤です。AIプロダクト・ソリューションチーム所属で、AutoMLチームも兼務しています。PFNでは Preferred AI という生成AIを活用したプロダクト群を開発し […] 投稿 Optunaベースの内製フレームワーク × Work Suite: ユーザフィードバック駆動型プロンプト最適化を用いた新機能については Preferr…
Preferred Networks
2026年5月8日
Velox：4次元ジオメトリと外観の表現学習
4次元オブジェクトの潜在表現を学習するフレームワークを紹介。オブジェクトのジオメトリと外観を忠実に捉える記述性、下流のタスク効率を支援する圧縮性を備える。
Apple Machine Learning Research
2026年5月11日
BalCapRL: RL ベースのMLLM画像キャプション生成用のバランス型フレームワーク
画像キャプション生成はコンピュータビジョンの最も基本的なタスクの一つです。その開放性の性質により、マルチモーダル大規模言語モデル（MLLM）の時代に多大な関心を集めています。
Apple Machine Learning Research
2026年5月13日
HermesがNVIDIA RTX PCおよびDGX Sparkによって強化された自己改善AIエージェントをアンロック
エージェンティックAIはユーザーが仕事をこなす方法を変えています。OpenClawの成功に続き、コミュニティは新しいオープンソースエージェンティックフレームワークを採用しています。最新のHermes Agentは140,000を超えるダウンロードを達成しました。
NVIDIA Blog
2026年5月15日
DatabricksがGPT-5.5をエンタープライズエージェントワークフローに導入
DatabricksがOfficeQA Proベンチマークで最先端の成績を達成したGPT-5.5をエンタープライズエージェントワークフローに活用しています。
OpenAI
2026年5月18日
pretrained model向けのベンチマークの構築
Preferred Networks では、大規模言語モデル PLaMo の開発を継続して行っています。 LLM を開発するうえで、モデルの能力を適切に測定するベンチマークは重要です。英語ではさまざまなベンチマークが日々 […] 投稿 pretrained model向けのベンチマークの構築は Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年5月27日
ついにMonoランタイムを脱却する「.NET MAUI」。Xamarinから続いてきたMonoランタイムをCoreCLRに移行
マイクロソフトは、シングルコードでiOS、Android、Windows、macOSに対応するUIフレームワーク「.NET MAUI」のiOSとAndroidにおけるランタイムが、今秋リリース予定の.NET 11でCoreCLRに移行するこ...
Publickey
2026年5月27日
NVIDIA Vera CPUが競合製品に対して「強力なパンチを繰り出している」
エージェンシャルAIへのシフトは、AIファクトリーの新しいCPU要件を生み出します：高速コア、膨大なメモリ帯域幅、およびすべてのコアがアクティブな場合でも高いパフォーマンスを維持する能力です。初期ベンチマークでは...
NVIDIA Blog
2026年5月28日
OpenAIのフロンティア・ガバナンス・フレームワーク
OpenAIのフロンティア・ガバナンス・フレームワークと、AI安全保障、セキュリティ、リスク慣行がEUおよびカリフォルニア州の新興規制とどのように整合しているかを探る。
OpenAI
2026年5月29日
Amazon Bedrock AgentCoreのデータセット管理でエージェントとともに成長するテストスイートを構築
エージェント評価は、急速に変化するオンラインシグナルと安定したオフラインベースラインを組み合わせることで最も強力になります。エージェントが時間とともに本当に改善されているかどうかを理解するには、固定ベンチマークが必要です。
AWS Machine Learning Blog
2026年5月29日
反応トーンを通じたコミュニティ態度のモデリング：オンラインコミュニティの言語的行動とLLMアラインメント評価のための人間-AI協働フレームワーク
大規模言語モデル（LLM）は計算社会分析のプロキシとしてますます利用されていますが、人間のコミュニティの「厚い記述」を忠実に表現する能力は依然として重大な課題です。現在の評価では、社会的アイデンティティを静的なラベルに縮小することが多いです。
arXiv cs.CL
2026年5月29日
検出可能効果の事前登録：4ビット量子化ベンチマーク用ペアリングMDEバジェット、パイロット監査付き
これはペアリングなしパイロット監査を伴う計画方法に関する注記である。古典的なペアリング二項サンプルサイズ計算（Miettinen, 1968）を量子化ベンチマークに適応させ、ペアリングされた最小検出可能効果（MDE）の保守的な下限を提供している。
arXiv cs.LG
2026年5月29日
幻覚削減のための格子上のチェーンベース適応再構成
大規模言語モデルにおけるテスト時の幻覚削減のための確率的フレームワークであるCAROL（Chain-based Adaptive Reconfiguration Over Lattices）を導入します。トークンレベルの不確実性に依存するのではなく、CAROLは生成された結果間の一貫性に基づいて意味的不確実性測度を定義します。
arXiv cs.CL
2026年5月29日
FormInv: 数学推論ベンチマークにおけるセマンティック不変性の測定プロトコル
MathCheck（ICLR 2025）のパラフレーズ品質監査により、129グループ中4つのセマンティック的に不正確なパラフレーズ（3.1%）が検出されました。これらを削除するとGPT-4oはランク2からランク4に低下し、Claude HaikuとDeepSeek V3がそれを上回ります。これらのランク変動は単一モデル評価では見えません。
arXiv cs.LG
2026年5月29日
VFEAgent: 有限要素解析エンドツーエンド自動化のためのマルチモーダルエージェントフレームワーク
有限要素解析(FEA)は現代工学設計の根幹をなします。しかし、そのワークフローは本質的に複雑であり、領域知識に大きく依存しています。最近のLLMのFEA統合の試みにもかかわらず、既存のアプローチは複数の側面の処理における制限に直面しています。
arXiv cs.AI
2026年5月29日
状態遷移を誘導する制約認識介入設計のための因果知能
ターゲットを絞った介入を通じてシステムをある状態から別の状態へ駆動することは科学の基本的な課題ですが、ほとんどの予測モデルは限定的なメカニズムの洞察と意思決定のための原則的フレームワークを提供していません。ここでは状態遷移のための因果的最適アクション（COAST）を提示します。
arXiv cs.LG
2026年5月29日
チェーンが保たれる、答えが折れる：敵対的圧力下での推論モデルの軌跡と答えの乖離
推論モデルはシングルターンベンチマークで評価されているが、ユーザーが正解に異議を唱えるマルチターン対話環境に配備されている。継続的な敵対的圧力下では、これまで文書化されていない障害モードが見つかった：思考の連鎖は最初のターンから最後まで事実上正確であるが、回答は変わる。
arXiv cs.AI
2026年5月29日
GTA：スケーラブルなWebエージェント用ロングホライズンタスク生成
arXiv:2605.29218v1 文書の発表。言語モデルをブラウジングおよびツール使用機能と組み合わせたWebエージェントは、オープンなWebアシスタントとしての可能性を示していますが、スケーラブルなプロセスレベルの監督の不足により進展が制限されています。既存のベンチマークは主に手動で構築されており、粗い開始ゴール注釈のみを提供しています。
arXiv cs.AI
2026年5月29日
AI強化教育における実践者の信念と行動：DOTフレームワーク調査の証拠
本研究は、高等教育実践者72名を対象とした横断的調査の結果を報告しています。設計思考を統合したDOTフレームワークに基づき、教育と学習におけるAI統合に関連する信念、行動、および機関的条件を検証したものです。
arXiv cs.AI
2026年5月29日
ノルネ貯留層システムの逐次物理制約ニューラルオペレータ順方向モデリング
フーリエニューラルオペレータ(FNO)と物理情報付きの変種(PINO)に特に重点を置いて、ニューラルオペレータを使用した3相ブラックオイル貯留層ダイナミクスの逐次サロゲートモデリング用の包括的な数学および計算フレームワークを開発する。アプリケーションの焦点はノルネシステムである。
arXiv cs.LG
2026年5月29日
多言語LLMタスク実行における言語役割の分離
多言語LLMは、指示、ソースコンテンツ、および必要な応答言語が一致しない場合にますます使用されています。既存のベンチマークは多言語命令追従評価を拡張していますが、完全にクロスされた設計内でこれら3つの役割を分離することはめったにありません。MTM-Benchを導入します。
arXiv cs.CL
2026年5月29日
表現アライメントは線形構造に基づいている
プラトン表現仮説（PRH）を信号、バイアス、ノイズの3分岐統計フレームワークを通じて調査します。信号に関しては、プラトンアライメントは、表現に線形でエンコードされるオブジェクトと属性間の普遍的関係から生じることを提案します。
arXiv cs.LG
2026年5月29日
ReverseMath: 数学問題生成の拡張可能性と検証可能性を実現する逆向き回答手法
数学推論ベンチマークはLLMの評価に不可欠だが、多くは静的で公開評価やトレーニングパイプラインを通じて繰り返し露出しており、真の推論と暗記を区別することが困難である。一方、新しい数学問題の手動構築は...
arXiv cs.CL
2026年5月29日
拡散モデルの柔軟で効率的な制御のためのスペクトル誘導
生成プロセスの固有幾何学を活用することで、拡散モデルを制御するためのフレームワークであるSpectral Guidanceを導入する。データがノイズによって段階的に破損するにつれて、制御に対して有用な情報を保つ特徴は少数のみとなり、それらを特異関数として特徴付ける。
arXiv cs.LG
2026年5月29日
BEAMS: AI モデリング・シミュレーション評価ベンチマーク
実世界の意思決定を支援するAIツールは、推奨事項を知らせ解釈可能にするシミュレーションモデルを構築できる必要があります。モデリング実務の側面を自動化できるツールは、人間の専門知識を補完する必要があり、置き換えるべきではありません。BEAMS Initiativeは、開発を指導することを目的としています。
arXiv cs.AI
2026年5月29日
StoryMI: 操作可能なマルチエージェント治療対話生成
大規模言語モデル(LLM)は流暢な対話を生成できますが、先行研究は状況的な根拠付け、動的戦略制御、および動機面接(MI)の臨床基準に合致した評価が不足しています。我々はStoryMIを導入しました。これは制御可能なMI対話生成のための複数LLMエージェントフレームワークです。
arXiv cs.CL