TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月29日
クロスモデルエントロピーによるラベル不要強化学習
強化学習を用いた大規模言語モデルの事後学習は報酬信号によってボトルネックとなっている。既存のアプローチは、自動正確性チェック（数学やコード実行など）のある領域に訓練を制限する検証可能な報酬か、人間の選好ラベルのいずれかを必要とする。
arXiv cs.LG
2026年5月29日
StoryMI: 操作可能なマルチエージェント治療対話生成
大規模言語モデル(LLM)は流暢な対話を生成できますが、先行研究は状況的な根拠付け、動的戦略制御、および動機面接(MI)の臨床基準に合致した評価が不足しています。我々はStoryMIを導入しました。これは制御可能なMI対話生成のための複数LLMエージェントフレームワークです。
arXiv cs.CL
2026年5月29日
VFEAgent: 有限要素解析エンドツーエンド自動化のためのマルチモーダルエージェントフレームワーク
有限要素解析(FEA)は現代工学設計の根幹をなします。しかし、そのワークフローは本質的に複雑であり、領域知識に大きく依存しています。最近のLLMのFEA統合の試みにもかかわらず、既存のアプローチは複数の側面の処理における制限に直面しています。
arXiv cs.AI
2026年5月29日
ReverseMath: 数学問題生成の拡張可能性と検証可能性を実現する逆向き回答手法
数学推論ベンチマークはLLMの評価に不可欠だが、多くは静的で公開評価やトレーニングパイプラインを通じて繰り返し露出しており、真の推論と暗記を区別することが困難である。一方、新しい数学問題の手動構築は...
arXiv cs.CL
2026年5月29日
「落ちずに自力で戻った」女子高生殺害で内田梨瑚被告―旭川地裁
北海道の旭川地裁で進行中の女子高生殺害事件の公判で、被告人・内田梨瑚氏が「落ちずに自力で戻った」と供述し、検察側の主張と対立しています。物理的証拠が限定的な事件では、被告人の供述が有罪・無罪の判断を左右する重要な要素となるため、この供述が医学的・物理的に検証可能なのかが焦点となります。冤罪リスクを減らすには、客観的証拠、証人の信用性評価、法医学的知見の三点が重要であり、これらが「合理的疑いを超える立証」に到達するかが問われています。
時事通信
2026年6月1日
機械的解釈可能性によるディック経路上のゼータ写像アルゴリズムの発見
arXiv:2605.30482v1 機械学習は数学的発見にますます利用されているが、数学では出力は予測そのものではなく、独立して検証可能な明示的な構築であることが求められる。本研究では組合せ論における古典的な全単射であるディック経路上のゼータ写像を通じてこの設定を研究する。
arXiv cs.LG
2026年6月1日
構造認識報酬による深い研究のためのプランナー中心強化学習
深い研究タスクではLLMが調査対象を計画し、エビデンスを検索し、複数の調査分野にわたって長文の回答を合成する必要がある。既存の訓練パラダイムは短文の検証可能なQAをプロキシとして依存するか、モノリシックな長軌跡を最適化するかのいずれかであり、計画と実行が困難である。
arXiv cs.AI
2026年6月1日
Leanの定理証明のためのLLMフィードバック蒸留
推論モデルのポストトレーニングは通常、検証可能な報酬からの教師あり微調整と強化学習を組み合わせ、最も一般的にはGRPOで行われている。しかしこのアルゴリズムは報酬の疎さ、限定的な探索、モード崩壊に悩まされている。自己蒸留に関する最近の研究に基づき、改善されたアプローチを提案する。
arXiv cs.AI
2026年6月1日
レアイベントの因果経路の形式化と反証
構造方程式モデルにおけるレアイベント（外れ値）の根本原因分析の最近の形式化に基づいて、因果経路の正式な定義を提案し、その検証可能な含意について議論します。これらの含意が因果抽象化定義のみに依存する条件を特定しています。
arXiv cs.AI
2026年6月2日
SDR：放射線科レポート生成のための設定距離報酬
arXiv:2606.00440v1 発表タイプ：新規概要：検証可能な報酬による強化学習は、ビジョン言語モデルの推論を急速に進歩させています。ただし、胸部X線レポート生成の場合、標準的な報酬（正確一致精度およびステップレベルのプロセス）は、レポートが順序付けされていない直交的な検査結果で構成されているため、互換性がありません。
arXiv cs.AI
2026年6月2日
固体力学問題のためのエンドツーエンド有限要素解析を可能にするマルチAIエージェントフレームワーク
有限要素解析(FEA)は固体力学における最も重要な数値解析手法です。FEAの課題には、初心者ユーザーにとって急な学習曲線と、境界条件、荷重ケース、解析パラメータなどの重要なシミュレーションコンポーネントの定義が誤っている場合の誤ったシミュレーションが含まれます。
arXiv cs.AI
2026年6月2日
CAST:GRPOのための非特権化クリップ付き非対称セルフティーチングとアドバンテージ反転
検証可能な報酬を用いた強化学習(RLVR)、特にグループ相対方針最適化(GRPO)は、大規模言語モデルの推論を改善するために広く使用されています。しかし、結果レベルの報酬は疎な教示のみを提供し、サンプリングされた軌跡がすべて同じ結果を得た場合、グループ相対アドバンテージは消失します。
arXiv cs.AI
2026年6月4日
AIがAIを作る時代の到来か──Anthropicが示す「再帰的自己改善」の実態とリスク
Anthropicは、AIが自ら開発を担う「再帰的自己改善」に関する考察を公開した。社内コードの8割以上をClaudeが執筆するなど自動化が進む現状を明かす一方、制御不能に陥るリスクを警告。他社と検証可能な形で開発を減速・一時停止できる国際協調体制の構築と、選択肢を持つべきだと提唱している。
ITmedia AI+
2026年6月8日
CAF-Gen：議論構造を充実させるためのマルチエージェントシステム
自然言語テキストから複雑な推論を形式化することは、計算言語学における中心的な課題である。現在の議論マイニング技術は基本的な主張と前提を識別するが、前提のタイプ、証明基準、議論スキームなどの特徴を組み込むカーネアデス議論枠組み（CAF）といった高度なスキーマが必要とする豊かな構造情報を捉えるのに苦労している。本研究は、浅い議論構造をCAF準拠の議論モデルに充実させるために設計された自動マルチエージェントフレームワークCAF-Genを導入することでこの制限に対処している。反復的なクリエイター・レビュアーパイプラインを採用することで、クリエイターエージェントの出力は批評的エージェントによって検証され、構造的整合性が確保される。このマルチエージェント協働は、単一パス生成モデルに典型的な構造的不安定性を軽減するために重要である。実験結果は、反復的なフィードバックループが結果データの品質を向上させ、元のアノテーションとの強い一致を達成しながら、構造的により豊かなモデルを生成することを示している。
arXiv cs.CL
2026年6月11日
ProcessThinker：ロールアウトベースのプロセス報酬によるマルチモーダル大規模言語モデルの推論能力強化
arXiv:2606.11209v1 新規発表要旨：ビジュアル質問応答は、ますます多段階の推論を必要としています。検証可能な報酬（RLVR）とグループ相対ポリシー最適化（GRPO）を用いた近年の強化学習による事後学習は、マルチモーダル推論を改善できますが、ほとんどのアプローチは、結果のみの疎な報酬に依存しています。その結果、不正解が推論の終盤の小さな間違いに起因するのか、それとも最初から役に立たない推論経路に起因するのかを判断するのが困難です。一般的な解決策は、ステップレベルの監督のためにプロセス報酬モデル（PRM）をトレーニングすることですが、これには通常、大規模で高品質な思考連鎖の注釈と追加のトレーニングコストが必要です。本研究では、明示的なPRMをトレーニングすることなく、ステップレベルのプロセス報酬を提供する実用的な事後学習パイプラインであるProcessThinkerを提案します。
arXiv cs.CL
2026年6月15日
英国、フランス、ドイツ、イランの関連制裁解除を表明
英国、フランス、ドイツ、イタリアの首脳による共同声明で、「イランが核開発計画で明確かつ検証可能な措置を取った場合、関連制裁を解除する用意がある」と述べた。
Bloomberg
2026年6月16日
PhoneHarness：GUI、CLI、ツールアクションを組み合わせた電話エージェントの活用
電話エージェントは、単に次の画面アクションを予測するだけでなく、実際のモバイルワークフローを完了することが期待されるようになっています。しかし、現在のモバイルエージェントに関する文献の多くは、エージェントを主にGUIコントローラーとして評価しており、画面を監視し、タップやスワイプを実行し、ターゲットアプリの状態によってスコアリングされます。実際の電話使用タスクはより広範であり、アプリGUI、デバイスサイドコマンド、または構造化ツールの使用時期を判断し、意図した副作用が実際に発生したことを示す証拠を残す必要があります。本稿では、検証可能なモバイルワークフローで電話使用エージェントを研究するための、混合アクションベンチマークおよび実行ハーネスであるPhoneHarnessを紹介します。PhoneHarnessは、GUI、CLI、およびホストサイドツールアクションを介してデバイスサイドのエージェントループを実行し、決定論的なアクションルーティングと、境界のあるGUI委任、監査可能な実行トレースを組み合わせています。
arXiv cs.CL
2026年6月18日
【Eve】AIエージェントは"ディレクトリ"になる — Vercel発のエージェントフレームワークを触ってみた
! この記事の草稿は、本文で紹介している Eve 製の「記事執筆エージェント」自身が書きました。その草稿を筆者本人が最終レビューし、エージェントと協業しながら修正・加筆しています。「Eve の部品を解説する記事を、その部品で組んだエージェントが書く」という二層構造でお届けします。
Zenn
2026年6月25日
汎用推論のための転移学習：マルチドメインRLVR向け自動カリキュラム
検証可能な報酬付き強化学習（RLVR）が、単一ドメインのトレーニングから、数学、プログラミング、科学にまたがるマルチドメイン推論スイートへと拡張されました。しかし、推論スキルのドメイン間での転移は不均一であるにもかかわらず、トレーニングカリキュラム（各ドメインがサンプリングされる頻度）は通常固定または手動調整されています。既存の学習可能性ベースのカリキュラムは、ポリシーが現在改善されている場所に適応しますが、選択されたドメインでの勾配ステップが残りのドメインに利益をもたらすかどうかには盲目です。本稿では、BanditスタイルのオンラインカリキュラムであるTransfer-Aware Curriculum（TAC）を提案します。これは、更新がトレーニングスイートの残りに広く利益をもたらすドメインを優先します。TACは、RLトレーニングによって既に生成されているシグナルを再利用します。
arXiv cs.AI
2026年6月26日
精神科薬に関する情報探索のための知識拡張型エージェントAI
患者はオンラインで薬剤情報を求めることが増えているが、精神科薬の安全性に関する知識は、権威的だが抽象的な規制当局の有害事象記録と、体験に近いが検証されていない患者の体験談との間で分断されている。証拠と個人的な体験談を混同せずに統合することは、精神医学において特に重要である。なぜなら、文脈化が不十分な情報は、恐怖、プラセボ効果、服薬アドヒアランスの低下を増幅させる可能性があるからだ。本研究では、9つの抗うつ薬について、466,525件のReddit投稿、60,782件のWebMDレビュー、および米国FDA有害事象報告システム（FAERS）の20年間の記録を統合する、由来を認識する知識グラフベースのマルチエージェントフレームワークを開発した。医師の注釈と比較してベンチマークされた大規模言語モデルのエンティティ認識パイプラインは、薬剤で0.969、病状で0.973という最高のF1スコアを達成した。
arXiv cs.AI
2026年6月26日
COrigami：平坦に折り畳める、認識可能なオリガミを共創するAIパイプライン
生成AIは検証可能な解を持つ問題解決で目覚ましい成功を収めていますが、厳密な幾何学的制約と主観的な美的感覚の両方を満たす物理的なアートの生成は依然として課題です。本稿では、計算オリガミの領域におけるこれらの困難に取り組むアプローチを提示します。計算オリガミは、数理的に厳密な環境であり、芸術的デザインを平坦折り畳み可能性の数式内に位置づけます。本稿では、自然言語から折り目パターンを生成することでデザインサイクルを支援する、エンドツーエンドのAI駆動パイプラインであるCOrigamiを紹介します。このパイプラインは、セマンティックな棒人間生成、ベースパッキング計算、平坦折り畳み可能な折り目パターンの解決、平坦に折り畳まれた折り目パターンの整形、そして自律的な美的評価ループによって駆動される強化学習を用いた生成モデルの改良を含みます。本システムは、人間のアーティストがさらに発展させ、整形できる構造的な出発点を生成する、非常に効果的な共同アシスタントとして機能します。
arXiv cs.AI
2026年6月26日
Stripeの事例から学ぶ、金融コンプライアンスのための本番級AIエージェント
この記事では、Stripeが金融コンプライアンスのための本番級AIエージェントシステムをどのように構築したかを紹介します。StripeのReActエージェントフレームワークの技術アーキテクチャと、専用エージェントサービスのインフラストラクチャの決定事項について解説します。
AWS Machine Learning Blog
2026年6月28日
AI エージェントフレームワーク Flue を試してみた
Flue は AI エージェントを構築するための TypeScript フレームワークです。ハーネス駆動のアーキテクチャを採用しており、エージェントの構築に必要な機能を包括的に提供しています。この記事では SRE エージェントを構築する例を通じて Flue の機能に触れていきます。
はてなブックマーク IT
2026年6月29日
Odyssey：検証可能でローカルな真実保持型基盤モデルの構築
「ODYSSEY」と名付けたカテゴリー論的フレームワークを提案します。これは、ファウンドリ（局所的な文脈、局所表現ファミリー、制限写像、結合規則、妨害ポリシー、更新義務、人間向けビューを指定する構成要素）の合成によって、検証可能でローカルな真実保持型基盤モデルを構築するためのものです。ファウンドリは、議論コンポーネントを内包する知識の編成された束です。具体的なファウンドリは、証拠/議論、運用上の決定、制度/金融、市場の定義、科学的挑戦、研究プログラム、アシスタント構築、評価ハーネスといった汎用ファウンドリから構築されます。Universal Foundry Learning (UFL) は、左・右カン拡張の合成としてファウンドリ構築を形式化します。左カン拡張は局所的アーティファクトを候補ファウンドリにロールインし、右カン拡張は昇格に必要な制限、結合、妨害、議論の条件を強制します。
arXiv cs.AI
2026年6月29日
DysLexLens：オンラインフォーラムの分析からディスレクシア学習者の洞察を得るための低リソースLLMフレームワーク
ディスレクシア（読み書き障害）のある学習者は、読書、執筆、整理、学習関連のタスクをサポートするために人工知能（AI）ツールをますます活用しています。しかし、これらのツールとの実際の体験はほとんど調査されていません。本論文では、ディスレクシア学習者がオンラインフォーラムでの議論を通じてAIをどのように体験しているかを分析するために設計された、低リソースLLMフレームワークであるDysLexLensを提案します。DysLexLensは、エンドツーエンドで証拠を追跡可能なアーキテクチャとして設計されており、ノイズの多いソーシャルメディアの投稿を辞書駆動型コーパスに変換し、知識グラフ（KG）ベースの質問推論を提供し、検証可能なクエリ応答を生成し、定量的および人間による評価を通じて応答を評価できるようにします。DysLexLensには4つの主要な特徴があります。
arXiv cs.AI
2026年7月2日
失敗を安全にする：オープンウェブデータ収集のための制約付き検証可能エージェントフレームワーク
LLMとエージェントは自然言語の要件からウェブスクレイパーを生成できますが、依存関係エラー、セレクタの破損、スキーマの不一致、ページ構造の異質性により、直接生成は依然として信頼性が低いです。我々は、LLMの出力を自由形式のコードから型付けされたJSONコレクタ構成に移行する、制約付き検証可能エージェントフレームワークを提案します。これは、6つのコレクタ分類、テンプレートとユーティリティ関数の制約、静的なAirflow DAG実行、ルールベースの品質チェック、構造化されたフィードバック修正を組み合わせています。138のタスクでの実験は、この分類が記述ベースの要件タイピングをサポートすることを示し、安定したインスタント化には初期記述を超えたソース、フィールド、実行制約の完了が必要であることを確認しました。独立したソース検証済みの80のタスクでは、このフレームワークは実行ステージでのLLMトークンゼロと最短の平均壁時計時間を達成し、1回の試行での品質を中程度に抑える代わりに、繰り返しスケジュールされた収集に適した再利用可能で決定的かつ検証可能な実行パスを実現しています。
arXiv cs.AI