TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月29日
ReverseMath: 数学問題生成の拡張可能性と検証可能性を実現する逆向き回答手法
数学推論ベンチマークはLLMの評価に不可欠だが、多くは静的で公開評価やトレーニングパイプラインを通じて繰り返し露出しており、真の推論と暗記を区別することが困難である。一方、新しい数学問題の手動構築は...
arXiv cs.CL
2026年5月29日
クロスモデルエントロピーによるラベル不要強化学習
強化学習を用いた大規模言語モデルの事後学習は報酬信号によってボトルネックとなっている。既存のアプローチは、自動正確性チェック（数学やコード実行など）のある領域に訓練を制限する検証可能な報酬か、人間の選好ラベルのいずれかを必要とする。
arXiv cs.LG
2026年5月29日
「落ちずに自力で戻った」女子高生殺害で内田梨瑚被告―旭川地裁
北海道の旭川地裁で進行中の女子高生殺害事件の公判で、被告人・内田梨瑚氏が「落ちずに自力で戻った」と供述し、検察側の主張と対立しています。物理的証拠が限定的な事件では、被告人の供述が有罪・無罪の判断を左右する重要な要素となるため、この供述が医学的・物理的に検証可能なのかが焦点となります。冤罪リスクを減らすには、客観的証拠、証人の信用性評価、法医学的知見の三点が重要であり、これらが「合理的疑いを超える立証」に到達するかが問われています。
時事通信
2026年6月1日
レアイベントの因果経路の形式化と反証
構造方程式モデルにおけるレアイベント（外れ値）の根本原因分析の最近の形式化に基づいて、因果経路の正式な定義を提案し、その検証可能な含意について議論します。これらの含意が因果抽象化定義のみに依存する条件を特定しています。
arXiv cs.AI
2026年6月1日
機械的解釈可能性によるディック経路上のゼータ写像アルゴリズムの発見
arXiv:2605.30482v1 機械学習は数学的発見にますます利用されているが、数学では出力は予測そのものではなく、独立して検証可能な明示的な構築であることが求められる。本研究では組合せ論における古典的な全単射であるディック経路上のゼータ写像を通じてこの設定を研究する。
arXiv cs.LG
2026年6月1日
構造認識報酬による深い研究のためのプランナー中心強化学習
深い研究タスクではLLMが調査対象を計画し、エビデンスを検索し、複数の調査分野にわたって長文の回答を合成する必要がある。既存の訓練パラダイムは短文の検証可能なQAをプロキシとして依存するか、モノリシックな長軌跡を最適化するかのいずれかであり、計画と実行が困難である。
arXiv cs.AI
2026年6月1日
Leanの定理証明のためのLLMフィードバック蒸留
推論モデルのポストトレーニングは通常、検証可能な報酬からの教師あり微調整と強化学習を組み合わせ、最も一般的にはGRPOで行われている。しかしこのアルゴリズムは報酬の疎さ、限定的な探索、モード崩壊に悩まされている。自己蒸留に関する最近の研究に基づき、改善されたアプローチを提案する。
arXiv cs.AI
2026年6月2日
CAST:GRPOのための非特権化クリップ付き非対称セルフティーチングとアドバンテージ反転
検証可能な報酬を用いた強化学習(RLVR)、特にグループ相対方針最適化(GRPO)は、大規模言語モデルの推論を改善するために広く使用されています。しかし、結果レベルの報酬は疎な教示のみを提供し、サンプリングされた軌跡がすべて同じ結果を得た場合、グループ相対アドバンテージは消失します。
arXiv cs.AI
2026年6月2日
SDR：放射線科レポート生成のための設定距離報酬
arXiv:2606.00440v1 発表タイプ：新規概要：検証可能な報酬による強化学習は、ビジョン言語モデルの推論を急速に進歩させています。ただし、胸部X線レポート生成の場合、標準的な報酬（正確一致精度およびステップレベルのプロセス）は、レポートが順序付けされていない直交的な検査結果で構成されているため、互換性がありません。
arXiv cs.AI
2026年6月3日
Tom Holland Called Sony Boss to Delay ‘Spider-Man: Brand New Day’ for Christopher Nolan’s ‘The Odyssey’
The 30-year-old actor has both films releasing in theaters this summer.
The Hollywood Reporter
2026年6月4日
AIがAIを作る時代の到来か──Anthropicが示す「再帰的自己改善」の実態とリスク
Anthropicは、AIが自ら開発を担う「再帰的自己改善」に関する考察を公開した。社内コードの8割以上をClaudeが執筆するなど自動化が進む現状を明かす一方、制御不能に陥るリスクを警告。他社と検証可能な形で開発を減速・一時停止できる国際協調体制の構築と、選択肢を持つべきだと提唱している。
ITmedia AI+
2026年6月11日
ProcessThinker：ロールアウトベースのプロセス報酬によるマルチモーダル大規模言語モデルの推論能力強化
arXiv:2606.11209v1 新規発表要旨：ビジュアル質問応答は、ますます多段階の推論を必要としています。検証可能な報酬（RLVR）とグループ相対ポリシー最適化（GRPO）を用いた近年の強化学習による事後学習は、マルチモーダル推論を改善できますが、ほとんどのアプローチは、結果のみの疎な報酬に依存しています。その結果、不正解が推論の終盤の小さな間違いに起因するのか、それとも最初から役に立たない推論経路に起因するのかを判断するのが困難です。一般的な解決策は、ステップレベルの監督のためにプロセス報酬モデル（PRM）をトレーニングすることですが、これには通常、大規模で高品質な思考連鎖の注釈と追加のトレーニングコストが必要です。本研究では、明示的なPRMをトレーニングすることなく、ステップレベルのプロセス報酬を提供する実用的な事後学習パイプラインであるProcessThinkerを提案します。
arXiv cs.CL
2026年6月14日
マット・デイモン、『ボーン』シリーズ復活に前向き「また1本作る方法を常に模索している」
マット・デイモンは、クリストファー・ノーラン監督の待望の『The Odyssey』でリノソラックスを着用するかもしれないが、それは彼が解離性健忘症に苦しむCIAエージェントとしての役柄が必ずしも終わりを迎えたわけではないことを意味しない。
Deadline
2026年6月15日
英国、フランス、ドイツ、イランの関連制裁解除を表明
英国、フランス、ドイツ、イタリアの首脳による共同声明で、「イランが核開発計画で明確かつ検証可能な措置を取った場合、関連制裁を解除する用意がある」と述べた。
Bloomberg
2026年6月16日
PhoneHarness：GUI、CLI、ツールアクションを組み合わせた電話エージェントの活用
電話エージェントは、単に次の画面アクションを予測するだけでなく、実際のモバイルワークフローを完了することが期待されるようになっています。しかし、現在のモバイルエージェントに関する文献の多くは、エージェントを主にGUIコントローラーとして評価しており、画面を監視し、タップやスワイプを実行し、ターゲットアプリの状態によってスコアリングされます。実際の電話使用タスクはより広範であり、アプリGUI、デバイスサイドコマンド、または構造化ツールの使用時期を判断し、意図した副作用が実際に発生したことを示す証拠を残す必要があります。本稿では、検証可能なモバイルワークフローで電話使用エージェントを研究するための、混合アクションベンチマークおよび実行ハーネスであるPhoneHarnessを紹介します。PhoneHarnessは、GUI、CLI、およびホストサイドツールアクションを介してデバイスサイドのエージェントループを実行し、決定論的なアクションルーティングと、境界のあるGUI委任、監査可能な実行トレースを組み合わせています。
arXiv cs.CL
2026年6月18日
「Odyssey」が14.5億ドルの評価額を獲得、Amazonなどが支援
AIの次のフロンティアとなるワールドモデル分野で、「Odyssey」が今回の資金調達ラウンドを経て、注目すべきスタートアップとしての地位を確立しました。
TechCrunch AI
2026年6月25日
汎用推論のための転移学習：マルチドメインRLVR向け自動カリキュラム
検証可能な報酬付き強化学習（RLVR）が、単一ドメインのトレーニングから、数学、プログラミング、科学にまたがるマルチドメイン推論スイートへと拡張されました。しかし、推論スキルのドメイン間での転移は不均一であるにもかかわらず、トレーニングカリキュラム（各ドメインがサンプリングされる頻度）は通常固定または手動調整されています。既存の学習可能性ベースのカリキュラムは、ポリシーが現在改善されている場所に適応しますが、選択されたドメインでの勾配ステップが残りのドメインに利益をもたらすかどうかには盲目です。本稿では、BanditスタイルのオンラインカリキュラムであるTransfer-Aware Curriculum（TAC）を提案します。これは、更新がトレーニングスイートの残りに広く利益をもたらすドメインを優先します。TACは、RLトレーニングによって既に生成されているシグナルを再利用します。
arXiv cs.AI
2026年6月26日
COrigami：平坦に折り畳める、認識可能なオリガミを共創するAIパイプライン
生成AIは検証可能な解を持つ問題解決で目覚ましい成功を収めていますが、厳密な幾何学的制約と主観的な美的感覚の両方を満たす物理的なアートの生成は依然として課題です。本稿では、計算オリガミの領域におけるこれらの困難に取り組むアプローチを提示します。計算オリガミは、数理的に厳密な環境であり、芸術的デザインを平坦折り畳み可能性の数式内に位置づけます。本稿では、自然言語から折り目パターンを生成することでデザインサイクルを支援する、エンドツーエンドのAI駆動パイプラインであるCOrigamiを紹介します。このパイプラインは、セマンティックな棒人間生成、ベースパッキング計算、平坦折り畳み可能な折り目パターンの解決、平坦に折り畳まれた折り目パターンの整形、そして自律的な美的評価ループによって駆動される強化学習を用いた生成モデルの改良を含みます。本システムは、人間のアーティストがさらに発展させ、整形できる構造的な出発点を生成する、非常に効果的な共同アシスタントとして機能します。
arXiv cs.AI
2026年6月29日
Odyssey：検証可能でローカルな真実保持型基盤モデルの構築
「ODYSSEY」と名付けたカテゴリー論的フレームワークを提案します。これは、ファウンドリ（局所的な文脈、局所表現ファミリー、制限写像、結合規則、妨害ポリシー、更新義務、人間向けビューを指定する構成要素）の合成によって、検証可能でローカルな真実保持型基盤モデルを構築するためのものです。ファウンドリは、議論コンポーネントを内包する知識の編成された束です。具体的なファウンドリは、証拠/議論、運用上の決定、制度/金融、市場の定義、科学的挑戦、研究プログラム、アシスタント構築、評価ハーネスといった汎用ファウンドリから構築されます。Universal Foundry Learning (UFL) は、左・右カン拡張の合成としてファウンドリ構築を形式化します。左カン拡張は局所的アーティファクトを候補ファウンドリにロールインし、右カン拡張は昇格に必要な制限、結合、妨害、議論の条件を強制します。
arXiv cs.AI
2026年6月29日
DysLexLens：オンラインフォーラムの分析からディスレクシア学習者の洞察を得るための低リソースLLMフレームワーク
ディスレクシア（読み書き障害）のある学習者は、読書、執筆、整理、学習関連のタスクをサポートするために人工知能（AI）ツールをますます活用しています。しかし、これらのツールとの実際の体験はほとんど調査されていません。本論文では、ディスレクシア学習者がオンラインフォーラムでの議論を通じてAIをどのように体験しているかを分析するために設計された、低リソースLLMフレームワークであるDysLexLensを提案します。DysLexLensは、エンドツーエンドで証拠を追跡可能なアーキテクチャとして設計されており、ノイズの多いソーシャルメディアの投稿を辞書駆動型コーパスに変換し、知識グラフ（KG）ベースの質問推論を提供し、検証可能なクエリ応答を生成し、定量的および人間による評価を通じて応答を評価できるようにします。DysLexLensには4つの主要な特徴があります。
arXiv cs.AI