TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月29日
Amazon Bedrock AgentCoreのデータセット管理でエージェントとともに成長するテストスイートを構築
エージェント評価は、急速に変化するオンラインシグナルと安定したオフラインベースラインを組み合わせることで最も強力になります。エージェントが時間とともに本当に改善されているかどうかを理解するには、固定ベンチマークが必要です。
AWS Machine Learning Blog
2026年5月29日
fMRI からのシャムネットワーク自己教師学習による堅牢で課題不変の機能表現の学習
機能的磁気共鳴画像法（fMRI）は人間の脳機能を調査するための強力なツールである。しかし、データ取得の高コストと精神医学的評価尺度の本質的な主観性により、特に標的領域では、サンプルサイズが小さく、ラベル品質が可変のデータセットが生じることが多い。
arXiv cs.LG
2026年6月1日
QASM-Eval：量子回路を超えたOpenQASM-3でのLLMの訓練と評価用データセット
量子コンピューティングはノイズの影響を受けやすいNISQ（ノイズを伴う中規模量子）の時代に留まっており、パフォーマンスが大きく制限されている。この制限に対処するには、ゲートシーケンス回路の仕様を超えたハードウェア対応機能（中回路測定と古典的フィードバックを含む）が必要な場合がある。
arXiv cs.LG
2026年6月1日
ImmigrationQA：米国移民法向けのソースグラウンデッドデータセットと小規模モデル適応
米国移民法は数千ページの公式政策、連邦規制、手続きガイダンスで構成されており、法的代理人を持たない申請者にとって高いリスクを伴い、頻繁に変更されます。17,000件の質問回答を含むソースグラウンデッド型のImmigrationQAデータセットの構築について説明します。
arXiv cs.CL
2026年6月1日
idSCD：意味相関記述子を通じた訓練データセットの特定
arXiv:2605.30462v1 データセットは訓練中に誘発する偽の相関から認識できるでしょうか？本論では、データセットはモデルの学習した意味相関構造に、データセット固有のトレースを残すことを主張しています。つまり、データセット内では予測的であるが根本的なタスクに対して因果的ではない偶発的な規則性です。
arXiv cs.LG
2026年6月1日
研究文献で使用されるデータの監視と分類のためのAI
GoogleスカラーやSemantic Scholarなどのプラットフォームは学術論文の引用追跡を行っていますが、研究文献におけるデータセットの使用状況を監視するための同等のインフラストラクチャは存在せず、データ利用の状況がほぼ不透明なままになっています。このギャップに対処することは、透明性と再現性にとって重要です。
arXiv cs.CL
2026年6月1日
AISベース海事異常検出における教師なし学習の新規評価指標：MADQI
本論文は、自動識別システム（AIS）データセットの異常検出のための新しい体系的フレームワークを導入する。これらの異常には、速度、位置ジャンプ、時間差、旋回角に関連した異常な船舶行動が含まれる。Isolation Forestなどの教師なし学習アルゴリズムが利用されている。
arXiv cs.LG
2026年6月1日
DisjunctiveNet：微分可能凸最適化層を通じたニューラルシンボリック学習
arXiv:2605.30456v1 科学と工学の多くの学習タスクはスパースなデータセットが特徴であり、純粋なデータドリブンアプローチの有効性を制限しています。同時に、これらの問題には物理法則、運用要件、専門家の直感から導出された豊富なドメイン知識が伴うことが多くあります。
arXiv cs.LG
2026年6月1日
クロスモデル局所等距離一貫性を経由したベクトルリンク
異なるブラックボックスエンコーダにより部分的に重複するデータセットから生成された2つの埋め込みクラウドが与えられた場合、ベクトルのみを使用してクロスモデルオブジェクト対応を復元するベクトルリンクの研究。独立して訓練された対照的エンコーダが局所幾何学的性質を示すことを実証および理論的に証明する。
arXiv cs.AI
2026年6月2日
DraDDP: マルチモーダル多人数対話談話解析データセット
多人数対話の談話解析は、会話内の発話間の依存構造と関係タイプを特定することを目的としています。これまでの研究は主にテキストモダリティまたは二者間対話に限定されており、マルチモーダルおよび多人数設定に対応していません。本論文では、マルチモーダル多人数対話談話解析のためのデータセットを構築しています。
arXiv cs.CL
2026年6月2日
内積を考慮した量子化：証明可能な高速、正確、適応的アルゴリズム
量子化はデータセット、ニューラルネットワーク重み、および様々な計算タスクのメモリ使用量を圧縮するための基本的なツールです。ベクトル量子化の多くの下流アプリケーションは任意の入力との内積を実行します。これにより内積対応量子化スキームの研究が動機づけられます。
arXiv cs.LG
2026年6月2日
InfoAtlas：統計的依存性推定のための基盤モデル
高次元確率変数間の統計的依存性を測定することはデータサイエンスと機械学習の基本的なタスクです。ニューラル相互情報（MI）推定器は有望な道を提供していますが、通常は新しいデータセットごとに高額な反復最適化が必要であり、実用的な応用が困難です。
arXiv cs.LG
2026年6月4日
FundamentalのLarge Tabular Model NEXUSがAmazon SageMaker JumpStartで利用可能に
本記事では、Amazon SageMaker JumpStartでNEXUSの使い始め方を紹介し、デプロイプロセスについて説明し、エンタープライズデータセットに対して予測を実行する方法を実演します。
AWS Machine Learning Blog
2026年6月8日
本当に確実ですか？シンボリック回帰における不確実性定量化の包括的かつ理解可能な調査
シンボリック回帰（SR）は、数学関数の空間を体系的に探索し、データセット内の基礎的な関係を正確に捉えるモデルを発見する手法のクラスです。この分野の最近の進展にもかかわらず、不確実性定量化（UQ）のサポート不足が現実世界の意思決定プロセスへの採用を制限しています。回帰分析では、UQはモデルの信頼性に関する重要な情報を提供し、データの不確実性を考慮することでオーバーフィッティングを回避し、意思決定に向けた洞察を提供するのに役立ちます。本調査は、この問題に初めて明確に対処するもので、シンボリック回帰におけるUQの本質的な概念を紹介し、現在の文献を頻度主義的、ベイズ的、モデル選択という3つの研究方向に広く分類してレビューしています。その重要性にもかかわらず、シンボリック回帰におけるUQはまだ十分に探索されていないため、シンボリック回帰のための信頼できるUQ手法の研究をさらに進めることが重要です。
arXiv cs.LG
2026年6月8日
HKJudge：香港判決文の法的言説注釈付きコーパス - 裁判所の判断根拠、推論過程、判決内容の解釈
本研究は、香港の判決文に対する言説分析のための初めての専門家注釈付き法的言説コーパス「香港判決文言説データセット（HKJudge）」を紹介する。HKJudgeは香港の5段階の裁判所階級全体にわたる刑事判決を含み、約29万文、650万トークンから構成され、法言語学の専門家により完全に注釈付けされている。2層構造の言説スキーマを設計し、裁判所が認定した事実、推論過程、判決内容を捉える。文レベルでは各文に26の修辞的役割のいずれかが割り当てられ、スパンレベルでは有罪判決要素（罪状、懲役期間、罰金）でさらに注釈付けされている。10人の法言語学注釈者によるアノテーションは高い一致度（κ = 0.8）を達成している。HKJudgeに対して修辞的役割分類と法的要素抽出の2つのタスクを定式化し、4つのBERTベースモデル、2つのオープンソースLLM（ゼロショットおよびファインチューニング設定）、および4つの商用LLMについて初の基準評価を提供している。この研究は、文レベルの言説注釈が香港判決文の構造モデリングに価値があることを実証し、法的判決予測に関する将来の研究のための豊富なデータ基盤を提供する。
arXiv cs.CL
2026年6月8日
言語モデルの失敗：確定的かつ持続的な推論失敗のトークンレベル特性
言語モデルの推論失敗は、推論トレース内で識別可能な特性を残す異なるプロセスを通じて発生する。本研究はトークンレベルの不確実性シグナルを使用してこれらの失敗を特性化し、経験的に区別可能な2つのプロセスから生じることを発見した。第1は確定的失敗で、モデルがトレース初期の不正な推論経路に固着する。中心的な診断特性は確定点であり、その先で追加のトークンを考慮すると失敗検出がむしろ悪化する。第2は持続的不確実性で、不確実性はトレース全体を通じて蓄積され、失敗と成功の完了を区別するには完全なトレースが必要となる。これらの特性は23のモデル-データセット構成で再現され、フレームワークの反証可能な予測は23例中20例で保持され、両方の失敗モードにおいて偶然を大きく上回る。最後に、自己一貫性への直接的な含意を示す失敗モードフレームワークを実証し、不確実性シグナルが補完するケースと選択的にスキップできるケースを特定する。これらの結果は、LLM推論失敗がいつ検出可能になるかを理解し、それに応じて検出戦略を適応させるための基礎を提供する。
arXiv cs.CL
2026年6月8日
人々がAIに本当に求めるもの：選好の多様性をマッピング
大規模言語モデル（LLM）は人間のフィードバックからの強化学習（RLHF）を通じて調整されることが多いが、この方法には既知の制限がある。75カ国のPRISMデータセットから1,500件の自由記述回答を分析した結果、異なる人々がAIシステムに異なるものを求めていることが判明した。ほとんどの価値観は回答者の4分の1未満から要望されており、例外は「真実性」で49%である。同じ言葉でも異なる意味が隠されており、「真実性」の定義は引用元のある主張を求める人、専門家意見を求める人、非主流意見を求める人など、潜在的に相容れない認識論的基盤を示している。人間らしさやAIの安全装置などの機能は物議を醸しており、肯定する人と拒否する人に分かれている。さらに、現在の二値比較では捉えられない状況的区別（デフォルトで行うべきことと「要求された場合」）を人々がよく使用することも判明した。これらの知見は、現在の整合化実務における根本的な問題を明らかにしており、単一の報酬モデルでは複数の定義の「真実性」を捉えることができず、このような現象は認識論的暴力と特徴付けられている。
arXiv cs.CL
2026年6月8日
対称性操作としての公平性を扱うことによるバイアスの検出と軽減
機械学習システムは高い経済的利害が関係する場面でしばしばバイアスを示す。本研究ではバイアスを対称性破れ操作として形式化し、分類器が敏感な属性を反事実的に切り替える操作の下で出力が不変であれば、その分類器は公平であると定義する。損失ベースの正則化を対称性復元メカニズムとして実装し、様々なレベルのノイズ、相関、バイアスを含む4つの合成データセット上で評価した。本フレームワークは90%以上の違反削減を達成し、精度低下は約5%である。このフレームワークは因果グラフの知識を必要とせず、計算量は少なく、ビット反転として定義可能な任意の敏感な属性に汎化可能であり、主流ベンチマークに欠落している局所的差別源が存在する文脈に適している。
arXiv cs.AI
2026年6月8日
CrowdMath: クラウドソーシングされた数学研究討論のデータセット
大規模言語モデルは数学的推論において大きな進展を遂げていますが、既存のベンチマークは最終答案、段階的な解法、または完全な証明といった確定的な問題を評価するのが一般的です。本研究は、参加者が部分的な議論を提案し、先行する段階の不備を特定し、不完全な推論を修正し、段階的な貢献を徐々に統合していくという、協調的なオープン問題解決のプロセスをとらえた新しいデータセット「CrowdMath」を紹介します。これはMIT PRIMES--Art of Problem Solving (AoPS) CrowdMathプログラム(2016-2025)から164個の専門家による注釈付きの進捗チェーンで構成されており、その討論は査読済み論文に至っています。各チェーンはオープン問題の陳述から完成した証明まで、複数の参加者によるフォーラム討論の過程を追跡しています。投稿は部分的進捗、証明の完成、誤った推論、誤りの特定を含む、進化する解答プロセスにおける機能的役割によってラベル付けされています。
arXiv cs.AI
2026年6月8日
一貫性駆動型強化学習による言語間事実的リコール性能の向上
英語データで主に学習した大規模言語モデル（LLM）は豊富な世界知識を保有していますが、他言語での信頼性のある表現に失敗することが多いという言語間事実的矛盾の問題に対処するため、本研究ではPolyFactという大規模並列多言語事実的質問応答データセットを導入しました。12の言語的に多様な言語にわたり、ウィキデータに基づく100Kの事実を含みます。PolyFactを用いて、Qwen-2.5-7BとOLMo-2-1124-7Bの言語間事実的リコール性能を改善するため、軽量継続的事前学習（CPT）、教師あり微調整（SFT）、およびグループ相対方針最適化（GRPO）を比較しました。GRPOは一貫してSFTを上回り、言語間の一貫性と未見言語への汎化性能を改善しますが、並列データへのCPTは限定的な追加利得しかもたらしません。機構的分析により、GRPOはMLP層とアテンションヘッドの言語特殊化を削減することで多言語ルーティングを再編成し、より共有された言語間表現を促進することが示されました。本研究ではコード、モデル、およびデータセットを公開します。
arXiv cs.CL