TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月29日
フロンティアLLMベースエージェントは自然表現型のオントロジーキュレーションボトルネックを解決できる
自由形式の表現型の説明をオントロジー用語にリンクする、いわゆる表現型アノテーションは、比較形態学的データの研究間統合に不可欠です。この労働集約的なプロセスは高度な訓練を受けた人間の専門家に大きく依存してきたため、スケーラビリティが課題となっています。
arXiv cs.AI
2026年6月2日
MindZero:アノテーションなしでのオンライン心理推論の学習
効果的な実世界での支援には、行動から人間の心理状態を推論する堅牢な心の理論(ToM)を備えたAIエージェントが必要です。最近の進歩にもかかわらず、複数の仮説にわたる堅牢な不確実性更新を伴うオンライン推論や効率的な推論など、いくつかの重要な課題が残っています。
arXiv cs.AI
2026年6月2日
あらゆるロール、ツール、ワークフロー向けのCodex
アナリスト、マーケター、デザイナー、投資家など、様々なチームがAIでより多くの作業を完了するのに役立つ新しいCodexプラグイン、サイト、アノテーションを発見できます。
OpenAI
2026年6月3日
OpenAI、Codexのビジネス用途を広げる役割別プラグインを公開、アノテーション対象拡大やSitesのプレビュー提供も
OpenAIは2026年6月2日、Codex向けに、職種や役割に合わせて使える6種類の新しい「役割別プラグイン」、成果物をWebサイトやアプリとして共有できる「Sites」のプレビュー提供、選択箇所を指定して修正を依頼できる「アノテーション」の対象拡大を発表した。
gihyo.jp
2026年6月8日
HKJudge：香港判決文の法的言説注釈付きコーパス - 裁判所の判断根拠、推論過程、判決内容の解釈
本研究は、香港の判決文に対する言説分析のための初めての専門家注釈付き法的言説コーパス「香港判決文言説データセット（HKJudge）」を紹介する。HKJudgeは香港の5段階の裁判所階級全体にわたる刑事判決を含み、約29万文、650万トークンから構成され、法言語学の専門家により完全に注釈付けされている。2層構造の言説スキーマを設計し、裁判所が認定した事実、推論過程、判決内容を捉える。文レベルでは各文に26の修辞的役割のいずれかが割り当てられ、スパンレベルでは有罪判決要素（罪状、懲役期間、罰金）でさらに注釈付けされている。10人の法言語学注釈者によるアノテーションは高い一致度（κ = 0.8）を達成している。HKJudgeに対して修辞的役割分類と法的要素抽出の2つのタスクを定式化し、4つのBERTベースモデル、2つのオープンソースLLM（ゼロショットおよびファインチューニング設定）、および4つの商用LLMについて初の基準評価を提供している。この研究は、文レベルの言説注釈が香港判決文の構造モデリングに価値があることを実証し、法的判決予測に関する将来の研究のための豊富なデータ基盤を提供する。
arXiv cs.CL
2026年6月8日
CAF-Gen：議論構造を充実させるためのマルチエージェントシステム
自然言語テキストから複雑な推論を形式化することは、計算言語学における中心的な課題である。現在の議論マイニング技術は基本的な主張と前提を識別するが、前提のタイプ、証明基準、議論スキームなどの特徴を組み込むカーネアデス議論枠組み（CAF）といった高度なスキーマが必要とする豊かな構造情報を捉えるのに苦労している。本研究は、浅い議論構造をCAF準拠の議論モデルに充実させるために設計された自動マルチエージェントフレームワークCAF-Genを導入することでこの制限に対処している。反復的なクリエイター・レビュアーパイプラインを採用することで、クリエイターエージェントの出力は批評的エージェントによって検証され、構造的整合性が確保される。このマルチエージェント協働は、単一パス生成モデルに典型的な構造的不安定性を軽減するために重要である。実験結果は、反復的なフィードバックループが結果データの品質を向上させ、元のアノテーションとの強い一致を達成しながら、構造的により豊かなモデルを生成することを示している。
arXiv cs.CL
2026年6月16日
ReportQA: QAベースの放射線レポート評価
放射線レポートの評価は、自動レポート生成の進歩に不可欠です。自然言語生成メトリクスは臨床的関連性が限定的です。臨床的有効性（CE）メトリクスは重要な医学的所見を評価しますが、主に存在に焦点を当て、限定的なエンティティしかカバーしません。手動アノテーションへの重い依存により、CEメトリクスが臨床エンティティや属性を拡張することは困難です。臨床現場では、放射線レポートは情報伝達の媒体として機能します。臨床医は、画像を直接検査することなく、下流の診断タスクを実行するためにこれらを使用します。この洞察に基づき、放射線レポート生成システムの詳細な定量的分析をサポートする、臨床関連で柔軟な放射線レポート評価フレームワークであるReportQAを提案します。まず、複数の画像モダリティと解剖学的領域をカバーするデータセットを収集します。次に、放射線科医のガイダンスを得て臨床エンティティと属性の知識ツリーを構築し、大規模言語モデル（LLM）を使用して生のレポートから構造化情報を抽出します。
arXiv cs.CL
2026年6月16日
Metric Match：LLM判定の信頼性評価のためのサブセット選択アプローチ
LLM判定は、オープンエンドなテキスト生成の評価における人件費の削減に利用されます。しかし、これらの判定の信頼性は、人間による評価との一致に大きく依存しますが、その一致自体も費用のかかる人間によるアノテーションに依存します。本研究では、限定的なアノテーションからLLM判定の相関ベースの信頼性指標を推定する方法（Metric Match）を開発しました。Metric Matchは、取得した合成ラベルに関して、サブセットが母集団の信頼性指標と一致するように、人間によるアノテーションのためのサンプルサブセットを選択します。経験的に、Metric Matchは、4つの異なる相関指標と15のデータセット全体でランダムなサブセット選択と比較して0.838の勝率を達成し、平均推定誤差を18.7%減らし、アノテーションの必要性を32.5%削減することを示しました。コストモデルを提供し、専門家のアノテーションにおいてランダム選択と比較して1,041.67ドルの節約になる医療ケーススタディを強調します。
arXiv cs.AI
2026年6月18日
可能性か断定か？臨床テキストにおける診断の不確実性保持を評価するためのベンチマーク
大規模言語モデル（LLM）は、要約や修正などの臨床テキストタスクでますます利用されています。ほとんどの研究ではLLM生成テキストの流暢さや一貫性を評価していますが、LLMが診断の不確実性を正しく保持するかどうかは十分に探求されていません。臨床現場では、「可能性のある肺炎」のようなフレーズは、利用可能な証拠の強さを伝え、フォローアップ検査や治療の決定に直接影響を与えます。これらの不確実性表現を変更すると、臨床的意味が完全に変わる可能性があります。本稿では、この問題を2段階で体系的に評価しました。まず、5つのレベルにわたる9,184の不確実性アノテーションが付いた1,200の臨床文書のベンチマークを構築しました。次に、このベンチマークで3つのLLMを評価しました。その結果、（1）LLMは元の不確実性キューを貧弱に保持しており、多くの場合半数未満しか保持しないこと、（2）LLMは隣接するレベル間の微妙な区別で苦労することが示されました。この研究は、標準的な評価指標では捉えられない失敗モードを明らかにし、臨床ワークフローにおけるLLMの安全な展開への示唆を提供します。
arXiv cs.CL
2026年6月19日
大規模手話データセット：リソース、ベンチマーク、アノテーション標準に関する包括的調査
手話は、ろう者および難聴者（DHH）コミュニティが使用する表現力豊かな視覚言語です。手話認識、翻訳、生成において substantial な進歩があったにもかかわらず、データセットの断片化、アノテーションの一貫性の欠如、言語的カバレッジの限定性により、進歩は still 制限されています。既存のベンチマークは、real-world のコミュニケーションニーズを反映できていないことが多く、これらの制限に対する体系的な分析は still limited です。本調査では、35 の手話にわたる 120 のリソースをカバーする、手話データセットの包括的な index を提示します。モダリティの不均衡、アノテーションの粒度、署名者のバイアスなどの主要な課題を分析し、将来のデータセット設計に関する考慮事項を概説します。
arXiv cs.CL
2026年6月23日
学習におけるアノテーション飽和度を評価指標に依存させて推定する手法
アノテーター間の意見の不一致は、それ自体が情報となりうる。その情報量を得るために必要なアノテーターの数は、評価指標によって異なる。本研究では、ChaosNLIデータセット（項目ごとに100人の独立したアノテーターの判断を提供）からサブサンプリングしたラベル分布を用いて、NLIモデルをファインチューニングし、評価指標に依存したアノテーション飽和度を特定した。
Apple Machine Learning Research
2026年6月24日
言語モデルエージェントはメカニズム解釈における回路説明に役立つか？
メカニズム解釈は、回路の自動的な特定において大きな進歩を遂げましたが、特定されたコンポーネントが何をするかの説明は、依然として手間がかかり、標準化が困難です。本研究では、回路が特定された後、言語モデル（LM）エージェントがこの説明問題の支援となるかどうかを調査します。163個のコンポーネントレベルのアノテーションを持つ84個の半合成トランスフォーマー回路から構築された、回路説明のためのベンチマークであるAgenticInterpBenchを導入します。観察、仮説生成、因果検証の反復ループを通じて各コンポーネントを分析し、最終的にコンポーネントレベルの説明と回路レベルのタスク説明を生成するエージェント型説明ツールHyVE（Hypothesize, Validate, Explain）を提案します。4つのLMバックボーンにわたるHyVEは、有用なコンポーネントレベルおよびタスクレベルの説明を回復しますが、どのバックボーンも一様に最良ではありませんでした。
arXiv cs.AI
2026年6月24日
製品の望ましさに関する数値的・分類的隠れた感情分析の効率性と説明可能性のためのLLM利用評価
定性的な製品フィードバックはニュアンスのあるユーザー体験を明らかにしますが、その隠れた感情を測定することは困難です。本論文では、大規模言語モデル（LLM）を使用して、このようなデータから製品の望ましさを定量化する、スケーラブルで解釈可能なフレームワークを提案します。ZORQとCARMAの2つのProduct Desirability Toolkit（PDT）データセットを使用し、106の回答者タームグルーピングをゴールドスタンダードの人間によるアノテーションで評価し、明示的なレビュー評価に依存せずに、ゼロショット連続数値感情スコアリングとカテゴリ感情分類を評価します。データセット全体で、LLMは定性的な回答から直接数値感情スコアを生成し、専門家のラベルに非常に近く、ピアソン相関係数は最大0.97、分類精度は最大94%を達成しました。LLMは、複数の形式で提示されたデータを処理しても堅牢性を維持し、一貫して高い信頼性を示しました。対照的に、辞書ベースおよびトランスフォーマーベースラインでは統計的に有意な結果は得られませんでした。
arXiv cs.CL
2026年6月26日
AIエージェント基盤のためのエージェンティック分析：DAOと企業のAIプロトコルの比較ガバナンスのためのLLM搭載パイプライン
AIエージェントプロトコルが普及するにつれて、相互運用性標準を形成するガバナンス構造は経験的に十分に検討されていません。本稿では、大規模なガバナンス・ディスコース分析のためのLLM搭載比較パイプラインを導入します。これには、自動アノテーション、ニューラル・トピック・モデリング、マルチレイヤー・ネットワーク分析を統合し、社会技術的パワー構造を大規模に研究します。本パイプラインは、エージェント相互運用性の2つの対照的な標準、ERC-8004（パーミッションレス、オンチェーン）とGoogle A2A（企業主導）で検証されます。4,323件のガバナンス参加記録を分析し、LLM支援コーディング、トピック・モデリング、マルチレイヤー・ネットワーク分析を組み合わせて、制度設計がテーマの優先順位やコミュニティ構造にどのように影響するかを調査します。ガバナンスの形式が実質的な焦点に影響を与える一方で、両方の体制が参加の不平等やコミュニティの断片化において同程度のレベルを示すことがわかります。
arXiv cs.AI
2026年6月29日
PairSAE：タンパク質共フォールディングにおけるペア表現からのメカニズム解釈
構造生物学のための基盤モデルは、生体分子構造の予測において目覚ましい性能を達成し、タンパク質や低分子の設計に有望視されている。しかし、その出力の根幹をなす内部特徴を理解することは依然として困難である。標準的なスパースオートエンコーダー（SAE）は、トランスフォーマー風のシーケンス埋め込みには効果的だが、ペアフォーマー風のアーキテクチャにはそのまま適用できない。ペア表現に単純に作用させると、特徴量が二次関数的に増加し、シーケンス表現とペア表現にまたがって分散する概念が不明瞭になる。そこで我々はPairSAEを開発した。これは、ペアテンソルをNモードSVDによってトークンごとの相互作用役割に要約し、その後、スパースオートエンコーダーを使用して、シーケンス表現とペア表現の両方をデコードできる共通のトークンレベル特徴セットを学習する。PLINDERタンパク質-リガンド複合体のBoltz-2活性化で評価した結果、PairSAEはUniProtアノテーションと一致し、Boltz-2親和性値を予測する解釈可能な特徴量をもたらした。
arXiv cs.LG
2026年7月1日
クリーンテキストを超えて：ノイズのあるテキストでのベンガル語イベント検出におけるエンコーダーとデコーダーのロバスト性の評価
イベント検出（ED）システムは通常、クリーンでキュレーションされたテキストで評価されるため、特にベンガル語のような低リソース言語においては、現実世界のノイズに対するロバスト性はほとんど探求されていません。本研究では、汎用的なベンガル語ニュースイベントオントロジーと、クリーンなニューステキスト、実世界の自動音声認識（ASR）トランスクリプト、および正書法的に破損したテキストにまたがる40のイベントサブタイプにわたる9,979のアノテーション付き文からなるベンチマークを導入します。ファインチューニングされたエンコーダー専用モデル（BanglaBERTとXLM-R）と、命令チューニングされたデコーダー専用大規模言語モデル（Llama 3とGemma 3）を体系的に評価します。結果は明確なアーキテクチャのトレードオフを明らかにします。エンコーダーモデルはクリーンなテキストで高いパフォーマンスを達成しますが、ノイズ下では著しく低下します。一方、デコーダー専用LLMは、特にイベントトリガーが破損している場合に、著しくロバストです。
arXiv cs.CL
2026年7月1日
成果報酬モデルによるテキストからSQLへのテスト時検証
推論時の大規模言語モデル（LLM）の信頼性向上は、テキストからSQLへの変換のような構造化推論タスクにおける中心的な課題です。Best-of-Nサンプリングや多数決などの一般的なテスト時推論戦略は、実行成功や出力頻度などのヒューリスティックな信号に依存していますが、候補出力間の意味的な識別能力は限られています。本研究では、テキストからSQLへの変換におけるテスト時検証のための学習済み意味スコアリング関数として、成果報酬モデル（ORM）を検討します。ORMは以前からテスト時のスケーリングやアライメントに検討されてきましたが、構造化クエリ生成への応用は十分に探求されていませんでした。自動化された候補生成と実行ベースのラベリングによるタスク固有ORMのトレーニングのためのスケーラブルなフレームワークであるGradeSQLを導入し、手動アノテーションなしでの検証器トレーニングを可能にします。ORMを検証駆動型Best-of-Nパイプラインに統合し、複数のオープンソースLLMファミリーにわたるBIRDおよびSpiderベンチマークでアプローチを評価します。
arXiv cs.CL
2026年7月2日
RareDxR1: 人間のアノテーションを超えた希少疾患診断のための自律的医療推論
希少疾患の鑑別診断は、医師が複雑で構造化されていない患者の症状から正確な表現型を特定し、広大な探索空間内で複雑な推論を実行することを必要とする、重要かつ困難な臨床タスクです。しかし、既存のAIアプローチは通常、パイプラインベースの表現型抽出または検索拡張生成に依存しており、これらは定義済みのオントロジー、検索のボトルネック、および診断ロジックの欠如による重大な情報損失に苦しんでいます。これらの課題に対処するため、構造化されていない臨床記録から直接、オープンな領域の希少疾患診断のために設計されたエンドツーエンドの推論中心大規模言語モデルであるRareDxR1を導入します。構造化された表現型とクローズドセットの意思決定への依存を回避するため、知識の内部化と自律的な進化学習を相乗させることで、段階的なエンドツーエンドのトレーニングフレームワークを設計しました。RAGと表現型の制限の限界を克服するために、断片化された希少疾患知識をモデルのパラメータに直接深く内部化できるようにしました。
arXiv cs.AI