TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月29日
反応トーンを通じたコミュニティ態度のモデリング：オンラインコミュニティの言語的行動とLLMアラインメント評価のための人間-AI協働フレームワーク
大規模言語モデル（LLM）は計算社会分析のプロキシとしてますます利用されていますが、人間のコミュニティの「厚い記述」を忠実に表現する能力は依然として重大な課題です。現在の評価では、社会的アイデンティティを静的なラベルに縮小することが多いです。
arXiv cs.CL
2026年5月29日
ノルネ貯留層システムの逐次物理制約ニューラルオペレータ順方向モデリング
フーリエニューラルオペレータ(FNO)と物理情報付きの変種(PINO)に特に重点を置いて、ニューラルオペレータを使用した3相ブラックオイル貯留層ダイナミクスの逐次サロゲートモデリング用の包括的な数学および計算フレームワークを開発する。アプリケーションの焦点はノルネシステムである。
arXiv cs.LG
2026年5月29日
TRACES：軌跡状態モデリングによるマルチターンLLMエージェント向けプロアクティブセーフティ監査
LLMエージェントはマルチターンツール使用と環境相互作用を通じてますます動作していますが、安全リスクは最終結果に表面化する前の中間ステップから生じることが多いです。したがって、リアクティブ監査は不十分です。事後診断はリスクを指摘する機会を逃すことが頻繁にあります。
arXiv cs.CL
2026年5月29日
認知圏論トランスフォーマー：言語モデリングのための圏論的帰納的バイアス
認知圏論トランスフォーマー(CCT)は3億600万パラメータのアーキテクチャで、事前学習されたGPT-2 Smallバックボーンを圏論から導出された認知的に根拠のあるコンポーネント、および認知科学からのいくつかのインスピレーションで拡張しています。マッチドステップ・プロトコル下(215,000最適化ステップ)で...
arXiv cs.AI
2026年5月29日
BEAMS: AI モデリング・シミュレーション評価ベンチマーク
実世界の意思決定を支援するAIツールは、推奨事項を知らせ解釈可能にするシミュレーションモデルを構築できる必要があります。モデリング実務の側面を自動化できるツールは、人間の専門知識を補完する必要があり、置き換えるべきではありません。BEAMS Initiativeは、開発を指導することを目的としています。
arXiv cs.AI
2026年6月1日
CobSeg: 対話トピックセグメンテーションのための一貫性境界モデリング
対話トピックセグメンテーションは異なる境界手がかり(発話エッジ付近の語彙遷移および発話全体の意味的不連続性)を識別する必要がある多くのヒト-AI協調アプリケーションで重要である。既存の発話モデルはしばしばこれらのローカル語彙信号を希薄化させる。
arXiv cs.CL
2026年6月1日
パディング付きトランスフォーマー表現力の再検討：どのアーキテクチャの選択が重要でどれが重要でないのか
arXiv:2605.30523v1発表タイプ：新規概要：最近の研究では、トランスフォーマーがブール回路との接続を通じて計算できること・できないことを説明しているが、既存の結果は正確な特性化を欠き、モデリング選択に対して敏感である。パディング付きトランスフォーマー――入力に「...」などのフィラー記号が追加される――は有用なツールとして出現している。
arXiv cs.LG
2026年6月2日
lmfaoooo at SemEval-2026 Task 1: ユーモアは観客である。制約付きユーモア生成のための選好モデリング
ユーモア生成は、流暢で新しいジョークを生成することの難しさだけでなく、「面白い」というのが観客に依存し、教師ラベルがノイズを含んでいるという点で困難です。選好は観客、文脈、文化によって異なり、アノテータ間の一致度も低くなります。本論文では、SemEvalのシステムについて説明します。
arXiv cs.CL
2026年6月6日
中央アフリカのエボラ感染拡大は2014年の過去最大流行と同規模に達する可能性、米保健当局が警告
米CDCのモデリングでは、エボラ感染が「危険な軌道」を辿る可能性があることが示されているが、専門家はアウトブレイクは予測が非常に難しいと警告している。米保健当局による新たな分析によると、中央アフリカのエボラ流行は、1万1,000人以上の死亡者を出した西アフリカの2014～2016年の流行と同規模に拡大する可能性がある。
The Guardian World
2026年6月8日
HKJudge：香港判決文の法的言説注釈付きコーパス - 裁判所の判断根拠、推論過程、判決内容の解釈
本研究は、香港の判決文に対する言説分析のための初めての専門家注釈付き法的言説コーパス「香港判決文言説データセット（HKJudge）」を紹介する。HKJudgeは香港の5段階の裁判所階級全体にわたる刑事判決を含み、約29万文、650万トークンから構成され、法言語学の専門家により完全に注釈付けされている。2層構造の言説スキーマを設計し、裁判所が認定した事実、推論過程、判決内容を捉える。文レベルでは各文に26の修辞的役割のいずれかが割り当てられ、スパンレベルでは有罪判決要素（罪状、懲役期間、罰金）でさらに注釈付けされている。10人の法言語学注釈者によるアノテーションは高い一致度（κ = 0.8）を達成している。HKJudgeに対して修辞的役割分類と法的要素抽出の2つのタスクを定式化し、4つのBERTベースモデル、2つのオープンソースLLM（ゼロショットおよびファインチューニング設定）、および4つの商用LLMについて初の基準評価を提供している。この研究は、文レベルの言説注釈が香港判決文の構造モデリングに価値があることを実証し、法的判決予測に関する将来の研究のための豊富なデータ基盤を提供する。
arXiv cs.CL
2026年6月8日
Lean4Agent: エージェントワークフロー及び軌跡の形式的モデリングと検証
大規模言語モデル(LLM)に信頼性の高い多段階ワークフロー実行能力を備えさせることはAIの中心的課題となっている。LLMのエージェント機能の最近の進歩にもかかわらず、ほとんどのエージェントシステムはワークフロー実行軌跡の仕様化、検証、デバッグのための形式的手法を欠いている。この課題は数学における長年の問題を反映しており、自然言語の曖昧性が形式言語開発の動機となっている。この範例に触発されて、我々は依存型形式言語Lean4を用いてエージェント動作をモデリング・検証する最初のフレームワークLean4Agentを提案する。Lean4Agentはエージェントワークフローの意味的一貫性を形式的にモデリング・検証し、実行時失敗の局所化を可能にする拡張可能なLean4ライブラリFormalAgentLibを立ち上げる。FormalAgentLibに基づいて、さらにLeanEvolveを開発し、ワークフローを改善してその能力を強化する。
arXiv cs.AI
2026年6月11日
ProHiFlo：階層的フローマッチングと関数的ガイダンスによる新規タンパク質生成
de novoタンパク質生成は、治療薬設計、酵素工学、合成生物学において革新的な可能性を秘めています。拡散ベースおよびフローマッチングアプローチは進歩を遂げていますが、通常は単一解像度で動作し、機能的制約を組み込むメカニズムを欠いています。本稿では、3つの革新的な階層的フローマッチングフレームワークであるProHiFloを提案します。(1) 骨格構造をモデリングしてから全原子座標へと洗練させる粗視的から微視的への生成により、精度を維持しながら計算コストを削減します。(2) 事前学習済み予測器を活用した機能的ガイダンスにより、再学習なしで望ましい特性へと生成を誘導します。(3) 効率的なマルチスケール処理のための適応型SE(3)-同変アーキテクチャ。非条件付き生成、モチーフ足場構築、機能設計における実験は、4回のサンプリングステップを削減しながら、最先端のパフォーマンスを示しました。酵素活性部位の足場構築では、ProHiFloはRFDiffusionの41.2%に対し、58.9%の成功率を達成しました。
arXiv cs.LG
2026年6月16日
融合は万能ではない：イベント発生までの時間モデリングのためのクロスモーダル表現アラインメント
マルチモーダル臨床データからの正確なイベント発生までの時間（TTE）予測は、モダリティの不均衡と分布シフトにより依然として課題となっています。本研究では、CT画像と縦断的EHRデータ間のクロスモーダル表現アラインメントのための、タスクや施設を超えて汎用化できるように設計された、ファウンデーションモデル主導のフレームワークを提案します。CTとEHRのモダリティは、ドメイン固有のファウンデーションモデルを用いて個別にエンコードされ、4つの原則的な融合戦略（late fusion, contrastive alignment, cross-attention, co-attention）を通じて共有潜在空間でアラインメントされます。肺塞栓症（PE）の死亡率と心血管疾患（CVD）の転帰という、臨床的に異なる2つのTTEタスクを、大規模な複数施設コホート（PE: N=3,099学習; 1,098内部; 435外部; CVD: N=2,951学習; 837内部; 682外部）で評価しました。
arXiv cs.AI
2026年6月16日
運転軌跡予測におけるインタラクションモデリングのためのグラフニューラルネットワーク層選択の比較研究
自動運転システムは、安全かつ効率的な移動計画のために正確な軌跡予測に依存しています。グラフニューラルネットワーク（GNN）は、道路上のエージェント間の時空間的インタラクションをモデリングするための有望なアプローチとなっています。しかし、軌跡予測のためのGNNアーキテクチャの設計は標準化されておらず、どのグラフ層が空間的インタラクションと時間的ダイナミクスを効果的に捉えられるかについてのガイダンスはほとんどありません。本稿では、19種類のグラフ層について、軌跡予測に最も効果的なアーキテクチャを発見するために、それらの空間的および時間的処理能力に焦点を当てた詳細な比較研究を提供します。探索されたハイパーパラメータ設定内で、ARMA、Chebyshev、およびトポロジー認識層が他の層よりも一貫して優れたパフォーマンスを示し、5つの際立った層の組み合わせを強調します。
arXiv cs.LG
2026年6月16日
生理信号からのマルチモーダル感情認識のための深層時間モデリングとアンサンブル融合
生理的ストレスと感情認識は、健康モニタリングと感情コンピューティングにおいて重要です。本研究では、手首と胸のセンサー信号を用いたマルチモーダル感情認識のためのWESADデータセットにおける、Long Short-Term Memory (LSTM)、Temporal Convolutional Networks (TCN)、Transformerなどの深層学習モデルの包括的な評価を提示します。手首のみ、胸のみの入力でモデルをトレーニングすることにより、各モダリティの個別の貢献度を評価するためにアブレーションスタディを実施します。さらに、マルチモーダル入力でトレーニングされた3つのアーキテクチャすべての予測を組み合わせる、レイトフュージョンアンサンブル戦略を実装します。また、各モデルに入力する前に手首と胸の信号を連結することにより、センサーレベルでの早期融合も採用します。結果は、Transformerモデルがマルチモーダル設定で一貫して最も高い精度を達成する一方、TCNモデルが手首のみの構成で最良のパフォーマンスを発揮することを示しています。
arXiv cs.CL
2026年6月18日
モントリオール強制アライナーと2026年の音声認識アライメントの現状
モントリオール強制アライナー（MFA）は2016年にリリースされ、以来、研究および産業分野で最も広く使用されている強制アライメントツールとなっています。それから10年間で、MFAは、より大規模なオープンソースデータセット、統一されたIPA辞書、モデル適応、クロス言語フォネティック再マッピング、およびサポートユーティリティを使用した、より多くの言語と方言へのカバレッジ拡大を含む、大幅な開発を経てきました。本論文は、バージョン1.0以降のMFA 3.0の開発を記録し、古典的およびニューラル強制アライナーをベンチマークとして、英語、日本語、韓国語におけるMFAのパフォーマンスを評価します。MFA 3.0は、平均境界誤差15ミリ秒未満で、4つのベンチマークデータセットすべてにおいて最先端またはそれに近いパフォーマンスを達成しています。適応とクロス言語再マッピングは、MFAのトレーニング分布外の言語に効果的であり、発音確率モデリングと音韻規則は特定の条件下で改善をもたらします。
arXiv cs.CL
2026年6月19日
拡散言語モデル：実験的分析
大規模言語モデル（LLM）は、自己回帰的生成によって言語モデリングに革命をもたらし、幅広いタスクで高いパフォーマンスを実現しました。最近、拡散言語モデル（DLM）は、次トークン予測ではなく反復的なノイズ除去を通じてテキストを生成する代替パラダイムとして登場し、シーケンス全体の並列的な洗練を可能にしました。多数の拡散ベースのアーキテクチャが提案されていますが、評価プロトコル、データセット、推論予算、生成ハイパーパラメータの違いにより、それらの能力を比較し、提供されるトレードオフを理解することが困難になっています。本研究では、最新のDLMの体系的な実験的分析を提示します。具体的には、推論、コーディング、翻訳、知識、構造化問題解決を網羅する8つのベンチマークで8つの最先端DLMを評価し、生成品質と計算効率の両方を明確に考慮します。下流タスクの評価を超えて、ノイズ除去ステップ、コンテキスト長、ブロックサイズ、並列アンマスキング戦略を含む、推論時間における主要因子の影響を分析し、大規模な実験を、同一条件下でトレーニングされた小規模モデルの制御された比較によって補完します。
arXiv cs.AI
2026年6月19日
REVEAL++：アルツハイマー病リスクの視覚言語網膜モデリングのための微分可能な表現型グルーピング
網膜は、認知機能低下リスクに関連する微細な構造パターンを捉え、神経変性疾患への非侵襲的な窓を提供します。REVEALのような視覚言語アラインメントフレームワークは、網膜眼底画像と構造化された臨床リスク記述をペアにすることで、アルツハイマー病（AD）の早期予測を改善することが示されています。これらのアプローチにおける重要な設計上の選択は、表現型グルーピングの使用であり、リスクプロファイルが類似した個人が、対照学習中にマルチポジティブペアとして扱われます。しかし、既存の方法では、表現型の類似性を離散的な構成概念として具体化し、硬いグループ割り当てに依存しており、これは厳格な監視を課し、グループ形成を表現学習から切り離します。本研究では、対照学習における表現型構造の連続的な定式化を提案します。サンプルを固定クラスターに割り当てるのではなく、網膜画像とリスクプロファイルの両方におけるモダリティ内埋め込み類似性から導出される微分可能な重み付け関数として、被験者間の類似性をモデル化します。
arXiv cs.AI
2026年6月23日
CSIネイティブ基盤モデルへ：6G向けチャネル適応型ロードマップ
無線基盤モデルは、第6世代（6G）システム向けの再利用可能なチャネル状態情報（CSI）インテリジェンスへの道を提供する。しかし、既存の汎用バックボーン適応およびCSI事前学習手法は、CSIを伝搬条件付きチャネル応答としてではなく、タスクテンソルとして扱うことが多く、無線環境の固有の時間・周波数・空間幾何学的特性を捉えきれていない。本稿では、CSIネイティブ基盤モデルに向けたチャネル適応型ロードマップを提示し、事前学習、位置モデリング、アテンション制御を3つのチャネル要件（スケール認識型異種公開、物理的時間・周波数・アンテナ座標、相関境界トークン相互作用）に整合させる統一フレームワークを提案する。広範な実験により、提案フレームワークのゼロショット汎化（空間・時間・周波数タスク全体でNMSEを4 dB以上削減）、スケール外挿（8倍の未知アンテナスケーリング下で最大5.4 dBのゲイン）、推論効率（モビリティ認識処理を最大18.8%高速化）の3つの次元での優位性が実証された。
arXiv cs.LG
2026年6月24日
3D分子表面の指紋を解読し、正確なエピトープ予測を実現
分子表面は、抗体-抗原認識を決定する幾何学的・物理化学的パターンをエンコードしており、エピトープ予測の中心となる。しかし、既存の手法は配列やバックボーン構造に依存しており、不連続な表面駆動型エピトープを捉えるのが難しい。本研究では、分子表面表現を直接扱う表面中心の学習フレームワークであるSurfBindを提案する。SurfBindは、パッチレベルの表面モデリング、バインダー認識型クロスアテンション、階層的な粗視的-微視的予測パラダイムを備えたTransformerベースのアーキテクチャを通じて、幾何学的・物理化学的手がかりを統合する。SAbDabやDB5.5などの困難なエピトープ同定ベンチマークでの実験により、SurfBindは最先端の性能を達成し、未知の抗体や構造状態に対しても強い汎化能力を示すことが証明された。これは、タンパク質-タンパク質相互作用の重要なメカニズムを理解するために、相互作用認識型の表面モデリングがいかに価値があるかを強調するものである。
arXiv cs.LG
2026年6月25日
ノイズのあるASRにおけるグラフベースの音韻誤り訂正
自動音声認識（ASR）システムは、全体的な単語誤り率は低いものの、固有表現、否定、感情表現などの意味的に重要なトークンに不均衡に影響を与える残存する語彙的誤りを生成します。これらの誤りは、ランダムなノイズではなく音韻的な類似性から生じる構造的なものであることが多く、単純なトークンレベルの訂正では不十分です。本稿では、音韻グラフモデリングと文脈言語理解を組み合わせた、G-SPINと呼ぶ構造化ASR訂正フレームワークを提案します。まず、グラフニューラルネットワーク（GNN）が、フラグ付けされたトークンに対して音響的に妥当な候補近傍を構築し、訂正検索空間を音韻的代替案に明示的に制限します。次に、マスク言語モデル（MLM）がローカルな文脈スコアリングを提供し、指示チューニングされた大規模言語モデル（LLM）が、このコンパクトな候補セットに対して最終的な文脈認識再ランキングを実行します。構造化された音韻的推論と文脈意味的選択を分離することにより、本手法は制約のない生成を回避しつつ、訂正精度を向上させます。このフレームワークは軽量でモジュール化されており、推論時に完全に動作します。
arXiv cs.CL
2026年6月25日
エージェント型AIへのガイド：基礎からシステムまで
「エージェント型AIへのガイド」は、自律型AIシステム構築のための包括的な実践者向けリファレンスです。本書は、最初の原則から本番展開までのフルスタックを網羅しており、優れたエージェント型システムを構築するには、パイプラインの単一のレイヤーだけでなく、すべてのレイヤーを理解する必要があるという中心的なテーゼを中心に構成されています。まず、LLM基盤（トランスフォーマーアーキテクチャ、GPUシステム、トレーニングとファインチューニング（SFT、LoRA、MoE）、モデル圧縮、推論最適化）を、主要な焦点ではなく、不可欠な基盤として扱います。次に、アライメントと推論レイヤー（RLHF、PPO、DPOとそのバリアント、GRPO、報酬モデリング、チェーン・オブ・ソートやテストタイムスケーリングを含む大規模推論モデルのためのRL）を開発します。後半は、エージェント型AIそのものに充てられています。
arXiv cs.AI
2026年6月25日
LLMベースの科学論文査読：手法、ベンチマーク、信頼性の課題
科学論文の投稿数の急増は、従来の査読システムを拡張性の限界に追いやり、インテリジェントな自動評価アシスタントとして大規模言語モデル（LLM）の活用が模索されています。最近の研究では、LLMが流暢な批評を生成し、査読者のスコアを近似できることが示されていますが、意思決定支援システムとしての信頼性、堅牢性、セキュリティは十分に理解されていません。このサーベイでは、LLMベースの科学論文査読について、批評生成とスコア予測という2つの中心的な評価機能に焦点を当て、システムレベルでの分析を提供します。プロンプトベース、教師あり学習、検索拡張、アライメント最適化アプローチを含むモデリング手法の構造化された分類法を提示し、既存のベンチマークを横断する経験的知見を統合します。現在の評価慣行を制限するデータセットの制約、評価の不備、ドメイン集中バイアスを分析します。パフォーマンス指標を超えて、プロンプトインジェクション、データポイズニング、検索の脆弱性、報酬ハッキングなどの新たな堅牢性リスクを特定し、自動レビューパイプラインを戦略的な操作に対して露呈させます。
arXiv cs.CL
2026年6月25日
分散型エネルギーリソースの協調制御のための教師あり強化学習
分散型エネルギーリソース（DER）の統合が進むことは、電力システムの脱炭素化に不可欠ですが、DERの柔軟性を最大限に引き出すことは、その固有の不確実性とモデリングの複雑さによって課題となっています。従来の最適化手法がDERの不確実性と複雑性に対処するのに苦労する中、強化学習（RL）がDER管理の有望な代替手段として登場しました。しかし、標準的なRL手法は、ゼロから学習する場合、サンプル効率が悪く、最適ではないという問題を抱えています。本稿では、大規模言語モデルの学習パラダイムに着想を得て、DER協調ポリシー学習のための教師あり強化学習（SRL）フレームワークを提案します。このフレームワークは、まず教師あり学習の方式でデモンストレーションデータ上でポリシーを事前学習し、その後RLを用いてさらにファインチューニングします。さらに、ポリシー性能向上ためのオフラインファインチューニングと、実世界のダイナミクスへの適応のためのオンラインファインチューニングという、2段階のファインチューニングプロセスを提案します。
arXiv cs.LG
2026年6月26日
AIエージェント基盤のためのエージェンティック分析：DAOと企業のAIプロトコルの比較ガバナンスのためのLLM搭載パイプライン
AIエージェントプロトコルが普及するにつれて、相互運用性標準を形成するガバナンス構造は経験的に十分に検討されていません。本稿では、大規模なガバナンス・ディスコース分析のためのLLM搭載比較パイプラインを導入します。これには、自動アノテーション、ニューラル・トピック・モデリング、マルチレイヤー・ネットワーク分析を統合し、社会技術的パワー構造を大規模に研究します。本パイプラインは、エージェント相互運用性の2つの対照的な標準、ERC-8004（パーミッションレス、オンチェーン）とGoogle A2A（企業主導）で検証されます。4,323件のガバナンス参加記録を分析し、LLM支援コーディング、トピック・モデリング、マルチレイヤー・ネットワーク分析を組み合わせて、制度設計がテーマの優先順位やコミュニティ構造にどのように影響するかを調査します。ガバナンスの形式が実質的な焦点に影響を与える一方で、両方の体制が参加の不平等やコミュニティの断片化において同程度のレベルを示すことがわかります。
arXiv cs.AI
2026年6月26日
保存則を持つ系におけるドメイン成長予測のための物理学誘導型畳み込みニューラルネットワーク
多くの物理的、化学的、生物学的システムの時空間的進化は、非線形偏微分方程式（PDE）によって記述されます。近年、計算コストの高い従来の数値解法に代わる効率的な手法として、深層ニューラルネットワークベースの代理モデルが注目を集めています。本研究では、注意機構を組み込んだ物理学誘導型畳み込みニューラルネットワークを代理モデルとして提案し、このようなシステムの微細構造進化を学習させます。我々は、カーン・ヒリアード方程式によって支配される二成分混合物の相分離の完全な時間進化を正確に予測するようにモデルを訓練します。訓練された代理モデルからの予測は、クリティカルおよびオフクリティカル混合物の両方に対して長期的なロールアウトでも安定かつ正確であり、進化全体を通して混合物組成を維持することを示します。また、ドメインサイズの成長を正確に捉え、リフシッツ・スリジョフのドメイン成長則と一致することも示します。予測結果は、保存則を持つ系のモデリングにおける提案フレームワークの有効性を示しており、他の複雑な動的システムにも拡張可能です。
arXiv cs.LG
2026年6月29日
プレゼンテーション自動コーチングの調査：システム、手法、および未解決の課題
スピーチのプレゼンテーションに対する自動コーチングは、コンピュータ支援発音トレーニング（CAPT）、プロソディモデリング、音声合成の交差点に位置しますが、これまでこれらの側面において既存のシステムを体系的に調査・比較した研究はありませんでした。本調査では、発音チューター、流暢さ・プロソディコーチ、マルチモーダルトレーナー、会議の質疑応答練習ツールなど、自動プレゼンテーションコーチングシステムをレビューし、分類します。セグメンタル発音、語彙ストレス、超セグメンタルプロソディ、ペース配分、内容の忠実性という5次元のタスク分類を導入し、調査対象システムをそれに明示的にマッピングして、カバー率のギャップを明らかにします。さらに、これらのシステムが採用するコア技術手法、すなわち、発音、プロソディ、流暢さの評価のためのTTSベースの模範生成および診断手法をレビューします。主要な未解決の課題には、注釈付きプレゼンテーションコーパスの不足、多様な第一言語の背景を持つ学習者に対するアクセントに公平なフィードバックの実現、リアルタイムリハーサルに向けた低遅延診断の提供が含まれます。
arXiv cs.CL
2026年6月29日
因果関係の抽出：金融QAにおける多言語ファインチューニングの活用 @FinCausal 2026
本論文は、金融ナラティブからの因果関係抽出を目的としたFinCausal 2026共有タスクにおける、チームHSA_CORALの提出内容について説明する。このタスクは、英語とスペイン語の抽出型質問応答を通じて行われた。本研究では、3つのモデリングファミリーを比較検討する。(i) 多言語BERTを用いたエンコーダーオンリーのトークンラベリング、(ii) 多言語BARTを用いたエンコーダーデコーダー生成、(iii) プロンプト洗練、少数のデモンストレーション、教師ありファインチューニングを使用したデコーダーオンリーLLM（Llama 3.1およびGPTバリアント）。いずれの設定においても、プロンプティングと少数の例は競争力のあるパフォーマンスをもたらしたが、教師ありファインチューニングが最も大きな進歩をもたらした。
arXiv cs.CL
2026年6月29日
地中CO2貯留における坑底圧とCO2プルーム予測の境界条件精度
安全な地中CO2貯留には、坑底圧（BHP）とCO2プルーム移動の正確な予測が不可欠ですが、実用的なシミュレーションでは、人工境界が圧力拡散とCO2飽和度フットプリントを歪める截断領域が用いられることがよくあります。本研究では、均質および不均質貯留層における全領域参照シミュレーションと比較して、10種類の縮小領域境界処理がBHPとCO2プルーム予測にどのように影響するかを評価します。性能指標として、BHPのRMSE、NRMSE、ピーク圧力偏差、プルームのIntersection over Union（IoU）を使用して、均一な孔隙体積乗数、透過率修飾子、コーナー調整孔隙体積補正、層状補正、段階的修飾子をテストします。結果は、コーナー孔隙体積の保存が截断領域モデリングに最も重要な要件であることを示しています。
arXiv cs.LG
2026年6月30日
Transformer言語モデルにおける状況モデリングとメンタライジングの発達的軌跡
最近の研究では、大規模言語モデル（LLM）が、誤信念課題（FBT）で測定される、テキストで記述されたエージェントの信念状態に敏感であることが示唆されていますが、構成概念妥当性に関する継続的な懸念が残っています。本研究では、Olmo2およびPythia言語モデルスイートの複数のトレーニング段階におけるメンタルステート推論行動のパターン、およびその行動の可能性のある「前提条件」を追跡する「発達的視点」を採用します。偶然以上のFBTパフォーマンスは、モデルサイズと十分なトレーニング量の両方に依存し、事前トレーニングの比較的後半に出現し、メンタライジング（誤信念、暗黙）の最も診断的な条件における後トレーニング介入（SFT、DPO）によって最も改善されることを発見しました。しかし、FBTパフォーマンスは脆弱であり、過去の研究と一致して、非事実的動詞（例：「～と思う」）の使用は、真実信念条件であっても誤信念の帰属を増加させます。これらの発見を文脈化するために、「状況モデリング」、つまり記述されたシーンの基本的な事実特性を報告する能力の出現を追跡します。
arXiv cs.CL