TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月11日
BalCapRL: RL ベースのMLLM画像キャプション生成用のバランス型フレームワーク
画像キャプション生成はコンピュータビジョンの最も基本的なタスクの一つです。その開放性の性質により、マルチモーダル大規模言語モデル（MLLM）の時代に多大な関心を集めています。
Apple Machine Learning Research
2026年5月29日
VFEAgent: 有限要素解析エンドツーエンド自動化のためのマルチモーダルエージェントフレームワーク
有限要素解析(FEA)は現代工学設計の根幹をなします。しかし、そのワークフローは本質的に複雑であり、領域知識に大きく依存しています。最近のLLMのFEA統合の試みにもかかわらず、既存のアプローチは複数の側面の処理における制限に直面しています。
arXiv cs.AI
2026年5月29日
PAST2HARM: マルチモーダルAIのジェイルブレイク用シンプル適応型過去形攻撃
マルチモーダルAIシステムへのジェイルブレイク攻撃は未だ十分に研究されていません。テキストの不安全な生成よりも深刻な結果をもたらす可能性のある不安全な画像生成が存在する一方で、現在の防御策は比較的成熟していません。本研究ではPAST2HARMという、拒否トレーニングをバイパスする効果的な適応型ジェイルブレイクフレームワークを紹介します。
arXiv cs.CL
2026年5月29日
ラベル空間の再構成によるマルチモーダル学習のバランシング
マルチモーダル学習は、より速く収束するモーダルが最適化を支配する一方で、他のモーダルが訓練不足に陥るモーダルインバランスの問題に悩まされることがあります。既存のアプローチは、通常、弱いモーダルを強化するか、最適化勾配を調整することでこの問題を軽減しますが、そのような戦略には制限があります。
arXiv cs.LG
2026年5月29日
LoRe: ステップごとのインタラクション予算を備えた適応的インタラクション評価ルーティング
組み合わせ最適化のための拡散ベースのニューラルソルバーは、密なエッジ/因子インタラクションを繰り返し再評価し、ウォールクロック時間での推論を高くし、スケール時にメモリボトルネックになることが多いです。多体物理学の計算方法論にインスパイアされ、訓練不要な推論効率を実現するLoReを導入しました。
arXiv cs.LG
2026年5月29日
ICG：MLLMベースのプロンプティングと個人化された好みアライメントによるカバー画像生成の改善
arXiv:2605.27374v1 マルチモーダル大言語モデル（MLLM）と拡散モデル（DM）の最近の進歩により、AI生成コンテンツの新しい可能性が開かれた。しかし、パーソナライズされたカバー画像生成は、デジタルプラットフォームでのユーザーエンゲージメント向上における重要な役割にもかかわらず、ほとんど未開拓である。
arXiv cs.CL
2026年5月29日
後付け修正によるニューロシンボリック知識グラフの構築：オントロジーに基づくアプローチ
arXiv:2605.29168v1 文書の発表。質問応答（QA）はAIの中核的な課題であり、特に複数の文書間でのマルチホップ推論や集約や完全リスティングなどのシンボリック操作を必要とする複雑なクエリに対応する必要があります。検索拡張生成はQAの主流アプローチとなり、最近のグラフベースのバリアントが追加されています。
arXiv cs.AI
2026年5月29日
PrismFlow：時系列生成のための残差動力学フロー・マッチング
実世界の信号は振動や高周波変動を含むマルチモーダルパターンと多スケール動力学を示すため、高品質な時系列データの生成は困難です。Flow Matching（FM）は拡散モデルの効率的な代替手段を提供しますが、実装では課題があります。
arXiv cs.LG
2026年6月1日
TeachObs：マルチモーダル教授観察とモデル評価のための人間検証済みベンチマーク
教室ビデオには観察可能な教授実践が含まれていますが、その教育学的および視覚的シグナルはモデル評価に適した形式で整理されることはめったにありません。本研究では、教室ビデオにおけるマルチモーダル教授観察のための人間検証済みベンチマークである「TeachObs」を提示します。TeachObsには30件のデータが含まれています。
arXiv cs.CL
2026年6月1日
UniScale: モデルルーティングとテスト時スケーリングのオンライン共同最適化による適応的統一推論スケーリング
大規模言語モデル(LLM)の実世界展開では、推論品質と計算コストのバランスが中心的な課題となっています。既存のアプローチはこのトレードオフに対して、主に独立した2つの次元に沿って対処しています。モデルルーティング機能は異なるスケールのモデル間で切り替えて要件に対応します。
arXiv cs.AI
2026年6月1日
適応力の習得：認知認識型探索による自己改善ウェブエージェント
マルチモーダル大規模言語モデル(MLLM)の最近の進展はウェブエージェントにおいて有望な進歩をもたらしている。しかし既存のウェブエージェントは手作りの実行パイプラインや高額な専門家軌跡に依存することが多く、複雑で動的な環境への適応性が限定されている。
arXiv cs.AI
2026年6月1日
マルチモーダル音声モデルが「ラジオ向きの顔」と判定する
arXiv:2605.30472v1。大規模ニューラルモデルが言語タスクで高性能化するにつれ、研究者はより多くのデータモダリティを処理するマルチ・オムニモーダルモデルを構築している。例としては、ノイズ軽減とマルチモーダル字幕化のため、音声認識モデルを音声・ビジュアルデータに拡張したこと。
arXiv cs.CL
2026年6月1日
BilliardPhys-Bench: マルチモーダルLLMの物理推論と視覚ダイナミクスのベンチマーク
現在のマルチモーダルモデルは静止画像認識は得意ですが、直感的な物理推論はまだ弱点です。単一の画像からオブジェクトがどのように移動し相互作用するかを予測することは、これらのシステムにとって依然として困難です。物理推論用のベンチマークBilliardPhys-Benchを提示します。
arXiv cs.AI
2026年6月1日
GraphARC: グラフベース抽象推論の包括的ベンチマーク
知能の中核をなす関係推論が存在するが、既存ベンチマークは通常グリッドやテキストなどの形式に限定されている。グラフ構造データに対する抽象推論のベンチマークGraphARCを紹介し、Abstract Resoning Corpus（ARC）の少数ショット変換学習パラダイムを一般化する。
arXiv cs.AI
2026年6月1日
TraceGraph: エージェント軌跡の診断と改善のための共有決定ランドスケープ
エージェントベンチマークはますます豊富なインタラクション軌跡を記録していますが、評価では各ロールアウトを合格率または報酬スコアに還元することが多いです。TraceGraphは、リリースされたマルチモデルエージェント軌跡を共有決定ランドスケープに変換するグラフベースのフレームワークを紹介します。
arXiv cs.AI
2026年6月2日
TIGER:マルチモーダル生成における幻覚軽減のためのグラフベース証拠ルーティングによる追跡可能な推論
入力によってサポートされていない特定の事実を含む可能性のあるマルチモーダル生成のファクトレベルの修復を研究します。既存の推論時間修復方法は、入力と現在の出力の両方を条件として、フィードバックを生成します。この設計には2つの制限があります。
arXiv cs.AI
2026年6月2日
是正フローにおける対比速度マッチングによる幾何学的消去
マルチモーダル生成モデルの急速な採用は莫大な可能性を提供しますが、有害なコンテンツ合成、ディープフェイク、著作権侵害のリスクも増加させています。これらの課題に対処するため、コンセプト消去は潜在的なセーフガードとして出現しています。
arXiv cs.LG
2026年6月2日
DraDDP: マルチモーダル多人数対話談話解析データセット
多人数対話の談話解析は、会話内の発話間の依存構造と関係タイプを特定することを目的としています。これまでの研究は主にテキストモダリティまたは二者間対話に限定されており、マルチモーダルおよび多人数設定に対応していません。本論文では、マルチモーダル多人数対話談話解析のためのデータセットを構築しています。
arXiv cs.CL
2026年6月4日
「Gemma 4 12B」登場　メモリ16GBのノートPCでも動作するマルチモーダルモデル
米Googleがオープンなマルチモーダルモデル「Gemma 4 12B」を発表した。エンコーダー不要の統合アーキテクチャを採用し、メモリ16GBのノートPCで動作可能。上位モデルに迫る性能を発揮するという。
ITmedia AI+
2026年6月4日
「Gemma 4 12B」登場　メモリ16GBのノートPCでも動作するマルチモーダルモデル(ITmedia NEWS)
米Googleは6月3日（現地時間）、マルチモーダルのオープンウェイトモデル「Gemma 4 12B」を発表した。メモリ16GBのノートPCでも動作可能で、ベンチマークはより大型の「Gemma 4
Yahoo!ニュース IT
2026年6月4日
グーグル、マルチモーダルAIモデル「Gemma 4 12B」　ノートPCで動作(Impress Watch)
Google DeepMindは3日、マルチモーダルAIモデル「Gemma 4 12B」を発表した。ノートPC上で動作するエージェント型マルチモーダルAIを想定したモデルで、16GBのVRAMまたはユ
Yahoo!ニュース IT
2026年6月4日
16GB RAMで高性能エージェントが動くGemma 4 12B、Google DeepMindが公開　26B MoEに迫る推論性能、エンコーダなしのマルチモーダル(テクノエッジ)
Google DeepMindが、ノートPCでの利用を想定したマルチモーダルAIモデル「Gemma 4 12B」を公開しました。Hugging FaceやKaggleからダウンロードでき、Apache
Yahoo!ニュース IT
2026年6月5日
リコー、オンプレ対応マルチモーダルLLMを開発--軽量モデルでクラウドAI級の日本語推論性能を実現(ZDNET Japan)
リコーは6月5日、日本語での高度な推論能力を備えたマルチモーダル大規模言語モデル（LMM）「Qwen3.6-Ricoh-27B-20260522」と軽量版「Qwen3.5-Ricoh-9B-2026
Yahoo!ニュース IT
2026年6月8日
一貫性駆動型強化学習による言語間事実的リコール性能の向上
英語データで主に学習した大規模言語モデル（LLM）は豊富な世界知識を保有していますが、他言語での信頼性のある表現に失敗することが多いという言語間事実的矛盾の問題に対処するため、本研究ではPolyFactという大規模並列多言語事実的質問応答データセットを導入しました。12の言語的に多様な言語にわたり、ウィキデータに基づく100Kの事実を含みます。PolyFactを用いて、Qwen-2.5-7BとOLMo-2-1124-7Bの言語間事実的リコール性能を改善するため、軽量継続的事前学習（CPT）、教師あり微調整（SFT）、およびグループ相対方針最適化（GRPO）を比較しました。GRPOは一貫してSFTを上回り、言語間の一貫性と未見言語への汎化性能を改善しますが、並列データへのCPTは限定的な追加利得しかもたらしません。機構的分析により、GRPOはMLP層とアテンションヘッドの言語特殊化を削減することで多言語ルーティングを再編成し、より共有された言語間表現を促進することが示されました。本研究ではコード、モデル、およびデータセットを公開します。
arXiv cs.CL
2026年6月8日
Liquid AI、エッジ推論に対応する日本語の音声/言語AIモデルを無料公開
Liquid AIは6月6日、LFM2.5に日本語向けの汎用チャットモデル「LFM2.5-1.2B-JP-202606」と、マルチモーダルな音声・テキストモデル「LFM2.5-Audio-1.5B-JP」を発表した。
PC Watch
2026年6月8日
「Siri AI」新登場　「Apple Intelligence」大幅刷新、Googleと共同開発　年内に英語版
Appleは6月8日（現地時間）のWWDCで新たな音声アシスタント「Siri AI」を発表。Googleと提携して開発したマルチモーダルのAIモデル「Apple Foundation Model」を基盤に「Apple Intelligence」をアップデートし、「Siri」に組み込んだ。
ITmedia AI+
2026年6月9日
Gemma 4 12B: 統合されたエンコーダーフリーのマルチモーダルモデルが登場
Gemma 4 12Bは、AIモデルの新しい世代であり、テキスト、画像、動画、音声など、さまざまな種類のデータを理解し、処理するように設計されています。
Google DeepMind
2026年6月9日
Gemma 4 12Bの紹介：統一されたエンコーダフリーのマルチモーダルモデル
Googleは、エンコーダフリーのマルチモーダルモデル「Gemma 4 12B」を発表しました。このモデルは、画像や音声といった多様なデータ形式を、単一かつ統一されたアプローチで効率的に処理する能力を持つ点が特徴です。従来のマルチモーダルAIモデルでは、異なる種類のデータを処理するためにそれぞれ専用のエンコーダを必要とすることが一般的でした。しかし、Gemma 4 12Bはエンコーダを必要としない設計を採用しており、これによりモデルの複雑さを軽減し、より柔軟なデータ統合を実現すると期待されています。 Google DeepMindの研究チームは、この革新的なモデルが、より高度なAIアプリケーションの開発に大きく貢献する可能性を強調しています。特に、複雑なマルチモーダル情報を理解し、処理する必要がある分野での応用が期待されます。引用元: Google DeepMind
Google DeepMind
2026年6月10日
SynIB：マルチモーダル学習におけるシナジーを最大化するための情報ボトルネック
arXiv:2606.09853v1 新規発表要旨：マルチモーダル学習の中心的な目的は、シナジー（複数のモダリティの共同利用からのみ生じ、単一のモダリティからは利用できない、タスク関連情報）を捉えることです。ほとんどのアプローチは、より大きく複雑なフュージョンモデルを通じたアーキテクチャレベルで動作しますが、我々は補完的な軸として、トレーニング目的自体を形成することを提案します。標準的なトレーニングは、しばしば単峰性または冗長な情報を強調し、クロスモーダル推論を必要とする例では不十分です。我々は情報理論を通じてマルチモーダルシナジーを形式化し、シナジーを直接ターゲットとするスケーラブルな目的であるシナジスティック情報ボトルネック（SynIB）を導入します。シナジー学習を優先するために、SynIBはモデルがすべてのモダリティから正確に予測することを動機付け、同時にいずれかのモダリティからの情報が抑制された場合に自信を罰します。
arXiv cs.LG
2026年6月10日
感覚から意思決定へ：マルチモーダルLLMにおける聴覚・視覚知覚の情報フロー
arXiv:2606.10147v1 新規発表。マルチモーダル大規模言語モデル（MLLM）は、聞くことと見ることが可能ですが、音声と視覚の信号はどのようにネットワークを通過して回答を形成するのでしょうか？研究や実世界での応用においてその役割が増大しているにもかかわらず、音声と視覚のトークンが最終的な予測にどのように影響を与えるかの内部経路は、依然として十分に理解されていません。本研究では、音声・視覚大規模言語モデル（AVLLM）内部の音声・視覚情報フローを調査し、2つの入力構成、すなわち音声・視覚ビデオと複数のインターリーブされた音声・視覚アイテムにおいて、AVLLMが音声と視覚の情報をどのようにルーティング、利用、統合するかを追跡します。音声・視覚ビデオの場合、AVLLMはVLMやVideoLLMで確立されたシーケンシャルな情報フロー経路に従い、音声と視覚の貢献は、タスクが各モダリティに依存する割合に応じてこの経路を流れることがわかりました。複数のインターリーブされた音声・視覚アイテムがある設定では、このルーティングは異なる並列ストリームにシフトします。
arXiv cs.AI