TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2026年5月20日
NVIDIAとGoogle Cloudが次世代のAIビルダーをエンパワーメント
今年のGoogle I/Oカンファレンスで、NVIDIAとGoogle Cloudが両社の共同開発者コミュニティの10万人以上の開発者の活動を加速させ、キュレーションされた学習パスを提供している。
NVIDIA Blog
2026年5月27日
AgentWatch：アンビエントエージェントを使用したAWSプロアクティブモニタリング
AgentWatchの機能を実際の導入を通じて実証します。ソリューションがCloudWatchメトリクスを要約しながら、15分ごとにインフラストラクチャチェックを実行する方法を紹介します。
AWS Machine Learning Blog
2026年5月29日
AWSでLangSmithを使用したディープエージェントの評価
LangChainのディープエージェント評価に関する知見とAnthropicのAIエージェント評価ガイドを組み合わせた実践的なガイドです。このポストでは、以下の方法を学べます：1) AIエージェント向けの評価メトリクスの実装、2) LangSmithを使用した評価の実行、3) AWSインフラストラクチャでの統合方法など。
AWS Machine Learning Blog
2026年5月29日
フロンティアLLMベースエージェントは自然表現型のオントロジーキュレーションボトルネックを解決できる
自由形式の表現型の説明をオントロジー用語にリンクする、いわゆる表現型アノテーションは、比較形態学的データの研究間統合に不可欠です。この労働集約的なプロセスは高度な訓練を受けた人間の専門家に大きく依存してきたため、スケーラビリティが課題となっています。
arXiv cs.AI
2026年5月29日
カリキュラムのカスタマイズ：動的データ・モデル互換性による学生中心の推論蒸留
arXiv:2605.29229v1 文書の発表。推論蒸留は大規模言語モデル（LLM）から小規模モデルへ複雑な推論能力を転移させますが、その成功は訓練データが学生モデルとどの程度合致しているかに依存します。本論文では、データ・モデル互換性（DMC）メトリクスを導入し、その適合性を評価するために使用できます。
arXiv cs.AI
2026年5月29日
ペーパーエージェント、ペーパーゲイン: DeFi投資エージェントの実証分析
オンチェーン自動取引にAIを使用するDeFi投資エージェントは、2024年後半以来、合計30億米ドルを超えるトークン評価を達成しています。1,900以上のAIタグ付き暗号プロジェクトを調査し、投資焦点のエージェントにフィルタリングして、戦略にまたがる10の代表的なプロジェクトをキュレーションしました。
arXiv cs.AI
2026年5月30日
今月の新連載第11回コミックナタリー編集部員が振り返る「4月の新連載」──実力派作家の新連載が続々、最近スペリオールが面白い、ケモノと人間の本格SF「ヒトナー」
コミックナタリー編集部が4月の新連載を振り返る企画で、実力派作家の新作が続々と立ち上がっている状況を紹介しています。デジタル・紙媒体・アプリが普及した現代では、従来の出版社フィルターに頼らず多様なルートから作品が供給される時代へ変わりました。編集部による「発見・推薦」というキュレーション機能がメディアに求められており、情報過多時代における信頼の再構築ツールとして機能しています。とりわけスペリオールが面白いという評価が高まり、ケモノと人間の本格SFなどニッチ志向の強化傾向が見られます。
コミックナタリー
2026年6月1日
モデル特殊化のための自律型エージェント型データエンジニアリングの探索
大規模言語モデル（LLM）は一般的なタスクで優れたパフォーマンスを発揮していますが、高品質なドメイン固有のデータなしに特殊なドメインに適応するのに苦労しています。既存の LLM ベースのデータキュレーション方法は主に人間が設計したワークフローに依存しており、LLM が自動的に適応できるかどうかはまだ検証されていません。
arXiv cs.CL
2026年6月2日
LLM語彙バイアスの分離：選好段階学習のためのキュレーション不要な三角測量メトリクス
様々な言語領域は近年著しい変化を遂行しており、これらの変化は大規模言語モデルの出現と自然言語使用との整合性の欠如に主に起因しています。これらの不整合は選好学習段階（強化学習など）の一部に由来すると考えられています。
arXiv cs.CL
2026年6月6日
パリが愛を祝う2026年『ニュイ・ブランシュ』徹夜アート祭
第25回目となるニュイ・ブランシュ(白夜)現代アート祭がパリを巨大なアート遊園地に変える。今年のアーティスティックディレクターであるバーバラ・ブッチが、愛、祝福、集団的創造性をテーマにした約200の無料インスタレーションを特徴とする徹夜イベントのキュレーションを完全に任されている。
France 24
2026年6月8日
MacArena: オンラインmacOS環境でのコンピュータ利用エージェントのベンチマーク
コンピュータ利用エージェント（CUA）はビジョンと制御プリミティブを通じてグラフィカルユーザーインターフェース（GUI）を操作し、OSWorldなどの標準化されたオンライン評価ベンチマークにより能力が急速に進歩している。しかしmacOSは十分にカバーされておらず、既存の唯一のベンチマークmacOSWorldはApple Silicon互換性のないx86仮想マシンで動作する。本研究ではMacArenaを紹介し、50のアプリケーションにまたがる421の手動検証済みタスクからなるベンチマークで、OSWorldのキュレーション済みポート、macOSWorldのコンテンツ、および49の新しいmacOS固有タスクを組み合わせ、Apple Silicon上でAppleのネイティブ仮想化フレームワークで実行される。macOSはLinuxベースのベンチマークでは捉えられない独特のGUIチャレンジを提示し、評価結果から既存ベンチマークでの高いモデル性能は真のクロスプラットフォームGUI能力というより、タスク分布への馴染みを反映していることが示される。
arXiv cs.LG
2026年6月11日
NightFeats @ MMU-RAGent NeurIPS 2025: テキスト間生成タスク向けコンテキスト最適化マルチエージェントRAGシステム
arXiv:2606.11199v1 新規発表。本稿では、NeurIPS 2025のMMU-RAGentコンペティションに提出され、テキスト間生成タスク部門でベストダイナミック評価を受賞した、構造化マルチエージェント検索拡張生成（RAG）システム「NightFeats」を紹介します。ベンチマーク最大化を目標とするのではなく、本研究は知識合成を検索、キュレーション、構成の3つの連携フェーズに分解する原則的なパイプラインを提案します。各フェーズは、明示的な中間表現とハンドオフ契約によって管理されます。エージェンティックコンテキストエンジニアリング（ACE）に着想を得て、本システムは、時間的意味的再ランキング、有界矛盾解消、引用保存構成をコアアーキテクチャプリミティブとして導入しています。
arXiv cs.CL
2026年6月11日
不完全な二値フィードバックを持つレストレスバンディット：PCLインデックス可能性の解析と計算
arXiv:2606.11192v1 発表タイプ：新規要旨：本研究では、センシングエラーを伴う機会的スペクトルアクセスに着想を得て、二値潜在状態と不完全な二値フィードバックを持つレストレスバンディットを研究します。関連する belief-state モデルに対し、実数状態割引レストレスバンディットの検証定理に基づき、インデックス可能性の確立とWhittleインデックスの評価のための partial conservation laws (PCL) ベースの解析的および計算的フレームワークを開発します。このフレームワークは、関連する決定論的スケルトン、更新分解、および単語上の組合せ論を通じて確率的ダイナミクスを解析します。これにより、いくつかの閾値レジームにおける割引報酬とリソースメトリクスについて解析可能な表現が得られ、そこでのPCLインデックス可能性条件の完全な検証が可能になります。本論文では完全な解析的検証が達成されていない残りのレジームについては、関連する周辺メトリクスと周辺生産性 (MP) インデックスを計算するための効率的な数値スキームを導出します。
arXiv cs.LG
2026年6月11日
マルチモーダル言語モデルによるソーシャルメディア上のAI生成コンテンツの検出
arXiv:2606.11200v1 発表タイプ: new 要旨: 生成AIにより、フォトリアルな画像や動画の作成が可能になり、これらはソーシャルメディアで拡散されることが増えています。しばしば、スパム、偽情報、操作、詐欺に利用されます。既存のAI生成コンテンツ（AIGC）検出方法は、新しい生成モデルへの汎化性能の低さ、単一モダリティへの依存、解釈可能な説明の欠如といった課題に直面しています。本稿では、多様なマルチモーダルソーシャルメディアデータを継続的にキュレーションし、検出と説明のためにコンパクトなビジョン・言語モデルをトレーニングすることで、これらの問題を軽減するパイプラインを提案します。提案モデルは、公開ベンチマークにおいて最先端の検出性能を達成し、複数のプラットフォームにわたる内部ソーシャルメディアデータセットで堅牢な検出および説明能力を示します。
arXiv cs.CL
2026年6月11日
LatticeBridge：忠実な構造化シーケンス合成のためのレアケース逐次推論
arXiv:2606.11203v1 新規発表構造化シーケンス生成では、しばしば1つの出力で複数の入力由来の制約を満たすことがモデルに求められます。標準的なデコーディング手法では、流暢な継続に高い確率を割り当てる一方で、必要なアンカーをすべて同時に実現する継続には低い確率を割り当てる可能性があります。これをレアケース逐次推論問題として研究します。LatticeBridgeは、コンパクトなプレフィックス言語モデル、インスタンスコンパイルされたサーフェスオートマトン、そしてリサンプリング、マルチレベル分割、インスタンス提供フレーズから導出されるソースサポート提案項を備えたツイスト逐次モンテカルロ（SMC）デコーダーを組み合わせます。制約表現は各入力インスタンスからコンパイルされ、手動でキュレーションされた語彙クラスに依存しません。
arXiv cs.CL
2026年6月14日
U2がSpotify元幹部を登用。重なる音楽とテックの人材地図
世界的なスーパーロックバンド U2が新たなマネージメントパートナーとして、スリナ・オン氏を任命しました。彼女の前職はSpotify（スポティファイ）音楽部門のグローバル編集・キュレーション責任者で、Wall Street Journal紙で…
GIZMODO Japan
2026年6月16日
ReportQA: QAベースの放射線レポート評価
放射線レポートの評価は、自動レポート生成の進歩に不可欠です。自然言語生成メトリクスは臨床的関連性が限定的です。臨床的有効性（CE）メトリクスは重要な医学的所見を評価しますが、主に存在に焦点を当て、限定的なエンティティしかカバーしません。手動アノテーションへの重い依存により、CEメトリクスが臨床エンティティや属性を拡張することは困難です。臨床現場では、放射線レポートは情報伝達の媒体として機能します。臨床医は、画像を直接検査することなく、下流の診断タスクを実行するためにこれらを使用します。この洞察に基づき、放射線レポート生成システムの詳細な定量的分析をサポートする、臨床関連で柔軟な放射線レポート評価フレームワークであるReportQAを提案します。まず、複数の画像モダリティと解剖学的領域をカバーするデータセットを収集します。次に、放射線科医のガイダンスを得て臨床エンティティと属性の知識ツリーを構築し、大規模言語モデル（LLM）を使用して生のレポートから構造化情報を抽出します。
arXiv cs.CL
2026年6月16日
Lean 4における証明自動形式化の頑健性の評価
証明自動形式化とは、自然言語で書かれた数学的な非形式証明を、Lean 4のような形式言語での形式証明に変換することを目指すものです。いくつかの研究で、証明自動形式化のためのLLMベースのモデルが開発されてきました。しかし、既存の評価は、通常、キュレーションされたデータセットから得られた、整形された非形式証明の翻訳に焦点を当ててきました。私たちは、堅牢な証明自動形式化器は、これらの理想化されたものから逸脱した非形式証明に対しても忠実であり続けるべきだと主張します。そして、証明自動形式化モデルの頑健性に関する最初の研究を発表します。私たちは2つのカテゴリの摂動を定式化し、それぞれの下での頑健性を評価します。グローバル摂動は、非形式証明を異なるスタイルで言い換えるもので、形式化はそのままで一貫しているべきです。ローカル摂動は、値、記号、または証明ステップを変更するもので、反事実的な方法である可能性もあり、堅牢な形式化は、元のものに戻るか、独自に異なるものを推論するのではなく、摂動を忠実に反映するべきです。
arXiv cs.CL
2026年6月17日
スキルチェーンジム：変動下におけるリスキリングを考慮した生産・在庫管理のためのベンチマーク
生産計画においては、労働力の能力を意思決定変数として扱う必要がますます高まっています。なぜなら、スキルが維持されなければ認証が失効し、新製品には現在の労働力が持っていないスキルが必要であり、リスキリングは生産に必要な同じ労働時間と競合するからです。既存のオペレーションベンチマークでは、通常、労働力を外生変数として扱いますが、スキルと学習を考慮した労働力計画モデルが再利用可能なテストベッドとして公開されることはめったにありません。本稿では、リスキリングを考慮した生産・在庫管理のためのベンチマーク仕様であるスキルチェーンジムを提案します。これは、様式化された作業員のスキル状態ダイナミクス、ハードスレッショルド認証、忘却、そして生産と同じ労働時間予算によって制約される能力消費型トレーニングアクションを備えた単一サイト環境です。このベンチマークには、シード制御された障害シナリオ、予測診断付きの3つの実現可能性モード、決定論的リプレイ、およびオペレーション、レジリエンス、能力成長、トレーニングアクセス分布をカバーするメトリクスが含まれています。
arXiv cs.AI
2026年6月19日
SageMakerの詳細メトリクスとCloudWatchのInsightsダッシュボードで生成AI推論を監視・デバッグする
Amazon SageMakerは、機械学習モデルのリアルタイム推論をホスティングするサービスであり、特に生成AIワークロードにおける推論の監視とデバッグを効率化するための詳細な機能を提供しています。 SageMakerでは、シングルモデルエンドポイント（SME）と推論コンポーネント（IC）エンドポイントの両方で、詳細な可観測性メトリクスが利用可能です。これらのメトリクスは、生成AI推論のパフォーマンスを深く理解し、問題発生時に迅速なデバッグを可能にするために設計されています。これらの詳細なメトリクスをAmazon CloudWatch Insightsダッシュボードと組み合わせることで、ユーザーは生成AI推論の状況を一元的に監視し、異常を検知した際には詳細なログやイベントに基づいて原因を特定できるようになります。これにより、推論のレイテンシ、スループット、エラー率などの重要な指標をリアルタイムで追跡し、モデルの動作を最適化するための貴重な洞察を得ることが可能です。この機能は、生成AIの運用において安定性と効率性を高める上で重要な役割を果たすと期待されます。引用元: AWS Machine Learning Blog
AWS Machine Learning Blog
2026年6月19日
SageMakerの詳細メトリクスとCloudWatchのインサイトダッシュボードで生成AI推論を監視・デバッグ
Amazon SageMaker AIは、機械学習モデル向けの完全マネージドなリアルタイム推論ホスティングを提供します。モデルを1つ以上のコンピューティングインスタンスでバックアップされたSageMakerエンドポイントにデプロイすると、SageMakerがプロビジョニングとスケーリングを処理します。SageMakerは複数のエンドポイントアーキテクチャをサポートしています。
AWS Machine Learning Blog
2026年6月23日
CELEUS：Eプロセスによる認定可能で効率的なLLM評価
評価スコアはLLMの真の現実世界でのパフォーマンスを捉えていると信頼できるだろうか？認定可能な評価は、LLM評価の保証を提供することで、この疑問に答える。既存の手法は、評価サンプルを逐次的にキュレーションし、高確率（例：95%）で真のパフォーマンスをカバーする信頼区間（CI）を更新し続けるが、CI幅が目標精度に達するなどの条件が満たされるまでだ。しかし、既存の手法は一般的にいつでも有効（anytime-valid）ではない：CIが繰り返し更新され、停止決定に使用されると、主張されるカバレッジ（例：95%）が失敗する可能性があり、理論的な厳密さと実践の間にギャップが生じる。本論文は、いつでも有効なCIを構築するためにEプロセスを活用する、認定可能な効率的なLLM評価フレームワーク、Celeusを提案することで、このギャップを埋める。具体的には、(i)不確実性ガイドサンプリングで評価のための情報量の多いサンプルを選択し、(ii)評価されていないサンプルに対する代理近似、という2つの要素を組み合わせたシグナルを提案する。
arXiv cs.LG
2026年6月23日
FirstPass：AIの科学的判断を複数回の編集結果で裏付け
査読AIシステムは、コンピューターサイエンスと機械学習分野のみで学習し、科学を検証する反復的な対話を無視し、実際の編集判断ではなく、スタイルの模倣を評価するという3つの点で失敗します。これらすべてに対処するデータセットとファインチューニングモデル「FirstPass」を提案します。Nature Communicationsの5つの科学分野（生物学、化学、神経科学、物理学、地球科学）からの3,668件の完全な複数回の査読対話をキュレーションし、必須の透明性のある査読（2022年11月導入）を活用し、自動監査によって100%のコンテンツ完全性を検証します。Qwen2.5-7B-InstructをLow-Rank Adaptation（LoRA）でファインチューニングし、レビュー生成、査読者更新、改訂サイクル予測の3つのタスクを実行します。当社の主な発見は、応答のみの損失マスキングが最適化ではなく前提条件であるということです。これがない場合、精度は62.0%で、多数派ベースラインを下回ります。
arXiv cs.CL