TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2025年11月5日
ゲッティ対Stability AI訴訟、モデル訓練での著作権侵害を認めず
画像生成AI「Stable Diffusion」の開発元であるStability AIは、ゲッティイメージズによる著作権侵害の訴えに対し、モデル訓練段階での侵害は認められないとの判決を受けました。ゲッティイメージズは、Stability AIが保有する画像データセットを用いてStable Diffusionの訓練が行われたことが著作権を侵害していると主張していました。しかし、裁判所は、AIモデルの訓練プロセス自体は著作権侵害にあたらないとの判断を示しました。この判決は、AI技術開発における著作権の解釈に一石を投じる可能性があり、今後のAI開発のあり方に影響を与えるものとみられます。 Stability AI
Stability AI
2026年5月29日
Amazon Bedrock AgentCoreのデータセット管理でエージェントとともに成長するテストスイートを構築
エージェント評価は、急速に変化するオンラインシグナルと安定したオフラインベースラインを組み合わせることで最も強力になります。エージェントが時間とともに本当に改善されているかどうかを理解するには、固定ベンチマークが必要です。
AWS Machine Learning Blog
2026年5月29日
fMRI からのシャムネットワーク自己教師学習による堅牢で課題不変の機能表現の学習
機能的磁気共鳴画像法（fMRI）は人間の脳機能を調査するための強力なツールである。しかし、データ取得の高コストと精神医学的評価尺度の本質的な主観性により、特に標的領域では、サンプルサイズが小さく、ラベル品質が可変のデータセットが生じることが多い。
arXiv cs.LG
2026年5月30日
遺伝子発現マスキングによる効果的な生物学的表現学習
遺伝子発現データの自動学習モデルが開発される RNA配列決定データから遺伝子発現パターンを効率的に学習する新しい自己教師あり学習モデル「TxFM」がarXivで報告された。このモデルはマスク付きオートエンコーディング手法を採用しており、RNA分析に付きものの技術的ノイズや異なる実験条件によるバッチ効果に対応できるのが特徴である。従来の生物学的データ分析では、こうした外部要因の影響を除去するために手作業による前処理が必要だったが、TxFMはモデル内で自動的に対応する。開発チームは転移学習の性能向上を実証するため、約140万件のRNA配列データを集めた公開学習用データセット「DiverseRNA-1.4M」を整備した。このデータセットを用いた実験では、従来手法と比べて学習効率が向上したという。今後、このアプローチは遺伝子発現解析の標準的な手法として活用される可能性がある。 (arXiv cs.LG)
arXiv cs.LG
2026年6月1日
QASM-Eval：量子回路を超えたOpenQASM-3でのLLMの訓練と評価用データセット
量子コンピューティングはノイズの影響を受けやすいNISQ（ノイズを伴う中規模量子）の時代に留まっており、パフォーマンスが大きく制限されている。この制限に対処するには、ゲートシーケンス回路の仕様を超えたハードウェア対応機能（中回路測定と古典的フィードバックを含む）が必要な場合がある。
arXiv cs.LG
2026年6月1日
AISベース海事異常検出における教師なし学習の新規評価指標：MADQI
本論文は、自動識別システム（AIS）データセットの異常検出のための新しい体系的フレームワークを導入する。これらの異常には、速度、位置ジャンプ、時間差、旋回角に関連した異常な船舶行動が含まれる。Isolation Forestなどの教師なし学習アルゴリズムが利用されている。
arXiv cs.LG
2026年6月1日
研究文献で使用されるデータの監視と分類のためのAI
GoogleスカラーやSemantic Scholarなどのプラットフォームは学術論文の引用追跡を行っていますが、研究文献におけるデータセットの使用状況を監視するための同等のインフラストラクチャは存在せず、データ利用の状況がほぼ不透明なままになっています。このギャップに対処することは、透明性と再現性にとって重要です。
arXiv cs.CL
2026年6月1日
クロスモデル局所等距離一貫性を経由したベクトルリンク
異なるブラックボックスエンコーダにより部分的に重複するデータセットから生成された2つの埋め込みクラウドが与えられた場合、ベクトルのみを使用してクロスモデルオブジェクト対応を復元するベクトルリンクの研究。独立して訓練された対照的エンコーダが局所幾何学的性質を示すことを実証および理論的に証明する。
arXiv cs.AI
2026年6月1日
DisjunctiveNet：微分可能凸最適化層を通じたニューラルシンボリック学習
arXiv:2605.30456v1 科学と工学の多くの学習タスクはスパースなデータセットが特徴であり、純粋なデータドリブンアプローチの有効性を制限しています。同時に、これらの問題には物理法則、運用要件、専門家の直感から導出された豊富なドメイン知識が伴うことが多くあります。
arXiv cs.LG
2026年6月1日
ImmigrationQA：米国移民法向けのソースグラウンデッドデータセットと小規模モデル適応
米国移民法は数千ページの公式政策、連邦規制、手続きガイダンスで構成されており、法的代理人を持たない申請者にとって高いリスクを伴い、頻繁に変更されます。17,000件の質問回答を含むソースグラウンデッド型のImmigrationQAデータセットの構築について説明します。
arXiv cs.CL
2026年6月1日
idSCD：意味相関記述子を通じた訓練データセットの特定
arXiv:2605.30462v1 データセットは訓練中に誘発する偽の相関から認識できるでしょうか？本論では、データセットはモデルの学習した意味相関構造に、データセット固有のトレースを残すことを主張しています。つまり、データセット内では予測的であるが根本的なタスクに対して因果的ではない偶発的な規則性です。
arXiv cs.LG
2026年6月2日
SN-WER：多言語インド言語ASR評価用スクリプト正規化WER
音声認識システムの性能評価に関する新たな課題を解決する研究成果が発表された。従来の評価指標であるWER（Word Error Rate）は、同じ言語でも異なる文字体系で表記された同一単語を誤りと判定する問題があった。新たに提案された「Script-Normalized WER（SN-WER）」は、評価前に参照文と認識結果の文字表記を各言語の標準文字に統一する手法。インド言語を含む5言語で検証した結果、きれいに録音されたデータセットでは最大12%のモデル性能評価ギャップを改善した。一方、ノイズが多い実環境のデータセットでは改善幅が限定的だったことから、文字体系の違いが評価の誤差要因となるのは限定的であり、実際の音声認識精度そのものが主要な課題であることが判明。本研究は多言語音声認識システムのより正確な性能測定に貢献する成果として評価される。（arXiv cs.CL）
2026年6月2日
マルチモーダルLLM評価器の知覚判断バイアス緩和：知覚摂動と報酬モデリング
視覚と言語の矛盾を見分ける課題に対応マルチモーダル大規模言語モデル（LLM）が自動評価システムとして機能する際、画像とテキストが相反する状況で問題が生じることが明らかになった。研究によると、これらのモデルはもっともらしく聞こえるテキスト応答を、実際の画像内容より優先する傾向があるという。研究チームは、制御された画像変化を加えることでこの「知覚判断バイアス」を詳細に分析。実際の画像内容とは異なる反事実的な応答を組み込んだ新しい評価データセットを構築した。対策として、報酬モデリングとバッチランキング目的を統合した統一的なフレームワークを開発。このアプローチにより、視覚情報とテキスト情報の両者を適切に重視し、より正確で一貫性のある評価を実現できるようになった。成果は、マルチモーダルAIが複雑な判断を求められる場面で、より信頼できる決定を下すための基盤となる可能性を示している。（arXiv）
arXiv cs.AI
2026年6月2日
InfoAtlas：統計的依存性推定のための基盤モデル
高次元確率変数間の統計的依存性を測定することはデータサイエンスと機械学習の基本的なタスクです。ニューラル相互情報（MI）推定器は有望な道を提供していますが、通常は新しいデータセットごとに高額な反復最適化が必要であり、実用的な応用が困難です。
arXiv cs.LG
2026年6月2日
DraDDP: マルチモーダル多人数対話談話解析データセット
多人数対話の談話解析は、会話内の発話間の依存構造と関係タイプを特定することを目的としています。これまでの研究は主にテキストモダリティまたは二者間対話に限定されており、マルチモーダルおよび多人数設定に対応していません。本論文では、マルチモーダル多人数対話談話解析のためのデータセットを構築しています。
arXiv cs.CL
2026年6月2日
内積を考慮した量子化：証明可能な高速、正確、適応的アルゴリズム
量子化はデータセット、ニューラルネットワーク重み、および様々な計算タスクのメモリ使用量を圧縮するための基本的なツールです。ベクトル量子化の多くの下流アプリケーションは任意の入力との内積を実行します。これにより内積対応量子化スキームの研究が動機づけられます。
arXiv cs.LG
2026年6月3日
Humanoid-GPT：ゼロショット動作追跡のためのデータと構造のスケーリング
人間型ロボットの動作制御技術に新たな進展がもたらされた。AI研究機関による新手法「Humanoid-GPT」は、20億フレームに及ぶ膨大な動作データで訓練されたGPT型の言語モデルで、ロボットの全身制御を実現する仕組みだ。複数のモーションキャプチャデータセットと大規模な内部記録を統合して学習させることで、これまで見たことのない動作や制御タスクに対しても高い精度で対応できるようになった。このゼロショット汎化能力により、複雑で動的な動作追跡が可能になり、人間のような自然な動きを持つロボットの実現に近づいた。研究チームはデータ量とモデル規模の拡大に焦点を当てることで、汎用的な動作制御システムの構築に成功した形だ。この技術は将来のロボット技術における実用化の道を広げる可能性があり、産業用ロボットや介護支援ロボットなど様々な分野での応用が期待される。（引用元：arXiv cs.AI）
arXiv cs.AI
2026年6月3日
想像的知覚トークンがマルチモーダル言語モデルの空間推理を強化
ビジョン言語モデルの空間推理能力向上に新たなアプローチ人工知能の研究領域で、視覚情報と言語を組み合わせて処理するビジョン言語モデル（VLM）が、直接見えない空間の推理が難しいという課題に対する解決策が提案された。研究者らは「想像的知覚トークン」という手法を開発し、モデルが観察できない領域の情報を補完できるようにした。この手法は、視点が変わった時の物体の位置推測や、障害物で隠れている空間での経路追跡といった3つのタスクで検証されている。研究では約20,000例の新規データセットを構築し、BAGEL骨格と呼ばれるシステムに新手法を組み込んで評価。結果として、従来のテキストベースの推論方法を上回る性能を達成したという。この進歩により、VLMはより複雑な3次元空間の理解へ向けた一歩を踏み出す可能性がある。（arXiv cs.AI）
arXiv cs.AI
2026年6月4日
BBOmix: 生物学的表現学習の教師なしハイパーパラメータ最適化タビュラーベンチマーク
遺伝子発現データの解析を効率化する新しいベンチマークツールが開発されました。大規模な生物学的データを処理する際、深層学習モデルの性能は初期設定値であるハイパーパラメータに大きく左右されますが、最適な値を見つけるには膨大な計算時間が必要でした。研究チームが公開した「BBOmix」は、実際の高スループットシーケンシングデータを用いた初のベンチマークデータセットです。異なる4種類のオートエンコーダアーキテクチャと7種類のマルチオミクスモダリティにおける105,000の評価結果を収録しており、研究者は膨大な計算なしに最適なパラメータ値を参照できるようになります。このツールにより、遺伝子発現データから有用な特徴を抽出する処理が加速され、医療研究や創薬開発への応用が期待されます。（arXiv cs.LG）
2026年6月4日
FundamentalのLarge Tabular Model NEXUSがAmazon SageMaker JumpStartで利用可能に
本記事では、Amazon SageMaker JumpStartでNEXUSの使い始め方を紹介し、デプロイプロセスについて説明し、エンタープライズデータセットに対して予測を実行する方法を実演します。
AWS Machine Learning Blog
2026年6月4日
Hugging Face CLIをエージェント向けに最適化された方法でHubを操作する設計
Hugging Faceは、同社のハブと連携するためのコマンドラインインターフェース（CLI）を、大規模言語モデル（LLM）などのエージェント向けに最適化する設計を進めていることを発表しました。この取り組みは、開発者がHugging Face Hubをより効率的に利用できるよう支援することを目的としています。既存のCLIは、すでに多くの開発者にとって重要なツールとして利用されていますが、今回の最適化により、LLMのようなAIエージェントがHub内のリソースとシームレスに連携できるよう機能が強化されます。これにより、エージェントがモデルやデータセットのアップロード、ダウンロード、管理などを自動的に行えるようになり、AI開発のプロセスがさらに効率化されることが期待されます。 Hugging Faceは、この新しいCLIが人間とエージェントの両方にとって使いやすい設計となるよう、機能性とアクセシビリティの向上に注力していると述べています。これにより、AIエージェントの活用が広がる中で、より多くのユーザーがHugging Face Hubの恩恵を受けられるようになります。引用元: Hugging Face
Hugging Face
2026年6月4日
モバイルバッテリーが製品群別の事故発生数トップに　NITEが25年度の事故情報収集報告書を発表
NITEは4日、2025年度に収集した事故情報を取りまとめた報告書を公開した。「充電器」（主にモバイルバッテリー）による事故が「バッテリー類」（主にリチウムイオンバッテリー）を上回った。
ITmedia NEWS 速報
2026年6月4日
タスク指定型合成Q&A生成によるNemotronプリトレーニング
NvidiaのAI言語モデル「Nemotron」の事前学習を効率化する新しいデータセット生成手法が発表された。タスク指定型合成Q&A生成と呼ばれるこの技術は、特定の目的に応じて質問と回答のペアを自動で作成する仕組みである。従来のモデル学習では、大量のテキストデータから汎用的な知識を獲得するアプローチが一般的だった。新手法は、必要なタスク機能に焦点を絞ったデータセットを生成することで、学習の無駄を削減し、モデル性能の向上を実現する狙いである。この技術により、言語モデルの開発効率が大幅に改善される可能性が示唆されている。特に企業や研究機関が特定用途向けのAIシステムを構築する際に、より少ないリソースで高性能なモデルの構築が可能になると期待される。大規模言語モデルの学習方法論の進化は、AI技術の実用化を加速させるうえで重要な意味を持つ。（引用元：Hugging Face）
Hugging Face
2026年6月4日
EVA-Bench Data 2.0：3つのドメイン、121のツール、213のシナリオ
AI評価の標準化を目指すHugging Faceが、ベンチマークデータセット「EVA-Bench Data」の最新版2.0をリリースした。このデータセットは、AIモデルの性能を多角的に測定するための包括的な評価基盤として設計されている。従来版から大幅に拡充され、3つの異なるドメインをカバーしながら、121種類のツールと213のシナリオに対応している点が特徴だ。複数分野における実践的なシナリオを用意することで、開発者はより実務的な環境下でモデルの性能を検証できるようになる。様々なツールセットが含まれていることから、汎用性の高い評価が可能になると期待されている。このような統一された評価指標の提供は、AI開発業界全体の品質向上と信頼性確保に寄与する。研究機関や企業がモデルを比較検討する際の基準となり、より透明性の高い開発環境の構築につながる可能性がある。引用元：Hugging Face
2026年6月7日
【個人開発】近所のリチウムイオン電池の回収拠点を探すアプリを自分用に開発した【React/Supabase/PostGIS】
はじめに React の学習を兼ねて、郵便番号から近くのリチウムイオン電池回収協力店を地図上に表示する Web アプリを個人利用向けに作りました。きっかけは、自宅に溜まっていた古いワイヤレスイヤホンやモバイルバッテリーなどを廃棄する際にどこに持っていけば良いかが検索して...
Qiita 人気記事
2026年6月8日
一貫性駆動型強化学習による言語間事実的リコール性能の向上
英語データで主に学習した大規模言語モデル（LLM）は豊富な世界知識を保有していますが、他言語での信頼性のある表現に失敗することが多いという言語間事実的矛盾の問題に対処するため、本研究ではPolyFactという大規模並列多言語事実的質問応答データセットを導入しました。12の言語的に多様な言語にわたり、ウィキデータに基づく100Kの事実を含みます。PolyFactを用いて、Qwen-2.5-7BとOLMo-2-1124-7Bの言語間事実的リコール性能を改善するため、軽量継続的事前学習（CPT）、教師あり微調整（SFT）、およびグループ相対方針最適化（GRPO）を比較しました。GRPOは一貫してSFTを上回り、言語間の一貫性と未見言語への汎化性能を改善しますが、並列データへのCPTは限定的な追加利得しかもたらしません。機構的分析により、GRPOはMLP層とアテンションヘッドの言語特殊化を削減することで多言語ルーティングを再編成し、より共有された言語間表現を促進することが示されました。本研究ではコード、モデル、およびデータセットを公開します。
arXiv cs.CL
2026年6月8日
本当に確実ですか？シンボリック回帰における不確実性定量化の包括的かつ理解可能な調査
シンボリック回帰（SR）は、数学関数の空間を体系的に探索し、データセット内の基礎的な関係を正確に捉えるモデルを発見する手法のクラスです。この分野の最近の進展にもかかわらず、不確実性定量化（UQ）のサポート不足が現実世界の意思決定プロセスへの採用を制限しています。回帰分析では、UQはモデルの信頼性に関する重要な情報を提供し、データの不確実性を考慮することでオーバーフィッティングを回避し、意思決定に向けた洞察を提供するのに役立ちます。本調査は、この問題に初めて明確に対処するもので、シンボリック回帰におけるUQの本質的な概念を紹介し、現在の文献を頻度主義的、ベイズ的、モデル選択という3つの研究方向に広く分類してレビューしています。その重要性にもかかわらず、シンボリック回帰におけるUQはまだ十分に探索されていないため、シンボリック回帰のための信頼できるUQ手法の研究をさらに進めることが重要です。
arXiv cs.LG
2026年6月8日
CrowdMath: クラウドソーシングされた数学研究討論のデータセット
大規模言語モデルは数学的推論において大きな進展を遂げていますが、既存のベンチマークは最終答案、段階的な解法、または完全な証明といった確定的な問題を評価するのが一般的です。本研究は、参加者が部分的な議論を提案し、先行する段階の不備を特定し、不完全な推論を修正し、段階的な貢献を徐々に統合していくという、協調的なオープン問題解決のプロセスをとらえた新しいデータセット「CrowdMath」を紹介します。これはMIT PRIMES--Art of Problem Solving (AoPS) CrowdMathプログラム(2016-2025)から164個の専門家による注釈付きの進捗チェーンで構成されており、その討論は査読済み論文に至っています。各チェーンはオープン問題の陳述から完成した証明まで、複数の参加者によるフォーラム討論の過程を追跡しています。投稿は部分的進捗、証明の完成、誤った推論、誤りの特定を含む、進化する解答プロセスにおける機能的役割によってラベル付けされています。
arXiv cs.AI
2026年6月8日
対称性操作としての公平性を扱うことによるバイアスの検出と軽減
機械学習システムは高い経済的利害が関係する場面でしばしばバイアスを示す。本研究ではバイアスを対称性破れ操作として形式化し、分類器が敏感な属性を反事実的に切り替える操作の下で出力が不変であれば、その分類器は公平であると定義する。損失ベースの正則化を対称性復元メカニズムとして実装し、様々なレベルのノイズ、相関、バイアスを含む4つの合成データセット上で評価した。本フレームワークは90%以上の違反削減を達成し、精度低下は約5%である。このフレームワークは因果グラフの知識を必要とせず、計算量は少なく、ビット反転として定義可能な任意の敏感な属性に汎化可能であり、主流ベンチマークに欠落している局所的差別源が存在する文脈に適している。
arXiv cs.AI
2026年6月8日
言語モデルの失敗：確定的かつ持続的な推論失敗のトークンレベル特性
言語モデルの推論失敗は、推論トレース内で識別可能な特性を残す異なるプロセスを通じて発生する。本研究はトークンレベルの不確実性シグナルを使用してこれらの失敗を特性化し、経験的に区別可能な2つのプロセスから生じることを発見した。第1は確定的失敗で、モデルがトレース初期の不正な推論経路に固着する。中心的な診断特性は確定点であり、その先で追加のトークンを考慮すると失敗検出がむしろ悪化する。第2は持続的不確実性で、不確実性はトレース全体を通じて蓄積され、失敗と成功の完了を区別するには完全なトレースが必要となる。これらの特性は23のモデル-データセット構成で再現され、フレームワークの反証可能な予測は23例中20例で保持され、両方の失敗モードにおいて偶然を大きく上回る。最後に、自己一貫性への直接的な含意を示す失敗モードフレームワークを実証し、不確実性シグナルが補完するケースと選択的にスキップできるケースを特定する。これらの結果は、LLM推論失敗がいつ検出可能になるかを理解し、それに応じて検出戦略を適応させるための基礎を提供する。
arXiv cs.CL