TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

2025年12月26日
ノーコードで言語モデルの「学習」を体験できるMN-Core Playground / SLM Customizeの遊び方
背景大規模言語モデル（LLM）の普及により、AIとの対話は身近なものになりました。一方で、特定の用途に特化した小規模なモデルをローカル環境で動かす試みも関心を集めています。自分好みの喋り方などを言語モデルにさせるため […] 投稿ノーコードで言語モデルの「学習」を体験できるMN-Core Playground / SLM Customizeの遊び方は Preferred Net…
Preferred Networks
2026年2月20日
日本語の自然さを測る評価手法の検証
Preferred Networksでは大規模言語モデル (LLM) PLaMoの開発を継続して行っています。 LLMを開発するにあたってその能力を評価するベンチマークは非常に重要です。英語においては様々なベンチマークが […] 投稿日本語の自然さを測る評価手法の検証は Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年2月25日
コード生成ベンチマークのためのサンドボックス環境の開発
はじめに Preferred Networksでは、大規模言語モデル「PLaMo」の開発を行っています。 PLaMoは開発サイクルにて様々なベンチマークによりその能力を評価していますが、今回はコード生成ベンチマークにてモ […] 投稿コード生成ベンチマークのためのサンドボックス環境の開発は Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年5月11日
BalCapRL: RL ベースのMLLM画像キャプション生成用のバランス型フレームワーク
画像キャプション生成はコンピュータビジョンの最も基本的なタスクの一つです。その開放性の性質により、マルチモーダル大規模言語モデル（MLLM）の時代に多大な関心を集めています。
Apple Machine Learning Research
2026年5月18日
pretrained model向けのベンチマークの構築
Preferred Networks では、大規模言語モデル PLaMo の開発を継続して行っています。 LLM を開発するうえで、モデルの能力を適切に測定するベンチマークは重要です。英語ではさまざまなベンチマークが日々 […] 投稿 pretrained model向けのベンチマークの構築は Preferred Networks Tech Blog に最初に表示されました。
Preferred Networks
2026年5月19日
EpiCache: リソース制約のある環境での長期会話向けのエピソード的KVキャッシュ管理
最新の大規模言語モデル（LLM）は、コンテキスト長を数百万トークンまで拡張し、長い会話履歴に基づいた一貫性のあるパーソナライズされた応答を実現しています。しかし、キー・バリュー（KV）キャッシュが...
Apple Machine Learning Research
2026年5月29日
Amazon SageMakerでアゼルバイジャン言語モデルの構築
アゼルバイジャンの大手通信事業者であるアゼルセル・テレコムLLCは、通信ユースケースとカスタマー向けアプリケーション用にAmazon SageMaker AIでアゼルバイジャン大規模言語モデル（LLM）を構築したいと考えている。
AWS Machine Learning Blog
2026年5月29日
「ミュトス」級AI一般公開へ　新型「オーパス4.8」も発表―米アンソロピック
米アンソロピックが高性能AI基盤モデル「ミュトス」級を一般公開し、新型「オーパス4.8」を発表しました。これまで限定利用に止めていた同社の方針転換は、OpenAIやGoogleの急速な技術進化と商用化への競争対応を示しており、大規模言語モデルの性能差縮小に伴い、アクセス可能性と価格競争力が市場シェアの決定要因へと変わりつつあることを反映しています。一般公開により、金融や製造、医療などAI導入の障壁が高かった領域での実装が加速し、スタートアップなど小規模企業による高性能モデル利用の民主化効果が期待される一方で、著作権問題やディープフェイク悪用、バイアス拡大など規制・倫理面での新たな課題が生じる可能性があります。
時事通信
2026年5月29日
ARから拡散へ：厳密に因果的で柔軟な地平線を持つ大規模言語モデルの効率的な適応
拡散モデルは効率的な並列テキスト生成を約束していますが、双方向アテンションに依存しており、事前学習済みの自動回帰（AR）モデルとの構造的な不一致を生じています。この非互換性はロバストなAR事前知識の再利用を排除し、スクラッチからの禁止的な事前学習が必要になります。
arXiv cs.CL
2026年5月29日
幻覚は有用か？システムI/IIの推論連鎖によるSLMでの多段階質問解決
最近、小規模言語モデル（SLM）が注目を集めています。これらは高速で良好な性能を示し、大規模言語モデル（LLM）よりもハードウェア要件が低いです。しかし、SLMはLLMよりも頻繁に幻覚を生じ、複雑な多段階推論問題を解く能力に影響を与えます。
arXiv cs.CL
2026年5月29日
言語優先性の脱却: モダリティ認識ポリシー最適化によるオーディオ推論の後期段階モダリティ崩壊の軽減
オーディオと全モダリティ大規模言語モデルは印象的なクロスモーダル推論能力を示すが、これらのモデルに標準的な強化学習後処理アルゴリズムを適用すると、GRPO のような方法がすべてのトークンに均一なポリシー勾配を適用する構造的脆弱性が露呈する。
arXiv cs.CL
2026年5月29日
反応トーンを通じたコミュニティ態度のモデリング：オンラインコミュニティの言語的行動とLLMアラインメント評価のための人間-AI協働フレームワーク
大規模言語モデル（LLM）は計算社会分析のプロキシとしてますます利用されていますが、人間のコミュニティの「厚い記述」を忠実に表現する能力は依然として重大な課題です。現在の評価では、社会的アイデンティティを静的なラベルに縮小することが多いです。
arXiv cs.CL
2026年5月29日
UNIQUE: 訓練不要な推論とスパーシティ対応訓練のための普遍的トップkスパース注意
大規模言語モデルの長文脈推論は、自己注意キー値キャッシュの線形増加によってボトルネックとなっている。トップkスパース注意はキャッシュの一部のみをロードすることで緩和するが、キャッシュ重要度を正確かつ安価に推定することが課題である。
arXiv cs.CL
2026年5月29日
Simorgh at SemEval-2026 task 7: 多言語質問応答におけるリソース限定的な文化的推論用の地域認識型ハイブリッド検索
大規模言語モデル（LLM）は一般領域内の一般的な推論タスクに対して優れた能力と性能を示していますが、デジタルテキストデータが限定的な言語における文化的に根拠付けられた知識に関しては課題に直面する可能性があります。本論文では、言語固有の文化的知識への対応について調査しています。
arXiv cs.CL
2026年5月29日
幻覚削減のための格子上のチェーンベース適応再構成
大規模言語モデルにおけるテスト時の幻覚削減のための確率的フレームワークであるCAROL（Chain-based Adaptive Reconfiguration Over Lattices）を導入します。トークンレベルの不確実性に依存するのではなく、CAROLは生成された結果間の一貫性に基づいて意味的不確実性測度を定義します。
arXiv cs.CL
2026年5月29日
連続性と順序性が重要：時系列分析における大規模言語モデルの効果的な利用のための時系列トークンの制約
トークンベースの時系列大規模言語モデル（TS-LLM）は時系列分析と推論の有望な方向として浮かび上がっています。しかし、先行研究は時系列トークンの本質的な連続性と順序性を見落としており、これはモデルパフォーマンスを大幅に制限しています。本論文では、これらの属性を制約することの重要性について述べます。
arXiv cs.LG
2026年5月29日
モデルが一致しない場合：公開コメント分析向けLLM評価の再考
連邦機関は公開コメント・コーパスを分類するために大規模言語モデル（LLM）を展開しており、モデルの記録の編成は政策立案者が見るものと登録される議論を形作ります。小規模な検証セットに対する姿勢精度に基づく標準的な評価は、モデルが相違する時期を検出できません。
arXiv cs.AI
2026年5月29日
トーンに気をつけよう：トーンはLLMのパフォーマンスを変えるか？
大規模言語モデル(LLM)の使用が増加していますが、プロンプトのスタイルとトーンによってパフォーマンスが異なることが観察されています。本研究では、プロンプトのトーンの変動が客観的な多肢選択問題に対するLLMの精度にどのような影響を与えるかを調査しています。
arXiv cs.AI
2026年5月29日
クロスモデルエントロピーによるラベル不要強化学習
強化学習を用いた大規模言語モデルの事後学習は報酬信号によってボトルネックとなっている。既存のアプローチは、自動正確性チェック（数学やコード実行など）のある領域に訓練を制限する検証可能な報酬か、人間の選好ラベルのいずれかを必要とする。
arXiv cs.LG
2026年5月29日
カリキュラムのカスタマイズ：動的データ・モデル互換性による学生中心の推論蒸留
arXiv:2605.29229v1 文書の発表。推論蒸留は大規模言語モデル（LLM）から小規模モデルへ複雑な推論能力を転移させますが、その成功は訓練データが学生モデルとどの程度合致しているかに依存します。本論文では、データ・モデル互換性（DMC）メトリクスを導入し、その適合性を評価するために使用できます。
arXiv cs.AI
2026年5月29日
StoryMI: 操作可能なマルチエージェント治療対話生成
大規模言語モデル(LLM)は流暢な対話を生成できますが、先行研究は状況的な根拠付け、動的戦略制御、および動機面接(MI)の臨床基準に合致した評価が不足しています。我々はStoryMIを導入しました。これは制御可能なMI対話生成のための複数LLMエージェントフレームワークです。
arXiv cs.CL
2026年5月29日
潜在推論による堅牢で効率的なガードレール
大規模言語モデル(LLM)の安全性維持は、現実世界のアプリケーションへの導入が増加する中で極めて重要です。既存の安全ガードレールは通常、単一パス分類に依存するか、より最近では蒸留推論を使用しています。推論ベースのガードレールは従来の分類方法を大幅に上回ります。
arXiv cs.AI
2026年5月29日
LCO: LLMベースの制約最適化によるより安全なエージェントLLM実世界タスク対応
大規模言語モデル(LLM)は自律エージェントとしてますます機能していますが、環境との継続的なインタラクションはコンテキスト内報酬ハッキング(ICRH)につながる可能性があり、これはLLMがプロキシ目標を最大化するために行動を反復的に最適化し、意図しない有害な副作用を生み出す現象です。
arXiv cs.CL
2026年5月29日
UniMaia: 人間らしいプレイのための言語によるチェス戦略の操舵
大規模言語モデルの最近の進歩により、自然言語は複雑なシステムを制御するための柔軟なインターフェースとして機能するようになったが、大規模な多モーダル訓練またはドメイン固有の帰納バイアスの弱化が必要である。チェスなどの構造化意思決定領域では、専門的なアプローチが優先される。
arXiv cs.CL
2026年5月29日
カタストロフィック・フォーゲッティングの機序的起源：RLがSFTよりも回路をよく保持する理由
大規模言語モデル（LLM）のファインチューニングはしばしば以前の能力のカタストロフィック・フォーゲッティングを引き起こす。最近の研究によれば、強化学習（RL）は教師あり学習（SFT）よりも効果的に以前の能力を保持し、ポリシー勾配更新がより近い状態に留まることに起因している。
arXiv cs.LG
2026年5月29日
EvoSpec: リアルタイム語彙とパラメータ適応を通じた推測的デコーディングの進化
推測的デコーディングは、ドラフト・検証パラダイムを通じて大規模言語モデルの推論を加速させますが、語彙サイズの拡大に伴い出力投影層がボトルネックになります。既存の静的プルーニング方法は有効にこのオーバーヘッドを削減しますが、受け入れ率の大幅な低下という課題があります。
arXiv cs.CL
2026年5月29日
LoRAアダプターの特徴幾何学：微調整言語モデルにおける表現的乖離のスパースオートエンコーダ分析
Low-Rank Adaptation（LoRA）は大規模言語モデルの適応に広く採用されているアプローチですが、LoRA微調整によって引き起こされる内部表現の変化はまだ十分に理解されていません。本研究では、スパースオートエンコーダを使用してLoRA誘導表現の幾何学的構造を調査します。
arXiv cs.LG
2026年5月29日
CosmicFish-HRM: コンパクト言語モデルにおける階層的回帰メカニズムを介した適応的推論
大規模言語モデルは強力な推論能力を実現しているが、膨大なパラメータ数と高い推論コストが課題である。本研究では、コンパクト言語モデルにおける適応的推論深度の異なるアプローチを探索し、CosmicFish-HRMを提案している
arXiv cs.LG
2026年5月30日
5月29日（金）運用開始の「新たな防災気象情報」とは？気象予報士・斎藤義雄による徹底解説をTBSラジオHPで公開。
気象庁が5月29日から運用開始する新しい防災気象情報について、気象予報士・斎藤義雄による解説がTBSラジオで公開されました。従来の数値や警報レベルから、より直感的で行動喚起性の高い表現へシフトする今回の変更は、単なる形式の更新ではなく、専門知を市民に分かりやすく伝えるための科学コミュニケーション改革です。東日本大震災以降、正確さに加えて即座の理解と個人の判断を促す情報伝達の重要性が認識されたことが背景にあります。
PR TIMES
2026年5月30日
QQEnglish、英検協会運営の「CEST Business」に対応した企業向けスピーキング対策サービス提供開始
QQEnglishが英検協会運営の「CEST Business」に対応した企業向けスピーキング対策サービスを開始しました。グローバル化に伴い、企業は従来のTOEICやTOEFLといった点数偏重の評価から、実務的なビジネスコミュニケーション能力を測定する試験へのシフトを進めています。新しい評価基準への対応を通じて、オンライン英会話業界は単なるレッスン提供から「能力認証の仲介者」へのポジション転換を図っており、実践的な英語運用能力の重要性が高まっていることを示しています。
PR TIMES