News in Focus

TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

  1. 2025年12月26日

    ノーコードで言語モデルの「学習」を体験できるMN-Core Playground / SLM Customizeの遊び方

    背景 大規模言語モデル(LLM)の普及により、AIとの対話は身近なものになりました。一方で、特定の用途に特化した小規模なモデルをローカル環境で動かす試みも関心を集めています。 自分好みの喋り方などを言語モデルにさせるため […] 投稿 ノーコードで言語モデルの「学習」を体験できるMN-Core Playground / SLM Customizeの遊び方 は Preferred Net…

    Preferred Networks

  2. 2026年2月20日

    日本語の自然さを測る評価手法の検証

    Preferred Networksでは大規模言語モデル (LLM) PLaMoの開発を継続して行っています。 LLMを開発するにあたってその能力を評価するベンチマークは非常に重要です。英語においては様々なベンチマークが […] 投稿 日本語の自然さを測る評価手法の検証 は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  3. 2026年2月25日

    コード生成ベンチマークのためのサンドボックス環境の開発

    はじめに Preferred Networksでは、大規模言語モデル「PLaMo」の開発を行っています。 PLaMoは開発サイクルにて様々なベンチマークによりその能力を評価していますが、今回はコード生成ベンチマークにてモ […] 投稿 コード生成ベンチマークのためのサンドボックス環境の開発 は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  4. 2026年5月11日

    BalCapRL: RL ベースのMLLM画像キャプション生成用のバランス型フレームワーク

    画像キャプション生成はコンピュータビジョンの最も基本的なタスクの一つです。その開放性の性質により、マルチモーダル大規模言語モデル(MLLM)の時代に多大な関心を集めています。

    Apple Machine Learning Research

  5. 2026年5月18日

    pretrained model向けのベンチマークの構築

    Preferred Networks では、大規模言語モデル PLaMo の開発を継続して行っています。 LLM を開発するうえで、モデルの能力を適切に測定するベンチマークは重要です。英語ではさまざまなベンチマークが日々 […] 投稿 pretrained model向けのベンチマークの構築 は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  6. 2026年5月19日

    EpiCache: リソース制約のある環境での長期会話向けのエピソード的KVキャッシュ管理

    最新の大規模言語モデル(LLM)は、コンテキスト長を数百万トークンまで拡張し、長い会話履歴に基づいた一貫性のあるパーソナライズされた応答を実現しています。しかし、キー・バリュー(KV)キャッシュが...

    Apple Machine Learning Research

  7. 2026年5月29日

    Amazon SageMakerでアゼルバイジャン言語モデルの構築

    アゼルバイジャンの大手通信事業者であるアゼルセル・テレコムLLCは、通信ユースケースとカスタマー向けアプリケーション用にAmazon SageMaker AIでアゼルバイジャン大規模言語モデル(LLM)を構築したいと考えている。

    AWS Machine Learning Blog

  8. 2026年5月29日

    「ミュトス」級AI一般公開へ 新型「オーパス4.8」も発表―米アンソロピック

    米アンソロピックが高性能AI基盤モデル「ミュトス」級を一般公開し、新型「オーパス4.8」を発表しました。これまで限定利用に止めていた同社の方針転換は、OpenAIやGoogleの急速な技術進化と商用化への競争対応を示しており、大規模言語モデルの性能差縮小に伴い、アクセス可能性と価格競争力が市場シェアの決定要因へと変わりつつあることを反映しています。一般公開により、金融や製造、医療などAI導入の障壁が高かった領域での実装が加速し、スタートアップなど小規模企業による高性能モデル利用の民主化効果が期待される一方で、著作権問題やディープフェイク悪用、バイアス拡大など規制・倫理面での新たな課題が生じる可能性があります。

    時事通信

  9. 2026年5月29日

    カタストロフィック・フォーゲッティングの機序的起源:RLがSFTよりも回路をよく保持する理由

    大規模言語モデル(LLM)のファインチューニングはしばしば以前の能力のカタストロフィック・フォーゲッティングを引き起こす。最近の研究によれば、強化学習(RL)は教師あり学習(SFT)よりも効果的に以前の能力を保持し、ポリシー勾配更新がより近い状態に留まることに起因している。

    arXiv cs.LG

  10. 2026年5月29日

    言語優先性の脱却: モダリティ認識ポリシー最適化によるオーディオ推論の後期段階モダリティ崩壊の軽減

    オーディオと全モダリティ大規模言語モデルは印象的なクロスモーダル推論能力を示すが、これらのモデルに標準的な強化学習後処理アルゴリズムを適用すると、GRPO のような方法がすべてのトークンに均一なポリシー勾配を適用する構造的脆弱性が露呈する。

    arXiv cs.CL

  11. 2026年5月29日

    トーンに気をつけよう:トーンはLLMのパフォーマンスを変えるか?

    大規模言語モデル(LLM)の使用が増加していますが、プロンプトのスタイルとトーンによってパフォーマンスが異なることが観察されています。本研究では、プロンプトのトーンの変動が客観的な多肢選択問題に対するLLMの精度にどのような影響を与えるかを調査しています。

    arXiv cs.AI

  12. 2026年5月29日

    クロスモデルエントロピーによるラベル不要強化学習

    強化学習を用いた大規模言語モデルの事後学習は報酬信号によってボトルネックとなっている。既存のアプローチは、自動正確性チェック(数学やコード実行など)のある領域に訓練を制限する検証可能な報酬か、人間の選好ラベルのいずれかを必要とする。

    arXiv cs.LG

  13. 2026年5月29日

    幻覚は有用か?システムI/IIの推論連鎖によるSLMでの多段階質問解決

    最近、小規模言語モデル(SLM)が注目を集めています。これらは高速で良好な性能を示し、大規模言語モデル(LLM)よりもハードウェア要件が低いです。しかし、SLMはLLMよりも頻繁に幻覚を生じ、複雑な多段階推論問題を解く能力に影響を与えます。

    arXiv cs.CL

  14. 2026年5月29日

    ARから拡散へ:厳密に因果的で柔軟な地平線を持つ大規模言語モデルの効率的な適応

    拡散モデルは効率的な並列テキスト生成を約束していますが、双方向アテンションに依存しており、事前学習済みの自動回帰(AR)モデルとの構造的な不一致を生じています。この非互換性はロバストなAR事前知識の再利用を排除し、スクラッチからの禁止的な事前学習が必要になります。

    arXiv cs.CL

  15. 2026年5月29日

    反応トーンを通じたコミュニティ態度のモデリング:オンラインコミュニティの言語的行動とLLMアラインメント評価のための人間-AI協働フレームワーク

    大規模言語モデル(LLM)は計算社会分析のプロキシとしてますます利用されていますが、人間のコミュニティの「厚い記述」を忠実に表現する能力は依然として重大な課題です。現在の評価では、社会的アイデンティティを静的なラベルに縮小することが多いです。

    arXiv cs.CL

  16. 2026年5月29日

    UNIQUE: 訓練不要な推論とスパーシティ対応訓練のための普遍的トップkスパース注意

    大規模言語モデルの長文脈推論は、自己注意キー値キャッシュの線形増加によってボトルネックとなっている。トップkスパース注意はキャッシュの一部のみをロードすることで緩和するが、キャッシュ重要度を正確かつ安価に推定することが課題である。

    arXiv cs.CL

  17. 2026年5月29日

    幻覚削減のための格子上のチェーンベース適応再構成

    大規模言語モデルにおけるテスト時の幻覚削減のための確率的フレームワークであるCAROL(Chain-based Adaptive Reconfiguration Over Lattices)を導入します。トークンレベルの不確実性に依存するのではなく、CAROLは生成された結果間の一貫性に基づいて意味的不確実性測度を定義します。

    arXiv cs.CL

  18. 2026年5月29日

    潜在推論による堅牢で効率的なガードレール

    大規模言語モデル(LLM)の安全性維持は、現実世界のアプリケーションへの導入が増加する中で極めて重要です。既存の安全ガードレールは通常、単一パス分類に依存するか、より最近では蒸留推論を使用しています。推論ベースのガードレールは従来の分類方法を大幅に上回ります。

    arXiv cs.AI

  19. 2026年5月29日

    CosmicFish-HRM: コンパクト言語モデルにおける階層的回帰メカニズムを介した適応的推論

    大規模言語モデルは強力な推論能力を実現しているが、膨大なパラメータ数と高い推論コストが課題である。本研究では、コンパクト言語モデルにおける適応的推論深度の異なるアプローチを探索し、CosmicFish-HRMを提案している

    arXiv cs.LG

  20. 2026年5月29日

    モデルが一致しない場合:公開コメント分析向けLLM評価の再考

    連邦機関は公開コメント・コーパスを分類するために大規模言語モデル(LLM)を展開しており、モデルの記録の編成は政策立案者が見るものと登録される議論を形作ります。小規模な検証セットに対する姿勢精度に基づく標準的な評価は、モデルが相違する時期を検出できません。

    arXiv cs.AI

  21. 2026年5月29日

    LoRAアダプターの特徴幾何学:微調整言語モデルにおける表現的乖離のスパースオートエンコーダ分析

    Low-Rank Adaptation(LoRA)は大規模言語モデルの適応に広く採用されているアプローチですが、LoRA微調整によって引き起こされる内部表現の変化はまだ十分に理解されていません。本研究では、スパースオートエンコーダを使用してLoRA誘導表現の幾何学的構造を調査します。

    arXiv cs.LG

  22. 2026年5月29日

    EvoSpec: リアルタイム語彙とパラメータ適応を通じた推測的デコーディングの進化

    推測的デコーディングは、ドラフト・検証パラダイムを通じて大規模言語モデルの推論を加速させますが、語彙サイズの拡大に伴い出力投影層がボトルネックになります。既存の静的プルーニング方法は有効にこのオーバーヘッドを削減しますが、受け入れ率の大幅な低下という課題があります。

    arXiv cs.CL

  23. 2026年5月29日

    StoryMI: 操作可能なマルチエージェント治療対話生成

    大規模言語モデル(LLM)は流暢な対話を生成できますが、先行研究は状況的な根拠付け、動的戦略制御、および動機面接(MI)の臨床基準に合致した評価が不足しています。我々はStoryMIを導入しました。これは制御可能なMI対話生成のための複数LLMエージェントフレームワークです。

    arXiv cs.CL

  24. 2026年5月29日

    連続性と順序性が重要:時系列分析における大規模言語モデルの効果的な利用のための時系列トークンの制約

    トークンベースの時系列大規模言語モデル(TS-LLM)は時系列分析と推論の有望な方向として浮かび上がっています。しかし、先行研究は時系列トークンの本質的な連続性と順序性を見落としており、これはモデルパフォーマンスを大幅に制限しています。本論文では、これらの属性を制約することの重要性について述べます。

    arXiv cs.LG

  25. 2026年5月29日

    UniMaia: 人間らしいプレイのための言語によるチェス戦略の操舵

    大規模言語モデルの最近の進歩により、自然言語は複雑なシステムを制御するための柔軟なインターフェースとして機能するようになったが、大規模な多モーダル訓練またはドメイン固有の帰納バイアスの弱化が必要である。チェスなどの構造化意思決定領域では、専門的なアプローチが優先される。

    arXiv cs.CL

  26. 2026年5月29日

    カリキュラムのカスタマイズ:動的データ・モデル互換性による学生中心の推論蒸留

    arXiv:2605.29229v1 文書の発表。推論蒸留は大規模言語モデル(LLM)から小規模モデルへ複雑な推論能力を転移させますが、その成功は訓練データが学生モデルとどの程度合致しているかに依存します。本論文では、データ・モデル互換性(DMC)メトリクスを導入し、その適合性を評価するために使用できます。

    arXiv cs.AI

  27. 2026年5月29日

    LCO: LLMベースの制約最適化によるより安全なエージェントLLM実世界タスク対応

    大規模言語モデル(LLM)は自律エージェントとしてますます機能していますが、環境との継続的なインタラクションはコンテキスト内報酬ハッキング(ICRH)につながる可能性があり、これはLLMがプロキシ目標を最大化するために行動を反復的に最適化し、意図しない有害な副作用を生み出す現象です。

    arXiv cs.CL

  28. 2026年5月29日

    Simorgh at SemEval-2026 task 7: 多言語質問応答におけるリソース限定的な文化的推論用の地域認識型ハイブリッド検索

    大規模言語モデル(LLM)は一般領域内の一般的な推論タスクに対して優れた能力と性能を示していますが、デジタルテキストデータが限定的な言語における文化的に根拠付けられた知識に関しては課題に直面する可能性があります。本論文では、言語固有の文化的知識への対応について調査しています。

    arXiv cs.CL

  29. 2026年5月30日

    「人を採る前に、AIに任せる」という新常識。専門知識ゼロ・最短10分で“もう一人の社員”をつくれるノーコードAIエージェント「WellSkate AI」提供開始 【本日より無料診断受付!】

    労働力不足に対応する新たな戦略として、採用の前にAIを導入する企業が増えています。ノーコードAIエージェント「WellSkate AI」は、専門知識がなくても最短10分で業務自動化ツールを構築できるプラットフォームとして提供が開始されました。大規模言語モデルの普及により、AIの構築コストが大幅に低下し、中小企業でも導入が容易になったことが背景にあります。請求書処理や顧客対応メールなどの定型業務を自動化できることで、人的資源をより高度な業務へシフトさせることが期待されています。

    PR TIMES

  30. 2026年5月30日

    AIモデル ミュトス 利用企業 “ゲームチェンジ起こす能力”

    大規模言語モデルの性能競争が加速する中、先進的なAIシステム「ミュトス」が利用企業から高い評価を受けています。高度な推論能力と創造的問題解決能力を備えたこのシステムは、既存ビジネスプロセスの効率化や戦略立案の支援を可能にするため、導入企業から「ゲームチェンジャー」として期待されています。一方、サイバーセキュリティ専門家からは、強力なツールがマルウェア開発や攻撃自動化に悪用される懸念が指摘されており、革新性と危険性が表裏一体という課題を抱えています。高性能AIへのアクセス拡大に伴い、政策対応が技術進化に追いつかない「空白期間」が生じるリスクが懸念される状況です。

    NHK