News in Focus

TOPIC TIMELINE

タイムライン検索

特定トピックに関する記事を時系列で並べて「いつ・何が起きたか」を俯瞰します。

  1. 2025年12月8日

    Kubernetesスケジューラのベンチマークテスト

    本記事は、PFNのインターンシップを経て現在はアルバイトとして勤務されている上田蒼一朗さんによる寄稿です。 はじめに Preferred Networks(以下PFN)ではKubernetesを用いた機械学習基盤の開発・ […] 投稿 Kubernetesスケジューラのベンチマークテスト は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  2. 2026年2月20日

    日本語の自然さを測る評価手法の検証

    Preferred Networksでは大規模言語モデル (LLM) PLaMoの開発を継続して行っています。 LLMを開発するにあたってその能力を評価するベンチマークは非常に重要です。英語においては様々なベンチマークが […] 投稿 日本語の自然さを測る評価手法の検証 は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  3. 2026年2月25日

    コード生成ベンチマークのためのサンドボックス環境の開発

    はじめに Preferred Networksでは、大規模言語モデル「PLaMo」の開発を行っています。 PLaMoは開発サイクルにて様々なベンチマークによりその能力を評価していますが、今回はコード生成ベンチマークにてモ […] 投稿 コード生成ベンチマークのためのサンドボックス環境の開発 は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  4. 2026年2月26日

    社会保障国民会議

    日本の社会保障制度の将来的な方向性を議論する「社会保障国民会議」に関する詳細が、内閣官房のウェブサイトcas.go.jpで公開されています。この会議は、少子高齢化が進む日本において、持続可能な社会保障制度を構築するために不可欠な役割を担っています。 会議では、国民生活に深く関わる年金、医療、介護といった多岐にわたる分野の政策課題が検討されます。具体的には、高齢者の増加に伴う医療費や介護費の増大、現役世代の減少による年金財源の確保、そして誰もが安心して生活できるための給付と負担のあり方など、広範なテーマについて議論が行われる見込みです。 社会保障国民会議の議論は、今後の日本の社会保障制度のあり方を決定づける重要な要素となります。その動向は、国民一人ひとりの生活に直接影響を与えるため、今後の発表が注目されます。 引用元: 内閣官房

    内閣官房

  5. 2026年4月8日

    体験型観光として成長する「ジオツーリズム」 大地震に見舞われる日本でこそできる振興策

    「持続可能な観光」や「体験型観光」への需要が高まるなかで、ジオツーリズムの市場も世界的に大きな成長を見せている。

    産経新聞

  6. 2026年5月15日

    DatabricksがGPT-5.5をエンタープライズエージェントワークフローに導入

    DatabricksがOfficeQA Proベンチマークで最先端の成績を達成したGPT-5.5をエンタープライズエージェントワークフローに活用しています。

    OpenAI

  7. 2026年5月16日

    シンガポールのAI未来強化:新しい国家パートナーシップ

    Google DeepMindとシンガポールは、健康、教育、持続可能性などを含む複雑な課題に対処するため、フロンティアAIを適用するために提携します。

    Google DeepMind

  8. 2026年5月18日

    pretrained model向けのベンチマークの構築

    Preferred Networks では、大規模言語モデル PLaMo の開発を継続して行っています。 LLM を開発するうえで、モデルの能力を適切に測定するベンチマークは重要です。英語ではさまざまなベンチマークが日々 […] 投稿 pretrained model向けのベンチマークの構築 は Preferred Networks Tech Blog に最初に表示されました。

    Preferred Networks

  9. 2026年5月24日

    カリダ・ポパルとハビエル・ザネッティがサッカースターとしてUN チャンピオンに任命される

    ワールドカップ開幕を数日に控え、16人のサッカーの偉人が「Football for the Goals」チャンピオンに任命され、持ち前のプロフィールを活かして持続可能な開発目標(SDGs)への認識を高め、人と地球のより良い未来を目指して提唱する活動を行います。

    UN News

  10. 2026年5月27日

    NVIDIA Vera CPUが競合製品に対して「強力なパンチを繰り出している」

    エージェンシャルAIへのシフトは、AIファクトリーの新しいCPU要件を生み出します:高速コア、膨大なメモリ帯域幅、およびすべてのコアがアクティブな場合でも高いパフォーマンスを維持する能力です。初期ベンチマークでは...

    NVIDIA Blog

  11. 2026年5月28日

    ドジャース 大谷翔平 9号ソロホームラン 二刀流で先発出場

    ドジャースの大谷翔平が9号ソロホームランを放ち、二刀流での先発出場を果たしました。メジャーリーグでは投打両立が長く非効率とみなされてきましたが、大谷の活躍はこの常識を覆す現代的な戦略として機能しています。先発投手の週1登板という従来の枠組みを超え、投手と打者の稼働を組み合わせることで、スター選手の総価値を最大化する試みとして注目されています。一方で、投手と打者の両方の負荷に耐える持続可能性が課題となります。

    NHK

  12. 2026年5月29日

    Amazon Bedrock AgentCoreのデータセット管理でエージェントとともに成長するテストスイートを構築

    エージェント評価は、急速に変化するオンラインシグナルと安定したオフラインベースラインを組み合わせることで最も強力になります。エージェントが時間とともに本当に改善されているかどうかを理解するには、固定ベンチマークが必要です。

    AWS Machine Learning Blog

  13. 2026年5月29日

    過去最大309万人減 総人口1億2304万人―国勢調査

    2024年の国勢調査で日本の総人口が1億2304万人となり、過去最大の309万人減少したことが明らかになりました。この落ち込みは単なる数字の減少ではなく、戦後の人口増加時代が終わり、経済基盤の再編が進んでいることを示唆しています。首都圏への一極集中により地方経済が空洞化し、若年層の流出が加速する一方で、年金や医療・介護といった社会保障制度の持続可能性が深刻な課題となっています。消費市場の縮小や地方の不動産価値下落も相まって、日本経済は構造的な危機への対応が急務となっています。

    時事通信

  14. 2026年5月29日

    超低インパクト・カプセル化ロギング(URIEL):飛行ロボティクスシステムを使用した熱帯林の選別的持続可能ロギングおよび伐採後保育施業処理の新手法提案

    世界中の熱帯林は経済的および政治的利益に駆動される激しい森林破壊の圧力下にあり、科学的証拠はこの森林破壊が気候変動に寄与していることを示唆しています。本論文は熱帯林向けの新規ロギング手法、超低インパクト・カプセル化ロギング(URIEL)を提案します...

    arXiv cs.AI

  15. 2026年5月29日

    GTA:スケーラブルなWebエージェント用ロングホライズンタスク生成

    arXiv:2605.29218v1 文書の発表。言語モデルをブラウジングおよびツール使用機能と組み合わせたWebエージェントは、オープンなWebアシスタントとしての可能性を示していますが、スケーラブルなプロセスレベルの監督の不足により進展が制限されています。既存のベンチマークは主に手動で構築されており、粗い開始ゴール注釈のみを提供しています。

    arXiv cs.AI

  16. 2026年5月29日

    ReverseMath: 数学問題生成の拡張可能性と検証可能性を実現する逆向き回答手法

    数学推論ベンチマークはLLMの評価に不可欠だが、多くは静的で公開評価やトレーニングパイプラインを通じて繰り返し露出しており、真の推論と暗記を区別することが困難である。一方、新しい数学問題の手動構築は...

    arXiv cs.CL

  17. 2026年5月29日

    BEAMS: AI モデリング・シミュレーション評価ベンチマーク

    実世界の意思決定を支援するAIツールは、推奨事項を知らせ解釈可能にするシミュレーションモデルを構築できる必要があります。モデリング実務の側面を自動化できるツールは、人間の専門知識を補完する必要があり、置き換えるべきではありません。BEAMS Initiativeは、開発を指導することを目的としています。

    arXiv cs.AI

  18. 2026年5月29日

    FormInv: 数学推論ベンチマークにおけるセマンティック不変性の測定プロトコル

    MathCheck(ICLR 2025)のパラフレーズ品質監査により、129グループ中4つのセマンティック的に不正確なパラフレーズ(3.1%)が検出されました。これらを削除するとGPT-4oはランク2からランク4に低下し、Claude HaikuとDeepSeek V3がそれを上回ります。これらのランク変動は単一モデル評価では見えません。

    arXiv cs.LG

  19. 2026年5月29日

    BenchTrace:LLMエージェントの反省能力と制御された進化をテストするベンチマーク

    arXiv:2605.29225v1 文書の発表。自己進化型エージェントは過去の失敗を反省することで時間とともに改善されますが、既存の評価には2つの制限があります。タスクスコアのみを測定して反省の質は不明であり、エージェント自身のエピソード実行に依存して特定の失敗パターンに対応するメカニズムがありません。本論文では新しいアプローチを提示しています。

    arXiv cs.AI

  20. 2026年5月29日

    6月から全3回開催。舞鶴市が公民館の未来を描く市民対話を募集

    舞鶴市は、施設の老朽化や人口減少が進むなかで魅力的かつ持続可能な公民館運営を実現するため、市民から求められる役割やニーズを議論する「公民館の未来を考えるワークショップ」(全3回)を令和8年6月20日(土...

    PR TIMES

  21. 2026年5月29日

    検出可能効果の事前登録:4ビット量子化ベンチマーク用ペアリングMDEバジェット、パイロット監査付き

    これはペアリングなしパイロット監査を伴う計画方法に関する注記である。古典的なペアリング二項サンプルサイズ計算(Miettinen, 1968)を量子化ベンチマークに適応させ、ペアリングされた最小検出可能効果(MDE)の保守的な下限を提供している。

    arXiv cs.LG

  22. 2026年5月29日

    チェーンが保たれる、答えが折れる:敵対的圧力下での推論モデルの軌跡と答えの乖離

    推論モデルはシングルターンベンチマークで評価されているが、ユーザーが正解に異議を唱えるマルチターン対話環境に配備されている。継続的な敵対的圧力下では、これまで文書化されていない障害モードが見つかった:思考の連鎖は最初のターンから最後まで事実上正確であるが、回答は変わる。

    arXiv cs.AI

  23. 2026年5月29日

    多言語LLMタスク実行における言語役割の分離

    多言語LLMは、指示、ソースコンテンツ、および必要な応答言語が一致しない場合にますます使用されています。既存のベンチマークは多言語命令追従評価を拡張していますが、完全にクロスされた設計内でこれら3つの役割を分離することはめったにありません。MTM-Benchを導入します。

    arXiv cs.CL

  24. 2026年5月30日

    複雑化する社会課題に挑む起業家を募集。社会起業塾イニシアティブ 2026年度募集開始

    2030年のSDGs達成目標まで残り5年となり、社会課題解決は、理念を掲げる段階から、現場で実装し、持続可能な事業として前進させる段階へと移っています。人口減少や担い手不足が進む地域、孤独・孤立やつながりの...

    PR TIMES

  25. 2026年5月30日

    GS Plus 第4弾「GS Plus 日本株式(TOPIXアルファ)」新登場!

    ゴールドマン・サックスが新たな日本株投資商品「GS Plus 日本株式(TOPIXアルファ)」を発表した。この商品は、TOPIXの構成銘柄から割安性や成長性などの指標で優良企業を厳選し、指数を上回るリターンを目指すもの。日本株が長期停滞する中、機関投資家のニーズが従来のベンチマーク運用からアルファ追求型へシフトしており、データ科学や機械学習を活用した新しい運用戦略が業界で広がっている。

    PR TIMES

  26. 2026年5月30日

    創業140年のい草屋が提案する、“懐かしくて、新しい”夏の暮らし。希少な国産い草商品が集結する期間限定催事を岩田屋本店 新館にて開催。

    創業140年の老舗い草企業が、岩田屋本店で国産い草商品の期間限定催事を開催します。タイトルの「懐かしくて、新しい」というコンセプトは、天然素材の持続可能性と調湿・防臭などの機能性、そしてモダンなデザインを組み合わせた再価値化を狙ったものです。畳の使用率低下と輸入品との価格競争という構造的課題を抱えるい草業界において、高級百貨店という流通チャネルを選択することで、高付加価値市場へのシフトを目指しています。伝統産業の多くは新しい使用シーン提案によって需要層を広げていますが、原料産地の高齢化と後継者不足という課題も同時に解決することが、業界全体の持続可能性につながります。

    PR TIMES

  27. 2026年6月1日

    CanLegalRAGBench:カナダ判例法に対する検索拡張生成の評価

    RAGベースの法律アシスタントの人気が高まっているが、LLMの幻覚問題は依然として重要な課題であり、正義に�悪影響を及ぼす可能性がある。ベンチマークは開発されているが、多くは合成クエリに依存しており、現実的な法律シナリオではない。さらに、カナダ法は未だ十分に評価されていない。

    arXiv cs.CL

  28. 2026年6月1日

    EHRBench: LLMを用いた臨床意思決定のための自動化された信頼性の高いEHRベースベンチマーク

    臨床意思決定(CDM)は現実の臨床業務の中心であり、臨床医は不完全な証拠の下で診断を推測し、治療を選択し、将来の健康転帰を予測する。LLMは強い言語能力と広範なバイオメディカル知識により、これらの決定をサポートするために次第に使用されている。

    arXiv cs.AI

  29. 2026年6月1日

    GraphARC: グラフベース抽象推論の包括的ベンチマーク

    知能の中核をなす関係推論が存在するが、既存ベンチマークは通常グリッドやテキストなどの形式に限定されている。グラフ構造データに対する抽象推論のベンチマークGraphARCを紹介し、Abstract Resoning Corpus(ARC)の少数ショット変換学習パラダイムを一般化する。

    arXiv cs.AI

  30. 2026年6月1日

    BilliardPhys-Bench: マルチモーダルLLMの物理推論と視覚ダイナミクスのベンチマーク

    現在のマルチモーダルモデルは静止画像認識は得意ですが、直感的な物理推論はまだ弱点です。単一の画像からオブジェクトがどのように移動し相互作用するかを予測することは、これらのシステムにとって依然として困難です。物理推論用のベンチマークBilliardPhys-Benchを提示します。

    arXiv cs.AI