
画像: Pexels
MacArena: オンラインmacOS環境でのコンピュータ利用エージェントのベンチマーク
ニュース概要
コンピュータ利用エージェント(CUA)はビジョンと制御プリミティブを通じてグラフィカルユーザーインターフェース(GUI)を操作し、OSWorldなどの標準化されたオンライン評価ベンチマークにより能力が急速に進歩している。しかしmacOSは十分にカバーされておらず、既存の唯一のベンチマークmacOSWorldはApple Silicon互換性のないx86仮想マシンで動作する。本研究ではMacArenaを紹介し、50のアプリケーションにまたがる421の手動検証済みタスクからなるベンチマークで、OSWorldのキュレーション済みポート、macOSWorldのコンテンツ、および49の新しいmacOS固有タスクを組み合わせ、Apple Silicon上でAppleのネイティブ仮想化フレームワークで実行される。macOSはLinuxベースのベンチマークでは捉えられない独特のGUIチャレンジを提示し、評価結果から既存ベンチマークでの高いモデル性能は真のクロスプラットフォームGUI能力というより、タスク分布への馴染みを反映していることが示される。
ニュースタイムライン
2026年6月4日
「くらしまるごと AI エージェント」の開発を進めるヤマダHD、AI利用方針を策定(ネットショップ担当者フォーラム)Yahoo!ニュース IT
2026年6月5日
『会社四季報』&『プロ500』夏号厳選!有望テーマ株 「絶好調」「AI・半導体」「宇宙」「原発再稼働」「株主提案」… | ビジネス | 東洋経済オンライン東洋経済オンライン
2026年6月5日
IPO準備中のアンソロピックが「チャットGPT」のオープンAIを抜き去ったワケ マスクのスペースXも後を追うが… | 政治・経済・投資 | 東洋経済オンライン東洋経済オンライン
2026年6月8日
長時間タスク対応ウェブエージェントのためのシグナル駆動型観察arXiv cs.CL
2026年6月8日
エージェントAI制御評価における攻撃選択は安全性を大幅に低下させるarXiv cs.AI
2026年6月8日
Lean4Agent: エージェントワークフロー及び軌跡の形式的モデリングと検証arXiv cs.AI
2026年6月8日
CAF-Gen:議論構造を充実させるためのマルチエージェントシステムarXiv cs.CL
2026年6月8日
マイク不要でAmazon Nova Sonicの音声エージェントを大規模に評価するAWS Machine Learning Blog
2026年6月8日
NotebookLMのGemini 3.5アップグレード、クラウドコンピュータと情報源検索機能を追加The Verge AI
2026年6月8日
ノートパソコンを閉じても安心:Amazon Bedrock AgentCoreでコーディングエージェントをホストAWS Machine Learning Blog
記事AI質問チャット
PREMIUMこの記事についてAIが質問に答えます。背景・要約・影響まで深堀り。
ログインして利用🛡️ 読者ファクトチェック0
読者が投稿し、管理者承認後に表示される事実確認情報
まだ承認済みのファクトチェックはありません。
関連記事
こんな記事も読まれています
コメント (0)
まだコメントはありません。最初のコメントを書いてみましょう。
この記事について疑問がありますか?
事実誤認や不適切な内容について通報できます (要ログイン)。
異議申し立て・通報








