「A19 Pro」の性能は「M2」相当? 「iPhone 17 Pro」のベンチマーク結果で判明
米Appleが9月10日に発表した、新型iPhone「iPhone 17」「iPhone 17 Pro」「iPhone 17 Pro Max」「iPhone Air」について、ベンチマーク「Geekbench 6」で計測した結果が投稿されている。(2025/9/11)
AIニュースピックアップ:
ハルシネーションはなぜ起きるのか OpenAIの研究が示す「正答率信仰の罠」
OpenAIは大規模言語モデルにおける「幻覚」(ハルシネーション)問題について、学習構造と評価方法に起因することを明らかにした。推測を優先する評価体系が誤答を助長し、正答率のみを重視する現行のベンチマークでは信頼性が損なわれると指摘している。(2025/9/10)
第2回「製造業ベンチマークWG」:
排出量取引制度、「鉄鋼・セメント製造業」の排出枠割当に向けたベンチマーク案
2026年度から始まる排出量制度。経済産業省の「製造業ベンチマークワーキンググループ」の第2回会合では鉄鋼業及びセメント製造業について、排出枠の割り当ての基準となるベンチマーク案が示された。(2025/9/10)
AIニュースピックアップ:
GENIAC発の基盤AIモデル「SG4D10B」が創薬ベンチマークで首位獲得 製薬の効率化へ貢献
NEDOとSyntheticGestaltが開発した「SG4D10B」は、4D技術と100億件の化合物データを活用し創薬ベンチマークで世界首位を獲得。小型版公開や企業連携を進め、国際展開と次世代モデル開発で幅広い分野の研究効率化に寄与する。(2025/8/29)
約919g、12.4型でアスペクト比3:2の「Let's note SC」はモバイルの最適解か? 試して分かった強みと弱点
パナソニック コネクトの「Let's note SC」シリーズは、最小最軽量モデルながら、アスペクト比が3:2のディスプレイによって視認性を確保することで、コンパクトボディーによる実用上の制約は感じにくい。ベンチマークテストで実力を検証してみた。(2025/8/21)
第2回「排出量取引制度小委員会」:
排出量取引制度の「排出枠」 ベンチマーク方式による割当量算定の詳細
2026年度からの開始が予定されている排出量取引制度。その制度設計を検討する「排出量取引制度小委員会」の第2回会合では、ベンチマークやグランドファザリングにおける基準活動量・排出量の考え方、具体的な算定方法の詳細などが議論された。(2025/8/19)
CIO Dive:
AXAなど保険5社がAI導入で高い評価 “筋の良い”AI投資の極意
Evidentによると、テクノロジーの拡張に向けてツールや人材に多額の投資を行っている保険業界において、AXAなど5社がその動向を示すベンチマークとなる存在だという。(2025/8/8)
第1回「製造業ベンチマークWG」:
2026年度開始の排出量取引制度 「排出枠」算定に業種別ベンチマークを活用へ
2026年度から始まる排出量取引制度。対象事業者に対する「排出枠」の割当方法の検討に向けて、政府は「製造業ベンチマークワーキンググループ(WG)」を新設。製造業におけるベンチマークの適用対象の特定と、割当量の算定式の具体化に向けた検討を開始した。(2025/7/31)
医療機器ニュース:
日本語版の医療特化LLM基盤を開発、医師国家試験ベンチマークで最高性能
ELYZAは、日本語版の医療LLM基盤「ELYZA-LLM-Med」シリーズを開発した。汎用モデルは国内最高性能、現場の医療タスクではグローバルトップ水準を超える精度を達成している。(2025/7/31)
MicrosoftのAI、医療診断精度で人間の医師を超える可能性
Microsoftは、開発中のAI「MAI-DxO」が医療診断の精度で人間の医師を大幅に上回ったと発表した。新しいベンチマークによる評価では、AIの診断精度が80%に達し、経験豊富な医師の20%を大きく超えた。診断コストの削減効果も示された。(2025/7/1)
ゲーミングノートPC ナビ:
“5070 Laptop”を搭載した「ROG Zephyrus G16(2025)」を試す “5070 Ti Laptop”との差は?
今回取り上げるのは「GeForce RTX 5070 Laptop GPU」を搭載したモデルで、直販価格は43万9800円となっている。以前レビューしたGeforce RTX 5070 Ti Laptop GPU搭載の「ROG Zephyrus G14(2025)」と各種ベンチマークテストのスコアを比較しながら、GeForce RTX 5070 Laptop GPUの性能をチェックしていきたい。(2025/6/27)
LLMベンチマークの全体像を知る【中編】
LLMの“実力”はどう測る? 知っておくべき主要ベンチマーク7選
LLMの性能を評価したい場合、どのベンチマークを使えばいいのか。ベンチマークごとに得意分野はあるのか。LLM選定の鍵となる、主要なベンチマークとその特徴を紹介する。(2025/6/27)
LLMベンチマークの全体像を知る【前編】
LLM、どれを使えばいいの? 性能を評価するための「ベンチマーク」とは
自分が使っているLLMの性能はどの程度なのか。そもそもLLMの性能を評価するにはどうすればよいのか。そうした疑問を解消する、LLMの「ベンチマーク」や実施方法を紹介する。(2025/6/13)
人工知能ニュース:
リコーが図表も読み取るマルチモーダル大規模言語モデル、「日本の文書は難しい」
リコーは図表を含む文書の読み取りに対応したLMMの基本モデルの開発を完了した。日本語の質問応答データセット「JDocQA」や独自開発のベンチマークツールによる検証の結果、他のモデルと比較しても優れた性能を示すことを確認したという。(2025/6/11)
Arm CPU10コア、GPU16コア搭載:
Xiaomiが独自開発の3nmチップを正式発表、トランジスタ190億個を集積
Xiaomiが、独自開発のスマートフォン向け3nmプロセス採用SoCを正式に発表した。最先端の第2世代3nmプロセスを採用し、最大動作周波数3.9GHzのArm Cortex-X925コア2つを含む10コアのCPUおよび16コアのArm Immortalis-G925 GPUなどを搭載。スマートフォンの性能を数値化する「AnTuTuベンチマーク」で300万スコアを達成しているという。(2025/5/23)
「Gemini 2.0 Flash Thinking」から大幅に進化したリーズニングモデル:
Google、「最もインテリジェントなAIモデル」をうたう「Gemini 2.5」を発表 試験運用版モデルを提供開始
Googleは、複雑な問題に取り組むためのリーズニングモデル「Gemini 2.5」を発表した。最初のリリースとなる「Gemini 2.5 Pro Experimental」は、一般的なさまざまなベンチマークで最先端の性能を示しており、特にリーズニング能力とコーディング能力に優れているという。(2025/3/28)
「JetBrains AI Assistant」がマルチモデルに対応:
JetBrainsがOpenAI、Google、Anthropicの11モデルをベンチマーク比較 速度や知能別で優れたモデルを紹介
JetBrainsは、「JetBrains AI Assistant」がマルチモデルに対応し、開発者がタスクに応じて最適な大規模言語モデルを選択できるようになったことを受け、OpenAI、Google、Anthropicの主要モデルのベンチマーク比較結果を公式ブログで紹介した。(2025/3/27)
製造ITニュース:
パナソニックHDと統計数理研、材料から結晶構造を予測する機械学習モデルを開発
パナソニック ホールディングスと統計数理研究所は、材料の組成からその結晶構造を高速で高精度に予測するMLアルゴリズム「ShotgunCSP」を開発した。結晶構造予測のベンチマークにおいて世界最高性能を達成したという。(2025/3/21)
「こんなハズでは……」 理論性能は良いのにベンチマークスコアが奮わない? 「モンスターハンターワイルズ」にピッタリなGPUの選び方
まもなく発売される「モンスターハンターワイルズ」のPC版ベンチマークテストにおいて、「性能が良い」とされるGPUでスコアが奮わないという現象が見受けられる。その理由を考察しつつ(2025/2/18)
“オールIntel”なPCはいかが? ドライバが成熟した「Arc A750」は、AAAタイトルをWQHDで快適にプレイできて2万円台も狙える高コスパGPU
ドライバがある程度成熟した今、Intel Arc A750はどの程度のパフォーマンスを発揮するのか筆者としても非常に気になるので、ベンチマークテストを通して実力をチェックしてみた。(2025/2/12)
約5.8万円のAndroidタブレット「LAVIE Tab T11」を試す 安価なタブレットとの違いは?
製品紹介を踏まえつつ、ベンチマークテストやゲームプレイでその実力をチェックしていこう。(2025/2/11)
カプコンが「モンスターハンターワイルズ ベンチマーク」を公開 Steam Store経由でダウンロード可能
2月28日の発売に先駆けて、カプコンがWindows版「モンスターハンターワイルズ」のベンチマークテストアプリを公開した。ゲーム本編と同様にSteam Storeを通した配信となっており、ダウンロードするにはSteamアカウントとSteamアプリが必要となる。(2025/2/5)
「モンハンワイルズ」ぬるぬる動く? Steam版のベンチマークソフト登場
カプコンは5日、「モンスターハンターワイルズ」発売を前に、PCの性能を測定できるベンチマークソフトをSteamで公開した。(2025/2/5)
3Dプリンタニュース:
SOLIZE、スーパーエンプラ対応3Dプリンタの販売/導入支援を開始
SOLIZEは、スーパーエンプラ対応3Dプリンタ「ARGO 500 HYPERSPEED」の販売、装置導入サポートを開始した。同社の豊田工場にも導入し、検証や製作支援、装置検討用ベンチマークを受け付ける。(2025/1/30)
友人や同僚にすすめたいネット証券、1位は「SBI証券」 高い顧客満足度を誇る要因は?
NTTコム オンライン・マーケティング・ソリューション(東京都品川区)がNPSベンチマーク調査2024ネット証券部門を実施した。(2025/1/25)
Intel×AMD×Qualcomm! 3プラットフォームの14型AI PC(Copilot+ PC)を検証 バッテリーの持ちが良くて静かなモデルはこれだ
日本HPのAI PC3モデル(Intel/AMD/Qualcomm)を用意し、ベンチマークテストでそれぞれの得手不得手をチェックした。(2025/1/5)
Intel×AMD×Qualcomm対決! 3プラットフォームの14型AI PC(Copilot+ PC)をテスト 比べて分かった違い
日本HPのAI PC3モデル(Intel/AMD/Qualcomm)を用意し、ベンチマークテストでそれぞれの得手不得手をチェックした。(2024/12/27)
Google DeepMindがLLMの「事実性」と「根拠」を評価するベンチマークツールを公開
Google DeepMindが大規模言語モデル(LLM)の「事実性」と「根拠」を評価する新たなベンチマークを公開した。AAI開発コミュニティーにツールの活用と評価を呼び掛けている。(2024/12/26)
「Core Ultra 200Sプロセッサ」のパフォーマンスが安定しない? Intelが原因と対策を公表
Core Ultra 200Sのベンチマークテスト結果にばらつきがある――そのことを受けて、Intelがその対応策を公表した。CES 2025でも追加の対策が発表されるという。(2024/12/20)
米Google、動画生成AI「Veo 2」発表 最大4Kの解像度に対応 性能評価は米OpenAIの「Sora」超え
米Googleは、動画生成AI「Veo 2」を発表した。最大4Kの解像度で数分尺の動画を作成できる。米Metaのベンチマーク「MovieGenBench」で他の動画生成AIと性能を比べたところ、米OpenAIの動画生成AI「Sora Turbo」などよりも高い性能を記録したとしている。(2024/12/17)
モビリティサービス:
顧客のロイヤリティーが高い自動車ブランドの特徴は? 4700人が回答
NTTコム オンライン・マーケティング・ソリューションは友人や同僚に薦めたい自動車を調べた「NPSベンチマーク調査2024自動車部門」の調査結果を発表した。(2024/12/11)
プレビューリリース段階で幾つかの課題も?:
Alibaba Cloud、推論能力に焦点を当てたAIモデル「QwQ-32B-Preview」を発表 4つのベンチマークを公開
Alibaba CloudのQwenチームは、推論能力の向上に焦点を当てた実験的AIモデル「QwQ-32B-Preview」を発表した。(2024/12/3)
中国Alibaba、論理的推論重視のAIモデル「QwQ-32B-Preview」リリース
中国Alibabaは、論理的推論と問題解決能力に重点を置いたAIモデル「QwQ-32B-Preview」をリリースした。一部のベンチマークテストではOpenAIのハイエンドモデルを上回るとしている。デモはHugging Faceにある。(2024/11/29)
製造マネジメントニュース:
企業の調達、購買組織を多角的な視点で評価する診断サービス提供
クニエは、企業の調達、購買組織を多角的な視点で評価、数値化し、他社ベンチマークと比較した上で改善すべき課題を明確にする「ダイナミックSCM 調達診断サービス」を提供する。(2024/11/26)
小さなボディーに秘めたるパワー! 「AYANEO POCKET MICRO」で遊び倒す モデルによって違いはある?
今回は海外のクラウドファンディングで購入した製品版が届いたので、ベンチマークテストや実際のゲームプレイでの使い心地などを紹介していきたい。(2024/11/8)
ベンチマークで他の主要オープンウェイトモデルをどれぐらい上回ったのか?:
Cohereの研究部門が高性能多言語モデル「Aya Expanse」を発表 日本語含む23言語で利用可能
Cohereの研究部門は高性能な多言語モデルファミリー「Aya Expanse」を発表した。23の言語にわたって優れた性能を発揮し、ベンチマークで他の主要なオープンウェイト(重み)モデルを上回っている。(2024/10/29)
3Dプリンタニュース:
3Dプリンタと造形品質を向上させるオプション機能の販売/導入サポートを開始
SOLIZEは、日本HPの3Dプリンタ「HP Jet Fusion 5620」と、造形品質を向上させるオプション機能「Process Developmentパッケージ」の販売と装置導入サポートを開始した。装置検討用ベンチマークの受け付けも開始する。(2024/10/29)
Anthropic、「Claude 3.5 Sonnet」更新と「Claude Haiku 3.5」リリースを発表
Anthropicは、「Claude 3.5 Sonnet」の更新と「Claude Haiku 3.5」のリリースを発表した。いずれも各種能力が向上した。Haikuは先代と同等の速度を維持しつつ、「あらゆるスキルセットで」改善され、「Claude 3 Opus」を多くのベンチマークで超えた。(2024/10/23)
75のKaggleコンペティションのタスクで構成:
OpenAI、AIエージェントのパフォーマンス測定ベンチマーク「MLE-bench」を発表 AIの性能をどう測定?
OpenAIは、機械学習エンジニアリングにおけるAIエージェントのパフォーマンスを測定するベンチマーク「MLE-bench」を論文で発表した。(2024/10/17)
「iPhone 16」「Pixel 9」シリーズどちらを選ぶ? お得に買えるのは? スペックを比較してみた
「iPhone 16」シリーズと「Pixel 9」シリーズのスペックを比較する。ディスプレイはiPhone 16/16 Plusがピーク輝度2000ニトなのに対し、Pixel 9は2700ニト(ピーク輝度)。プロセッサの性能はベンチマークスコアを見る限り、iPhone 16シリーズの方が高い。(2024/10/8)
今PCを買うなら「AI PC」にしようと決めた理由 【実用レビュー 最終回】やっぱり最新モデルだとベンチマークテストで実感
日本HPから発売された「AI PC」の「Envy X360 Laptop 14-fc(インテル)」。個人向けノートPCの最上位モデルにあたる本機を試して分かったことをまとめた本連載。最終回の今回は、性能面を中心に見ていこう。(2024/9/20)
UL Solutions、AIベンチマーク「Procyon AI」でNPUの性能測定が可能に
UL Solutionsは、同社提供のAIベンチマークソフト「Procyon AI Image Generation」にNPU性能測定機能を実装した。(2024/9/9)
「MLPerf」の最新スコアを公開:
推論性能でNVIDIAに挑む AIチップは「省エネ」が競争の軸に
推論ベンチマーク「MLPerf」の最新ラウンドのスコアが公開された。その結果からは、AI用プロセッサの新たな競争の軸が、性能そのものよりも「電力効率」に移りつつあることが読み取れる。(2024/9/2)
あなたは5万円切りの15.6型ノートPC「TENKU Comfortbook 15」をどう使う? 実力を検証してみた
Celeron N5100を搭載したエントリーノートPCがTENKUのオリジナルブランドから登場した。現在では少々スペック的に値段がお高めかも。実力を各種ベンチマークでも検証してみた。(2024/8/19)
今後は半導体工場で実証へ:
分類精度を高める「教師なし画像分類AI」、東芝が開発
東芝は、製造現場などにおいて製品の不良や欠陥を高い精度で分類できる「教師なし画像分類AI」を開発した。これを用いることで、ベンチマーク画像に対する分類精度が、これまでの27.6%から83.0%へ大幅に向上することを確認した。(2024/5/9)
イーロン・マスク氏のLLM「Grok」、1.5更新で画像認識可能に
イーロン・マスク氏のAI企業xAIは、独自のLLM「Grok」の「1.5V」版を発表した。画像認識のマルチモーダルになった。画像認識のベンチマークで「GPT-4V」、「Claude 3 Opus」、「Gemini Pro 1.5」を上回ったとしている。(2024/4/14)
設計開発環境:
PR:CAEベンチマークで最大70%の速度向上 最新ワークステーションの実力とは
AMD Ryzen Threadripper PRO 7000 WXシリーズ プロセッサを搭載した日本HPの最新ワークステーション「HP Z6 G5 A」は、CAEツールのベンチマークにおいて最大で約70%のスループット向上を確認したという。その実力に迫った。(2024/4/16)
週末の「気になるニュース」一気読み!:
Intelのファウンドリ事業が2023年に1兆円を超す営業損失を計上/総合ベンチマークソフト「CrystalMark Retro」公開 「水晶碧」版も
うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、3月31日週を中心に公開された主なニュースを一気にチェックしましょう!(2024/4/7)
80年代レトロファミコン風のミニPC「AYANEO Retro Mini PC AM02」の実力をチェックする
80年代に米国で販売されたファミコン「NES」。それをオマージュしたデザインのデスクトップPCが「AYANEO Retro Mini PC AM02」だ。カッコカワイイ見た目だが、果たして実用性はどうなのだろうか。仕事で使ってみた印象とベンチマークテストの結果を紹介する。(2024/4/3)
Apple、Google、Microsoft、MozillaがWebブラウザベンチ「Speedo 3.0」リリース
Apple、Google、Microsoft、Mozillaは、共同開発したWebベンチマークツール「Speedometer 3.0」のリリースを発表した。主要ブラウザエンジンBlink、Gecko、WebKitを搭載するWebブラウザのテストが可能だ。(2024/3/13)
にわかに地球規模のトピックとなった新型コロナウイルス。健康被害も心配だが、全国規模での臨時休校、マスクやトイレットペーパーの品薄など市民の日常生活への影響も大きくなっている。これに対し企業からの支援策の発表も相次いでいるが、特に今回は子供向けのコンテンツの無料提供の動きが顕著なようだ。一方産業面では、観光や小売、飲食業等が特に大きな影響を受けている。通常の企業運営においても面会や通勤の場がリスク視され、サーモグラフィやWeb会議ツールの活用、テレワークの実現などテクノロジーによるリスク回避策への注目が高まっている。