百冊030:The NVIDIA WAY

テイ・キム著 「The NVIDIA Way エヌビディアの流儀」2025年2月16日出版

NVIDIA社は、1993年4月5日に半導体チップを設計する会社として設立された。
2025年現在、設立から32年が経過した今、ここまで強くなるとは誰も予測していなかったでしょう。

NVIDIA社のGPUとは

なぜビデオカードのメーカーが、ディープラーニング、AIの先頭を走る会社になったのか。
現在、NVIDIA社が製造するH200 NVLというGPUは、AI、HPC(ハイパフォーマンス・コンピューティング)、データ解析などに使われています。NVIDIA社データセンター部門(GPU売上を含む)の2024年売上高は、391億ドルとなっています。
NVIDIA社のGPUの用途は、スーパーコンピュータと重なっており、スーパーコンピュータとGPUを結合する構成も多くなっています。

スーパーコンピュータとGPUクラウドを比較してみる

ここで、和製スーパーコンピュータ「富岳」とNVIDIA H200で構成したGMOインターネットのGPUクラウドのシステム概要を比較してみました。

項目富岳
(理研・富士通)
GPUクラウド
(GMOインターネット)
開発費(初期投資)約$1 B(約1300億円)


2014年開発開始、2021年稼働
44億円+構築費
(NVIDIA H200 768GPU 96Node) 1GPU 555万で換算
2024年4月開始,2024年11月稼働
設備インフラ大規模データセンター・冷却・専任要員が必要既存のデータセンターに設置
年間運用コスト約150億円(公表)10億円以下(推定)
柔軟性固定資産、拡張性に制約必要時にオンデマンドでスケール可
資源の専有性すべて専用他ユーザーと共有(ただし隔離あり)

富岳とGPUクラウドの違いは、以下のとおりです。

  • 開発費:富岳1300億円、GPUクラウド100億円以下と予測。富岳でGPUクラウドが13個できます。
  • 開発期間:富岳は7年、GPUクラウドは、7か月。(データセンター運用実績があるため)
  • 運用費:富岳は150億円。GPUクラウドは、不明ですが同じ計算量で1/4と推定すると40億円以下。
  • 運用の柔軟性:富岳の実態は見えてきませんが、GPUクラウドは自由度が高いと推定できます。

この比較だけを見ると、富岳の良いところは見えてきません。

次に、富岳とGPUクラウドのSPECを、比較してみましょう。

項目富岳GMO GPUクラウド
アーキテクチャFujitsu A64FX × 158,976 ノード(ARM SVE)NVIDIA H200 GPU(Spectrum-X ネットワーク)
768GPU(96ノード)
浮動小数点性能FP64:442 PFLOPS
混合精度:2.0 EFLOPS
LINPACK FP64:38 PFLOPS
AI用途に特化した性能は非公開だが高い効率を実現
(FP8学習用、FP4推論用)
ノード構成スーパーコンピュータ一括利用(単一巨大システム)柔軟にノード数・GPU数の構成が可能
ネットワークTofu Interconnect D(専用高性能)NVIDIA Spectrum-X イーサネット + BlueField-3 DPU
ストレージ階層化ストレージ(NVMe SSD/Lustre/クラウド)150 PB以上DDN 社製超高速ストレージ+共用ストレージ(3万円/TiB·月)
消費電力
電力効率
29,899.23 kW(性能測定時)
約14.67 GFLOPS/W
186.78 kW(256 NVIDIA H200)
約53.8 GFlop/W
性能ランキング「TOP500」世界7位
「HPCG」世界2位
「Green500」世界104位
(2025年6月時点)
「TOP500」世界141位
「Green500」世界34位
(2025年6月時点)

富岳とGPUクラウドのSPECの違いは、以下のとおりです。

  • TOP500 FP64(倍精度浮動小数点数)演算性能で、富岳は世界7位です。
    これは、GPUクラウドの約12倍の性能です。
  • HPCG アプリケーション性能で、富岳は世界2位です。
  • Green500 電力効率では、富岳は世界104位、GPUクラウドは世界34位です。
    GPUクラウドは、約53.8 GFlop/Wですから、富岳の約4倍の電力効率で、消費電力は富岳の1/4になります。

性能を比較すると富岳の圧勝ですが、電力効率が悪いのは問題です。

GPUクラウドの場合増設すれば演算能力はスケーラブルに上がるので、
96ノード×12=1152ノードにすれば、理論的には同じ性能にできます。
その場合、開発期間2年、構築費用1000億円、運用費用40億程度で可能かもしれません。
しかもクラスター構成で柔軟な運用が可能となれば、富岳のメリットはあまりないかもしれません。

そもそも、富岳の「158,976 ノード」がとんでもない数です。
2009年11月13日の言葉「2位じゃだめなんですか」を思い出しました。
お金をかければ、「158,976 ノード」作れます。お金をかける価値があったのでしょうか。

富岳NEXTにNVIDIA社が参画

まだ、スーパーコンピュータの開発は続くようです。
2025年8月22日に理研が発表した内容では、「富岳NEXT」が2030年頃の稼働を目指すとしています。
NVIDIAと理研・富士通の共同開発は、うまくいくのでしょうか。心配です。

伽藍とバザール

富岳とGPUクラウドの比較を通じて頭に浮かんだ言葉は、「伽藍とバザール」でした。

  • 伽藍 = ウォーターフォール かつ 中央集権
  • バザール = アジャイル かつ 自己組織化

NVIDIA社のビデオカードは、3Dに対応するだけでなく、物理演算やディープラーニングなどの技術に対応するために、様々な機能が追加されてきました。ディープラーニング技術を利用して、気象予測や創薬などのシミュレーションにも使われようとしています。(バザールな開発

気象予測や創薬といえば、スーパーコンピュータの領域だと思っていましたが、GPUクラウドサービスと比較検討する時代になっていました。富岳は、理研と富士通が共同開発。2014年から開発し、2021年稼働まで、7年かかっています。その間、世界はディープラーニングが注目され、2022年11月にChatGPTのリリースで生成AIの時代になりました。FPT64からFPT8/FPT4や行列演算、そして省電力化が注目されるようになりました。富岳の開発に7年かけ、完成時には仕様が陳腐化していました。(伽藍な開発

もちろん、NVIDIA社は2025年会計年度の売上高約609億ドル(約9.5兆円)、利益297億ドルの会社の人やお金のかけ方と富岳の7年で1300億円でできることを、比較する必要はないかもしれません。

しかし、開発体制を伽藍からバザールに変えていく必要はあると思います。5年かけて設計構築し、10年使うというスーパーコンピュータは、間違いなく時代遅れな考え方です。

私が考える日本の開発計画

富岳NEXTは、今目指すべき方向ではないし、2030年に完成した時には既に陳腐化したものとなるでしょう。

私が考える案は、ハードウェアの開発と生成AIやディープラーニングによるソフトウェアの開発を分けて行うという計画です。

  • 電力効率の高いハードウェア・アーキテクチャの開発
    現在「TOP500」世界1位のEL CAPITANは、「GREEN500」25位です。
    電力効率は、58.889GFlop/Wで、GPUクラウドを超えています。
    例えば、電力効率100GFlop/Wを可能とするアーキテクチャを目標する。
    さらにスケーラブルで、柔軟なノード構成を実現する。
    実際に稼働するときは、最小構成で構築し、必要に応じて増設する。
    こうすれば、構築費用も最適化できる。
  • NVIDIA社のGPUで構築する国有データセンターの構築
    気象予測、創薬、デジタルツインなど、既にあるビッグデータを学習させて有効活用ができる見込みがある事例に、ローコストで使用させる。アプリケーションの開発を加速させるには、5年後にできるハードウェアを待つ必要はありません。

国家プロジェクトであっても、毎年見直しを行って、方向を修正できる体制・内容にする。つまり、伽藍からバザールに変えるということです。

NVIDIAの流儀

本書は、NVIDIAの32年の経緯を教えてくれます。残念なのはジェンスン・フアンが万能すぎる点でしょうか。

正直言って、非常にブラックな体質で、働きたいとは思えない会社です。
もちろん、この会社で働いている人たちは強制されているわけではないと思います。仕事の内容が面白くて、世界を動かしているという実感があるからこそ、身を粉にして働いているのでしょう。

本を紹介する内容から、かなり脱線しましたが、今読むべき本であることは間違いありません。おすすめです。

2025年09月29日 | Posted in 電脳:百冊 | タグ: No Comments » 

関連記事

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください