商品説明

※画像・商品情報について

AmpereアーキテクチャベースのGPU搭載。あらゆる規模で前例のない高速化を実現するデータセンター向けGPUアクセラレータ

[特徴]
・AmpereアーキテクチャのNVIDIA A100を搭載
・AIトレーニング向けのTF32を使用して、設定不要で最大6倍高速な性能を実現
・AI推論のためのマルチインスタンスGPU(MIG)により最大7倍高速な性能を実現
・ハイパフォーマンスでのデータ分析が可能

現代で最も重要な作業を高速化

NVIDIA A100 TensorコアGPUによる、あらゆる規模での前例のない高速化を実現し、世界で最も困難な計算にAI、データ分析、 HPCで挑むことができます。数千単位のGPUに効果的に拡張できるほか、NVIDIAマルチインスタンスGPU(MIG)テクノロジーを利用し、7個のGPUインスタンスに分割することで、あらゆるサイズのワークロードを加速することができます。また、第3世代のTensorコアでは、多様なワークロードであらゆる精度が高速化され、洞察を得るまでの時間と製品を市場に届けるまでの時間が短縮されます。


ディープラーニングトレーニング

NVIDIA A100の第3世代TensorコアとTensor Float(TF32)精度を利用することで、前世代と比較して最大20倍のパフォーマンスがコードを変更することなく得られ、Automatic Mixed Precision(AMP)とFP16の活用でさらに2倍の高速化が可能になります。第3世代 NVIDIA NVLink、NVIDIA NVSwitch、PCI Gen4、NVIDIA Mellanox InfiniBand、NVIDIA Magnum IOソフトウェアSDKの組み合わせで、数千単位のA100 GPUまで拡張できます。拡張することで、BERTのような大型のAIモデルを1,024個のA100からなるクラスターでわずか37分でトレーニングできます。

ディープラーニングトレーニング


AIトレーニング向けのTF32を使用して、設定不要で最大6倍高速な性能を実現

BERT pre-training throughput using Pytorch, including (2/3) Phase 1 and (1/3) Phase 2 | Phase 1 Seq Len = 128, Phase 2 Seq Len = 512; V100: NVIDIA DGX-1 server with 8x V100 using FP32 precision; A100: DGX A100 Server with 8x A100 using TF32 precision.


ディープラーニング推論

A100には、推論ワークロードを最適化する画期的な新機能が導入されています。その汎用性には前例がなく、FP32からFP16、INT8、INT4まで、あらゆる精度を加速します。マルチインスタンスGPU(MIG)テクノロジーでは、1個のA100 GPUで複数のAIモデルを同時に運用できるため、計算リソースの使用を最適化できます。また、A100の数々の推論高速化は、スパース行列演算機能によってさらに2倍の性能を発揮します。

ディープラーニング推論


AI推論のためのマルチインスタンスGPU(MIG)により最大7倍高速な性能を実現

BERT Large Inference | NVIDIA T4 Tensor Core GPU: NVIDIA TensorRT (TRT) 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 7 MIG instances of 1g.5gb: pre-production TRT, batch size = 94, precision = INT8 with sparsity.


ハイパフォーマンスコンピューティング

A100には倍精度のTensorコアが搭載されています。これにより、NVIDIA V100 TensorコアGPUで10時間を要していた倍精度シミュレーションを、A100でたった4時間に短縮できます。また、HPCアプリケーションではA100のTensorコアでTF32精度を活用し、単精度の密行列積で最大10倍の演算スループットを実現できます。

ハイパフォーマンスコンピューティング


4年間で9倍のHPCパフォーマンス

Geometric mean of application speedups vs. P100: benchmark application: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge], | GPU node with dual-socket CPUs with 4x NVIDIA P100, V100, or A100 GPUs.


ハイパフォーマンスデータ分析

A100を搭載したアクセラレーテッドサーバーは、要求される計算処理能力のほか、毎秒1.6TB/秒のメモリ帯域幅、第3世代NVLinkとNVSwitchによるスケーラビリティがもたらされ、大規模なワークロードに取り組むことができます。Mellanox InfiniBand、Magnum IO SDK、GPU対応Spark 3.0、GPU活用データ分析用のソフトウェアスイートであるRAPIDSとの組み合わせにより、NVIDIAデータセンタープラットフォームは、画期的なレベルの比類なきパフォーマンスと効率で非常に大規模なワークロードを加速することができます。

ハイパフォーマンスデータ分析


企業で効率的に利用

A100とMIGの組み合わせにより、GPU対応インフラストラクチャを今までにないレベルで最大限に活用できます。MIGによってA100 GPUは最大7つの独立したインスタンスに分割でき、複数のユーザーが自分のアプリケーションや開発プロジェクトをGPUで高速化できます。MIGはKubernetesやコンテナー、ハイパーバイザベースのサーバー仮想化によるNVIDIA Virtual Compute Server(vCS)と連携します。MIGを使用することで、インフラ管理者は各ジョブのサービス品質(QoS)を保証した適切なサイズのGPUを提供し、使用率を最適化し、高速化されたコンピューティングリソースの範囲をすべてのユーザーに拡大することができます。

企業で効率的に利用


マルチインスタンスGPU(MIG)による7倍の推論スループット

BERT Large Inference | NVIDIA TensorRT (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 with sparsity.


[仕様]
製品名 NVIDIA A100 80G
搭載GPU NVIDIA A100
倍精度演算性能 FP64:9.7TFlops
FP64 Tensorコア:19.5TFlops
単精度演算性能 FP32:19.5TFlops
TF32 Tensorコア:156TFlops(sparsity有効時:312TFlops)
半精度演算性能 FP16 Tensorコア:312TFlops(sparsity有効時:624TFlops)
BFloat16 BFloat16 Tensorコア:312TFlops(sparsity有効時:624TFlops)
整数演算性能 INT8 Tensorコア:624TFlops(sparsity有効時:1,248TFlops)
INT4 Tensorコア:1,248TFlops(sparsity有効時:2,496TFlops)
メモリ 80GB HBM2e
バスインターフェース PCI Express 4.0 64GB/s(NVLink有効時:600GB/s)
マルチインスタンスGPU(MIG) 最大7GPU
消費電力 最大300W
型番 NVA100-80G
JANコード 4537694300827
発売時期 2021年 9月

商品レビュー

入力された顧客評価がありません。