ネットワーク性能の加速:RoCE(RDMA over Converged Ethernet)の効果
2024-12-27
数値計算型のアプリケーションの急速な進化により、より高速で効率的、かつスケーラブルなネットワークソリューションの必要性が高まっています。この需要を満たすために登場した最も革新的な技術のひとつが、RoCE(RDMA(Remote Direct Memory Access)over Converged Ethernet)です。この画期的な技術は、CPUを介さずにシステム間の直接データ転送を容易にし、レイテンシを大幅に短縮し、システム全体の性能を向上させます。有名なFPGA設計会社であるiWaveは、AMDのERNIC IP(Ethernet RDMA Network Interface Controller Intellectual Property)を自社の組み込みコンピューティングモジュール製品ラインアップに統合することで、堅牢な100G Ethernetソリューションを実装し、この最先端の技術を提供しています。この統合により、高性能アプリケーションにおけるRDMA機能が強化されます。
図1:RoCEは、CPUを介さずにシステム間の直接データ転送を容易にし、レイテンシを大幅に短縮し、システム全体の性能を向上させます。(画像提供:iWave)
RoCE(RDMA over Converged Ethernet)の説明
RDMAは、CPUを効率的にバイパスして、ホストやサーバ間で直接メモリ転送を可能にする重要な技術です。この機能により、CPUはアプリケーションの実行とデータ処理に集中できるようになり、レイテンシの短縮、CPU負荷の低減、帯域幅の拡大など、ネットワーク性能の顕著な向上につながります。RoCEは、Ethernetネットワーク上でのRDMA操作を容易にするために設計された特定のネットワークプロトコルです。既存のEthernetインフラストラクチャを活用することで、RoCEは、現在のネットワークセットアップを見直すことなく性能を向上させたいと考えている組織にとって魅力的な選択肢となります。
RoCEのタイプ
RoCEは、使用するネットワークアダプタによって次の2つのバージョンに分類されます。RoCE v1とRoCE v2です。
- RoCE v1:このプロトコルは、同じEthernetブロードキャストドメイン(VLAN)内にある2つのホスト間の通信を可能にします。Ethertype 0x8915を使用し、標準Ethernetフレームを1500バイトに制限する一方、Ethernetジャンボフレームを9000バイトまで拡張できます。
- RoCE v2:RoCE v1の制限に対処するため、RoCE v2はIPとUDPヘッダを組み込むことでパケットカプセル化を強化しました。この改良により、RoCE v2 はレイヤ2(データリンク層)とレイヤ3(ネットワーク層)の両方のネットワークでシームレスに機能し、レイヤ3ルーティングと複数のサブネットにわたるスケーラビリティをサポートします。ルーティング可能なRoCE(RRoCE)とも呼ばれるRoCE v2は、IPマルチキャストのサポートも追加され、適用範囲がさらに広がりました。
ERNIC IP:RDMA機能の強化
ERNIC(Embedded RDMA enabled NIC)IPは、AMD FPGA、MPSoC、ソフトMAC IP実装とシームレスに統合できるように設計された、カスタマイズ可能なEthernet RDMAネットワークインターフェースコントローラIPコアです。このソリューションは、標準Ethernetを介した高スループット、低レイテンシ、標準Ethernetを介した完全ハードウェアオフロードの信頼性の高いデータ転送メカニズムが特徴です。iWaveは、100G Ethernetソリューションの導入に成功し、技術革新への取り組みを実証しました。この成果は、AMDのERNIC IPを統合したiWaveのZynq UltraScale+ MPSoC搭載開発キットを活用することで実現しました。
Zynq UltraScale+ MPSoC開発キットは、高速QSFP-28コネクタを採用し、100G Ethernetソリューションの試作と評価に特化して設計されています。
デモのセットアップ
標準的なデモのセットアップ(図2)は、次のような構成になっています。
- iWaveのZynq UltraScale+ MPSoC ZU19EG搭載開発キット
- Advantech Mellanox ConnectX-5 100G NIC
- Sync 1588 PTP対応1G NIC
- MTPケーブル、QSFP-28モジュール、およびCAT6 RJ45 Ethernetケーブル
- Ubuntu 22.04 サーバPC
図2:Zynq UltraScale+ MPSoC開発キットの標準的なセットアップ。(画像提供:iWave)
システムアーキテクチャの概要
システムアーキテクチャはデータ転送を最適化するように設計されており、処理システム(PS)とプログラマブルロジック(PL)のコンポーネント間の役割が明確に定義されています。また、実装には、リアルタイムアプリケーションには欠かせないPTP(Precision Time Protocol)同期機能も備えています。8Kビデオを毎秒100フレーム以上で処理できるなど、優れた性能指標により、潜在的な用途は、データセンター、マルチメディア、ハイパフォーマンスコンピューティングなど、さまざまな分野にわたります。これは、この技術が現代のコンピューティング環境において汎用性が高く、重要であることを示しています。
図3に示されているシステムの高レベルアーキテクチャは、Zynq UltraScale+ MPSoC内のPSおよびPLコンポーネントの明確な役割を強調しています。PSには、ARM Cortex-A53ベースのハードSoCを搭載しており、これはシステム構成、制御、および診断に不可欠です。このアーキテクチャの主な構成要素は次の通りです。
- 100G Ethernet MACドライバ:100Gb/sでの堅牢な性能と低レイテンシのデータ転送を保証します。
- ERNICコントローラドライバ:DDRへの入力データの管理と、効率的なドアベル交換を通じてユーザーアプリケーションとERNIC IP間の通信を容易にします。
- RDMAコアおよびユーザースペースライブラリ:カーネルおよびユーザースペースの両方でRDMA操作の互換性と最適な性能を保証します。
図3:Zynq UltraScale+ MPSoCにおける処理システムおよびプログラマブルロジックコンポーネントの役割の違い。(画像提供:iWave)
AMD ERNIC IPは、RoCE v2スタックをFPGAに効果的にオフロードし、ERNICコントローラがさまざまなモジュール間のハンドシェイクを管理してデータ転送を容易にします。ワークキューエントリを生成し、ERNIC IPに通知(ドアベル)を送信します。同時に、Zynq UltraScale+ MPSoCの100G EthernetサブシステムがMAC層と物理層を管理し、データパターンジェネレータが生のデータとビデオデータパターンの生成を行います。
PTP(Precision time protocol)
PTP(IEEE1588規格)のタイムスタンプは、Ethernetネットワーク上のシステム間で時刻を同期させる上で重要な役割を果たします。この同期は、リアルタイムアプリケーションの性能を向上させるために不可欠であり、ナノ秒レベルでの同期された低レイテンシのデータ交換を可能にします。
セットアップの主な注目点
このセットアップの特筆すべき点は次の通りです。
- AMD ERNIC IPを利用した100G Ethernet over RoCE v2の実装
- 信頼性の高い接続トランスポートタイプ
- パケット処理のためのRDMA SEND、RDMA READ、およびRDMA WRITE機能
- メッセージタイプ「RDMA Send with Immediate」および「RDMA Write with Immediate」のサポート
- XRPINGとPERFTESTアプリケーションを使用したRDMAの性能テスト
- RAWおよびビデオデータパターン用のカスタムデータパターン発生器
- データへのPTPタイムスタンプの挿入
Zynq UltraScale+ MPSoC開発キットからサーバPCへのビデオデータ転送の詳細なスループット統計では、8Kビデオを100fps以上、4Kビデオを400fps以上で処理できるなど、すばらしい性能が明らかになりました。
適用可能なアプリケーション
RoCE(RDMA over Converged Ethernet)とERNIC IPの統合は、さまざまな業界に新たな道を開き、次のようなさまざまなアプリケーションの接続性、性能、効率を大幅に向上させます。
- データセンターおよびクラウドコンピューティング:クラウドアーキテクチャにおける効率的なサーバ通信とデータ処理を高速化します。
- ビデオ/画像のキャプチャおよび転送:マルチメディアアプリケーション、放送、バーチャルリアリティ(VR)環境に有効です。
- ストレージソリューション:ストレージデバイスとサーバ間のデータ転送を高速化し、ストレージシステムの性能を向上させます。
- ハイパフォーマンスコンピューティング(HPC):HPCクラスタ内のデータ転送速度の向上と待ち時間の短縮により、計算タスクおよびシミュレーションの迅速化を実現します。
- IoTエッジデバイス:センサやデバイスからのリアルタイムのデータ収集および送信が可能です。
より高速で効率的なデータ転送ソリューションへの需要が高まり続ける中、RoCE(RDMA over Converged Ethernet)とERNIC IPは、ハイパフォーマンスコンピューティングの将来において極めて重要な役割を果たすことになるでしょう。
まとめ
iWaveのFPGAおよびSoC FPGAプラットフォームの広範な製品ラインアップは、その深い技術的専門知識と相まって、人工知能(AI)、機械学習、エッジコンピューティングの最新の進歩を活用した最先端の製品開発を可能にします。iWaveと提携することで、企業は製品開発を加速し、リスクを低減し、複雑化する技術環境の中で競争に打ち勝つことができます。
詳細情報またはカスタム要件については、mktg@iwave-global.comまでお問い合わせください。
免責条項:このウェブサイト上で、さまざまな著者および/またはフォーラム参加者によって表明された意見、信念や視点は、DigiKeyの意見、信念および視点またはDigiKeyの公式な方針を必ずしも反映するものではありません。


