ミッション アポロ: Google の光回線スイッチング革命の裏側

ブログ

ホームページホームページ / ブログ / ミッション アポロ: Google の光回線スイッチング革命の裏側

May 31, 2023

ミッション アポロ: Google の光回線スイッチング革命の裏側

Come Google ha visto la luce e ha rinnovato i suoi data center negli ultimi anni

Google はどのようにして光を見出し、データセンターを全面的に見直したのか

ここ数年、Google は密かにデータセンターの全面見直しを進めており、ネットワーキング インフラストラクチャをネットワーキング コミュニティの人々の長年の夢であった抜本的な社内アプローチに置き換えてきました。

これは「ミッション アポロ」と呼ばれるもので、電子の代わりに光を使用し、従来のネットワーク スイッチを光回線スイッチ (OCS) に置き換えることがすべてです。 Google のシステムおよびサービス インフラストラクチャ チームのリーダーである Amin Vahdat 氏は、これがなぜそれほど大きな問題なのかを語った。

この特集はDCDマガジンの最新号に掲載されました。 今すぐ無料で購読してください

データセンターの通信には根本的な課題があり、2 つの世界にまたがるという事実に非効率性が組み込まれています。 処理は電子機器上で行われるため、サーバー レベルの情報は電気領域に保持されます。 しかし、光の世界では光学機器を使用すると、情報を移動させるのがより速く簡単になります。

従来のネットワーク トポロジでは、信号は電気と光の間を行き来します。 「すべてがホップごとに行われ、電子機器に変換し、光学機器に戻すなどの作業が行われ、作業のほとんどは電子領域に残されました」とヴァハダット氏は語った。 「これはコストとエネルギーの両方の点で高価です。」

OCS を使用することで、同社は「データを光ドメインにできるだけ長く残し」、小さなミラーを使用してソース ポイントからの光ビームの方向を変更し、光クロスコネクトとして宛先ポートに直接送信します。

「これを機能させることで、データセンター内を行き来する必要がほとんどなくなるため、通信の遅延が減少します」とヴァハダット氏は語った。 「これにより、電気スイッチングの段階が排除されます。これは、以前の当社を含め、ほとんどの人々のデータセンターの背骨となるものでした。」

他のデータセンターに見られる従来の「Clos」アーキテクチャは、Broadcom や Marvell などの企業のシリコンを中心に構築された電子パケット スイッチ (EPS) で作られたスパインに依存しており、「リーフ」またはトップオブラック スイッチに接続されています。

EPS システムは高価で、かなりの電力を消費します。また、信号が電子形式の場合は、信号を光形式に変換して転送する前に、遅延の大きいパケットごとの処理が必要です。

OCS に必要な電力は少なくて済みます、と Vahdal 氏は言います。「これらのシステムでは、基本的にこれらのデバイスが消費する電力は、ミラーを所定の位置に保持するために必要な電力だけです。これらは小さなミラーなので、これはわずかな量です。」

光はファイバーの束を通って Project Apollo スイッチに入り、それぞれに小さなミラーのアレイが含まれる複数のシリコン ウェーハによって反射されます。 これらのミラーは 3D マイクロ電気機械システム (MEMS) であり、個別に迅速に再調整できるため、各光信号を出力バンドル内の異なるファイバーに即座にリダイレクトできます。

各アレイには 176 個の微小ミラーが含まれていますが、歩留まりの理由から 136 個のみが使用されます。 「これらのミラーはすべてカスタムで、すべて少しずつ異なります。つまり、これが意味するのは、可能なすべてのインアウトにわたって、その組み合わせは 136 の 2 乗であるということです」と彼は言いました。

これは、2 つのミラー パッケージ間で 18,496 通りの組み合わせが可能なことを意味します。

システム全体の最大消費電力は 108 W (通常はかなり少ない消費電力) ですが、これは同様の EPS が達成できる約 3,000 ワットを大幅に下回っています。

過去数年間にわたり、Google はこれらの OCS システムを数千台導入してきました。 現行世代のパロマーは「当社のすべてのインフラストラクチャに広く導入されている」とヴァハダット氏は述べた。

Google では、これが、十分な差を付けて、世界で最大の OCS の使用であると考えています。 「私たちはしばらくこれに取り組んできました」とヴァハダット氏は言う。

システム全体の開発には、多数のカスタム コンポーネントとカスタム製造装置が必要でした。

パロマー OCS の生産には、MEMS ミラー、ファイバー コリメータ、光コアとその構成部品、および完全な OCS 製品用のカスタム テスター、アライメント、および組み立てステーションを開発する必要がありました。 各 2D レンズ アレイをサブミクロンの精度で配置するために、カスタムの自動位置合わせツールが開発されました。

「私たちはトランシーバーとサーキュレーターも作りました」とヴァハダット氏は語った。後者は光がさまざまなポートを通って一方向に進むのを助けるものだ。 「サーキュレーターを発明したのは私たちですか? いいえ、しかしそれは私たちが設計、構築し、大規模に展開したカスタム コンポーネントですか? はい。」

同氏はさらに、「これらの光サーキュレータには、これまでの技術に比べてファイバー数を 2 分の 1 に削減できる非常に優れた技術が存在します。」と付け加えました。

データセンターでの光信号の送受信に使用されるトランシーバーに関しては、Google は 4 世代の光相互接続速度 (40、100、200、400GbE) に対応する低コストの波長分割多重トランシーバーを共同設計しました。高速光学、エレクトロニクス、信号処理技術の開発。

「私たちは、適切な電力特性と損失特性を備えたトランシーバーを発明しました。この技術の課題の 1 つは、2 つの電気スイッチ間の経路に挿入損失が生じることだからです。」

現在では、ファイバー経路の代わりに、光が施設内を反射する際に強度の一部を失う光回路スイッチが使用されています。 「適度な挿入損失を確実に処理できるように、コスト、電力、フォーマット要件のバランスをとれるトランシーバーを設計する必要がありました」とヴァハダット氏は述べた。

「私たちは、世の中で最も電力効率の高いトランシーバーをいくつか持っていると信じています。そして、この技術を活用するために物事をエンドツーエンドで確実に設計できるようにすることを本当に後押ししました。」

その一貫したビジョンの一部は、Orion と呼ばれるソフトウェア デファインド ネットワーク (SDN) レイヤーです。 これはアポロ計画よりも前のことであり、「そのため、すでに論理的に集中管理された制御プレーンに移行していました」とヴァハダット氏は述べた。

「スパインベースのトポロジで論理的に集中化されたルーティングから、ある程度のトラフィック エンジニアリングを使用してこの直接接続トポロジを管理するルーティングへのデルタ - 簡単だったと言っているわけではありません。長い時間と多くのエンジニアがかかりましたが、以前に SDN トラフィック エンジニアリングがなかった場合ほど大きな飛躍ではありませんでした。」

同社は「基本的に、これらの直接接続トポロジを管理し、最終的にはトラフィック エンジニアリングとミラーの再構成を実行するために Orion とそのルーティング コントロール プレーンを拡張しましたが、論理トポロジは信号に基づいてリアルタイムで実行されます。」

「したがって、これはかなりの仕事でしたが、想像できないものではなく、想像できるものでした。」

Apollo の課題の 1 つは、再構成にかかる時間です。 Clos ネットワークは EPS を使用して、EPS システムを通じてすべてのポートを相互に接続しますが、OCS はそれほど柔軟性がありません。 2 つの異なるポイントを接続するために直接接続アーキテクチャを変更する場合、ミラーの再構成には数秒かかりますが、これは EPS を使用していた場合よりも大幅に遅くなります。

これを克服する秘訣は、再構成の頻度を減らすことだと Google は考えています。 同社は、OCS とともにデータセンター インフラストラクチャを導入し、システムを念頭に置いて構築しました。

「十分なデータを集約すれば、長期にわたる通信パターンを活用できます」とヴァハダット氏は言う。 「Google 用語の「スーパーブロック」を使用します。これは 1 ~ 2000 台のサーバーの集合体です。安定した量のデータが別のスーパーブロックに送信されます。

「データセンターに 20、30、40 個のスーパーブロックがある場合、それ以上になる可能性がありますが、スーパーブロック X からスーパーブロック Y に送られるデータの量は、他のブロックと比較して完全に固定されているわけではありませんが、ある程度の安定性はあります。

「そのため、物事を光ドメインに残し、そのデータを宛先のスーパーブロックに切り替えて、すべてを光のままにすることができます。通信パターンに変化があった場合、それは確かに根本的なものですが、その後、トポロジーを再構成できます。」

これにより、データセンター内のネットワークを再構成する機会も生まれます。 「より多くの電気パケットスイッチが必要な場合は、スパインとして機能するスーパーブロックを基本的に動的に採用できます」とヴァハダット氏は述べた。

「サーバーが接続されていないスーパーブロックがあると想像してください。そのスーパーブロックを基本的に専用のスパインとして機能させることができます」と同氏は述べ、システムはサーバーがまだ存在していないか、存在していないブロックを引き継ぎます。使用中で。

「データを同期する必要はなく、データを転送できます。トラフィックのソースではないスーパーブロックは、本質的にミニスパインになる可能性があります。グラフ理論が好きで、ルーティングが好きなら、これは本当に素晴らしい結果です。」そして私はたまたまグラフ理論が大好きです。」

常にオンライン

Vahdat と Google 全体が気に入っているもう 1 つの点は、それが操作時間に与える影響です。

「光回線スイッチは今や建物インフラの一部になり得る」と同氏は語った。 「Photons はデータのエンコード方法を気にしないため、必ずしもアップグレードする必要なく、10 ギガビット/秒から 40、200、400、800、そしてそれ以上に移行できます。」

異なる世代のトランシーバーが同じネットワーク内で動作できる一方で、Google は独自のペースでアップグレードします。「基本的に、ある世代の速度から別の世代の速度に移行したら、その世代のトランシーバーを停止する必要があるという外部の最先端の技術ではなく、データセンター全体をやり直して最初からやり直してください」とヴァハダット氏は語った。

これまでで最大の特集はコンピューティングの次の波に焦点を当てています

「顧客の観点から見て最も苦痛なのは、6か月間サービスを停止し、長期間にわたってサービスを移行しなければならないことだ」と同氏は語った。

「私たちの規模では、これは常に人を出入りさせていることを意味します。なぜなら、私たちは常にどこかで何かをアップグレードする必要があり、私たちのサービスは地球上に複数のインスタンスでデプロイされているためです。つまり、繰り返しになりますが、私たちのサービスは、サービスは常にこうした動きの影響を受けることになるでしょう。」

同様に、各世代にわたって同じ OCS を使用できるため、設備投資コストも削減されますが、EPS システムはトランシーバーとともに交換する必要があります。 同社は、コストが 70% も削減されたと考えています。 「電力の節約も大幅でした」とヴァハダット氏は語った。

この通信を軽い形式で維持することで、Google は数十億ドルを節約し、電力使用量を削減し、レイテンシを短縮することができます。

「我々はスーパーブロックレベルでそれを行っている」とヴァハダット氏は語った。 「光の再構成をより頻繁に行う方法を見つけて、トップオブラック レベルまでさらに下げることはできますか。そうすることで大きなメリットも得られるからです。これは難しい問題であり、まだ完全には解決できていません。」割れた。"

同社は現在、より多くのポート数、より低い挿入損失、より高速な再構成時間を備えた OCS システムの開発を検討しています。 「そこから効率性と信頼性の可能性が高まると思います」とヴァハダット氏は語った。

その影響は甚大になる可能性がある、と同氏は指摘した。 「今日の最新のデータセンターの二分帯域幅は、インターネット全体に匹敵します」と同氏は述べた。

「言い換えれば、データセンターを例にとると、これは私たちのものだけではなく、お気に入りの[ハイパースケール]データセンターでも同様です。それを半分に切って、そこを通過する帯域幅の量を測定します。 「この 2 つの半分は、インターネットを半分に切った場合と同じくらいの帯域幅です。つまり、膨大な量の通信になります。」