banner

Blog

Jul 07, 2023

Die Vermieter der KI

Chris Sharp ist CTO von Digital Realty

: Warum Modularität für Rechenzentren und die KI-Wirtschaft von entscheidender Bedeutung sein wird

Das plötzliche Aufkommen groß angelegter kommerzieller KI im vergangenen Jahr, insbesondere neuer generativer KI-Anwendungen wie ChatGPT, hat neue technische Anforderungen an die Rechenzentrumseinrichtungen gestellt, in denen sich diese Anwendungen befinden. Die Infrastruktur, die sie unterstützt, wird mehr Strom verbrauchen, mehr Daten verarbeiten und mehr Bandbreite verbrauchen als je zuvor, und das alles innerhalb von Einrichtungen, die möglicherweise vor 20 Jahren gebaut wurden. Diese Einrichtungen müssen sich nun anpassen, um den in manchen Fällen um eine Größenordnung höheren Stromverbrauch pro Rack zu unterstützen.

Ein siebenteiliger Artikel darüber, was große Sprachmodelle und was die nächste Welle von Arbeitslasten für Computer, Netzwerk und Rechenzentrumsdesign bedeutet

Dies lässt sich nur mit einem modularen Aufbau erreichen.

Rechenzentren scheinen höchst statische Einheiten zu sein. Typischerweise handelt es sich um riesige Backsteingebäude mit einer Reihe von Generatoren und anderen Geräten draußen, die alle sorgfältig entworfen wurden, um den Betrieb der Anlage unter normalen Alltagsbedingungen bis hin zu einem Totalausfall des Stromnetzes aufrechtzuerhalten, ohne dass dies der Fall ist Unterbrechung. Allerdings ist das moderne Rechenzentrum alles andere als statisch; Viele Einrichtungen sind von Anfang an hochgradig modular konzipiert, und eine bestimmte Etage eines Rechenzentrums kann bei Bedarf mehrmals im Jahr an Änderungen der Netzwerktopologie, der Luftströmungsaspekte und der physischen Redundanz angepasst werden. Was treibt dieses Bedürfnis an und wie wird es erfüllt?

Das flächendeckende Aufkommen von KI-Einsätzen im Rechenzentrum zeigt, wie schnell sich Kundenanforderungen ändern können. Während ein Rechenzentrumsbetreiber noch letztes Jahr noch mit einem durchschnittlichen Stromverbrauch von 10 Kilowatt pro Rack mit Kundengeräten rechnen konnte, steigt der Bedarf an immer größeren Blöcken mit 25-, 50- oder sogar 100-Kilowatt-Racks an verschiedenen Standorten Die gleiche Rechenzentrumsanlage ist hier und wird nur weiter wachsen. Bei einem herkömmlichen statischen Design kann dies zu vielen Problemen hinsichtlich Leistung, Wartung und Redundanz führen.

Erstens benötigen derart dichte Racks oft mehr Netzwerkbandbreite, um mit höchster Effizienz zu arbeiten. Dies wird oft übersehen und ein Kunde wird sehr unzufrieden sein, wenn er ein so dichtes Rack (oder 10 oder 100 davon) einsetzt und dann nicht die benötigte Bandbreite erhält.

Zweitens kann ein ungleichmäßiger Anstieg der Stromaufnahme über den gesamten Boden eines Rechenzentrums häufig ein Kühlsystem überfordern, das nicht für die Bewältigung dieser Art von Hotspots ausgelegt ist. Ein dichtes Rack an einem Ende einer Reihe im Rechenzentrum könnte leicht zu erhöhten Temperaturen am anderen Ende führen.

Schließlich basieren Ausfallsicherheits- und Redundanzmaßnahmen darauf, wo sich bestimmte elektrische Lasten in der Anlage befinden und wie sie verteilt sind. Wenn in einem Bereich eine sehr dichte Ansammlung von Geräten hinzugefügt wird, können statische Konstruktionen möglicherweise nicht sicherstellen, dass dieser Bereich durch ausreichend zuverlässige Generatorkapazität abgedeckt wird.

Wie Sie sich vorstellen können, stellt jedes dieser Anliegen für den KI-Kunden ein erhebliches Problem dar, das von der Unfähigkeit, seine KI-Ausrüstung mit ihrem maximalen Leistungspotenzial zu betreiben, bis hin zu potenziell unerwünschten Ausfallzeiten im Falle eines Stromausfalls oder einer anderen Belastung reicht lokales Stromnetz. Durch die Verwendung eines äußerst anpassungsfähigen modularen Design-Frameworks können diese Probleme in Rechenzentren jeden Alters angegangen werden.

Zum einen können Räume von Anfang an umgewidmet oder so gestaltet werden, dass sie als zusätzliche Netzwerkräume genutzt werden können, um die Installation weiterer Netzwerkleitungen, Switches und Router zu ermöglichen und so die Netzwerkbandbreite für den Kunden im Laufe der Zeit zu erhöhen. Darüber hinaus ermöglicht eine modulare Methode zum Entwerfen und Bereitstellen von Deckenkabeltrassen dem Rechenzentrumsbetreiber, diese Konnektivität physisch zum Kunden zu bringen, was bei statischen, nicht flexiblen Designs oft übersehen wird. Einige KI-fähige Technologien wie InfiniBand können große, schwere Kabel erfordern, die nur modular installiert werden können, um später echte Leistungs- und Betriebsprobleme zu vermeiden.

Das Verständnis des tatsächlichen Kühlzustands in einer Anlage mithilfe von CFD (Computational Fluid Dynamics) bietet dem Rechenzentrumsbetreiber die Möglichkeit, eingeschlossene Luftströmungen, unbeabsichtigte Luftströmungsmuster, die zu einer suboptimalen Kühlung führen können, und zusätzliche Luftkapazitäten zu identifizieren gibt es, die zur Kühlung dichter, heißer KI-Bereitstellungen verwendet werden können. Viele Rechenzentrumseinrichtungen können auch so modular sein, dass sie von einer reinen Luftkühlungskonfiguration auf einen Hybridaufbau aufgerüstet werden können, bei dem bei Bedarf Luft- und Flüssigkeitskühlung (sowohl AALC als auch DLC) verfügbar sind, sodass KI-Einsätze stattfinden können als Teil einer bestehenden Rechenzentrumsetage oder einer größeren Suite.

Mit einer modularen Stromversorgungskonfiguration – bei der das Rechenzentrum als eine Reihe von Blöcken konzipiert ist, die jeweils über eine eigene unterstützende Stromversorgungs-, Backup- und Kühlungsinfrastruktur verfügen – können Kernkomponenten je nach Kundenbereitstellung in relativ kleinen Schritten entsprechend dimensioniert und bereitgestellt werden, um sicherzustellen, dass dies gewährleistet ist Wenn Bereitstellungen zu einem Bereich hinzugefügt werden, können sie mit dem erwarteten Maß an Ausfallsicherheit unterstützt werden, auch wenn sie sich im Stromverbrauch stark unterscheiden.

Dies sind nur einige Beispiele dafür, wie ein modularer Ansatz beim Design von Rechenzentren dazu beiträgt, sicherzustellen, dass KI-Implementierungen auch bei sehr hohen Rackdichten in einer bestehenden Rechenzentrumsanlage hochleistungsfähig, robust und kostengünstig unterstützt werden können . Modulare Designs werden den Unterschied zwischen der Fähigkeit, aktuelle und zukünftige Generationen von KI-Implementierungen an bestehenden Standorten zu unterstützen, und der Notwendigkeit, sie zu bauen, ausmachen.

AKTIE