معرفی ۵ ابر دیتاسنتر هوش مصنوعی جهان: گوگل TPU Pods؛ رهبری خنک‌سازی مایع در مقیاس عظیم

  • فیدار کوثر
  • 1404/10/9
معماری مخفی گوگل پشت دیتاسنترهای هوش مصنوعی
معرفی ۵ ابر دیتاسنتر هوش مصنوعی جهان: گوگل TPU Pods؛ رهبری خنک‌سازی مایع در مقیاس عظیم

 

فهرست مطالب

بخش ۱: مقدمه: پارادایم محاسبات ابرمقیاس هوش مصنوعی
  1. ۱.۱. چرایی ظهور TPU: گذر از محاسبات همه‌منظوره
  2. ۱.۲. تعریف TPU Pods و مقیاس اگزافلاپسی
  3. ۱.۳. طرح کلی گزارش: همگرایی معماری، گرما و کارایی
بخش ۲: معماری TPU Pod: مهندسی تخصصی و توپولوژی ابررایانشی
  1. ۲.۱. نوآوری در سطح تراشه: MXU و SparseCore
  2. ۲.۲. Inter-Chip Interconnect (ICI) و تکامل توپولوژی شبکه داخلی
  3. ۲.۳. جدول فنی تکامل گوگل TPU Pods (معماری و مقیاس)
بخش ۳: شبکه Jupiter و سوئیچینگ مدار نوری (OCS)
  1. ۳.۱. نقش Jupiter در خوشه AI Hypercomputer
  2. ۳.۲. OCS: کاهش توان و تأخیر از طریق فناوری تمام‌نوری
  3. ۳.۳. پایداری و پیکربندی مجدد پویا (Dynamic Reconfigurability)
بخش ۴: خنک‌سازی مایع: توانمندسازی دیتاسنترهای با چگالی بالا
  1. ۴.۱. حد ترمودینامیکی و اجبار خنک‌سازی مایع
  2. ۴.۲. مکانیسم خنک‌سازی مستقیم به تراشه (D2C) گوگل
  3. ۴.۳. الزامات مهندسی خنک‌سازی برای مقیاس‌پذیری
بخش ۵: رهبری در کارایی عملیاتی و پایداری (PUE & Operational Excellence)
  1. ۵.۱. رکورد جهانی در کارایی مصرف برق (PUE)
  2. ۵.۲. بهینه‌سازی AI-محور خنک‌سازی توسط DeepMind
  3. ۵.۳. پایداری جامع: در نظر گرفتن WUE و CUE
بخش ۶: نتیجه‌گیری: AI Hypercomputer و ترسیم آینده زیرساخت هوش مصنوعی
  1. ۶.۱. هم‌افزایی AI Hypercomputer
  2. ۶.۲. تأثیر بر تحول صنعت دیتاسنتر
  3. ۶.۳. چشم‌انداز آینده

پرسش‌های متداول (FAQ)

گام بعدی برای زیرساخت هوش مصنوعی شما 

 

مرکز داده گوگل TPU

 

بخش ۱: مقدمه: پارادایم محاسبات ابرمقیاس هوش مصنوعی

 

۱.۱. چرایی ظهور TPU: گذر از محاسبات همه‌منظوره

این مقاله، که بخشی از مجموعه مقالات معرفی زیرساخت‌های کلیدی هوش مصنوعی جهان است، بر تحلیل معماری انحصاری گوگل، یعنی Google TPU Pods، تمرکز دارد.

تغییر پارادایم از محاسبات سنتی سرور-مبنا (Server-based) به هوش مصنوعی مبتنی بر شتاب‌دهنده‌ها (Accelerator-based)، یک تحول عمیق در معماری زیرساخت دیجیتال ایجاد کرده است. مراکز داده هوش مصنوعی (AI Data Centers)، برخلاف مراکز داده سنتی یا حتی مراکز محاسباتی با کارایی بالا (HPC)، صرفاً فضایی برای میزبانی سرورها نیستند؛ بلکه "کارخانه‌های هوش مصنوعی" (AI Factories) کاملاً تخصصی و بهینه‌سازی‌شده‌اند.

پیدایش واحدهای پردازش تنسور (TPU) توسط گوگل، واکنشی مستقیم به نیازهای محاسباتی در حال گسترش خدمات داخلی این شرکت (مانند Search، YouTube، و مدل‌های زبان بزرگ DeepMind) بود.

TPUها به عنوان مدارهای مجتمع با کاربرد خاص (ASIC) طراحی شده‌اند که منحصراً برای تسریع حجم کاری یادگیری ماشین بهینه‌سازی شده‌اند. این رویکرد، TPU را از پردازنده‌های موازی همه‌منظوره مانند GPUها متمایز می‌کند.

تفاوت بنیادین بین TPU و GPU، نه در رقابت برای دستیابی به تعداد بیشتر عملیات ممیز شناور (FLOPs)، بلکه در فلسفه طراحی نهفته است. TPUها با هدف به حداقل رساندن حرکت داده و به حداکثر رساندن کارایی انرژی برای ریاضیات تنسور متراکم ساخته شدند.

این سخت‌افزارهای تخصصی، انعطاف‌پذیری محاسباتی را فدای کارایی مطلق در اجرای شبکه‌های عصبی می‌کنند، در حالی که GPUها باید به اندازه کافی قابل برنامه‌ریزی باقی بمانند تا از رندر گرافیکی گرفته تا شبیه‌سازی‌های HPC را مدیریت کنند.

این تخصصی‌سازی به گوگل این امکان را می‌دهد تا به ۱۰ برابر کارایی Total Cost of Ownership (TCO) نسبت به GPUها برای حجم کاری هدفمند هوش مصنوعی دست یابد.  

 

۱.۲. تعریف TPU Pods و مقیاس اگزافلاپسی

مقیاس ابررایانشی در گوگل از طریق مفهوم "TPU Pod" تعریف می‌شود. یک Pod مجموعه‌ای از تراشه‌های TPU است که از طریق یک اتصال داخلی سفارشی (ICI) به یکدیگر مرتبط شده و به عنوان یک شتاب‌دهنده منطقی واحد عمل می‌کنند.

این اتصال، گلوگاه‌های تأخیر و پهنای باند موجود در شبکه‌های سنتی (مانند اترنت یا InfiniBand) را برطرف می‌کند و عملیات جمعی (collective operations) مانند All-Reduce را بسیار سریع‌تر اجرا می‌نماید.

تکامل Podها گواهی بر رشد نمایی در نیازهای هوش مصنوعی است. در حالی که نسل‌های اولیه Podها تا ۲۵۶ یا ۱,۰۲۴ تراشه را شامل می‌شدند ، نسل‌های جدیدتر مقیاس بی‌سابقه‌ای دارند.

به عنوان مثال، گوگل با نسل Ironwood (جدیدترین TPU در دسترس) به Superpodهایی با ۹,۲۱۶ تراشه دست یافته است که توان محاسباتی ۴۲.۵ اگزافلاپس (Exaflops) در دقت FP8 را ارائه می‌دهند.

این مقیاس عظیم برای آموزش و ارائه مدل‌های پیشرو در صنعت مانند Gemini ضروری است. تعهد شرکت‌هایی چون Anthropic به استقرار بیش از یک میلیون تراشه TPU، که نماینده بیش از یک گیگاوات ظرفیت محاسباتی است، اهمیت زیرساخت TPU را در عصر مدل‌های بنیادین نمایان می‌سازد.  

 

۱.۳. طرح کلی گزارش: همگرایی معماری، گرما و کارایی

دستیابی به چنین مقیاس و کارایی، صرفاً از طریق یک تراشه قدرتمند امکان‌پذیر نیست؛ بلکه نتیجه یک هم‌طراحی (Co-Design) جامع در سطح زیرساخت است.

رهبری گوگل در دیتاسنتر هوش مصنوعی نتیجه یکپارچه‌سازی سه ستون اصلی است: معماری محاسباتی تخصصی (شامل MXU و SparseCore)، شبکه داده با تأخیر بسیار پایین (Inter-Chip Interconnect و Optical Circuit Switching)، و مدیریت حرارتی پیشرفته که اکنون متکی بر خنک‌سازی مایع مستقیم به تراشه (D2C) است.

این گزارش فنی، جزئیات هر یک از این ستون‌ها را بررسی کرده و نشان می‌دهد که چگونه همگرایی آن‌ها، استانداردهای جدیدی را برای زیرساخت ابررایانشی هوش مصنوعی تعریف کرده است.  

 

زیرساخت دیتاسنتر هوش مصنوعی

 

بخش ۲: معماری TPU Pod: مهندسی تخصصی و توپولوژی ابررایانشی

۲.۱. نوآوری در سطح تراشه: MXU و SparseCore

قلب هر تراشه TPU، واحد ضرب ماتریس (MXU) است که بر اساس معماری آرایه سیستولیک عمل می‌کند. در این طراحی، به جای انتقال مداوم وزن‌ها و فعال‌سازی‌ها بین واحد محاسباتی و حافظه، وزن‌ها به صورت ثابت درون یک شبکه بزرگ از واحدهای ضرب-جمع (MAC) نگهداری می‌شوند.

سپس داده‌های ورودی به صورت ریتمیک در آرایه جریان می‌یابند. این جریان داده محلی، از نیاز به دور رفت و برگشت به حافظه جهانی جلوگیری کرده و تنگنای فون نویمان را که در CPUها و تا حدودی GPUها محدودیت ایجاد می‌کند، مرتفع می‌سازد.

MXUهای نسل‌های اخیر (مانند TPU v6e و TPU7x) شامل آرایه‌های 256 × 256 هستند که قادرند ۱۶ هزار عملیات ضرب-جمع را در هر چرخه انجام دهند.

در حالی که تمام ضرب‌ها از ورودی‌های bfloat16 استفاده می‌کنند، تمام انباشت‌ها (Accumulations) در فرمت عدد FP32 انجام می‌شوند تا دقت عددی لازم حفظ شود. علاوه بر MXU، TPU v4 به بعد، پردازنده‌های تخصصی دیگری به نام SparseCore را معرفی کردند.

این هسته‌ها برای رسیدگی به عملیات جاسازی (Embedding) که در سیستم‌های توصیه‌گر، رتبه‌بندی مدل‌ها و مدل‌های زبان بزرگ با واژگان عظیم (مانند Mixture-of-Experts) استفاده می‌شوند، طراحی شده‌اند.

SparseCoreها قادرند ۵ تا ۷ برابر افزایش سرعت را برای مدل‌های سنگین Embedding ایجاد کنند، در حالی که تنها ۵ درصد از مساحت دای و بودجه توان تراشه را مصرف می‌کنند.

این بهینه‌سازی هدفمند، کارایی را در تمام مراحل چرخه عمر هوش مصنوعی، از آموزش تا استنتاج، تضمین می‌کند.  

 

۲.۲. Inter-Chip Interconnect (ICI) و تکامل توپولوژی شبکه داخلی

مقیاس‌پذیری TPU Pods وابسته به معماری Inter-Chip Interconnect (ICI) است. گوگل لینک‌های دوطرفه پرسرعتی را طراحی کرد که هر تراشه TPU را مستقیماً به چهار همسایه متصل می‌کند و این امر Podها را قادر می‌سازد تا به عنوان یک شتاب‌دهنده منطقی واحد عمل کنند. تکامل توپولوژی ICI نشان‌دهنده نیاز به اتصال قوی‌تر در مقیاس‌های فزاینده است:

  • ۲D Torus: این توپولوژی در TPU v2 و v3 استفاده شد و Podهایی تا ۲۵۶ تراشه و سپس ۱,۰۲۴ تراشه را ممکن ساخت. ۲D Torus برای Podهای کوچکتر یا بهینه‌سازی شده برای استنتاج (مانند TPU v5e با ۲۵۶ تراشه) کافی بود. مزیت این توپولوژی، کاهش قطر شبکه است که سربار ارتباطی را به حداقل می‌رساند.
  • ۳D Mesh/Torus: با افزایش تراکم تراشه‌ها به ۴,۰۹۶ عدد در TPU v4، گوگل به توپولوژی ۳D Mesh روی آورد. TPU v5p این مسیر را ادامه داد و Podهایی با ۸,۹۶۰ تراشه را با توپولوژی ۳D Torus به هم متصل کرد. این توپولوژی‌های سه‌بعدی برای مقیاس‌های بسیار بزرگ حیاتی هستند، زیرا فاصله بین هر دو تراشه را به حداقل می‌رسانند و به طور مؤثر داده‌ها را در طول استراتژی‌های پیچیده موازی‌سازی (مانند پارتیشن‌بندی چندبعدی مدل) توزیع می‌کنند.

تراشه‌های Ironwood (TPU v6) پهنای باند تجمعی دوطرفه ۹.۶ Tbps را از طریق چهار لینک ICI ارائه می‌دهند که به پهنای باند پیک ۱.۲ TB/s به ازای هر تراشه ترجمه می‌شود.

این افزایش چشمگیر در اتصال تراشه‌ها، اگرچه عملکرد را تسریع می‌کند، اما مستقیماً منجر به افزایش چگالی سیم‌کشی و در نتیجه توان مصرفی و چگالی حرارتی در بردها می‌شود. این افزایش چگالی حرارتی است که نیاز به استفاده از خنک‌سازی مایع پیشرفته را توجیه و اجباری می‌کند.

 

۲.۳. جدول فنی تکامل گوگل TPU Pods (معماری و مقیاس)

برای درک عمق پیشرفت‌های معماری، جدول زیر مشخصات فنی کلیدی TPU Pods را از نسل‌های دارای خنک‌سازی مایع (v3) تا نسل‌های ابرمقیاس (Ironwood) نشان می‌دهد:

نسل TPU توان پیک (BF16) مقیاس حداکثری Pod ExaFLOPS Pod (پیک) توپولوژی ICI خنک‌سازی مایع (D2C) منبع
TPU v3 ۱۲۳ TFLOPS ۱,۰۲۴ Chip ۱۲۶ PetaFLOPS ۲D Torus بله
TPU v4 ۲۷۵ TFLOPS ۴,۰۹۶ Chip ۱.۱ ExaFLOPS ۳D Mesh بله
TPU v5p ۴۵۹ TFLOPS ۸,۹۶۰ Chip حدود ۴.۱ ExaFLOPS ۳D Torus بله
Ironwood (تا ۴.۶ PFLOPS FP8) ۹,۲۱۶ Chip ۴۲.۵ ExaFLOPS (FP8) ICI پیشرفته بله

 

دیتاسنترهای هایپراسکالر AI

 

بخش ۳: شبکه Jupiter و سوئیچینگ مدار نوری (OCS)

۳.۱. نقش Jupiter در خوشه AI Hypercomputer

شبکه دیتاسنتر Jupiter، زیربنای مدل ابررایانشی هوش مصنوعی گوگل (AI Hypercomputer) است. Jupiter شبکه‌ای است که امکان ارتباط یکنواخت و دلخواه را بین ده‌ها هزار سرور با پهنای باند صدها Gb/s و تأخیر زیر ۱۰۰ میکروثانیه فراهم می‌کند.

این زیرساخت مقیاس‌پذیر، نه‌تنها خدمات اساسی گوگل (مانند Search و YouTube) را پشتیبانی می‌کند، بلکه خوشه‌های عظیم AI را نیز ممکن می‌سازد.

مقیاس‌پذیری Jupiter به گونه‌ای است که توانایی اتصال خوشه‌های بزرگ‌تر از یک Superpod را فراهم می‌کند. معماری Ironwood می‌تواند تا ۴۳ Superpod Ironwood را در یک کلاستر واحد مدیریت کند که تقریباً ۴۰۰,۰۰۰ شتاب‌دهنده را شامل می‌شود و نشان‌دهنده یک مقیاس محاسباتی بی‌سابقه است.

این قابلیت مقیاس‌دهی کلان، حیاتی است تا مدل‌های زبان بزرگ (LLMs) بتوانند داده‌های خود را در میان صدها هزار تراشه به طور مؤثر به اشتراک بگذارند.

 

۳.۲. OCS: کاهش توان و تأخیر از طریق فناوری تمام‌نوری

برای دستیابی به چنین مقیاس و کارایی، گوگل Optical Circuit Switching (OCS) را به طور عمیق در معماری Jupiter خود ادغام کرده است.

OCS یک فناوری حیاتی در خوشه‌های AI است که شبکه‌های تمام‌نوری را تشکیل می‌دهد و جایگزین سوئیچینگ‌های مبتنی بر بسته سنتی می‌شود.

OCS با استفاده از فناوری‌هایی مانند آرایه‌های نوری MEMS (سیستم‌های میکروالکترومکانیکی)، مسیرهای نوری را مستقیماً سوئیچ می‌کند.

این فرآیند نیاز به تبدیل‌های پرهزینه و پرمصرف نوری به الکتریکی به نوری (OEO) و سوئیچ‌های بسته پرقدرت را از بین می‌برد. نتیجه این نوآوری، کاهش قابل توجه در هزینه‌ها و مصرف برق است؛ ترکیب OCS با معماری شبکه‌سازی تعریف شده توسط نرم‌افزار (SDN)، در مقایسه با بهترین جایگزین‌های شناخته شده، منجر به کاهش ۴۰٪ مصرف برق و ۳۰٪ کاهش هزینه شده است.

این فناوری در TPU v4، کمتر از ۵٪ از کل هزینه و توان سیستم را تشکیل می‌دهد، در حالی که عملکرد شبکه را به شدت افزایش می‌دهد. این صرفه‌جویی برای مقیاس‌های گیگاواتی، ضروری است.

 

۳.۳. پایداری و پیکربندی مجدد پویا (Dynamic Reconfigurability)

یکی از مزایای تحلیلی OCS فراتر از صرفه‌جویی در انرژی، قابلیت پیکربندی مجدد پویا (Dynamic Reconfigurability) است. TPU v4 اولین ابررایانه در جهان بود که یک OCS قابل پیکربندی مجدد را مستقر کرد.

در خوشه‌های AI که شامل هزاران تراشه هستند، شکست‌های جزئی سخت‌افزاری در طول زمان‌های طولانی آموزش اجتناب‌ناپذیر است. سوئیچینگ مداری OCS این امکان را فراهم می‌کند که به صورت آنی (در زیر ۱۰ نانوثانیه در Ironwood) در اطراف اجزای خراب، مسیریابی مجدد انجام شود.

این انعطاف‌پذیری تضمین می‌کند که وظایف آموزشی طولانی‌مدت (مانند آموزش مدل PaLM 540B پارامتری که ۵۰ روز به طول انجامید) بتوانند هزاران پردازنده را برای هفته‌ها بدون وقفه و با دسترس‌پذیری بالا مورد استفاده قرار دهند.

علاوه بر این، OCS جداسازی شبکه تمام‌نوری (Air-gapped) را برای لایه‌های مختلف یک سوپرکامپیوتر AI چندمستأجره فراهم می‌سازد که امنیت را برای اشتراک‌گذاری خوشه‌های TPU بهبود می‌بخشد.  

 

تجهیزات شبکه دیتاسنتر AI

 

بخش ۴: خنک‌سازی مایع: توانمندسازی دیتاسنترهای با چگالی بالا

۴.۱. حد ترمودینامیکی و اجبار خنک‌سازی مایع

انتقال دیتاسنترها به سمت بارهای کاری هوش مصنوعی، چگالی توان رک‌ها را به شدت افزایش داده است. در حالی که چگالی توان رک‌های سنتی حدود ۱۵ کیلووات بوده است، خوشه‌های هوش مصنوعی اکنون این چگالی را به محدوده ۸۰ کیلووات تا ۱۲۰ کیلووات رسانده‌اند.

این افزایش تصاعدی چگالی، محدودیت‌های ترمودینامیکی خنک‌سازی با هوا را کاملاً پشت سر گذاشته است. گوگل با درک این واقعیت فیزیکی، از نسل TPU v3 استفاده اجباری از خنک‌سازی مایع مستقیم به تراشه (D2C) را آغاز کرد، زیرا گرمای تولید شده توسط این پردازنده‌های بسیار قدرتمند از آستانه خنک‌سازی هوا فراتر رفت.

این استانداردسازی، گوگل را به یک رهبر بلامنازع در زمینه طراحی و استقرار D2C تبدیل کرده است، با تجاربی که نزدیک به یک دهه و چهار نسل از TPU را در بر می‌گیرد.

خنک‌سازی مایع، حرارت را تا چهار برابر بهتر از هوا دفع می‌کند و برای مدیریت چگالی توان بالای ۷۰ کیلووات در هر رک، به یک امر ضروری تبدیل شده است.

 

۴.۲. مکانیسم خنک‌سازی مستقیم به تراشه (D2C) گوگل

خنک‌سازی مایع D2C، کارایی حرارتی را تا چهار برابر بهتر از هوا فراهم می‌کند. در سیستم‌های TPU، صفحات سرد (Cold Plates) مستقیماً روی قطعات تولید کننده گرما از جمله خود تراشه‌های TPU و ماژول‌های حافظه با پهنای باند بالا (HBM) نصب می‌شوند.

این صفحات سرد با استفاده از میکرومجراهای (Microchannels) ریز (با ابعاد ۲۷ تا ۱۰۰ میکرون) طراحی شده‌اند که به مایع خنک‌کننده (مانند مخلوط آب-گلیکول) اجازه می‌دهند ۷۰ تا ۷۵ درصد از بار حرارتی رک را مستقیماً در منبع جذب کند.

سیالات خنک‌کننده مورد استفاده شامل مخلوط آب-گلیکول (برای بهبود نقطه انجماد و جلوگیری از خوردگی) یا سیالات دی‌الکتریک پیشرفته هستند. یک مزیت کلیدی معماری D2C گوگل، توانایی کار با آب گرم است.

سیستم‌های مدرن D2C معمولاً با آب ورودی تا دمای 40°C و بازگشتی 50°C عمل می‌کنند. این دمای بالاتر آب به این معنی است که دیتاسنتر می‌تواند از سیستم‌های خنک‌کننده با راندمان بسیار بالاتر استفاده کند و نیاز به چیلرهای مکانیکی پرمصرف را که بخش قابل توجهی از سربار انرژی را تشکیل می‌دهند، به شدت کاهش دهد.  

 

۴.۳. الزامات مهندسی خنک‌سازی برای مقیاس‌پذیری

اجرای موفقیت‌آمیز D2C در مقیاس ابررایانشی مستلزم توجه به مهندسی فراتر از عملکرد حرارتی است. گوگل تأکید می‌کند که طراحی سیستم‌های خنک‌کننده مایع برای TPUها باید بر پنج رکن اساسی متمرکز باشد: طراحی برای عملکرد بالا، کیفیت ساخت، قابلیت اطمینان و آپتایم، سرعت استقرار، و قابلیت سرویس‌دهی عملیاتی.

برای اطمینان از قابلیت سرویس‌دهی، سیستم‌های D2C مدرن با ویژگی‌هایی مانند کوپلینگ‌های جداشدنی سریع (Quick-disconnect couplings) برای نگهداری Hot-swappable و سیستم‌های تشخیص نشت خودکار که در میلی‌ثانیه‌ها حلقه خنک‌کننده را خاموش می‌کنند، مهندسی شده‌اند.

این ملاحظات عملیاتی برای حفظ دسترس‌پذیری طولانی‌مدت هزاران تراشه در یک Pod ضروری هستند. از دیدگاه کارایی، حذف ۷۰ تا ۷۵ درصد از بار حرارتی در منبع، به طور قابل توجهی سربار تسهیلات را کاهش می‌دهد و به PUE جزئی (Partial PUE) در محدوده ۱.۰۲ تا ۱.۰۳ کمک می‌کند.  

 

سرمایش دیتاسنتر هوش مصنوعی

 

بخش ۵: رهبری در کارایی عملیاتی و پایداری (PUE & Operational Excellence)

۵.۱. رکورد جهانی در کارایی مصرف برق (PUE)

کارایی زیرساخت دیتاسنتر با معیار کارایی مصرف برق (PUE) اندازه‌گیری می‌شود که نسبت کل انرژی مصرفی تأسیسات به انرژی مصرفی تجهیزات IT است؛ امتیاز ۱.۰ نشان‌دهنده کارایی کامل است.

عملکرد گوگل در PUE، به دلیل هم‌افزایی طراحی ASIC (TPU) و معماری خنک‌سازی مایع D2C، به طور مداوم استانداردهای صنعت را تعیین کرده است. در سال ۲۰۲۴، میانگین سالانه PUE برای ناوگان جهانی دیتاسنترهای گوگل ۱.۰۹ بود.

این رقم به طور قابل توجهی پایین‌تر از میانگین صنعت (که به طور معمول ۱.۵۶ است) قرار دارد. این تفاوت بدان معناست که دیتاسنترهای گوگل حدود ۸۴ درصد انرژی سربار کمتری برای هر واحد انرژی تجهیزات IT مصرف می‌کنند.

این کارایی عملیاتی به این دلیل امکان‌پذیر است که خنک‌سازی با آب گرم D2C نیاز به مصرف انرژی کمتری برای مدیریت حرارت دارد و در نتیجه سربار را کاهش می‌دهد.  

 

۵.۲. بهینه‌سازی AI-محور خنک‌سازی توسط DeepMind

گوگل یک لایه مدیریت انرژی پیشرفته را در بالای زیرساخت فیزیکی خود مستقر کرده است: بهینه‌سازی AI-محور خنک‌سازی که توسط DeepMind توسعه یافته است.

این سیستم کنترل هوشمند، یک چرخه بازخورد "AI برای AI" ایجاد می‌کند، جایی که مدل‌های هوش مصنوعی، زیرساخت فیزیکی‌ای را بهینه می‌کنند که خود هوش مصنوعی را اجرا می‌کند. هر پنج دقیقه، AI مبتنی بر ابر، از هزاران حسگر در سیستم خنک‌سازی دیتاسنتر تصویر می‌گیرد (شامل داده‌هایی مانند دما و توان).

این داده‌ها به شبکه‌های عصبی عمیق فید می‌شوند تا پیش‌بینی کنند که چگونه ترکیبات مختلف اقدامات بالقوه بر مصرف انرژی در آینده تأثیر می‌گذارند. سپس سیستم هوش مصنوعی اقداماتی را شناسایی می‌کند که مصرف انرژی را به حداقل می‌رساند، در حالی که مجموعه‌ای قوی از محدودیت‌های ایمنی را نیز برآورده می‌کند.

اجرای این سیستم کنترل مبتنی بر AI، منجر به کاهش چشمگیر ۴۰ درصدی در انرژی مورد استفاده برای خنک‌سازی دیتاسنترها شده است، که تقریباً یک کاهش ۱۵ درصدی در PUE کلی را به دنبال دارد. این رویکرد، به گوگل اجازه می‌دهد تا کارایی عملیاتی را نه به صورت ایستا، بلکه به صورت دینامیک و بر اساس بارهای کاری بلادرنگ تنظیم کند.  

 

۵.۳. پایداری جامع: در نظر گرفتن WUE و CUE

در حالی که کارایی PUE به طور قابل توجهی با خنک‌سازی مایع بهبود یافته و انتشار کربن مرتبط با انرژی سربار کاهش می‌یابد ، توجه به مصرف آب (معیار Water Usage Effectiveness یا WUE) نیز در بحث پایداری زیرساخت‌های AI ضروری است.

پیش‌بینی‌ها نشان می‌دهند که با گسترش هایپراسکال‌ها و پذیرش سیستم‌های خنک‌سازی مایع، میانگین WUE در حال افزایش است. رویکرد مسئولانه گوگل شامل گزارش‌دهی شفاف درباره این بده‌بستان است.

این شرکت برای دستیابی به پایداری جامع، علاوه بر PUE، معیارهایی مانند WUE و Carbon Usage Effectiveness (CUE) را نیز مدنظر قرار می‌دهد تا دید کامل‌تری از عملکرد زیست‌محیطی داشته باشد.

تعهد به اولویت‌بندی مصرف آب مسئولانه، بهینه‌سازی سیستم‌های خنک‌کننده با تعادل بین انرژی، آب و انتشار کربن، و اجرای پروژه‌های جبران آب در سایت‌های جدید ، سطح بالایی از مسئولیت‌پذیری و تخصص (E-A-T) را در مدیریت پایداری زیرساخت AI در مقیاس جهانی نشان می‌دهد.

جدول زیر دستاوردهای عملیاتی حاصل از هم‌طراحی زیرساخت TPU و سیستم‌های خنک‌سازی را خلاصه می‌کند:

معیار کلیدی عملکرد ناوگان گوگل (2024) میانگین صنعت (مرجع) اثر عملیاتی
PUE (کارایی مصرف برق) 1.09 1.56 کاهش 84% انرژی سربار نسبت به میانگین صنعت.
صرفه‌جویی AI در خنک‌سازی 40% کاهش N/A تضمین دمای عملیاتی بهینه با حداقل انرژی توسط DeepMind.
چگالی توان رک (AI Cluster) 80 kW تا 120 kW 28 15 kW (سنتی) ممکن شده توسط استانداردسازی خنک‌سازی مایع D2C.17
حذف حرارت در منبع (D2C) 70% تا 75% 17 N/A بهبود PUE جزئی و کاهش بار بر زیرساخت تسهیلات.

 

استاندارد PUE دیتاسنتر AI

 

بخش ۶: نتیجه‌گیری: AI Hypercomputer و ترسیم آینده زیرساخت هوش مصنوعی

 

۶.۱. هم‌افزایی AI Hypercomputer

TPU Pods هسته مرکزی پلتفرم AI Hypercomputer گوگل را تشکیل می‌دهند. این پلتفرم نمایانگر یک پشته محاسباتی کاملاً یکپارچه است که در آن تمام اجزا—معماری TPU، شبکه Jupiter/OCS و سیستم‌های خنک‌سازی مایع—به صورت هماهنگ عمل می‌کنند تا کارایی پیک را برای حجم کاری هوش مصنوعی ارائه دهند.

این رویکرد هم‌طراحی منجر به نتایج ملموس برای کاربران می‌شود. به عنوان مثال، در مدل‌های زبان بزرگ، استفاده از TPU v5p نسبت به TPU v4، منجر به ۲ برابر افزایش سرعت در آموزش شده است.

این بهبودها با غلبه بر تنگناهای سنتی (مانند حرکت داده با MXU و ICI، و قابلیت اطمینان با OCS) و همچنین حفظ دماهای عملیاتی مطلوب از طریق خنک‌سازی D2C به دست می‌آید.

TPU Pods در نهایت، مقیاس‌پذیری و دسترس‌پذیری مورد نیاز برای آموزش و استنتاج در مدل‌های عظیم مانند PaLM و Gemini را فراهم می‌کنند.  

 

۶.۲. تأثیر بر تحول صنعت دیتاسنتر

تجربه گوگل با TPU Pods نشان داده است که خنک‌سازی مایع نه یک گزینه بلکه یک اجبار فیزیکی برای محاسبات با چگالی بالا است.

رهبری گوگل در استقرار D2C، استانداردهای صنعت را تغییر داده است.انتظار می‌رود که با ادامه افزایش چگالی تراشه‌ها و رک‌ها (که تا ۲۰۰ کیلووات بر رک افزایش می‌یابد)، خنک‌سازی D2C (تک‌فاز) تا سال‌های ۲۰۲۵ تا ۲۰۲۶ به جریان اصلی برای حجم کارهای AI تبدیل شود و دوام طولانی‌مدت زیرساخت‌های خنک‌سازی هوا را به چالش بکشد.

این استانداردسازی خنک‌سازی مایع، یک فشار رقابتی قابل توجهی بر سایر بازیگران حوزه دیتاسنتر ایجاد می‌کند. بدون اتخاذ راه‌حل‌های پیشرفته مدیریت حرارتی، دستیابی به توان‌های محاسباتی Ironwood (با توان ۴۲.۵ ExaFLOPS) در یک فضای فیزیکی محدود دیتاسنتر، عملاً غیرممکن خواهد بود.  

 

۶.۳. چشم‌انداز آینده

تکامل TPU با نسل‌های جدید ادامه دارد. معرفی تراشه‌های آتی مانند Trillium، که ۴.۷ برابر توان محاسباتی پیک بیشتر به ازای هر تراشه و ۶۷ درصد کارایی انرژی بهتری نسبت به نسل قبلی خود ارائه می‌دهند، تأکید می‌کند که روند تخصصی‌سازی و افزایش نیازهای حرارتی ادامه خواهد داشت.

گوگل TPU Pods را نه تنها به عنوان یک شتاب‌دهنده محاسباتی، بلکه به عنوان کاتالیزوری برای معماری مجدد کل دیتاسنتر طراحی کرده است.

هم‌افزایی بین معماری MXU، شبکه OCS که هزاران تراشه را به هم پیوند می‌دهد، و خنک‌سازی D2C که چگالی توان را امکان‌پذیر می‌سازد، مزیت استراتژیک گوگل در حوزه هوش مصنوعی را در مقیاس عظیم تثبیت می‌کند و مسیر آینده دیتاسنترهای ابررایانشی پایدار و کارآمد را ترسیم می‌نماید.  

 

پرسش‌های متداول (FAQ) – بهینه‌سازی شده برای Featured Snippet

تفاوت اصلی دیتاسنتر AI با HPC سنتی چیست؟

در حالی که هر دو از معماری مشابه (محاسبات موازی) بهره می‌برند، دیتاسنترهای هوش مصنوعی تأکید بیشتری بر پایپ‌لاین‌های عظیم داده، توان عملیاتی استنتاج (Inference Throughput)، و حاکمیت مدل‌های هوش مصنوعی دارند.

HPC اغلب بر شبیه‌سازی‌های علمی و مدل‌های ثابت متمرکز است، در حالی که AI DC بر آموزش و به‌روزرسانی مداوم مدل‌های تریلیون پارامتری تمرکز دارد.

یک دیتاسنتر AI برای تسهیل قابلیت‌هایی مانند خنک‌سازی مایع و چگالی توان تا ۱۰۰ کیلووات در هر رک تجهیز می‌شود، در حالی که رک‌های سنتی بین ۳ تا ۱۲ کیلووات توان می‌کشند.

آیا خنک‌سازی مایع برای هر دیتاسنتر AI ضروری است؟

بله. با توجه به اینکه پردازنده‌های AI نسل جدید حرارت متمرکز بالایی تولید می‌کنند و رک‌ها به چگالی بالای ۷۰ کیلووات می‌رسند، خنک‌سازی با هوا دیگر کافی نیست.

برای هر مرکزی که به دنبال استقرار GPU/TPU های پرچگالی است،خنک‌سازی مایع (مانند Direct-to-Chip یا Immersion) از یک گزینه به یک ضرورت عملیاتی و اقتصادی تبدیل شده است.

گوگل از نسل TPU v3 استفاده اجباری از خنک‌سازی مایع مستقیم به تراشه (D2C) را آغاز کرده است.

PUE ایده‌آل برای یک دیتاسنتر AI چقدر است؟

به لطف استفاده از تکنولوژی‌های پیشرفته خنک‌سازی مایع و مدیریت هوشمند مبتنی بر هوش مصنوعی (مانند سیستم DeepMind گوگل)، دیتاسنترهای هایپراسکالر AI در تلاش‌اند تا PUE خود را به زیر ۱.۲ و در حالت ایده‌آل بین ۱.۰۷ تا ۱.۱ برسانند.

مدیریت خودکار توسط AI در گوگل نشان داد که می‌توان انرژی مصرفی برای خنک‌سازی را تا ۴۰٪ کاهش داد، که منجر به بهبود PUE کلی حدود ۱۵٪ می‌شود.

 

گام بعدی برای زیرساخت هوش مصنوعی شما

همانطور که بزرگترین بازیگران جهان در حال انتقال از مراکز داده سنتی به "کارخانه‌های هوش مصنوعی" هستند، دیگر نمی‌توان با استفاده از زیرساخت‌های قدیمی به مزیت رقابتی در حوزه LLMها دست یافت.

ورود به عصر هوش مصنوعی نیازمند بازنگری کامل در معماری زیرساخت‌های فیزیکی است. اگر سازمان شما در حال برنامه‌ریزی برای استقرار رک‌های با چگالی توان ۱۰۰ کیلووات یا بالاتر، طراحی و پیاده‌سازی سیستم خنک‌سازی مایع اختصاصی (D2C یا غوطه‌وری)، یا مهاجرت به معماری‌های توان HVDC برای دستیابی به بالاترین PUE و WUE ممکن است، این تصمیمات حیاتی نیازمند مشاوره از معماران زیرساخت با تجربه در مقیاس هایپر‌مقیاس است.

فیدارکوثر، شریک فنی شما: برای مشاوره تخصصی در زمینه ارزیابی AI-Readiness زیرساخت فعلی، طراحی و استقرار سیستم‌های خنک‌سازی مایع و بهینه‌سازی معماری توان برای کاهش هزینه‌های عملیاتی و تضمین پایداری بلندمدت زیرساخت هوش مصنوعی، با تیم متخصصان ما تماس بگیرید. ما به شما کمک می‌کنیم تا کارخانه هوش مصنوعی خود را با بالاترین راندمان ممکن بسازید.  

نظرات :
ارسال نظر :

بعد از ورود به حساب کاربری می توانید دیدگاه خود را ثبت کنید