Decoupled DiLoCo: ثورة في تدريب الذكاء الاصطناعي

تحليل
٢٦ أبريل ٢٠٢٦
© بوابة الذكاء الاصطناعي

كشفت Google DeepMind عن Decoupled DiLoCo، وهي بنية لامركزية تقلل من عرض النطاق الترددي بين مراكز البيانات بأكثر من ٩٩٪ وتحقق ٨٨٪ من الإنتاجية الجيدة في ظل معدلات فشل الأجهزة العالية، مما يعيد تعريف كيفية تدريب نماذج الذكاء الاصطناعي على مستوى عالمي.

فريق بوابة الذكاء الاصطناعي | ٧ دقائق قراءة

النقاط الرئيسية & ملخص تقني

تقليل غير مسبوق في عرض النطاق الترددي: يقلل من الاتصال المطلوب بين مراكز البيانات من ١٩٨ جيجابت في الثانية إلى ٠.٨٤ جيجابت في الثانية فقط.
مرونة معزولة عن الأعطال: يحقق ٨٨٪ من الإنتاجية الجيدة خلال معدلات فشل الأجهزة العالية، مقارنة بـ ٢٧٪ فقط في إعدادات البيانات المتوازية التقليدية.
حوسبة غير متجانسة: يدعم بشكل طبيعي مزج أجيال مختلفة من الشرائح (مثل TPU v6e وTPU v5p) في عملية تدريب واحدة دون انخفاض في الأداء.
الحفاظ على الدقة: يطابق المعايير التقليدية، حيث يصل إلى دقة ٦٤.١٪ مقارنة بالخط الأساسي التقليدي ٦٤.٤٪ على بنية Gemma 4.

ما الذي حدث

في ٢٣ أبريل ٢٠٢٦، كشفت Google DeepMind عن تقدم هائل في بنية الذكاء الاصطناعي: Decoupled DiLoCo (التوزيع منخفض الاتصال). تم تصميم هذه البنية الجديدة لحل هشاشة وحدود الجغرافيا في تدريب النماذج الضخمة بشكل دائم.

في التدريب المركزي التقليدي، يجب أن تبقى كل وحدة معالجة الرسوميات أو TPU في تزامن شبه مثالي. إذا فشل أحد العقد، يتوقف تشغيل التدريب بالكامل. يقلب Decoupled DiLoCo هذا الافتراض عن طريق تقسيم عمليات التدريب إلى “جزر حوسبة” غير متزامنة ومعزولة عن الأعطال. بدلاً من الحاجة إلى اتصال متزامن ومستمر يعوق المعالجة، يسمح النظام بتدفق البيانات بشكل غير متزامن بين العقد.

بيانات المعايير

المقياس	البيانات المتوازية القياسية	Decoupled DiLoCo
عرض النطاق الترددي المطلوب	198 Gbps	0.84 Gbps
الإنتاجية الجيدة (معدل فشل عالي)	27%	88%
دقة النموذج (Gemma 4)	64.4% (Baseline)	64.1%
التوافق مع الأجهزة	Homogeneous Only	Heterogeneous (TPU v6e + v5p)

التحليل التقني: موت عنق الزجاجة “المعوق”

الانتصار التقني المميز لـ Decoupled DiLoCo هو القضاء على “العرقلة”. من خلال دمج الاتصالات الضرورية في فترات أطول من الحساب المحلي، يمكن لوحدات التعلم حساب التدرجات بشكل مستقل ومزامنة التدرجات الخارجية فقط على فترات ضخمة.

هذا التحول في البنية يقلل من متطلبات عرض النطاق الترددي بأوامر متعددة من الحجم. بدلاً من الحاجة إلى بنية تحتية مخصصة ومكلفة للشبكات عالية السرعة، نجحت DeepMind في تدريب نموذج يحتوي على ١٢ مليار معلمة عبر أربع مناطق مختلفة في الولايات المتحدة باستخدام اتصال تجاري قياسي على مستوى الإنترنت.

علاوة على ذلك، باستخدام هندسة الفوضى لمحاكاة فشل الأجهزة في العالم الحقيقي، أثبت النظام أنه ذاتي الشفاء. عندما توقفت وحدة التعلم عن العمل، استمر باقي الكتلة دون توقف. وعندما تعافت الوحدة المتوقفة، أعيد دمجها بسلاسة في مجموعة التدريب.

ميزة الأجهزة غير المتجانسة

إحدى الآثار الفورية لهذه الورقة على المؤسسات هي مزج الأجهزة. تاريخياً، كان على مراكز البيانات تدريب النماذج باستخدام نفس الجيل من الشرائح التي تعمل بنفس السرعة. أظهر Decoupled DiLoCo القدرة على مزج شرائح TPU v6e وTPU v5p في عملية واحدة دون أي تدهور في الأداء.

هذا يمدد دورة الحياة المفيدة لمسرعات الذكاء الاصطناعي القديمة. لم يعد عمالقة التكنولوجيا والمؤسسات بحاجة إلى انتظار عمليات طرح الأجهزة المتجانسة؛ يمكنهم الاستفادة من الموارد الحسابية “المهجورة” أو القديمة في جميع أنحاء العالم للمساهمة في عملية تدريب واحدة ضخمة.

رأينا

Decoupled DiLoCo من Google DeepMind ليس مجرد تحديث تدريجي؛ إنه يغير بشكل جذري اقتصاديات الذكاء الاصطناعي. من خلال خفض حاجز عرض النطاق الترددي بشكل كبير، أثبتت DeepMind أن مستقبل تدريب الذكاء الاصطناعي لا يتطلب بناء حاسوب فائق ضخم بمليارات الدولارات.

بدلاً من ذلك، المستقبل هو اللامركزية. يسمح للشركات بتجميع شبكة عالمية من مراكز البيانات ووحدات معالجة الرسوميات القديمة عبر خطوط الإنترنت القياسية لتدريب نماذج تنافس الأفضل في العالم. بينما يتسابق المنافسون لتقليد هذه البنية، يبرز Decoupled DiLoCo كواحد من أهم الاختراقات في البنية التحتية لعام ٢٠٢٦.

عمليات بحث شائعة