لقد أحدثت النماذج اللغوية الكبيرة (LLMs) ثورة في عالم الذكاء الاصطناعي بفضل قدراتها الهائلة على معالجة اللغة الطبيعية. فمن توليد المحتوى الإبداعي إلى الإجابة عن الأسئلة المعقدة، غيّرت هذه النماذج العديد من جوانب التفاعل مع اللغة. لكن رغم قوتها، ما زال تكييفها مع المجالات المتخصصة مثل الطب، والمالية، والقانون، تحدياً كبيرا، إذ تتطلب هذه المجالات دقة عالية وفهماً عميقاً للمصطلحات والمعرفة الخاصة، مما يضيف تكاليف لبناء وكلاء أذكياء متخصصين عبر استهلاك أكبر للذاكرة. إعادة تدريب النموذج أو استخدام التوليد المعزز بالاسترجاع RAG قد تكون حلول ممتازة لكن قد تسبب بعض المشاكل.
ما المشكلة في التعامل مع البيانات المتخصصة في نماذج اللغات الكبيرة
لكي تجعل أي نموذج ذكاء اصطناعي قادر على التعامل مع بيانات جديدة لمجال معين لم يتدرب عليها من الأساس، فهناك طريقتين لفعل ذلك:
أولاً: DAPT – Domain Adaptive Pre-Trainingإعادة التدريب المسبق المتخصص بالمجال.
حيث بعد أن تم تدريب النموذج على بيانات عامة (مثل نصوص الإنترنت)، نعيد تدريبه على بيانات متخصصة (مثل مقالات طبية أو وثائق قانونية) حتى يتقن مصطلحات ومفاهيم هذا المجال.
فمثلا نأخذ أحد نماذج اللغات الكبيرة (مثل Llama أو GPT). ثم نقوم بتدريبه مرة اخرى (pre-training) على نصوص متخصصة في المجال المطلوب. فيصبح النموذج قادرا على فهم المجال الجديد المتخصص وأكثر معرفة بالمصطلحات والأسلوب الخاص بالمجال.
المزايا:
- يُحسن دقة النموذج بشكل ملحوظ في المجال المتخصص.
- يكتسب النموذج “لغة جديدة” تشبه لغة أهل التخصص.
العيوب:
- مكلف جداً حسابياً: لأنك تحتاج إلى إعادة تدريب النموذج الضخم بكل معاييره (مليارات المعاملات)، وهذا يحتاج إلى عتاد وذاكرة ومعالجة GPU.
- نسيان كارثي (Catastrophic Forgetting): بعد أن يصبح النموذج قوياً في المجال المتخصص، قد يفقد بعض قدراته العامة (مثل الكتابة الإبداعية أو الإجابة عن أسئلة عامة)، مما يضيف النموذج.
- غير عملي مع النماذج الضخمة جداً: لأن تكلفة التدريب قد تصل إلى ملايين الدولارات.
ثانياً: RAG – Retrieval Augmented Generation التوليد المعزز بالاسترجاع
وهذه الطريقة مستخدمة بشكل كبير، حيث بدلاً من تدريب النموذج على كل شيء، نقوم بربطه بـ”محرك بحث” خارجي. عندما تسأله، يبحث عن المعلومات في قاعدة بيانات خارجية، ثم يستخدمها لتوليد الإجابة.
فعندما يطرح المستخدم السؤال، يقوم النموذج بعملية استرجاع (Retrieval) من قاعدة بيانات منظمة أو محرك بحث خاص. يتم يدمج المحتوى المسترجع مع سياق النموذج (Context) ليُعطي إجابة دقيقة.
عمليات التخزين والاسترجاع تتعامل مع التمثيل الرقمي لمعاني النصوص Embedding وذلك حتى تتم العملية بشكل سريع. وهي ذات الطريقة التي يتم فيها تحويل النصوص لتدريب النماذج عليها.
حيث أن جميع ما يتم تخزينه في قواعد البيانات يتم تقسيمه في البداية إلى أجزاء chunks ثم تحويل كل جزء إلى مصفوفات رقمية معتمدين على المعنى وليس النص، ثم يتم تخزين هذه المعلومات في قواعد بيانات مصفوفية Vector Database.
عندما يتم البحث بعد ذلك، يتم مقارنة السؤال الذي أرسله المستخدم بعد تمثيله رقمها، بالمعلومات الرقمية المخزنة في قواعد البيانات وإرسال اقرب شيء له إلى النموذج اللغوي ليقوم بإجابة المستخدم.
يستخدم هذا الأسلوب بشكل فعال في بناء ذاكرة الوكيل الذكي. حيث أن الوكيل الذكي يخزّن تجاربه وبياناته (من المستخدم أو من مصادر خارجية) داخل قاعدة بيانات متخصصة تسمح بالبحث الدلالي (Semantic Search) وليس فقط البحث بالكلمات.، مثل قاعدة Vectors (مثل Pinecone أو Milvus).
عندما يحتاج الوكيل للإجابة، لا يعتمد فقط على النموذج اللغوي. بل يستخدم RAG للبحث في ذاكرته (أو في مصادر خارجية) عن المعلومة الأكثر صلة بالسؤال. ثم يقوم يدمج المعلومة المسترجعة من الذاكرة مع قدرات النموذج اللغوي ليُعطي إجابة أكثر دقة وغنى.
المزايا:
- لا يحتاج لإعادة تدريب النموذج.
- مرن: يمكن تحديث قاعدة البيانات بسهولة دون المساس بالنموذج.
- يضيف للنموذج معرفة “حديثة” أو “متغيرة باستمرار” (مثلاً: أسعار الأسهم، مقالات جديدة).
العيوب:
- بطء الاستدلال: لأن كل سؤال يحتاج عملية بحث في قاعدة بيانات ضخمة (Nearest Neighbor Search).
- ذاكرة خارجية: يعتمد على ما يتم استرجاعه لحظياً فقط، ولا يخزّن المعرفة داخلياً داخل النموذج.
- تعقيد في البنية: يتطلب نظاماً إضافياً لإدارة البيانات والاسترجاع بجانب النموذج.
وهكذا نجد أنفسنا بين خيارين: تدريب مكلف مع احتمال فقدان المعرفة (DAPT)، أو استدلال بطيء ومكلف (RAG).
هنا يأتي دور نموذج مُولِّف الذاكرة Memory Decoder الذي اقترحته ورقة عمل بحثية مؤخرا (أغسطس 2025) ليقدم حلاً مبتكراً يجمع بين مزايا الطريقتين دون عيوبهما.
الحل المقترح: مُولِّف الذاكرة Memory Decoder
تقترح الورقة البحثية مكونا مستقلا مسبق التريب، وهو مُولِّف الذاكرة Memory Decoder (أو MemDec)، والذي يقوم بضغط المعرفة المخزّنة في قواعد بيانات ضخمة في نموذج مدمج وصغير الحجم يمكن أن يتم إضافته بعد ذلك بشكل مباشر إلى أي نموذج لغوي كبير، بحيث يضيف له البيانات الجديدة المتخصصة دون تعديل على مكونات النموذج الأصلي، وذلك من خلال تعلمه لطريقة الاسترجاع التي تتم مع تلك البيانات الجديدة.
فكّر فيه كذاكرة إضافية يتم توصيلها بالنموذج مثل “وحدة خارجية”، دون الحاجة إلى تعديل النموذج نفسه.
هذه الذاكرة الإضافية تتعلم أن تقلّد طريقة البحث في المصادر الخارجية، لكنها تحفظ هذه المعرفة بشكل مضغوط بداخلها، بحيث يصبح النموذج أسرع وأكثر دقة في المجال المطلوب.
كيف يعمل مُولِّف الذاكرة Memory Decoder؟
وفقا للورقة البحثية، ينبغي أن يتم تدريب Memory Decoder أولاً على كيفية استرجاع البيانات متخصصة. بعدها، عند الاستخدام، يعمل بجانب النموذج الأساسي ويضيف له لمسة “خبرة متخصصة”.
النتيجة: إجابات أسرع وأكثر دقة دون تكلفة البحث الخارجي أو فقدان المعرفة العامة.
وبالتالي فإن آلية العمل تمر بمرحلتين:
- مرحلة ما قبل التدريب:
يتم تدريب نموذج صغير من نوع Transformer Decoder ليولّد توزيعات احتمالية لمصطلحات المجال المتخصص تحاكي تلك الناتجة عن أنظمة الاسترجاع للبيانات الجديدة. فيلتقط النموذج المصغر المعرفة الأساسية للمجال المتخصص إضافة إلى أنماط استرجاع المعلومات من تلك المعرفة، ثم يقوم بضغطها وتخزينها داخل النموذج.
هنا يتعلم هذا النموذج الصغير كيفية الاسترجاع المرتبطة ببيانات المجال المتخصص دون أن يقوم باسترجاعها فعلا. ثم يخزن ما تعلمه داخل النموذج ذاته.
- مرحلة الاستدلال:
بعد التدريب، يعمل Memory Decoder بالتوازي مع النموذج اللغوي الأساسي، حيث تُدمج مخرجاتهما لتوليد تنبؤات محسّنة خاصة بالمجال المتخصص الجديد، دون الحاجة لاسترجاع خارجي مكلف.
لتفاصيل تقنية اكبر يمكنك مراجعة الورقة البحثية.
المزايا الرئيسية لـ Memory Decoder
يمثل Memory Decoder نقلة نوعية في كيفية اكتساب النماذج اللغوية للخبرة المتخصصة. فهو يفصل بين المعرفة المتخصصة وبنية النموذج الأساسية، مما يتيح إطاراً أكثر مرونة وكفاءة. وبدلاً من استنزاف موارد ضخمة في تدريب نماذج متعددة، يمكن استثمار Memory Decoder واحد لخدمة مجموعة كبيرة من النماذج.
أهم الفوائد من هذا النموذج:
- يقدم تحسينات ملحوظة بأقل تكلفة زمنية. إذ يضيف زيادة طفيفة في التكلفة ولكن تحسين العمل بنسبة تتراوح بين 1.28x و 2.17x من الطرق التقليدية الأخرى.
- يمكن دمجه مع أي نموذج لغوي LLM يستخدم نفس المُجزّئ (Tokenizer) دون الحاجة لتعديلات.
- يعزز الأداء في عائلات متعددة من النماذج اللغوية مثل Qwen2 وLlama3 بمختلف أحجامها (من 0.5B حتى 72B) وفي مجالات متنوعة كالطب والقانون والمالية.
- يمكن نقل المعرفة بين نماذج مختلفة البنى (مثلاً من Qwen2.5 إلى Llama) بتكلفة تدريب إضافية لا تتجاوز 10%.
- لا يؤدي إلى فقدان المهارات العامة للنموذج الأصلي، بل قد يحسن أداء النموذج في مهام مثل تحليل المشاعر أو الاستدلال النصي.
- تعزيز الاستدلال المعتمد على المعرفة حيث يحسن أداء النماذج في مهام مثل Natural Questions و HotpotQA.
- توازن مثالي حيث يجمع بين دقة المعرفة المتخصصة وسلاسة اللغة الطبيعية.
- قابلية التوسع: حتى النماذج الصغيرة تحقق نتائج منافسة لطرق التدريب الكامل.
نحو نماذج ذكاء اصطناعي اكثر تخصصا
يمثل Memory Decoder خطوة مهمة نحو جعل الذكاء الاصطناعي أكثر تخصصاً، دون أن يفقد قدراته العامة أو يتطلب تكاليف باهظة. إنه حل عملي يجمع بين سرعة الذكاء الاصطناعي العام ودقة المعرفة المتخصصة. الذكاء الاصطناعي و الوكلاء الأذكياء في طريقه لأن يكون أكثر تخصصا وأقل تكلفة مما سيجعله متاحا أكثر لمجالات وأعمال ومهام متنوعة وأكثر تعقيدا..في حال حاجتك لمعلومات اضافية أو استشارة, يمكنك التواصل معنا.
العالم الرقمي يتغير باستمرار ونحن بحاجة لأن نكون على اطلاع دائم فاشترك معنا ليصلك كل ما يمكن أن يساعدك في رحلتك نحو التحول الرقمي سواء في العمل أو التعليم أو التواصل.