كيف تقيس جودة مخرجات LLM دون ground truth؟

برومبت تغيّر والتعليقات إيجابية — لكن لم يكن هناك معيار. بنيت نظام تقييم ثلاثي كشف تحسيناً في جانب وتراجعاً في آخر.

#AI #Evaluation #Prompt

// في هذا المقال

السياق

تقارير يولّدها GPT-4o للعملاء. عدّلت system prompt لتحسين وضوح التسلسل المنطقي. التعليقات الأولية إيجابية. لكن: هل تحسّنت فعلاً؟ هل حسّنت جانباً وكسرت آخر؟ لا ground truth، لا A/B رسمي، فقط انطباع.

الإجراء

بنيت pipeline تقييم ثلاثي: (1) Rubric يدوي — 5 معايير (وضوح، دقة، اكتمال، لغة، غياب هلوسة) من 1 إلى 5، قيّمت يدوياً 20 تقريراً لكل إصدار بدون معرفة أيهما الجديد، (2) LLM-as-judge — GPT-4 يقيّم نفس المعايير بـ prompt منفصل مع عرض التقريرين جانباً دون معرفة أيهما الأحدث، (3) قياس كمي: طول الاستجابة، نسبة الجمل التأكيدية، تكرار مصطلحات بعينها.

النتيجة

الإصدار الجديد أعلى في "وضوح التسلسل" (+0.8) لكن أقل في "الاكتمال" (−0.4) — ما لاحظه المستخدمون صحيح لكن جزئي. LLM-as-judge كشف هذا التباين سريعاً. التحيز للأطول واضح: الـ judge منح نقاطاً أعلى لتقارير أطول حتى مع محتوى مماثل، وهو ما كشفه القياس الكمي.

الدرس

بدون قياس متعدد الأبعاد، "أفضل" لا تعني شيئاً — LLM-as-judge أداة سريعة وقوية لكن يجب معايرتها ضد حكم يدوي أولاً.

هل تشبه فكرتك هذا المشروع؟ باب التعاون من هنا ‹