← الرئيسية
السؤال
يحصل النموذج فيه على مكافآت
الإجابة
يتم تدريب النموذج باستخدام تقنيات التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF)، حيث يحصل على مكافآت بناءً على جودة ودقة إجاباته.