التعبئة (تجميع التمهيد) - نظرة عامة ، كيف يعمل ، المزايا

يمكن تصنيف التعلم الآلي للمجموعة بشكل أساسي إلى التعبئة والتعزيز. تقنية التعبئة مفيدة لكل من التصنيف الانحداري والإحصائي. يتم استخدام التكييس مع أشجار القرار ، حيث يزيد بشكل كبير من استقرار النماذج في تقليل التباين وتحسين الدقة ، مما يلغي تحدي التجهيز الزائد.

تكييس

الشكل 1. تدفق التعبئة (تجميع التمهيد). مصدر

يتطلب وضع مجموعة تعلم الآلة العديد من النماذج الضعيفة ، وتجميع التوقعات لتحديد أفضل تنبؤ. تتخصص النماذج الضعيفة في أقسام مميزة من مساحة الميزة ، مما يتيح إمكانية الحصول على تنبؤات الرافعة المالية من كل نموذج للوصول إلى الهدف الأقصى.

Quick Su mmary

  • التعبئة والتعزيز هما الطريقتان الرئيسيتان للتعلم الآلي للمجموعة.
  • التعبئة هي طريقة تجميع يمكن استخدامها في الانحدار والتصنيف.
  • يُعرف أيضًا باسم تجميع bootstrap ، والذي يشكل تصنيفين للتعبئة.

ما هو Bootstrapping؟

يتكون التعبئة من جزأين: التجميع و bootstrapping. Bootstrapping هي طريقة أخذ عينات ، حيث يتم اختيار عينة من مجموعة ، باستخدام طريقة الاستبدال. ثم يتم تشغيل خوارزمية التعلم على العينات المختارة.

تستخدم تقنية bootstrapping أخذ العينات مع البدائل لجعل إجراء الاختيار عشوائيًا تمامًا. عندما يتم اختيار عينة بدون استبدال ، فإن التحديدات اللاحقة للمتغيرات تعتمد دائمًا على التحديدات السابقة ، مما يجعل المعايير غير عشوائية.

ما هو التجميع؟

تخضع تنبؤات النموذج للتجميع لدمجها من أجل التنبؤ النهائي للنظر في جميع النتائج الممكنة. يمكن إجراء التجميع بناءً على العدد الإجمالي للنتائج أو على احتمال التنبؤات المستمدة من التمهيد لكل نموذج في الإجراء.

ما هي طريقة المجموعة؟

يعتبر كل من التعبئة والتعزيز من أبرز تقنيات المجموعات. طريقة المجموعة هي عبارة عن نظام أساسي للتعلم الآلي يساعد نماذج متعددة في التدريب من خلال استخدام نفس خوارزمية التعلم. طريقة المجموعة هي أحد المشاركين في مجموعة أكبر من المصنفات المتعددة.

المصنفات المتعددة عبارة عن مجموعة من المتعلمين متعددين ، يصل عددهم إلى الآلاف ، بهدف مشترك يمكن أن يندمج ويحل مشكلة شائعة. هناك فئة أخرى من المصنفات المتعددة وهي الطرق الهجينة. تستخدم الأساليب الهجينة مجموعة من المتعلمين ، ولكن بخلاف المصنفات المتعددة ، يمكنهم استخدام طرق تعلم متميزة.

يواجه التعلم تحديات متعددة ، مثل الأخطاء التي ترجع أساسًا إلى التحيز والضوضاء والتباين. يتم ضمان دقة واستقرار التعلم الآلي من خلال طرق التجميع مثل التعبئة والتعزيز. مجموعات المصنفات المتعددة تقلل التباين ، خاصة عندما تكون المصنفات غير مستقرة ، وهي مهمة في تقديم نتائج أكثر موثوقية من المصنف الفردي.

يتطلب تطبيق إما التعبئة أو التعزيز اختيار خوارزمية متعلم أساسي أولاً. على سبيل المثال ، إذا اختار المرء شجرة تصنيف ، فسيكون التعزيز والتعبئة عبارة عن مجموعة من الأشجار بحجم مساوٍ لتفضيلات المستخدم.

مزايا وعيوب التعبئة

غابة عشوائية غابة عشوائية غابة عشوائية هي تقنية تستخدم في نمذجة التنبؤات وتحليل السلوك وهي مبنية على أشجار القرار. تحتوي الغابة العشوائية على العديد من أشجار القرار وهي واحدة من أكثر خوارزميات التعبئة شيوعًا. يوفر التكييس ميزة السماح للعديد من المتعلمين الضعفاء بتوحيد الجهود للتغلب على متعلم قوي واحد. كما أنه يساعد في تقليل التباين ، وبالتالي التخلص من overfitting Overfitting Overfitting هو مصطلح يستخدم في الإحصائيات يشير إلى خطأ في النمذجة يحدث عندما تتوافق إحدى الوظائف بشكل وثيق جدًا مع مجموعة معينة من بيانات النماذج في الإجراء.

من عيوب التعبئة أنها تؤدي إلى فقدان إمكانية تفسير النموذج. يمكن أن يواجه النموذج الناتج الكثير من التحيز عند تجاهل الإجراء المناسب. على الرغم من أن التعبئة دقيقة للغاية ، إلا أنها قد تكون باهظة الثمن من الناحية الحسابية وهذا قد يثبط استخدامها في حالات معينة.

التعبئة مقابل التعزيز

تعتمد أفضل طريقة لاستخدامها بين التعبئة والتعزيز على البيانات المتاحة والمحاكاة وأي ظروف قائمة في ذلك الوقت. يتم تقليل تباين التقدير بشكل كبير عن طريق تقنيات التعبئة والتعزيز أثناء إجراء الدمج ، وبالتالي زيادة الدقة. لذلك ، تظهر النتائج التي تم الحصول عليها ثباتًا أعلى من النتائج الفردية.

عندما يمثل حدث ما تحدي الأداء المنخفض ، فإن تقنية التعبئة لن تؤدي إلى تحيز أفضل. ومع ذلك ، فإن تقنية التعزيز تولد نموذجًا موحدًا بأخطاء أقل نظرًا لأنها تركز على تحسين المزايا وتقليل أوجه القصور في نموذج واحد.

عندما يكون التحدي في نموذج واحد هو فرط التجهيز ، فإن طريقة التعبئة تؤدي بشكل أفضل من تقنية التعزيز. التعزيز يواجه التحدي المتمثل في التعامل مع الإفراط في التركيب لأنه يأتي مع الإفراط في التركيب بحد ذاته.

قراءات ذات صلة

تقدم Finance شهادة محلل التقييم والنمذجة المالية (FMVA) ™ FMVA ، انضم إلى أكثر من 350600 طالب يعملون في شركات مثل Amazon و JP Morgan و Ferrari لمن يتطلعون إلى الارتقاء بمهنهم إلى المستوى التالي. لمواصلة التعلم وتطوير قاعدة المعرفة الخاصة بك ، يرجى استكشاف الموارد المالية الإضافية ذات الصلة أدناه:

  • أخذ العينات العنقودية أخذ العينات العنقودية في الإحصاء ، أخذ العينات العنقودية هو طريقة أخذ العينات التي يتم فيها تقسيم مجتمع الدراسة بأكمله إلى متجانسة خارجيًا ولكن داخليًا
  • تحيز الثقة المفرطة التحيز للثقة المفرطة التحيز للثقة المفرطة هو تقييم خاطئ ومضلل لمهاراتنا أو فكرنا أو موهبتنا. باختصار ، إنه اعتقاد أناني بأننا أفضل مما نحن عليه بالفعل. يمكن أن يكون تحيزًا خطيرًا وغزير الإنتاج في التمويل السلوكي وأسواق رأس المال.
  • تحليل الانحدار تحليل الانحدار تحليل الانحدار هو مجموعة من الأساليب الإحصائية المستخدمة لتقدير العلاقات بين متغير تابع وواحد أو أكثر من المتغيرات المستقلة. يمكن استخدامه لتقييم قوة العلاقة بين المتغيرات ونمذجة العلاقة المستقبلية بينهما.
  • تحليل بيانات السلاسل الزمنية تحليل بيانات السلاسل الزمنية تحليل بيانات السلاسل الزمنية هو تحليل مجموعات البيانات التي تتغير خلال فترة زمنية. تسجل مجموعات بيانات السلاسل الزمنية ملاحظات المتغير نفسه على مدار نقاط زمنية مختلفة. يستخدم المحللون الماليون بيانات السلاسل الزمنية مثل تحركات أسعار الأسهم أو مبيعات الشركة بمرور الوقت