التعلم الآلي (ML). البتولا العنقودية، خليط غاوسي

زر [وظيفة التعلم الآلي - تجميع البتولا].

التجميع هو أسلوب للتعلم الآلي يُستخدم لتجميع المثيلات المتشابهة أو المتجانسة في مجموعات بيانات متميزة. تُستخدم هذه الطريقة في مهام التعلم الآلي غير الخاضعة للرقابة.

يمكنك تنزيل مثال لملف جدول منظم لخوارزميات التجميع: XLSX .

يمكن استخدام البيانات المنظمة من ملفات الجدول للاستيراد: مصنف Excel (*.xlsx)؛ مصنف Excel الثنائي (*.xlsb)؛ جدول بيانات OpenDocument (*.ods).

أين يمكن تطبيقه

مثال 1. البيانات التي يجمعها قسم التسويق حول مشتريات العملاء تسمح لنا بفهم ما إذا كانت هناك أوجه تشابه بين العملاء. تعمل أوجه التشابه هذه على تقسيم العملاء إلى مجموعات (مجموعات)، ويساعد وجود مجموعات العملاء في استهداف الحملات والعروض الترويجية والتحويلات وبناء علاقات أفضل مع العملاء.

مثال 2. تحديد المجموعات الأكثر تجانسا حسب المؤشرات النوعية لخليط من المكونات بناء على المؤشرات الكمية أو النوعية لكل مكون من مكونات الخليط.

مثال 3. تحديد المجموعات الأكثر تجانسًا وفقًا للمؤشرات النوعية أو الكمية للمنتجات النهائية بناءً على أنماط الإنتاج التكنولوجية المختلفة.

مثال 4. تحديد الكائنات غير النمطية التي لا يمكن ربطها بأي من المجموعات.

تجميع البتولا

تجميع البتولا (التخفيض التكراري المتوازن والتكتل باستخدام التسلسلات الهرمية) - التخفيض التكراري المتوازن والتكتل باستخدام التسلسلات الهرمية.

يتطلب التحليل العنقودي بواسطة خوارزمية BIRCH بيانات ذات سمات مترية. السمة المترية هي سمة يمكن تمثيل قيمها بإحداثيات صريحة في الفضاء الإقليدي (بدون متغيرات فئوية).

نافذة وظيفة التعلم الآلي (ML) مع تمييز زر وظيفة التجميع

الشكل 1. نافذة وظائف التعلم الآلي (ML). يتم عرض تلميح أداة عند تحريك الماوس فوق الزر للانتقال إلى وظائف التجميع باستخدام خوارزميات BIRCH وGaussian Mixture.

نافذة وظائف التعلم الآلي (ML). يتم عرض تلميح أداة عند تحريك الماوس فوق الزر للانتقال إلى وظيفة التجميع باستخدام طريقة BIRCH.

الشكل 2. نافذة وظائف التعلم الآلي (ML). يتم عرض تلميح الأداة عند تحريك الماوس فوق الزر للانتقال إلى وظيفة التجميع باستخدام خوارزمية BIRCH.

نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام طريقة BIRCH. يتم تحديد مقاييس السمات المترية للنقاط، ويتم تعيين قيم [قيمة العتبة] و[عدد المجموعات]، ويتم إلغاء تحديد خانة الاختيار [حفظ النتائج].

الشكل 3. نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام خوارزمية BIRCH. يتم تحديد مقاييس السمات المترية للنقاط، ويتم تعيين قيم [قيمة العتبة] و[عدد المجموعات]، ويتم إلغاء تحديد خانات الاختيار [الخطوط بين النقط الوسطى والنقاط] و[حفظ النتائج]. تشير الصلبان السوداء إلى النقط الوسطى (مراكز ثقل المجموعات) بأرقام عنقودية.

نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام طريقة BIRCH. يتم عرض قائمة منسدلة للمقاييس للانعكاس على طول المحور [Y]. تم تحديد خانة الاختيار [حفظ النتائج].

الشكل 4. نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام خوارزمية BIRCH. يتم عرض قائمة منسدلة للمقاييس للانعكاس على طول المحور [Y].

نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام طريقة BIRCH. يتم عرض قائمة منسدلة للمقاييس للانعكاس على طول المحور [X].

الشكل 5. نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام خوارزمية BIRCH. يتم عرض قائمة منسدلة للمقاييس للانعكاس على طول المحور [X].

نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام خوارزمية BIRCH. تم تحديد خانة الاختيار [الخطوط بين النقط الوسطى والنقاط].

الشكل 6. نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام خوارزمية BIRCH. يتم تحديد مربعي الاختيار [الخطوط بين النقط الوسطى والنقاط] و[حفظ النتائج].

نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام طريقة BIRCH. تظهر رسالة لحفظ رموز المجموعة المخصصة لأزواج البيانات (X وY) في الملف المصدر على ورقة BIRCH.

الشكل 7. نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام خوارزمية BIRCH. تظهر رسالة حول حفظ رموز المجموعة المخصصة لأزواج البيانات (X وY) في الملف المصدر على ورقة "BIRCH". تحتفظ أسماء أعمدة المجموعات المخصصة باسم طريقة التجميع، أو الكشف التلقائي عن المجموعات أو المعرفة من قبل المستخدم، وأسماء زوج المقاييس والمؤشرات [قيمة العتبة] و[عدد المجموعات] التي حددها المستخدم.

نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام خوارزمية BIRCH. يتم عرض تلميح عند تحريك الماوس فوق الزر للانتقال إلى وظيفة رسم الخطوط الرأسية والأفقية على الرسوم البيانية

الشكل 8. نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام خوارزمية BIRCH. يتم عرض تلميح عند تحريك الماوس فوق الزر للانتقال إلى وظيفة رسم الخطوط الرأسية والأفقية على الرسوم البيانية.

الشكل 9. نافذة وظائف التعلم الآلي (ML) - التجميع باستخدام خوارزمية BIRCH. نافذة الوظيفة المساعدة لرسم الخطوط الرأسية والأفقية على الرسوم البيانية. تم إدخال خطين رأسيين مع الأسماء وخط أفقي واحد. يمكنك عرض أي عدد من الأسطر بالتسميات (قيمة الاسم). يمكنك تغيير قيمة أي سطر محدد في القائمة. يمكنك حذف أي سطر محدد في القائمة المنسدلة أو جميع الأسطر مرة واحدة.

الأسباب التي قد تجعل جودة النموذج الرياضي باستخدام طريقة التجميع BIRCH غير كافية

ضبط المعلمات الفائقة دون المستوى الأمثل: تحتوي مجموعة BIRCH على معلمات مفرطة مثل العتبات ونصف قطر الكتلة التي تحتاج إلى ضبط. يمكن أن يؤدي الاختيار الخاطئ للمعلمات الفائقة إلى ضعف جودة النموذج.
عدم دقة البيانات وعدم اتساقها: يمكن أن تكون جودة تجميع BIRCH سيئة إذا كانت البيانات تحتوي على ضوضاء أو قيم متطرفة يمكن أن تعطل حدود المجموعات وبنيتها.
معيار تشابه غير محدد أو تم اختياره بشكل غير صحيح: قد تعتمد جودة تجميع BIRCH على اختيار معيار التشابه أو إعداده. يمكن أن يؤدي الاختيار غير الصحيح لمعيار التشابه إلى تجميع غير دقيق بما فيه الكفاية.
مقياس غير صحيح للبيانات: إذا كانت البيانات تحتوي على نطاقات قيمة مختلفة أو وحدات قياس مختلفة، فقد يؤدي القياس غير الصحيح إلى تجميع BIRCH ذي الجودة الرديئة.
بيانات غير كافية: قد تكون جودة تجميع BIRCH غير كافية إذا لم تتوفر بيانات كافية لتدريب النموذج. المزيد من البيانات يمكن أن تحسن جودة التجميع.

تجميع الخليط الغوسي

نموذج الخليط الغاوسي هو نموذج احتمالي يفترض أن جميع نقاط البيانات يتم إنشاؤها من خليط من عدد محدود من التوزيعات الغاوسية ذات المعلمات غير المعروفة. يمكن لخوارزمية التعلم الآلي هذه تعيين المخطط الغوسي لكل عينة التي تنتمي إليها على الأرجح. في تحليلنا، يقدم Gaussian Mixture متغيرًا لتقييد التباين في فئات الاختلاف المقدرة: التباين الكامل.

سيستخدم نموذج تعظيم التوقع (خليط غاوسي) بالضرورة عدد المكونات المحددة من قبل المستخدم، في حين أن نموذج الاستدلال المتغير (خليط بايزي غاوسي) سيستخدم بشكل فعال فقط عدد المكونات اللازمة لتحقيق التوافق الجيد. إذا كان عدد المكونات المحدد من قبل المستخدم أقل من العدد الفعال، فستعرض مؤامرة الخليط الغاوسي البايزي عدد المكونات المحددة من قبل المستخدم.

يتم عرض التجميع بواسطة خوارزمية Gaussian Mixture في رسمين بيانيين يتوافقان مع خوارزميات Bayesian Gaussian Mixture وGaussian Mixture.

لمزيد من الوضوح، يتم عرض الأشكال الناقصه لنموذج الخليط الغاوسي على الرسوم البيانية.

نافذة وظائف التعلم الآلي (ML). يتم عرض تلميح أداة عند تحريك مؤشر الماوس فوق الزر للانتقال إلى وظيفة التجميع باستخدام طريقة Gaussian Mixture.

الشكل 10. نافذة وظائف التعلم الآلي (ML). يتم عرض تلميح أداة عند تحريك الماوس فوق الزر للانتقال إلى وظيفة التجميع باستخدام خوارزمية Gaussian Mixture.

نافذة وظيفة التجميع باستخدام طرق الخليط الغاوسي والخليط الغاوسي. تم ضبط معلمة عدد المكونات على (3).

الشكل 11. نافذة وظيفة التجميع لخوارزميات الخليط الغاوسي والخليط الغاوسي. تم ضبط معلمة عدد المكونات على (3).

نافذة وظيفة التجميع باستخدام طرق الخليط الغاوسي والخليط الغاوسي. تم ضبط معلمة عدد المكونات على (5).

الشكل 12. نافذة وظيفة التجميع لخوارزميات الخليط الغاوسي والخليط الغاوسي. تم ضبط معلمة عدد المكونات على (5).

نافذة وظيفة التجميع باستخدام طرق الخليط الغاوسي والخليط الغاوسي. تم ضبط معلمة عدد المكونات على (10).

الشكل 13. نافذة وظيفة التجميع لخوارزميات الخليط الغاوسي والخليط الغاوسي. تم ضبط معلمة عدد المكونات على (10).

يوضح المثال الموجود في الشكل أدناه أداء خوارزميات التجميع BIRCH وGaussian Mixture في مجموعات البيانات "المثيرة للاهتمام".

خوارزميات تجميع BIRCH وGaussian Mixture لمجموعات البيانات "المثيرة للاهتمام".

الشكل 14. عرض مقارن لأداء خوارزميات تجميع BIRCH وGaussian Mixture على مجموعات البيانات "المثيرة للاهتمام". تعد مجموعة البيانات الأخيرة (العمود الأيمن) مثالاً على الحالة "الفارغة" للتجميع: البيانات متجانسة ولا تتجمع بشكل جيد.

إعداد البيانات مسبقًا تلقائيًا

قبل تطبيق التجميع، يتم قياس البيانات المستوردة تلقائيًا باستخدام التوحيد القياسي.

التقييس هو عملية قياس البيانات بحيث يكون متوسطها 0 وانحرافها المعياري 1.

إذا كانت البيانات المستوردة تحتوي على عمود فئوي مثل [ذكر، أنثى]، فستتم مطالبة المستخدم تلقائيًا بـ "التشفير السريع" للعمود لتحويل البيانات إلى أعمدة رموز رقمية جديدة [0، 1]. سيتم حفظ البيانات المشفرة الساخنة في الملف [xlsx] الأصلي في ورقة جديدة.

يتم استخدام التشفير السريع لتحويل المتغيرات الفئوية إلى تنسيق يمكن استخدامه بسهولة بواسطة خوارزميات التعلم الآلي. الفكرة الأساسية للتشفير الساخن هي إنشاء متغيرات جديدة تأخذ القيمتين [0] و [1] لتمثيل القيم الفئوية الأصلية. بمعنى آخر، يتم تحويل كل قيمة فريدة من عمود غير رقمي إلى عمود ثنائي جديد يحتوي على العلامتين [0] و[1]. وفي هذا العمود يشير الرقم [1] إلى وجود هذه القيمة، ويشير الرقم [0] إلى غيابها.

الأسباب التي قد تجعل جودة النموذج الرياضي الذي يستخدم طريقة تجميع الخليط الغاوسي والخليط الغاوسي غير كافية

الاختيار الخاطئ لعدد المكونات: تعتمد كلتا طريقتي التجميع على الاختيار الصحيح لعدد المكونات في النموذج. إذا تم تحديد عدد غير كاف من المكونات، أو على العكس من ذلك، تم تحديد عدد كبير جدًا من المكونات، فقد يؤدي ذلك إلى تجميع غير دقيق بشكل كافٍ.
ضبط المعلمات الفائقة دون المستوى الأمثل: تحتوي كلتا الطريقتين على معلمات مفرطة، مثل معلمات مصفوفة التباين والتوزيعات السابقة، التي تحتاج إلى ضبط. يمكن أن يؤدي الاختيار الخاطئ أو ضبط المعلمات الفائقة إلى ضعف جودة نموذج التجميع.
عدم اتساق الافتراضات التوزيعية: تفترض طرق الخليط الغاوسي البايزي والخليط الغاوسي أن البيانات موزعة على نحو غاوسي. إذا لم تستوف البيانات هذا الافتراض، فقد تكون جودة التجميع غير كافية.
المعالجة غير الصحيحة للقيم المتطرفة والضوضاء: يمكن أن يؤثر وجود القيم المتطرفة والضوضاء في البيانات سلبًا على جودة التجميع. إذا لم يتم تكييف الأساليب للتعامل مع القيم المتطرفة أو لم تتم معالجة البيانات مسبقًا، فقد يؤدي ذلك إلى ضعف جودة التجميع.
قياس بيانات غير كافٍ أو غير صحيح: إذا كانت بياناتك تحتوي على نطاقات قيمة مختلفة أو وحدات قياس مختلفة، فستحتاج إلى قياس البيانات بشكل صحيح قبل التجميع. يمكن أن يؤثر القياس غير الصحيح على جودة التجميع.

مخططات التحكم شيوهارت محلل محترف + الذكاء الاصطناعي لنظام التشغيل Windows، ماك، لينكس سجل البرمجيات الروسية (القيد رقم 18857 بتاريخ 05/09/2023)