الطريقة التي تساعد في تقليص حجم البيانات. مقدمة لتقليل الأبعاد. مراجع في الأدب

02.05.2021

الكلمات الدالة

الرياضيات / الإحصائيات التطبيقية / إحصائيات الرياضيات/ نقاط النمو / طريقة المكون الرئيسي / تحليل العامل / مقياس متعدد الأبعاد / تقييم أبعاد البيانات / تقدير أبعاد النموذج/ الرياضيات / الإحصائيات التطبيقية / الإحصائيات الرياضية / نقاط النمو / تحليل المكون الأساسي / تحليل العامل / القياس متعدد الأبعاد / تقدير أبعاد البيانات / تقدير بعد النموذج

حاشية. ملاحظة مقال علمي عن الرياضيات ، مؤلف العمل العلمي - أورلوف ألكسندر إيفانوفيتش ، لوتسينكو يفجيني فينيامينوفيتش

إحدى "نقاط النمو" الإحصاء التطبيقيهي طرق لتقليل أبعاد مساحة البيانات الإحصائية. يتم استخدامها بشكل متزايد في تحليل البيانات في بحث تطبيقي محدد ، مثل البحث الاجتماعي. دعنا نفكر في أكثر طرق تقليل الأبعاد الواعدة. طريقة المكون الرئيسيهي واحدة من أكثر تقنيات تقليل الأبعاد شيوعًا. لتحليل البيانات المرئية ، غالبًا ما تستخدم إسقاطات المتجهات الأولية على مستوى المكونين الرئيسيين الأولين. عادة ما تكون مرئية بوضوح هيكل البيانات، يتم تمييز مجموعات الكائنات المدمجة والمتجهات المتميزة بشكل منفصل. طريقة المكون الرئيسيهي إحدى الطرق تحليل العوامل... فكرة جديدة مقابل تحليل المكون الرئيسييتكون من حقيقة أنه ، بناءً على الأحمال ، يتم تقسيم العوامل إلى مجموعات. يتم دمج العوامل التي لها تأثير مماثل على عناصر الأساس الجديد في مجموعة واحدة. ثم يوصى بترك ممثل واحد من كل مجموعة. في بعض الأحيان ، بدلاً من اختيار ممثل عن طريق الحساب ، يتم تكوين عامل جديد ، وهو أمر أساسي للمجموعة المعنية. يحدث انخفاض في البعد أثناء الانتقال إلى نظام العوامل التي تمثل المجموعات. يتم تجاهل باقي العوامل. تعتمد فئة واسعة من الأساليب على استخدام المسافات (مقاييس القرب ، مؤشرات الاختلاف) بين الميزات. التحجيم متعدد الأبعاد... الفكرة الرئيسية لهذه الفئة من الطرق هي تمثيل كل كائن بنقطة من الفضاء الهندسي (عادةً بأبعاد 1 أو 2 أو 3) ، وإحداثياتها هي قيم العوامل المخفية (الكامنة) ، والتي معا وصف الشيء بشكل كاف. كمثال على تطبيق النمذجة الإحصائية الاحتمالية ونتائج إحصائيات البيانات غير الرقمية ، سنبرر اتساق تقدير أبعاد مساحة البيانات في التحجيم متعدد الأبعاد، سبق اقتراحه من قبل Kruskal لأسباب إرشادية. عدد من الأعمال على تقدير أبعاد النماذج(في تحليل الانحدار وفي نظرية التصنيف). يتم تقديم معلومات عن خوارزميات تقليل الأبعاد في التحليل الآلي للنظام الإدراكي.

مواضيع ذات صلة الأعمال العلمية في الرياضيات ، مؤلف العمل العلمي - أورلوف ألكسندر إيفانوفيتش ، لوتسينكو إيفجيني فينيامينوفيتش

  • الطرق الرياضية في علم الاجتماع في خمسة وأربعين عامًا

  • مجموعة متنوعة من الأشياء ذات الطبيعة غير العددية

  • تقدير المعلمة: التقديرات ذات الخطوة الواحدة هي الأفضل من تقديرات الاحتمالية القصوى

  • الإحصاء التطبيقي - حالة الفن والآفاق

    2016 / الكسندر اورلوف
  • دولة وآفاق تطوير الإحصاءات التطبيقية والنظرية

    2016 / الكسندر اورلوف
  • العلاقة بين نظريات الحدود وطريقة مونت كارلو

    2015 / الكسندر اورلوف
  • على تطوير إحصاءات الكائنات ذات الطبيعة غير العددية

    2013 / أورلوف الكسندر إيفانوفيتش
  • نقاط نمو الأساليب الإحصائية

    2014 / أورلوف الكسندر إيفانوفيتش
  • حول أدوات رياضية جديدة واعدة للتحكم

    2015 / الكسندر اورلوف
  • المسافات في مساحات البيانات الإحصائية

    2014 / أورلوف الكسندر إيفانوفيتش

إحدى "نقاط النمو" للإحصاءات التطبيقية هي طرق تقليل أبعاد البيانات الإحصائية. يتم استخدامها بشكل متزايد في تحليل البيانات في بحث تطبيقي محدد ، مثل علم الاجتماع. نحن نبحث في أكثر الطرق الواعدة لتقليل الأبعاد. المكونات الرئيسية هي إحدى الطرق الأكثر استخدامًا لتقليل الأبعاد. للتحليل المرئي للبيانات غالبًا ما تستخدم إسقاطات المتجهات الأصلية على مستوى المكونين الرئيسيين الأولين. عادةً ما يكون هيكل البيانات مرئيًا بوضوح ، ومجموعات متراصة من الكائنات مميزة ومتجهات مخصصة بشكل منفصل. المكونات الرئيسية هي طريقة واحدة لتحليل العوامل. الفكرة الجديدة لتحليل العوامل بالمقارنة مع طريقة المكونات الرئيسية هي أنه ، بناءً على الأحمال ، تنقسم العوامل إلى مجموعات. في مجموعة واحدة من العوامل ، يتم الجمع بين العامل الجديد وتأثير مماثل على عناصر الأساس الجديد. ثم ينصح كل مجموعة بترك ممثل واحد. في بعض الأحيان ، بدلاً من اختيار الممثل عن طريق الحساب ، هناك عامل جديد محوري للمجموعة المعنية. يحدث البعد المنخفض أثناء الانتقال إلى عوامل النظام ، التي تمثل المجموعات. يتم تجاهل العوامل الأخرى. عند استخدام المسافة (مقاييس القرب ، مؤشرات الاختلافات) بين الميزات والفئة الشاملة تعتمد على طرق القياس متعدد الأبعاد. تتمثل الفكرة الأساسية لهذه الفئة من الأساليب في تقديم كل كائن كنقطة من الفضاء الهندسي (عادةً ما يكون البعد 1 أو 2 أو 3) الذي تكون إحداثياته ​​هي قيم العوامل المخفية (الكامنة) التي تتحد بشكل مناسب وصف الشيء. كمثال على تطبيق النمذجة الاحتمالية والإحصائية ونتائج إحصاءات البيانات غير الرقمية ، فإننا نبرر اتساق مقدرات أبعاد البيانات في القياس متعدد الأبعاد ، والتي اقترحها كروسكال سابقًا من اعتبارات الكشف عن مجريات الأمور. لقد درسنا عددًا من التقديرات المتسقة لأبعاد النماذج (في تحليل الانحدار ونظرية التصنيف). نقدم أيضًا بعض المعلومات حول الخوارزميات لتقليل الأبعاد في التحليل المعرفي للنظام الآلي

نص العمل العلمي حول موضوع "طرق تقليل أبعاد مساحة البيانات الإحصائية"

UDC 519.2: 005.521: 633.1: 004.8

01.00.00 الفيزياء والرياضيات

طرق لتقليل أبعاد مساحة البيانات الإحصائية

أورلوف الكسندر إيفانوفيتش

دكتوراه في الاقتصاد ، دكتوراه في العلوم التقنية ، مرشح في العلوم الفيزيائية والرياضية ، أستاذ

RSCI BRSH- كود: 4342-4994

موسكو الحكومية الفنية

سميت الجامعة باسم م. Bauman، روسيا، 105005،

موسكو ، شارع بومانسكايا الثاني ، 5 ، [بريد إلكتروني محمي]تي

Lutsenko Evgeniy Veniaminovich دكتور في الاقتصاد ، مرشح للعلوم التقنية ، أستاذ RSCI BRSH- كود: 9523-7101 جامعة كوبان الحكومية الزراعية ، كراسنودار ، روسيا [بريد إلكتروني محمي]كوم

إحدى "نقاط النمو" للإحصاءات التطبيقية هي طرق تقليل أبعاد فضاء البيانات الإحصائية. يتم استخدامها بشكل متزايد في تحليل البيانات في بحث تطبيقي محدد ، مثل البحث الاجتماعي. دعنا نفكر في أكثر طرق تقليل الأبعاد الواعدة. يعد تحليل المكون الرئيسي أحد أكثر تقنيات تقليل الأبعاد شيوعًا. لتحليل البيانات المرئية ، غالبًا ما تستخدم إسقاطات المتجهات الأولية على مستوى المكونين الرئيسيين الأولين. عادة ، تكون بنية البيانات مرئية بوضوح ، ويتم تمييز مجموعات الكائنات المدمجة والمتجهات المميزة بشكل منفصل. يعد تحليل المكون الرئيسي إحدى طرق تحليل العوامل. فكرة جديدة مقارنة بتحليل المكون الرئيسي هي أنه بناءً على الأحمال ، يتم تقسيم العوامل إلى مجموعات. يتم دمج العوامل التي لها تأثير مماثل على عناصر الأساس الجديد في مجموعة واحدة. ثم يوصى بترك ممثل واحد من كل مجموعة. في بعض الأحيان ، بدلاً من اختيار ممثل عن طريق الحساب ، يتم تكوين عامل جديد ، وهو أمر أساسي للمجموعة المعنية. يحدث انخفاض في البعد أثناء الانتقال إلى نظام العوامل التي تمثل المجموعات. يتم تجاهل باقي العوامل. تعتمد فئة واسعة من طرق القياس متعددة الأبعاد على استخدام المسافات (مقاييس القرب ، مؤشرات الاختلاف) بين الميزات. الفكرة الرئيسية لهذه الفئة من الأساليب هي تمثيل كل كائن بنقطة من الفضاء الهندسي (عادةً بأبعاد 1 أو 2 أو 3) ، وإحداثياتها هي قيم العوامل المخفية (الكامنة) ، والتي تصف معا بشكل كاف

UDC 519.2: 005.521: 633.1: 004.8

الفيزياء والعلوم الرياضية

طرق تقليل بُعد مسافة البيانات الإحصائية

أورلوف الكسندر إيفانوفيتش

دكتور علوم، دكتور علوم، حاصل على شهادة الدكتوراه فى الرياضيات

جامعة بومان موسكو التقنية الحكومية ، موسكو ، روسيا

Lutsenko Eugeny Veniaminovich Dr. Sci. Econ.، Cand. Tech. Sci.، Professor RSCI SPIN-code: 9523-7101

جامعة كوبان الحكومية الزراعية ، كراسنودار ، روسيا

[بريد إلكتروني محمي]كوم

إحدى "نقاط النمو" للإحصاءات التطبيقية هي طرق تقليل أبعاد البيانات الإحصائية. يتم استخدامها بشكل متزايد في تحليل البيانات في بحث تطبيقي محدد ، مثل علم الاجتماع. نحن نبحث في أكثر الطرق الواعدة لتقليل الأبعاد. المكونات الرئيسية هي إحدى الطرق الأكثر استخدامًا لتقليل الأبعاد. للتحليل المرئي للبيانات غالبًا ما تستخدم إسقاطات المتجهات الأصلية على مستوى المكونين الرئيسيين الأولين. عادةً ما يكون هيكل البيانات مرئيًا بوضوح ، ومجموعات متراصة من الكائنات مميزة ومتجهات مخصصة بشكل منفصل. المكونات الرئيسية هي طريقة واحدة لتحليل العوامل. الفكرة الجديدة لتحليل العوامل بالمقارنة مع طريقة المكونات الرئيسية هي أنه ، بناءً على الأحمال ، تنقسم العوامل إلى مجموعات. في مجموعة واحدة من العوامل ، يتم الجمع بين العامل الجديد وتأثير مماثل على عناصر الأساس الجديد. ثم ينصح كل مجموعة بترك ممثل واحد. في بعض الأحيان ، بدلاً من اختيار الممثل عن طريق الحساب ، هناك عامل جديد محوري للمجموعة المعنية. يحدث البعد المنخفض أثناء الانتقال إلى عوامل النظام ، التي تمثل المجموعات. يتم تجاهل العوامل الأخرى. عند استخدام المسافة (مقاييس القرب ، مؤشرات الاختلافات) بين الميزات والفئة الشاملة تعتمد على طرق القياس متعدد الأبعاد. تتمثل الفكرة الأساسية لهذه الفئة من الأساليب في تقديم كل كائن كنقطة من الفضاء الهندسي (عادةً ما يكون البعد 1 أو 2 أو 3) الذي تكون إحداثياته ​​هي قيم العوامل المخفية (الكامنة) التي تتحد بشكل مناسب وصف الشيء. كمثال على تطبيق النمذجة الاحتمالية والإحصائية ونتائج إحصاءات البيانات غير الرقمية ، فإننا نبرر اتساق مقدرات

شيء. كمثال على تطبيق النمذجة الإحصائية الاحتمالية ونتائج إحصائيات البيانات غير الرقمية ، فإننا ندعم اتساق تقدير أبعاد مساحة البيانات في القياس متعدد الأبعاد ، الذي اقترحه كروسكال سابقًا من اعتبارات إرشادية. تم النظر في عدد من الأعمال المتعلقة بتقدير أبعاد النماذج (في تحليل الانحدار وفي نظرية التصنيف). يتم تقديم معلومات عن خوارزميات تقليل الأبعاد في التحليل الآلي للنظام الإدراكي.

الكلمات الرئيسية: الرياضيات ، الإحصائيات التطبيقية ، الإحصائيات الرياضية ، نقاط النمو ، طريقة المكون الرئيسي ، تحليل العوامل ، القياس متعدد الأبعاد ، تقدير أبعاد البيانات ، تقدير حجم النموذج

أبعاد البيانات في القياس متعدد الأبعاد ، والتي اقترحها كروسكال سابقًا من الاعتبارات الإرشادية. لقد درسنا عددًا من التقديرات المتسقة لأبعاد النماذج (في تحليل الانحدار ونظرية التصنيف). نقدم أيضًا بعض المعلومات حول الخوارزميات لتقليل الأبعاد في التحليل المعرفي للنظام الآلي

الكلمات الرئيسية: الرياضيات ، الإحصائيات التطبيقية ، الإحصائيات الرياضية ، نقاط النمو ، تحليل المكون الأساسي ، تحليل العامل ، القياس متعدد الأبعاد ، تقدير أبعاد البيانات ، تقدير بعد النموذج

1 المقدمة

كما لوحظ بالفعل ، فإن إحدى "نقاط النمو" للإحصاءات التطبيقية هي طرق تقليل أبعاد فضاء البيانات الإحصائية. يتم استخدامها بشكل متزايد في تحليل البيانات في بحث تطبيقي محدد ، مثل البحث الاجتماعي. دعنا نفكر في أكثر طرق تقليل الأبعاد الواعدة. كمثال على تطبيق النمذجة الإحصائية الاحتمالية ونتائج إحصائيات البيانات غير العددية ، فإننا ندعم اتساق تقدير بُعد الفضاء ، الذي اقترحه كروسكال سابقًا من اعتبارات إرشادية.

في التحليل الإحصائي متعدد المتغيرات ، يتم وصف كل كائن بواسطة متجه ، يكون أبعاده تعسفيًا (ولكن نفس الشيء بالنسبة لجميع الكائنات). ومع ذلك ، يمكن لأي شخص أن يدرك بشكل مباشر البيانات أو النقاط الرقمية فقط على المستوى. يعد تحليل مجموعات النقاط في الفضاء ثلاثي الأبعاد أكثر صعوبة بالفعل. الإدراك المباشر للبيانات عالية الأبعاد أمر مستحيل. لذلك ، من الطبيعي تمامًا أن نرغب في الانتقال من عينة متعددة الأبعاد إلى بيانات ذات بعد صغير ، بحيث "يكون من الممكن عليها

بحث". على سبيل المثال ، يمكن للمسوق أن يرى بصريًا عدد الأنواع المختلفة لسلوك المستهلك (أي عدد الأنواع التي يُنصح بتخصيصها لقطاعات السوق) وأيها (مع أي خصائص) يتم تضمين المستهلكين فيها.

إلى جانب السعي إلى الوضوح ، هناك دوافع أخرى لتقليل الأبعاد. تلك العوامل ، التي لا يعتمد عليها المتغير الذي يهم الباحث ، تتداخل فقط مع التحليل الإحصائي. أولاً ، يتم إنفاق الموارد المالية والوقتية والبشرية على جمع المعلومات عنها. ثانيًا ، كما يمكن توضيحه ، فإن تضمينها في التحليل يؤدي إلى تفاقم خصائص الإجراءات الإحصائية (على وجه الخصوص ، يزيد من تباين تقديرات معلمات وخصائص التوزيعات). لذلك من المستحسن التخلص من هذه العوامل.

عند تحليل البيانات متعددة الأبعاد ، فإنهم عادة لا يأخذون في الاعتبار مشكلة واحدة ، ولكن العديد من المشاكل ، على وجه الخصوص ، اختيار المتغيرات المستقلة والتابعة بطرق مختلفة. لذلك ، فإننا نعتبر مشكلة تقليل الأبعاد في الصيغة التالية. تم إعطاء عينة متعددة الأبعاد. يلزم الانتقال منه إلى مجموعة من النواقل ذات البعد الأدنى ، مع الحفاظ على بنية البيانات الأصلية قدر الإمكان ، دون فقدان المعلومات الواردة في البيانات ، إن أمكن. يتم تجسيد المشكلة في إطار كل طريقة محددة لتقليل الأبعاد.

2. طريقة المكون الرئيسي

إنها واحدة من أكثر تقنيات تقليل الأبعاد شيوعًا. تتمثل فكرتها الرئيسية في التحديد المستمر للاتجاهات التي يكون فيها للبيانات أكبر انتشار. دع العينة تتكون من نواقل موزعة بالتساوي مع المتجه X = (x (1) ، x (2) ، ... ، x (n)). ضع في اعتبارك التركيبات الخطية

7 (^ (1) ، X (2) ،. ، L (n)) = X (1) x (1) + X (2) x (2) + ... + l (n) x (n) و

X2 (1) + X2 (2) + ... + X2 (n) = 1. هنا المتجه X = (X (1) ، X (2) ، ... ، X (n)) يقع على الوحدة كرة في الفضاء ذي البعد n.

في طريقة المكونات الرئيسية ، أولاً وقبل كل شيء ، تم العثور على اتجاه الحد الأقصى للسبريد ، أي مثل X حيث يصل تباين المتغير العشوائي 7 (X) = 7 (X (1) ، X (2) ، ... ، X (n)) إلى الحد الأقصى. ثم يحدد المتجه X المكون الرئيسي الأول ، والقيمة 7 (X) هي إسقاط المتجه العشوائي X على محور المكون الرئيسي الأول.

بعد ذلك ، من حيث الجبر الخطي ، يتم النظر في المستوى الفائق في الفضاء ذي البعد n ، المتعامد مع المكون الأساسي الأول ، ويتم عرض جميع عناصر العينة على هذا المستوى الفائق. أبعاد الطائرة الفائقة أقل بمقدار 1 من أبعاد المساحة الأصلية.

في المستوى المفرط المدروس ، يتم تكرار الإجراء. يوجد اتجاه أكبر انتشار فيه ، أي. المكون الرئيسي الثاني. ثم حدد المستوى الفائق عموديًا على المكونين الرئيسيين الأولين. أبعاده أقل بمقدار 2 من أبعاد المساحة الأصلية. التالي هو التكرار التالي.

من وجهة نظر الجبر الخطي ، نحن نتحدث عن بناء أساس جديد في فضاء ذو ​​أبعاد n ، حيث تكون متجهات الوحدة الخاصة به هي المكونات الرئيسية.

التباين المقابل لكل مكون رئيسي جديد أقل من التباين السابق. عادة ما يتوقفون عندما يكون أقل من عتبة محددة سلفا. إذا تم اختياره للمكونات الرئيسية ، فهذا يعني أنه من الفضاء ذي البعد n كان من الممكن المرور إلى البعد k ، أي تقليل البعد من n إلى k ، عمليا دون تشويه بنية البيانات الأصلية.

لتحليل البيانات المرئية ، غالبًا ما تستخدم إسقاطات المتجهات الأولية على مستوى المكونين الرئيسيين الأولين. عادة

تكون بنية البيانات مرئية بوضوح ، وتمييز مجموعات الكائنات المدمجة والمتجهات المتميزة بشكل منفصل.

3. تحليل عامل

يعد تحليل المكون الرئيسي إحدى طرق تحليل العوامل. تتحد الخوارزميات المختلفة لتحليل العوامل من خلال حقيقة أنه يوجد في كل منها انتقال إلى أساس جديد في الفضاء ذي البعد n الأصلي. المهم هو مفهوم "عامل الحمل" ، والذي يستخدم لوصف دور العامل الأولي (المتغير) في تكوين ناقل معين من أساس جديد.

فكرة جديدة مقارنة بتحليل المكون الرئيسي هي أنه بناءً على الأحمال ، يتم تقسيم العوامل إلى مجموعات. يتم دمج العوامل التي لها تأثير مماثل على عناصر الأساس الجديد في مجموعة واحدة. ثم يوصى بترك ممثل واحد من كل مجموعة. في بعض الأحيان ، بدلاً من اختيار ممثل عن طريق الحساب ، يتم تكوين عامل جديد ، وهو أمر أساسي للمجموعة المعنية. يحدث انخفاض في البعد أثناء الانتقال إلى نظام العوامل التي تمثل المجموعات. يتم تجاهل باقي العوامل.

يمكن تنفيذ الإجراء الموصوف ليس فقط بمساعدة تحليل العوامل. نحن نتحدث عن التحليل العنقودي للخصائص (العوامل ، المتغيرات). يمكن استخدام خوارزميات تحليل الكتلة المختلفة لتقسيم الميزات إلى مجموعات. يكفي إدخال المسافة (قياس القرب ، مؤشر الاختلاف) بين الميزات. دع X و Y هما ميزتان. يمكن قياس الفرق d (X ، Y) بينهما باستخدام معاملات ارتباط العينة:

di (X، Y) = 1 - \ rn (X، Y) \، d2 (X، Y) = 1 - \ pn (X، Y) \ حيث rn (X، Y) هي عينة معامل ارتباط بيرسون الخطي ، pn (X، Y) - معامل ارتباط رتبة عينة سبيرمان.

4. التحجيم متعدد الأبعاد.

تعتمد فئة واسعة من طرق القياس متعددة الأبعاد على استخدام المسافات (مقاييس القرب ، مؤشرات الاختلاف) d (X ، Y) بين العلامات X و Y. الفكرة الرئيسية لهذه الفئة من الأساليب هي تمثيل كل كائن بنقطة من الفضاء الهندسي (عادةً بأبعاد 1 أو 2 أو 3) ، وإحداثياتها هي قيم العوامل المخفية (الكامنة) ، والتي معا وصف الشيء بشكل كاف. في هذه الحالة ، يتم استبدال العلاقات بين الأشياء بالعلاقات بين النقاط - ممثليهم. إذن ، بيانات عن تشابه الكائنات - المسافات بين النقاط ، بيانات التفوق - الموضع النسبي للنقاط.

5. مشكلة تقدير البعد الحقيقي لمساحة العامل

في ممارسة تحليل البيانات الاجتماعية ، يتم استخدام عدد من النماذج المختلفة للقياس متعدد الأبعاد. في كل منهم ، تنشأ مشكلة تقدير البعد الحقيقي لمساحة العامل. دعونا نفكر في هذه المشكلة باستخدام مثال معالجة البيانات حول تشابه الكائنات باستخدام القياس المتري.

يجب أن يكون هناك n كائنات 0 (1) ، O (2) ، ... ، O (n) ، لكل زوج من الكائنات 0 (/) ، O (j) ، يتم إعطاء مقياس تشابهها s (ij) . نفترض دائمًا أن s (i، j) = s (j، i). أصل الأرقام s (ij) غير ذي صلة لوصف تشغيل الخوارزمية. يمكن الحصول عليها إما عن طريق القياس المباشر ، أو باستخدام الخبراء ، أو عن طريق الحساب من مجموعة من الخصائص الوصفية ، أو بطريقة أخرى.

في الفضاء الإقليدي ، يجب تمثيل الكائنات n قيد الدراسة بتكوين n من النقاط ، ويتم استخدام المسافة الإقليدية d (i ، j) كمقياس للقرب من النقاط التمثيلية

بين النقاط المقابلة. يتم تحديد درجة التطابق بين مجموعة من العناصر ومجموعة من النقاط التي تمثلها من خلال مقارنة مصفوفات التشابه || i (،) || والمسافات الوظيفية تشابه SM-Metric لها الشكل

i = £ | * (/،]) - د (/، M.

يجب اختيار التكوين الهندسي بحيث يصل S الوظيفية إلى قيمته الدنيا.

تعليق. في القياس غير المتري ، بدلاً من القرب من القرب والمسافة يقيسان أنفسهم ، يتم النظر في قرب الطلبات في مجموعة مقاييس القرب ومجموعة المسافات المقابلة. بدلاً من S الوظيفية ، يتم استخدام نظائر معاملات ارتباط رتبة سبيرمان وكيندال. بمعنى آخر ، يفترض القياس غير المتري أن مقاييس القرب تقاس بمقياس ترتيبي.

دع المساحة الإقليدية لها أبعاد m. ضع في اعتبارك الحد الأدنى لمربع متوسط ​​الخطأ

حيث يتم أخذ الحد الأدنى على جميع التكوينات الممكنة لنقاط n في الفضاء الإقليدي ذي الأبعاد m. يمكن إثبات أن الحد الأدنى المدروس يتم تحقيقه في بعض التكوين. من الواضح أنه مع زيادة m تنخفض قيمة am بشكل رتيب (بتعبير أدق ، لا تزيد). يمكن توضيح أن m> n - 1 يساوي 0 (إذا كان متريًا). لزيادة احتمالات التفسير الهادف ، من المستحسن العمل في مساحة أصغر بُعد ممكن. ومع ذلك ، في هذه الحالة ، يجب اختيار البعد بحيث تمثل النقاط كائنات بدون تشوهات كبيرة. السؤال الذي يطرح نفسه: كيف تختار بعقلانية أبعاد الفضاء ، أي م العدد الطبيعي؟

6. نماذج وطرق تقدير أبعاد فضاء البيانات

في إطار تحليل البيانات الحتمية ، يبدو أنه لا توجد إجابة معقولة على هذا السؤال. لذلك ، من الضروري دراسة سلوك am في نماذج احتمالية مختلفة. إذا كانت مقاييس القرب s (ij) متغيرات عشوائية ، يعتمد توزيعها على "البعد الحقيقي" m0 (وربما على بعض المعلمات الأخرى) ، فيمكن عندئذٍ طرح مشكلة تقدير m0 في الإحصاء الرياضي الكلاسيكي النمط ، ابحث عن تقديرات متسقة وما إلى ذلك.

لنبدأ في بناء نماذج احتمالية. لنفترض أن الأشياء هي نقاط في الفضاء الإقليدي ذي البعد k ، حيث k كبير بما يكفي. حقيقة أن "البعد الحقيقي" يساوي m0 يعني أن كل هذه النقاط تقع على مستوى فائق البعد m0. لنفترض للتأكيد أن مجموعة النقاط قيد النظر هي عينة من توزيع عادي دائري مع تباين o (0). هذا يعني أن الكائنات 0 (1) ، 0 (2) ، ... ، O (n) هي نواقل عشوائية مستقلة بشكل جماعي ، كل منها مبني على شكل

Z (1) e (1) + Z (2) e (2) + ... + Z (m0) e (m0) ، حيث e (1) ، e (2) ، ... ، e (m0) هو أساس متعامد في فضاء فرعي من البعد m0 ، حيث تكمن النقاط قيد الدراسة ، و Z (1) ، Z (2) ، Z (m0) هي متغيرات عشوائية عادية أحادية البعد بشكل جماعي بمتوسط ​​0 وتباين o (0).

ضع في اعتبارك نموذجين للحصول على مقاييس القرب s (ij). في أولهما ، تختلف s (ij) عن المسافة الإقليدية بين النقاط المقابلة نظرًا لحقيقة أن النقاط معروفة بالتشوهات. لنفترض أن ج (1) ، ج (2) ، ... ، ج (ن) هي النقاط قيد النظر. ثم

s (i، j) = d (c (i) + e (i)، c (j) + s (/))، ij = 1، 2، ...، n،

حيث d هي المسافة الإقليدية بين النقاط في الفضاء ذي الأبعاد ^ ، المتجهات e (1) ، e (2) ، ... ، e (n) هي عينة من التوزيع الطبيعي الدائري في الفضاء ذي الأبعاد ^ مع صفر توقع رياضي ومصفوفة التغاير o (1) / ، حيث أنا مصفوفة الوحدة. بعبارة أخرى،

و (0 = ن (1) و (1) + ف (2) و (2) + ... + q (ك) في (ك) ، حيث و (1) ، و (2) ، ... ، ه (ك) هو أساس متعامد في الفضاء ذي الأبعاد ^ و [μ ^ ^) ، أنا = 1 ، 2 ، ... ، ن ،؟ = 1 ، 2 ، ... ، ك) - مجموعة مستقلة في متغيرات عشوائية مجمعة أحادية البعد مع عدم توقع رياضي وتباين o (1).

في النموذج الثاني ، يتم فرض التشوهات مباشرة على المسافات نفسها:

Kch) = d (Φ \ SI)) + £ (YX u = 1، 2.، N، i Φ j،

حيث و ، وفي الفترة الأولى يتناقص بشكل أسرع من الثاني. ومن هنا يتبع ذلك الإحصاء

م * = أرج مينام + 1-2 ص + أن-س)

هو تقدير متسق للأبعاد الحقيقية m0.

لذلك ، تتبع التوصية من النظرية الاحتمالية - استخدم م * كتقدير لأبعاد مساحة العامل. لاحظ أن مثل هذه التوصية تمت صياغتها على أنها استرشادية لأحد مؤسسي القياس متعدد الأبعاد ، J. Kruskal. لقد جاء من تجربة الاستخدام العملي للقياس متعدد الأبعاد والتجارب الحسابية. قدمت النظرية الاحتمالية الأساس لهذه التوصية الإرشادية.

7. تقدير أبعاد النموذج

إذا كانت مجموعات فرعية محتملة من الميزات تشكل عائلة موسعة ، على سبيل المثال ، يتم تقدير درجة متعدد الحدود ، فمن الطبيعي تقديم مصطلح "بُعد النموذج" (هذا المفهوم مشابه إلى حد كبير لمفهوم بُعد مساحة البيانات المستخدم في القياس متعدد الأبعاد ). يمتلك مؤلف هذه المقالة عددًا من الأعمال المتعلقة بتقدير أبعاد النموذج ، والتي يُنصح بمقارنتها بالأعمال المتعلقة بتقدير بُعد مساحة البيانات التي تمت مناقشتها أعلاه.

تم إجراء أول عمل من هذا القبيل بواسطة مؤلف هذا المقال خلال رحلة عمل إلى فرنسا عام 1976. وفيه ، تمت دراسة تقدير واحد لبعد النموذج في الانحدار ، وهو تقدير درجة كثير الحدود على افتراض أن يتم وصف الاعتماد بواسطة كثير الحدود. كان هذا التقدير معروفًا في الأدبيات ، ولكن لاحقًا نُسب خطأً إلى مؤلف هذا المقال ، الذي درس فقط خصائصه ، على وجه الخصوص ، وجد أنه غير متسق ، ووجد توزيعه الهندسي المحدود. تم اقتراح ودراسة تقديرات أخرى متسقة بالفعل لأبعاد نموذج الانحدار في المقالة. اكتملت هذه الدورة بعمل يحتوي على عدد من التوضيحات.

يتضمن الإصدار الأخير حول هذا الموضوع مناقشة لنتائج دراسة معدل التقارب في نظريات الحد التي حصلت عليها بطريقة مونت كارلو.

يتم النظر في تقديرات أبعاد النموذج المماثلة في المنهجية في مشكلة تقسيم الخلائط (جزء من نظرية التصنيف) في المقالة.

تمت دراسة التقديرات المذكورة أعلاه لأبعاد النموذج في القياس متعدد الأبعاد في الأعمال. في نفس الأوراق ، تم تحديد السلوك المحدد لخصائص طريقة المكون الرئيسي (باستخدام النظرية المقاربة لسلوك الحلول للمشاكل الإحصائية المتطرفة).

8. خوارزميات لتقليل الأبعاد في التحليل الآلي للنظام الإدراكي

في التحليل الآلي للنظام المعرفي (تحليل ASK) ، تم اقتراح وتنفيذ طريقة أخرى لتقليل الأبعاد في نظام "Eidos". تم وصفه في العمل في القسمين 4.2 "وصف الخوارزميات للعمليات المعرفية الأساسية لتحليل النظام (BCOSA)" و 4.3 "الخوارزميات التفصيلية لـ BCOSA (تحليل ACS)". دعونا نعطي وصف قصيرخوارزميتان - BKOSA-4.1 و BKOSA-4.2.

BKOSA-4.1.0 تحديث "تجريد العوامل (تقليل أبعاد الفضاء الدلالي للعوامل)"

بمساعدة طريقة التقريبات المتتالية (الخوارزمية التكرارية) في ظل ظروف الحدود المحددة ، يتم تقليل أبعاد مساحة السمة دون انخفاض كبير في حجمها. معيار إيقاف العملية التكرارية هو تحقيق أحد الشروط الحدية.

BKOSA-4.2. "تجريد الفصول (تقليل أبعاد المساحة الدلالية للفصول الدراسية)"

باستخدام طريقة التقريبات المتتالية (الخوارزمية التكرارية) لظروف حدية معينة ، يتم تقليل أبعاد مساحة الطبقة دون تقليل حجمها بشكل كبير. معيار إيقاف العملية التكرارية هو تحقيق أحد الشروط الحدية.

فيما يلي جميع الخوارزميات الحقيقية التي تم تنفيذها في نظام "Eidos" للإصدار الذي تم تنفيذه في وقت إعداد العمل (2002): http: //lc.kubagro .ru / aidos / aidos02 / 4.3 .htm

جوهر الخوارزميات على النحو التالي.

1. يتم حساب مقدار المعلومات في قيم العوامل حول انتقال الكائن إلى الحالات المقابلة للفئات.

2. تحسب قيمة عامل التفرقة بين الكائن بالفئات. هذه القيمة هي ببساطة تباين القيم الإعلامية للعوامل (هناك العديد من المقاييس الكمية للتغير: متوسط ​​الانحراف عن المتوسط ​​، الانحراف المعياري ، إلخ). بمعنى آخر ، إذا كانت قيمة العامل ، في المتوسط ​​، تحتوي على القليل من المعلومات حول الانتماء وعدم الانتماء لعنصر ما ، فإن هذه القيمة ليست ذات قيمة كبيرة ، وإذا كان هناك الكثير ، فهي ذات قيمة .

3. يتم حساب قيمة المقاييس الوصفية للتمييز بين العناصر حسب الفئة. في أعمال E.V. يقوم Lutsenko الآن بهذا كمتوسط ​​لقيم تدرجات هذا المقياس.

4. ثم يتم تنفيذ باريتو الأمثل لقيم العوامل والمقاييس الوصفية:

يتم ترتيب قيم العوامل (تدرجات المقاييس الوصفية) بترتيب تنازلي للقيمة ويتم إزالة القيم الأقل قيمة من النموذج الذي ينتقل إلى يمين الظل إلى منحنى باريتو 45 درجة ؛

يتم ترتيب العوامل (المقاييس الوصفية) بترتيب تنازلي للقيمة ويتم إزالة العناصر الأقل قيمة من النموذج الذي ينتقل إلى يمين الظل إلى منحنى باريتو 45 درجة.

نتيجة لذلك ، يتم تقليل أبعاد المساحة المبنية على المقاييس الوصفية بشكل كبير بسبب إزالة المقاييس المترابطة ، أي في الواقع ، هذا هو orthonormalization الفضاء في مقياس المعلومات.

يمكن تكرار هذه العملية ، أي كن تكراريًا ، بينما في الإصدار الجديد من نظام "Eidos" ، يتم بدء التكرارات يدويًا.

يتم تنسيق مساحة المعلومات الخاصة بالفصول بنفس الطريقة.

يمكن أن تكون المقاييس وتدرجاتها رقمية (ثم تتم معالجة قيم الفاصل الزمني) ، ويمكن أيضًا أن تكون نصية (ترتيبية أو حتى اسمية).

وبالتالي ، بمساعدة خوارزميات BKOS (تحليل ACK) ، يتم تقليل أبعاد الفضاء إلى أقصى حد مع الحد الأدنى من فقدان المعلومات.

لتحليل البيانات الإحصائية في الإحصاء التطبيقي ، تم تطوير عدد من خوارزميات تقليل الأبعاد الأخرى. ليس الغرض من هذه المقالة وصف المجموعة الكاملة لهذه الخوارزميات.

المؤلفات

1. أورلوف أ. نقاط نمو الأساليب الإحصائية // شبكة متعددة المواد الإلكترونية مجلة العلومجامعة كوبان الحكومية الزراعية. 2014. رقم 103. س 136-162.

2. Kruskal J. العلاقة بين القياس متعدد الأبعاد والتحليل العنقودي // التصنيف والكتلة. م: مير ، 1980 ، 20-41.

4. هارمان ج. التحليل العاملي الحديث. موسكو: إحصائيات ، 1972.489 ص.

5. أورلوف أ. ملاحظات على نظرية التصنيف. / علم الاجتماع: منهجية ، طرق ، نماذج رياضية. 1991. رقم 2. ص 28-50.

6. أورلوف أ. النتائج الأساسية للنظرية الرياضية للتصنيف // المجلة العلمية الإلكترونية لشبكة Polythematic لجامعة ولاية كوبان الزراعية. 2015. رقم 110. س 219-239.

7. أورلوف أ. الأساليب الرياضية لنظرية التصنيف // المجلة العلمية الإلكترونية لشبكة Polythematic لجامعة ولاية كوبان الزراعية. 2014 رقم 95 ، ص 23 - 45.

8. Terekhina A.Yu. تحليل البيانات باستخدام طرق القياس متعددة الأبعاد. -M: Nauka ، 1986.168 ص.

9. عبر VT التحليل النمطي غير الخطي للمعلومات الاجتماعية والاقتصادية: الأساليب الحسابية والحاسوبية. - لام: نوكا 1983.176 ص.

10. Tyurin Yu.N.، Litvak B.G.، Orlov A.I.، Satarov GA، Shmerling D.S. تحليل المعلومات غير العددية. م: المجلس العلمي لأكاديمية العلوم في اتحاد الجمهوريات الاشتراكية السوفياتية حول المشكلة المعقدة "علم التحكم الآلي" ، 1981. - 80 ص.

11. أورلوف أ. نظرة عامة على إحصاءات الأشياء ذات الطبيعة غير العددية // تحليل المعلومات غير العددية في البحث الاجتماعي. - م: نوكا ، 1985S 58-92.

12. أورلوف أ. تحديد توزيع تقدير واحد لعدد وظائف الأساس في الانحدار // التحليل الإحصائي متعدد المتغيرات التطبيقي. ملاحظات علمية حول الإحصاء ، العدد 33. - م: نوكا ، 1978S 380-381.

13. أورلوف أ. تقدير أبعاد النموذج في الانحدار // الخوارزمية والبرمجيات للتحليل الإحصائي التطبيقي. ملاحظات علمية حول الإحصاء ، الإصدار 36. - م: نوكا ، 1980S 92-99.

14. أورلوف أ. مقاربات بعض تقديرات أبعاد النموذج في الانحدار // الإحصاء التطبيقي. ملاحظات علمية على الإحصاء ، العدد 45. - م: نوكا ، 1983S 260-265.

15. أورلوف أ. على تقدير الانحدار متعدد الحدود // معمل المصنع. تشخيص المواد. 1994 المجلد 60. رقم 5. ص43-47.

16. أورلوف أ. بعض الأسئلة الاحتمالية لنظرية التصنيف // الإحصاء التطبيقي. ملاحظات علمية على الإحصاء ، العدد 45. - م: نوكا ، 1983S 166-179.

17. أورلوف أ. في تطوير إحصائيات الكائنات غير العددية // تصميم التجارب وتحليل البيانات: الاتجاهات والنتائج الجديدة. - م: أنتال ، 1993. ص 52-90.

18. أورلوف أ. طرق تقليل الأبعاد // الملحق 1 للكتاب: Yu.N. تولستوفا. أساسيات القياس متعدد الأبعاد: كتاب مدرسي للجامعات. - م: دار النشر KDU ، 2006. - 160 صفحة.

19. أورلوف أ. مقاربات حلول المشاكل الإحصائية المتطرفة // تحليل البيانات غير العددية في دراسات النظام. مجموعة الأعمال. مشكلة 10. - م: معهد عموم الاتحاد للبحوث العلمية لأبحاث النظم ، 1982. ص 412.

20. أورلوف أ. النمذجة الاقتصادية والتنظيمية: كتاب مدرسي في ثلاث ساعات ، الجزء الأول: الإحصاء غير العددي. - م: دار النشر MSTU im. م. بومان. - 2009. - 541 ص.

21. Lutsenko E.V. التحليل الآلي للنظام المعرفي في إدارة الأشياء النشطة (نظرية نظام المعلومات وتطبيقاتها في دراسة النظم الاقتصادية والاجتماعية والنفسية والتكنولوجية والتنظيمية التقنية): دراسة (منشور علمي). -كراسنودار: KubSAU. 2002. - 605 ص. http://elibrary.ru/item.asp؟id=18632909

1. أورلوف أ. Tochki rosta statisticheskih metodov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. رقم 103. س 136-162.

2. Kraskal Dzh. Vzaimosvjaz "mezhdu mnogomernym shkalirovaniem i klaster-analizom // Klassifikacija i klaster. M: Mir، 1980. S. 20-41.

3. Kruskal JB ، Wish M. مقياس متعدد الأبعاد // سلسلة أوراق جامعة سيج: التطبيقات النوعية في العلوم الاجتماعية. 1978 رقم 11.

4. Harman G. Sovremennyj faktornyj analiz. م: ستاتستيكا ، 1972.489 ثانية.

5. أورلوف أ. Zametki po teorii klassifikacii. / علم الاجتماع: metodologija ، metody ، matematicheskie modeli. 1991. رقم 2. S.28-50.

6. أورلوف أ. Bazovye rezul "taty matematicheskoj teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. No. 110. S. 219-239.

7. أورلوف أ. Matematicheskie metody teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. No. 95. S. 23-45.

8. Terehina A.Ju. Analiz dannyh metodami mnogomernogo shkalirovanija. - م: نوكا ، 1986.168 ثانية.

9. بيريكريست ف. Nelinejnyj tipologicheskij analiz social "no-jekonomicheskoj informacii: Matematicheskie i vychislitel" metody nye. - لام: نوكا 1983.176 ثانية.

10. Tjurin Ju.N.، Litvak B.G.، Orlov A.I.، Satarov GA، Shmerling D.S. Analiz nechislovoj informacii. م: Nauchnyj Sovet AN SSSR po kompleksnoj probleme "Kibernetika" ، 1981. - 80 ثانية.

11. أورلوف أ. Obshhij vzgljad na statistiku ob # ektov nechislovoj prirody // Analiz nechislovoj informacii v sociologicheskih issledovanijah. - م: ناوكا ، 1985. س 58-92.

12. أورلوف أ. Predel "noe raspredelenie odnoj ocenki chisla bazisnyh funkcij v regressii // Prikladnoj mnogomernyj statisticheskij analiz. Uchenye zapiski po statistike، vol. 33. - M.: Nauka، 1978. S. 380-381.

13. أورلوف أ. Ocenka razmernosti modeli v regressii // Algoritmicheskoe i programmnoe obespechenie prikladnogo statisticheskogo analiza. Uchenye zapiski po statistike، t.36. - م: نوكا ، 1980. س 92-99.

14. أورلوف أ. Asimptotika nekotoryh ocenok razmernosti modeli v regressii // Prikladnaja statistika. Uchenye zapiski po statistike، t. 45. - م: نوكا ، 1983. س 260-265.

15. أورلوف أ. Ob ocenivanii regressionnogo polinoma // Zavodskaja labatorija. تشخيص المواد 1994. T. 60. رقم 5. م 43-47.

16. أورلوف أ. Nekotorye verojatnostnye voprosy teorii klassifikacii // Prikladnaja statistika. Uchenye zapiski po statistike، t. 45. - م: نوكا ، 1983. س 166-179.

17. أورلوف أ. في تطوير إحصائيات الكائنات غير العددية // تصميم التجارب وتحليل البيانات: الاتجاهات والنتائج الجديدة. - م: أنتال ، 1993. ر. 52-90.

18. أورلوف أ. Metody snizhenija razmernosti // Prilozhenie 1 k knige: Tolstova Ju.N. Osnovy mnogomernogo shkalirovanija: Uchebnoe posobie dlja vuzov. - م: Izdatel "stvo KDU ، 2006. - 160 ثانية.

19. أورلوف أ. Asimptotika reshenij jekstremal "nyh statisticheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah. Sbornik trudov. Vyp.10. - M.: Vsesojuznyj nauchno-issledovatel."

20. أورلوف أ. Organizacionno-jekonomicheskoe modelirovanie: uchebnik: v 3 ch. Chast "1: Nechislovaja statistika. - M.: Izd-vo MGTU im. N. Je. Baumana. - 2009. - 541 s.

21. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob # ektami (sistemnaja teorija informacii i ee primenenie v issledovanii jekonomicheskih، اجتماعي "no-psihologicheskih. 605 s.

الغرض من الدراسة:

تقييم فعالية طرق تقليل أبعاد البيانات لتحسين تطبيقها في ممارسة التعرف (التعريف).

أهداف البحث:

1. مراجعة مصادر الأدبيات حول الأساليب الحالية لتقليل أبعاد البيانات.

2. إجراء بحث (تجارب) لمقارنة فعالية الخوارزميات المستخدمة عمليا لتقليل أبعاد البيانات في مشاكل التصنيف

طرق البحث (البرمجيات):

لغة برمجة C ++ ، مكتبة OpenCV

يصعب على الشخص تصور البيانات عالية الأبعاد ، وأحيانًا يكون مستحيلًا. في هذا الصدد ، أصبحت الرغبة في الانتقال من عينة متعددة الأبعاد إلى بيانات ذات بعد صغير أمرًا طبيعيًا تمامًا ، بحيث "يمكن للمرء أن ينظر إليها" وتقييمها واستخدامها ، بما في ذلك لتحقيق مهام التعرف. بالإضافة إلى الوضوح ، فإن الانخفاض في البعد يسمح للشخص بالتخلص من العوامل (المعلومات) التي تتداخل مع التحليل الإحصائي ، وإطالة وقت جمع المعلومات ، وزيادة التباين في تقديرات المعلمات وخصائص التوزيعات.

تقليل الأبعاد هو تحويل بيانات المصدر عالية الأبعاد إلى تمثيل جديد منخفض الأبعاد يحافظ على المعلومات الأساسية. من الناحية المثالية ، يتوافق بُعد التمثيل المحول مع البعد الداخلي للبيانات. البعد الجوهري للبيانات هو الحد الأدنى لعدد المتغيرات المطلوبة للتعبير عن جميع الخصائص الممكنة للبيانات. يجب أن يكون النموذج التحليلي المبني من مجموعة مصغرة من البيانات أسهل في المعالجة والتنفيذ والفهم من النموذج المبني من المجموعة الأصلية.

يعتمد قرار اختيار طريقة تقليل الأبعاد على المعرفة حول ميزات المشكلة التي يتم حلها والنتائج المتوقعة ، بالإضافة إلى الوقت المحدود والموارد الحسابية. وفقًا لمراجعات الأدبيات ، فإن تقنيات تقليل الأبعاد الأكثر شيوعًا هي تحليلات المكونات الرئيسية (PCA) ، وتحليلات المكونات المستقلة (ICA) ، وتحليل القيمة الفردية (SVD).

تحليل المكون الرئيسي (PCA) هي أبسط طريقة لتقليل أبعاد البيانات. يتم استخدامه على نطاق واسع لتحويل الميزات مع تقليل أبعاد البيانات في مشاكل التصنيف. تعتمد الطريقة على إسقاط البيانات على نظام إحداثيات جديد ذي أبعاد أقل ، والذي يتم تحديده بواسطة المتجهات الذاتية والقيم الذاتية للمصفوفة. من وجهة نظر الرياضيات ، فإن تحليل المكون الرئيسي هو تحويل خطي متعامد.

الفكرة الرئيسية للطريقة هي حساب القيم الذاتية والمتجهات الذاتية لمصفوفة التباين المشترك للبيانات من أجل تقليل التباين. يتم استخدام مصفوفة التغاير لتحديد الانتشار بالنسبة للمتوسط ​​بالنسبة لبعضهما البعض. التغاير بين متغيرين عشوائيين (الأبعاد) هو مقياس لاعتمادهما الخطي:

أين هو التوقع الرياضي لمتغير عشوائي X ، هو التوقع الرياضي لمتغير عشوائي Y. يمكننا أيضًا كتابة الصيغة (1) في الشكل:

أين هو متوسط ​​X ، أين هو متوسط ​​Y ، N هو بعد البيانات.

بعد حساب المتجهات الذاتية والقيم الذاتية ، يتم فرز قيمها بترتيب تنازلي. وبالتالي ، يتم الحصول على المكونات بترتيب تنازلي من حيث الأهمية. المتجه الذاتي مع أكبر قيمة ذاتية هو المكون الرئيسي لمجموعة البيانات. يتم الحصول على المكونات الرئيسية بضرب السلاسل من المتجهات الذاتية بواسطة قيم eigenvalues ​​المصنفة. للعثور على المساحة المثلى للبعد الأدنى ، يتم استخدام الصيغة (3) ، والتي وفقًا لها يتم حساب الحد الأدنى للخطأ بين مجموعة البيانات الأصلية وتلك التي تم الحصول عليها بواسطة المعيار التالي:

حيث P هي بُعد الفضاء الجديد ، و N هي بُعد العينة الأصلية ، وهي قيم eigenvalues ​​، وقيمة العتبة. في سياق الخوارزمية ، نحصل على مصفوفة بها بيانات MP ، محولة خطيًا من MN ، وبعد ذلك تجد PCA تعيينًا خطيًا M يقلل الوظيفة المقدرة:

أين هي المسافة الإقليدية بين النقاط ، وهل هي المسافة الإقليدية بين النقاط و ،،، ... يمكن حساب الحد الأدنى من وظيفة التقدير هذه عن طريق إجراء التحلل الطيفي لمصفوفة جرام وضرب المتجهات الذاتية لهذه المصفوفة بجذر القيم الذاتية المقابلة.

تحليل المكونات المستقلة ( ICA ) , على عكس PCA ، فهي طريقة جديدة إلى حد ما ، ولكنها تكتسب شعبية بسرعة. يعتمد على فكرة التحويل الخطي للبيانات إلى مكونات جديدة تكون مستقلة إحصائيًا قدر الإمكان وليست بالضرورة متعامدة مع بعضها البعض. للبحث في هذا العمل ، تم اختيار خوارزمية FastICa ، والتي تم وصفها بالتفصيل في المقالة. تتمثل المهام الرئيسية لهذه الطريقة في التوسيط (طرح المتوسط ​​من البيانات) و "التبييض" (التحويل الخطي للمتجه x إلى متجه بإحداثيات غير مرتبطة ، وتباينها يساوي واحدًا).

معيار الاستقلال في FastICA هو non-Gaussianity ، ويتم قياسه باستخدام معامل التفرطح:

بالنسبة للمتغيرات العشوائية الغاوسية ، تكون هذه القيمة صفرًا ، لذا فإن FastICA يزيد قيمتها. إذا كانت البيانات "مبيضة" ، فإن مصفوفة التغاير للبيانات "المبيضة" هي مصفوفة الهوية.

مثل هذا التحول ممكن دائمًا. تستخدم تقنية التبييض الشائعة التحلل الطيفي لمصفوفة التغاير ، أين هي المصفوفة المتعامدة للمتجهات الذاتية ، وهي المصفوفة القطرية لقيم eigenvalues ​​،. اتضح أن "التبييض" يمكن تمثيله على النحو التالي:

حيث يتم حساب المصفوفة من خلال عملية المكون:

التجارب

للدراسة التجريبية للطرق المقترحة ، استخدمنا تسلسل فيديو القصة المصورة من قاعدة بيانات CASIA GAIT. تحتوي القاعدة على متواليات من الصور الثنائية المقابلة لأطر منفصلة من تسلسل الفيديو ، والتي تم بالفعل اختيار الكائنات المتحركة عليها.

من المجموعة الكاملة لتسلسلات الفيديو ، تم أخذ 15 فصلًا بشكل عشوائي ، حيث تكون زاوية التصوير 90 درجة ، ويتم تصوير الأشخاص بملابس عادية غير شتوية وبدون أكياس. كان هناك 6 أوتار في كل فصل. كان طول كل سلسلة 60 إطارًا على الأقل. تم تقسيم الفصول إلى مجموعات تدريب واختبار من 3 تسلسلات لكل منهما.

تم استخدام الميزات التي تم الحصول عليها نتيجة لأساليب PCA و ICA لتدريب المصنف ، والذي كان في هذا العمل هو Support Vector Machines (SVM).

لتحديد جودة الطريقة ، تم تقييم دقة التصنيف ، والتي تم تعريفها على أنها نسبة الكائنات المصنفة بشكل صحيح. أثناء التجربة ، تم أيضًا تسجيل الوقت الذي يقضيه في وضع التدريب والاختبار.

الشكل 1-أ) تحليل المكون الرئيسي (PCA) ب) طريقة المكونات المستقلة (ICA)

يوضح الشكل 1 (أ ، ب) اعتماد دقة التصنيف على قيمة بُعد إخراج البيانات بعد التحويل. يمكن ملاحظة أنه في PCA ، تتغير دقة التصنيف بشكل ضئيل مع زيادة عدد المكونات ، وعند استخدام ICA ، تبدأ الدقة في الانخفاض ، بدءًا من قيمة معينة.

الشكل 2. الاعتماد على وقت التصنيف على عدد المكونات أ) PCA ، ب) ICA

يوضح الشكل 2 (أ ، ب) اعتماد وقت التصنيف على عدد مكونات PCA و ICA. كانت الزيادة في الأبعاد في كلتا الحالتين مصحوبة بزيادة خطية في وقت المعالجة. يمكن أن نرى من الرسوم البيانية أن مصنف SVM يعمل بشكل أسرع بعد تقليل الأبعاد باستخدام تحليل المكون الرئيسي (PCA).

عملت طرق تحليل المكونات الرئيسية (PCA) وطرق تحليل المكونات المستقلة (ICA) بسرعة كبيرة ، ومع وجود معلمات معينة ، تم الحصول على نتائج عالية في مشكلة التصنيف. ولكن مع البيانات ذات البنية المعقدة ، فإن هذه الأساليب لا تحقق دائمًا النتيجة المرجوة. لذلك ، في السنوات الأخيرة ، يتم إيلاء المزيد والمزيد من الاهتمام للطرق غير الخطية المحلية التي تعرض البيانات على بعض المضاعفات ، مما يسمح لك بالحفاظ على بنية البيانات.

في المستقبل ، من المخطط توسيع كل من قائمة الخوارزميات المستخدمة لتشكيل وصف الميزة ، وقائمة طرق التصنيف المستخدمة. يبدو أن تقليل وقت المعالجة مجال مهم آخر للبحث.

فهرس:

  1. جوليف ، آي تي ​​، تحليل المكونات الرئيسية ، سبرينغر ، 2002
  2. Hyvärinen and Erkki Oja ، تحليل المكونات المستقلة: الخوارزميات والتطبيقات ، الشبكات العصبية ، 13 ، 2000
  3. Josiński ، H. استخراج الميزات والتصنيف المستند إلى HMM لتسلسلات فيديو المشية لغرض التعريف البشري / Springer ، 2013 - المجلد 481.

التعلم الآلي ليس أكثر من مجال تعليمي يسمح لأجهزة الكمبيوتر "بالتعلم" مثل البشر ، دون الحاجة إلى برمجة صريحة.

ما هي النمذجة التنبؤية:النمذجة التنبؤية هي عملية احتمالية تسمح لنا بالتنبؤ بالنتائج بناءً على تنبؤات معينة. هذه المتنبئات هي في الأساس وظائف تلعب دورها عند تحديد النتيجة النهائية ، أي نتيجة النموذج.

ما هو تقليل البعد؟

في مشاكل تصنيف التعلم الآلي ، غالبًا ما يكون هناك العديد من العوامل التي يتم على أساسها التصنيف النهائي. هذه العوامل هي في الأساس متغيرات تسمى السمات. كلما زادت الوظائف ، زادت صعوبة تصور مجموعة التدريب ثم العمل عليها. في بعض الأحيان تكون معظم هذه الميزات مترابطة وبالتالي فهي زائدة عن الحاجة. هذا هو المكان الذي تدخل فيه خوارزميات تقليل الأبعاد. تقليل الأبعاد هو عملية تقليل عدد المتغيرات العشوائية المدروسة من خلال الحصول على مجموعة من المتغيرات الرئيسية. يمكن تقسيمها إلى اختيار الميزة واستخراج الميزة.

ما أهمية تقليل الأبعاد في التعلم الآلي والنمذجة التنبؤية؟

يمكن مناقشة مثال بديهي لتقليل الأبعاد مع مشكلة تصنيف بريد إلكتروني بسيطة حيث نحتاج إلى تحديد ما إذا كان البريد الإلكتروني بريدًا عشوائيًا أم لا. يمكن أن يتضمن ذلك عددًا كبيرًا من الوظائف ، مثل ما إذا كان البريد الإلكتروني يحتوي على عنوان مشترك ، أو محتوى البريد الإلكتروني ، وما إذا كان البريد الإلكتروني يستخدم قالبًا ، وما إلى ذلك. ومع ذلك ، قد تتداخل بعض هذه الوظائف ، وفي حالة مختلفة ، هناك يمكن تلخيص مشكلة التصنيف التي تعتمد على كل من الرطوبة والتهطال في خاصية أساسية واحدة ، حيث أن كلا الأمرين أعلاه مرتبطان ارتباطًا وثيقًا. لذلك ، يمكننا تقليل عدد الوظائف في مثل هذه المهام. يصعب تخيل مشكلة التصنيف ثلاثي الأبعاد ، بينما يمكن مقارنة ثنائية الأبعاد بمساحة بسيطة ثنائية الأبعاد ، ومشكلة أحادية البعد بخط بسيط. يوضح الشكل أدناه هذا المفهوم ، حيث يتم تقسيم مساحة الميزة ثلاثية الأبعاد إلى مساحتين مميزتين 1-D ، وبعد ذلك ، إذا تم العثور على ارتباط بينهما ، يمكن تقليل عدد الميزات بشكل أكبر.

مكونات تخفيض الأبعاد

هناك نوعان من مكونات تقليل الأبعاد:

  • اختيار الخصائص:في هذا القسم ، نحاول إيجاد مجموعة فرعية من المجموعة الأصلية من المتغيرات أو الوظائف من أجل الحصول على مجموعة فرعية أصغر يمكن استخدامها لنمذجة المشكلة. يتضمن هذا عادة ثلاث طرق:
    1. منقي
    2. غلاف
    3. متجذرة
  • ميزة استخراج:يؤدي ذلك إلى تقليل البيانات في مساحة متعددة الأبعاد إلى بُعد أقل ، أي مساحة مرقمة أقل. الأحجام.

طرق تقليل الأبعاد

تشمل التقنيات المختلفة المستخدمة لتقليل الأبعاد ما يلي:

  • تحليل المكون الرئيسي (PCA)
  • تحليل التمييز الخطي (LDA)
  • تحليل التمييز المعمم (GDA)

يمكن أن يكون تقليل الأبعاد إما خطيًا أو غير خطي ، اعتمادًا على الطريقة المستخدمة. تتم مناقشة التقنية الخطية الرئيسية التي تسمى تحليل المكون الرئيسي ، أو PCA ، أدناه.

تحليل المكون الرئيسي

تم تقديم هذه الطريقة بواسطة كارل بيرسون. إنه يعمل بشرط أنه على الرغم من تعيين البيانات الموجودة في الفضاء ذي الأبعاد الأعلى إلى البيانات الموجودة في الفضاء ذي الأبعاد المنخفضة ، إلا أنه يجب تعظيم تشتت البيانات في الفضاء ذي الأبعاد المنخفضة.

يتضمن الخطوات التالية:

  • بناء مصفوفة تغاير البيانات.
  • احسب المتجهات الذاتية لهذه المصفوفة.
  • يتم استخدام المتجهات الذاتية المقابلة لأكبر قيم eigenvalues ​​لإعادة بناء معظم التباين في البيانات الأصلية.

لذلك ، لدينا عدد أقل من المتجهات الذاتية المتبقية ، وربما حدث بعض فقدان البيانات في هذه العملية. ولكن يجب الاحتفاظ بأهم الانحرافات بواسطة المتجهات الذاتية المتبقية.

فوائد تقليل البعد

  • يساعد في ضغط البيانات ، وبالتالي يقلل من مساحة التخزين.
  • هذا يقلل من وقت الحساب.
  • كما أنه يساعد على إزالة الميزات الزائدة عن الحاجة ، إن وجدت.

مساوئ تقليل الأبعاد

  • قد يؤدي هذا إلى فقدان بعض البيانات.
  • يميل PCA إلى إيجاد ارتباطات خطية بين المتغيرات ، وهو أمر غير مرغوب فيه في بعض الأحيان.
  • يفشل PCA في الحالات التي يكون فيها المتوسط ​​والتباين غير كافيين لتحديد مجموعات البيانات.
  • قد لا نعرف عدد المكونات الأساسية التي يجب اتباعها في الممارسة العملية ، يتم تطبيق بعض القواعد العامة.

تم توفير هذه المقالة من قبل أناني أوبيروي... إذا كنت مثل GeeksforGeeks وترغب في المساهمة ، يمكنك أيضًا كتابة مقال باستخدام Contrib.geeksforgeeks.org أو عن طريق نشر مقال [بريد إلكتروني محمي]انظر مقالتك تظهر على الصفحة الرئيسية GeeksforGeeks ، ومساعدة المهوسين الآخرين.

تقليل المعلومات

في التقنيات التحليلية ، يُفهم تقليل أبعاد البيانات على أنه عملية تحويلها إلى شكل أكثر ملاءمة للتحليل والتفسير. عادةً ما يتم تحقيق ذلك عن طريق تقليل حجمها وتقليل عدد الميزات المستخدمة وتنوع معانيها.

غالبًا ما تكون البيانات التي تم تحليلها غير مكتملة عندما تعكس بشكل سيء تبعيات وأنماط العمليات التجارية التي تم التحقيق فيها. قد تكون أسباب ذلك عدم كفاية عدد الملاحظات ، وغياب العلامات التي تعكس الخصائص الأساسية للأشياء. في هذه الحالة ، يتم تطبيق إثراء البيانات.

يتم تطبيق تقليل الأبعاد في الحالة المعاكسة عندما تكون البيانات زائدة عن الحاجة. يحدث التكرار عندما يمكن حل مشكلة التحليل بنفس المستوى من الكفاءة والدقة ، ولكن باستخدام بُعد بيانات أصغر. هذا يجعل من الممكن تقليل الوقت والتكاليف الحسابية لحل المشكلة ، لجعل البيانات ونتائج تحليلها أكثر قابلية للتفسير والفهم للمستخدم.

يتم استخدام تقليل عدد ملاحظات البيانات إذا كان من الممكن الحصول على حل ذي جودة قابلة للمقارنة على عينة أصغر ، وبالتالي تقليل التكاليف الحسابية والوقت. هذا ينطبق بشكل خاص على الخوارزميات غير القابلة للتطوير ، حتى عندما يؤدي التخفيض الصغير في عدد السجلات إلى مكاسب كبيرة في تكاليف الوقت الحسابي.

من المنطقي تقليل عدد الميزات عندما تكون المعلومات اللازمة لحل عالي الجودة للمشكلة مضمنة في مجموعة فرعية من الميزات وليس من الضروري استخدامها جميعًا. هذا ينطبق بشكل خاص على الميزات المرتبطة. على سبيل المثال ، تحمل علامتا "العمر" و "الخبرة في العمل" نفس المعلومات ، لذا يمكن استبعاد أحدهما.

الطريقة الأكثر فعالية لتقليل عدد الميزات هي تحليل العوامل وتحليل المكون الرئيسي.

إن تقليل تنوع قيم المعالم أمر منطقي ، على سبيل المثال ، إذا كانت دقة تمثيل البيانات زائدة عن الحاجة ويمكنك استخدام الأعداد الصحيحة بدلاً من القيم الحقيقية دون التقليل من جودة النموذج. لكن هذا سيقلل من حجم الذاكرة التي تشغلها البيانات والتكاليف الحسابية.

يجب أن ترث المجموعة الفرعية من البيانات التي تم الحصول عليها نتيجة لتقليل الأبعاد من المجموعة الأصلية أكبر قدر من المعلومات اللازمة لحل المشكلة بدقة معينة ، ويجب ألا تقلل التكاليف الحسابية والوقتية لخفض البيانات من الفوائد التي تم الحصول عليها منها.

يجب أن يكون النموذج التحليلي المبني من مجموعة مصغرة من البيانات أسهل في المعالجة والتنفيذ والفهم من النموذج المبني من المجموعة الأصلية.

يعتمد قرار اختيار طريقة تقليل الأبعاد على معرفة مسبقة بخصائص المشكلة التي يتم حلها والنتائج المتوقعة ، بالإضافة إلى الوقت المحدود والموارد الحسابية.

في التحليل الإحصائي متعدد المتغيرات ، يتم وصف كل كائن بواسطة متجه ، يكون أبعاده تعسفيًا (ولكن نفس الشيء بالنسبة لجميع الكائنات). ومع ذلك ، يمكن لأي شخص أن يدرك بشكل مباشر البيانات أو النقاط الرقمية فقط على المستوى. يعد تحليل مجموعات النقاط في الفضاء ثلاثي الأبعاد أكثر صعوبة بالفعل. الإدراك المباشر للبيانات عالية الأبعاد أمر مستحيل. لذلك ، من الطبيعي تمامًا أن ترغب في الانتقال من عينة متعددة الأبعاد إلى بيانات ذات بعد صغير ، بحيث يمكنك "النظر إليها".

إلى جانب السعي إلى الوضوح ، هناك دوافع أخرى لتقليل الأبعاد. تلك العوامل ، التي لا يعتمد عليها المتغير الذي يهم الباحث ، تتداخل فقط مع التحليل الإحصائي. أولاً ، يتطلب الأمر موارد لجمع المعلومات عنها. ثانيًا ، كما يمكن توضيحه ، فإن تضمينها في التحليل يؤدي إلى تفاقم خصائص الإجراءات الإحصائية (على وجه الخصوص ، يزيد من تباين تقديرات معلمات وخصائص التوزيعات). لذلك من المستحسن التخلص من هذه العوامل.

دعونا نناقش من وجهة نظر تقليل الأبعاد مثالاً على استخدام تحليل الانحدار للتنبؤ بحجم المبيعات ، والذي تمت مناقشته في القسم الفرعي 3.2.3. أولاً ، في هذا المثال ، تمكنا من تقليل عدد المتغيرات المستقلة من 17 إلى 12. ثانيًا ، تمكنا من إنشاء عامل جديد - دالة خطية من العوامل الـ 12 المذكورة ، والتي تتوقع حجم المبيعات بشكل أفضل من جميع المجموعات الخطية الأخرى من عوامل. لذلك ، يمكننا القول أنه نتيجة لذلك ، انخفض بُعد المشكلة من 18 إلى 2. أي ، هناك عامل مستقل واحد (التركيبة الخطية الواردة في القسم الفرعي 3.2.3) وعامل تابع واحد - حجم المبيعات.

عند تحليل البيانات متعددة الأبعاد ، فإنهم عادة لا يأخذون في الاعتبار مشكلة واحدة ، ولكن العديد من المشاكل ، على وجه الخصوص ، اختيار المتغيرات المستقلة والتابعة بطرق مختلفة. لذلك ، فإننا نعتبر مشكلة تقليل الأبعاد في الصيغة التالية. تم إعطاء عينة متعددة الأبعاد. يلزم الانتقال منه إلى مجموعة من النواقل ذات البعد الأدنى ، مع الحفاظ على بنية البيانات الأصلية قدر الإمكان ، دون فقدان المعلومات الواردة في البيانات ، إن أمكن. يتم تجسيد المشكلة في إطار كل طريقة محددة لتقليل الأبعاد.

طريقة المكون الرئيسيهي واحدة من أكثر تقنيات تقليل الأبعاد شيوعًا. تتمثل فكرتها الرئيسية في التحديد المستمر للاتجاهات التي يكون فيها للبيانات أكبر انتشار. دع العينة تتكون من ناقلات موزعة بالتساوي مع المتجه X = (x(1), x(2), … , x(ن)). ضع في اعتبارك التركيبات الخطية

ص(λ (1) ، λ (2) ، ... ، λ ( ن)) = (1) x(1) + (2) x(2) +… + λ ( ن)x(ن),

λ 2 (1) + 2 (2) + ... + 2 ( ن) = 1.

هنا المتجه λ = (λ (1) ، λ (2) ، ... ، λ ( ن)) تقع على مجال الوحدة في نمساحة الأبعاد.

في طريقة المكونات الرئيسية ، أولاً وقبل كل شيء ، تم العثور على اتجاه الحد الأقصى للسبريد ، أي مثل λ حيث يصل تباين المتغير العشوائي إلى الحد الأقصى ص(λ) = ص(λ (1) ، λ (2) ، ... ، λ ( ن)). ثم يحدد المتجه λ المكون الرئيسي الأول والكمية ص(λ) هو إسقاط المتجه العشوائي NSعلى محور المكون الرئيسي الأول.

ثم ، من حيث الجبر الخطي ، ضع في اعتبارك المستوى الفائق في ن- مساحة الأبعاد ، عموديًا على المكون الرئيسي الأول ، وإسقاط جميع عناصر العينة على هذا المستوى الفائق. أبعاد الطائرة الفائقة أقل بمقدار 1 من أبعاد المساحة الأصلية.

في المستوى المفرط المدروس ، يتم تكرار الإجراء. يوجد اتجاه أكبر انتشار فيه ، أي. المكون الرئيسي الثاني. ثم حدد المستوى الفائق عموديًا على المكونين الرئيسيين الأولين. أبعاده أقل بمقدار 2 من أبعاد المساحة الأصلية. التالي هو التكرار التالي.

من وجهة نظر الجبر الخطي ، نحن نتحدث عن بناء أساس جديد في ن- فضاء الأبعاد ، ووحداته هي المكونات الرئيسية.

التباين المقابل لكل مكون رئيسي جديد أقل من التباين السابق. عادة ما يتوقفون عندما يكون أقل من عتبة محددة سلفا. إذا تم التحديد كالمكونات الرئيسية ، وهذا يعني أن من ن-الفضاء الأبعاد تمكن من الذهاب إليه ك- الأبعاد ، أي تقليل البعد من ن-قبل ك, عمليا دون تشويه بنية البيانات الأولية .

لتحليل البيانات المرئية ، غالبًا ما تستخدم إسقاطات المتجهات الأولية على مستوى المكونين الرئيسيين الأولين. عادة ، تكون بنية البيانات مرئية بوضوح ، ويتم تمييز مجموعات الكائنات المدمجة والمتجهات المميزة بشكل منفصل.

تحليل المكون الرئيسي هو أحد الأساليب تحليل العوامل. تتحد الخوارزميات المختلفة لتحليل العوامل من خلال حقيقة أنه يوجد في كل منها انتقال إلى أساس جديد في الأصل نمساحة الأبعاد. المهم هو مفهوم "عامل الحمل" ، والذي يستخدم لوصف دور العامل الأولي (المتغير) في تكوين ناقل معين من أساس جديد.

فكرة جديدة مقارنة بتحليل المكون الرئيسي هي أنه بناءً على الأحمال ، يتم تقسيم العوامل إلى مجموعات. يتم دمج العوامل التي لها تأثير مماثل على عناصر الأساس الجديد في مجموعة واحدة. ثم يوصى بترك ممثل واحد من كل مجموعة. في بعض الأحيان ، بدلاً من اختيار ممثل عن طريق الحساب ، يتم تكوين عامل جديد ، وهو أمر أساسي للمجموعة المعنية. يحدث انخفاض في البعد أثناء الانتقال إلى نظام العوامل التي تمثل المجموعات. يتم تجاهل باقي العوامل.

يمكن تنفيذ الإجراء الموصوف ليس فقط بمساعدة تحليل العوامل. نحن نتحدث عن التحليل العنقودي للخصائص (العوامل ، المتغيرات). يمكن استخدام خوارزميات تحليل الكتلة المختلفة لتقسيم الميزات إلى مجموعات. يكفي إدخال المسافة (قياس القرب ، مؤشر الاختلاف) بين الميزات. اسمحوا ان NSو لديك- علامتان. فرق د(X, ص) بينهما يمكن قياسه باستخدام معاملات ارتباط العينة:

د 1 (X ، ص) = 1 – ص ن(X ، ص), د 2 (X ، ص) = 1 - ρ ن(X ، ص),

أين ص ن(X, ص) هل العينة الخطية معامل ارتباط بيرسون ، ρ ن(X, ص) هل معامل ارتباط رتبة عينة سبيرمان.

التحجيم متعدد الأبعاد... حول استخدام المسافات (مقاييس القرب ، مؤشرات الاختلاف) د(X, ص) بين العلامات NSو لديكتم تأسيس فئة واسعة من طرق القياس متعددة الأبعاد. الفكرة الرئيسية لهذه الفئة من الأساليب هي تمثيل كل كائن بنقطة من الفضاء الهندسي (عادةً بأبعاد 1 أو 2 أو 3) ، وإحداثياتها هي قيم العوامل المخفية (الكامنة) ، والتي معا وصف الشيء بشكل كاف. في هذه الحالة ، يتم استبدال العلاقات بين الأشياء بالعلاقات بين النقاط - ممثليهم. إذن ، بيانات عن تشابه الكائنات - المسافات بين النقاط ، بيانات التفوق - الموضع النسبي للنقاط.

في الممارسة العملية ، يتم استخدام عدد من نماذج القياس المتعددة الأبعاد المختلفة. في كل منهم ، تنشأ مشكلة تقدير البعد الحقيقي لمساحة العامل. دعونا نفكر في هذه المشكلة باستخدام مثال معالجة البيانات حول تشابه الكائنات باستخدام القياس المتري.

يجب ألا يكون هناك نأشياء ا(1), ا(2), …, ا(ن) ، لكل زوج من الأشياء ا(أنا), ا(ي) تم إعطاء مقياس التشابه بينهما س(أنا, ي). نحن نؤمن بذلك دائمًا س(أنا, ي) = س(ي, أنا). أصل الأعداد س(أنا, ي) غير ذي صلة لوصف تشغيل الخوارزمية. يمكن الحصول عليها إما عن طريق القياس المباشر ، أو باستخدام الخبراء ، أو عن طريق الحساب من مجموعة من الخصائص الوصفية ، أو بطريقة أخرى.

في الفضاء الإقليدي ، يعتبر نيجب أن يتم تمثيل الكائنات من خلال التكوين نالنقاط ، والمسافة الإقليدية كمقياس للقرب من النقاط التمثيلية د(أنا, ي) بين النقاط المقابلة. يتم تحديد درجة التطابق بين مجموعة من العناصر ومجموعة من النقاط التي تمثلها بمقارنة مصفوفات التشابه || س(أنا, ي) || والمسافات || د(أنا, ي) ||. وظيفة التشابه المتري لها الشكل

يجب اختيار التكوين الهندسي بحيث يصل S الوظيفية إلى قيمته الدنيا.

تعليق.في القياس غير المتري ، بدلاً من القرب من القرب والمسافة يقيسان أنفسهم ، يتم النظر في قرب الطلبات في مجموعة مقاييس القرب ومجموعة المسافات المقابلة. بدلا من الوظيفة ستم استخدام نظائر معاملات ارتباط رتبة سبيرمان وكيندال. بمعنى آخر ، يفترض القياس غير المتري أن مقاييس القرب تقاس بمقياس ترتيبي.

دع الفضاء الإقليدي له أبعاد م... ضع في اعتبارك الحد الأدنى لمتوسط ​​الخطأ التربيعي

,

حيث يتم أخذ الحد الأدنى على جميع التكوينات الممكنة ننقطة في مالفضاء الإقليدي الأبعاد. يمكن إثبات أن الحد الأدنى المدروس يتم تحقيقه في بعض التكوين. من الواضح أنه مع النمو متنخفض قيمة α m بشكل رتيب (بتعبير أدق ، لا تزيد). يمكن أن تظهر أن ل م > ن- 1 يساوي 0 (إذا س(أنا, ي) هو مقياس). لزيادة احتمالات التفسير الهادف ، من المستحسن العمل في مساحة أصغر بُعد ممكن. ومع ذلك ، في هذه الحالة ، يجب اختيار البعد بحيث تمثل النقاط كائنات بدون تشوهات كبيرة. السؤال الذي يطرح نفسه: كيف تختار بعقلانية البعد ، أي عدد طبيعي م?

في إطار تحليل البيانات الحتمية ، يبدو أنه لا توجد إجابة معقولة على هذا السؤال. لذلك ، من الضروري دراسة سلوك α m في بعض النماذج الاحتمالية. إذا كانت تدابير القرب س(أنا, ي) متغيرات عشوائية يعتمد توزيعها على "البعد الحقيقي" م 0 (وربما على بعض المعلمات الأخرى) ، فمن الممكن في النمط الإحصائي الرياضي الكلاسيكي طرح مشكلة التقدير م 0 ، ابحث عن درجات متسقة ، إلخ.

لنبدأ في بناء نماذج احتمالية. لنفترض أن الأشياء هي نقاط في الفضاء الإقليدي ذي البعد ك، أين ككبيرة بما يكفي. هذا "البعد الحقيقي" م 0 يعني أن كل هذه النقاط تقع على مستوى فائق البعد م 0. لنفترض للتأكيد أن مجموعة النقاط قيد النظر هي عينة من توزيع عادي دائري مع تباين σ 2 (0). هذا يعني أن الأشياء ا(1), ا(2), …, ا(ن) هي نواقل عشوائية مستقلة بشكل جماعي ، كل منها مبني على شكل ζ (1) ه(1) + (2) ه(2) +… + ζ ( م 0)ه(م 0) أين ه(1), ه(2), … , ه(م 0) أساس متعامد في فضاء فرعي من البعد م 0 ، حيث تكمن النقاط قيد النظر ، و (1) ، ζ (2) ، ... ، ζ ( م 0) متغيرات عشوائية عادية أحادية البعد ومستقلة بشكل جماعي مع توقع رياضي) والتباين σ 2 (0).

ضع في اعتبارك نموذجين للحصول على مقاييس القرب س(أنا, ي). في أولهم س(أنا, ي) عن المسافة الإقليدية بين النقاط المقابلة نظرًا لحقيقة أن النقاط معروفة بالتشوهات. اسمحوا ان مع(1),مع(2), … , مع(ن) هي النقاط قيد النظر. ثم

س(أنا, ي) = د(ج(أنا) + ε( أنا), ج(ي) + ε( ي)), أنا, ي = 1, 2, … , ن,

أين د- المسافة الإقليدية بين نقطتين في كمساحة الأبعاد ، المتجهات ε (1) ، ε (2) ، ... ، ε ( ن) عينة من التوزيع الطبيعي الدائري في ك- مساحة ذات أبعاد بدون توقع رياضي ومصفوفة تغاير σ 2 (1) أنا، أين أناهي مصفوفة الهوية. بمعنى آخر ، ε ( أنا) = η (1) ه(1) + (2) ه(2) + ... + η ( ك)ه(ك)، أين ه(1), ه(2), …, ه(ك) أساس متعامد في ك- مساحة الأبعاد ، و (( أنا, ر), أنا= 1، 2، ...، ن، ر= 1 ، 2 ، ... ، ك) - مجموعة مستقلة في متغيرات عشوائية مجمعة أحادية البعد مع عدم توقع رياضي وتباين σ 2 (1).

في النموذج الثاني ، يتم فرض التشوهات مباشرة على المسافات نفسها:

س(اي جاي) = د(ج(أنا), ج(ي)) + ε( اي جاي), اي جاي = 1, 2, … , ن, أناي,

أين (ε ( أنا, ي), أنا, ي = 1, 2, … , ن) هي متغيرات عشوائية عادية ومستقلة بشكل جماعي مع توقع رياضي) والتباين σ 2 (1).

يتضح في العمل أن الحد الأدنى لمتوسط ​​مربع الخطأ α m عند كلا النموذجين المصاغين ن→ ∞ تتقارب في الاحتمال

F(م) = F 1 (م) + 2 (1) ( كم), م = 1, 2, …, ك,

لذا فإن الوظيفة F(م) خطي على الفترات ، علاوة على ذلك ، في الفترة الأولى يتناقص بشكل أسرع من الثاني. ومن هنا يتبع ذلك الإحصاء

هو تقدير متسق للبعد الحقيقي م 0 .

لذلك ، تتبع التوصية من النظرية الاحتمالية - كتقدير لأبعاد مساحة العامل ، الاستخدام م*. لاحظ أن مثل هذه التوصية تمت صياغتها على أنها استرشادية لأحد مؤسسي القياس متعدد الأبعاد ، J. Kruskal. لقد جاء من تجربة الاستخدام العملي للقياس متعدد الأبعاد والتجارب الحسابية. قدمت النظرية الاحتمالية الأساس لهذه التوصية الإرشادية.

سابق