データの次元を削減するのに役立つ方法はどれですか。 次元削減の概要。 文献での言及

02.05.2021

キーワード

数学 / 応用統計学 / 数学的統計学/ 成長ポイント / 主なコンポーネントのメソッド / 要因分析 / 多次元スケーリング / データの次元性の推定 / モデルの寸法の見積もり/ 数学 / 応用統計学 / 数学的統計学 / 成長点 / 主成分分析 / 因子分析 / 多次元スケーリング / データ次元の推定 / モデル次元の推定

注釈 数学に関する科学記事、科学著作の著者 - オルロフ・アレクサンダー・イワノビッチ、ルツェンコ・エフゲニー・ヴェニアミノビッチ

「成長ポイント」のひとつ 応用統計統計データ空間の次元を削減する方法です。 これらは、社会学研究などの特定の応用研究におけるデータ分析でますます使用されています。 次元削減の最も有望な方法を考えてみましょう。 主成分法は、最も一般的に使用される次元削減手法の 1 つです。 視覚的なデータ分析では、最初の 2 つの主成分の平面への元のベクトルの投影がよく使用されます。 通常ははっきりと見える データ構造、オブジェクトのコンパクトなクラスターと個別に割り当てられたベクトルが識別されます。 主成分法方法の一つです 因子分析。 従来と比べて新しいアイデア 主成分法これは、負荷に基づいて要因がグループに分割されるという事実にあります。 新しい基底の要素に同様の影響を与える要因は、1 つのグループに結合されます。 その場合、各グループから 1 人の代表者を残すことをお勧めします。 場合によっては、計算によって代表者を選ぶのではなく、問題のグループの中心となる新しい要素が形成されることもあります。 次元の減少は、グループを代表する因子系に移行するときに発生します。 他の要素は無視されます。 広範なクラスのメソッドは、特性間の距離 (近接性測定、差異指標) の使用に基づいています。 多次元スケーリング。 このクラスのメソッドの主なアイデアは、各オブジェクトを幾何学的空間 (通常は 1、2、または 3 次元) 内の点として表現し、その座標は隠れた (潜在的な) 因子の値であり、オブジェクトを適切に説明します。 確率統計モデリングと非数値データの統計結果の適用例として、データ空間の次元推定の一貫性を正当化します。 多次元スケーリング、以前にヒューリスティックな理由からクラスカルによって提案されました。 に関する作品の数々 モデルの寸法の見積もり(回帰分析と分類理論において)。 自動化されたシステム認知分析における次元削減のためのアルゴリズムに関する情報が提供されます。

関連トピック 数学における科学的著作、科学的著作の著者 - オルロフ・アレクサンダー・イワノビッチ、ルツェンコ・エフゲニー・ヴェニアミノビッチ

  • 45年間にわたる社会学の数学的手法

  • 非数値的な性質のさまざまなオブジェクト

  • パラメータ推定: 最尤推定よりも 1 ステップ推定の方が望ましい

  • 応用統計 - 現状と展望

    2016 / オルロフ・アレクサンダー・イワノビッチ
  • 応用統計および理論統計の発展の最先端と展望

    2016 / オルロフ・アレクサンダー・イワノビッチ
  • 極限定理とモンテカルロ法の関係

    2015 / オルロフ・アレクサンダー・イワノビッチ
  • 非数値的性質のオブジェクトの統計の発展について

    2013 / オルロフ・アレクサンダー・イワノビッチ
  • 統計手法の成長点

    2014 / オルロフ・アレクサンダー・イワノビッチ
  • 制御のための新しい有望な数学的ツールについて

    2015 / オルロフ・アレクサンダー・イワノビッチ
  • 統計データ空間の距離

    2014 / オルロフ・アレクサンダー・イワノビッチ

応用統計の「成長点」の 1 つは、統計データの次元を削減する方法です。 社会学などの特定の応用研究におけるデータ分析での使用が増えています。 私たちは次元を削減するための最も有望な方法を調査します。 主成分は、次元を削減するために最も一般的に使用される方法の 1 つです。 データの視覚的な分析には、最初の 2 つの主成分の平面上の元のベクトルの投影がよく使用されます。 通常、データ構造は明確に表示され、オブジェクトのコンパクトなクラスターと個別に割り当てられたベクトルが強調表示されます。 主成分は因子分析の 1 つの手法です。 主成分法と比較した因子分析の新しい考え方は、負荷に基づいて因子がグループに分割されるということです。 因子の 1 つのグループでは、新しい因子が新しい基底の要素に対する同様の影響と組み合わされます。 その後、各グループに代表者を 1 名残すことが推奨されます。 場合によっては、計算によって代表者を選ぶのではなく、問題のグループの中心となる新しい要素が選ばれることもあります。 次元の縮小は、グループを代表するシステム要因への移行中に発生します。 他の要素は無視されます。 フィーチャと広範なクラス間の距離 (近接度、差異の指標) の使用は、多次元スケーリングの手法に基づいています。 このクラスのメソッドの基本的な考え方は、各オブジェクトを幾何学的空間 (通常は 1、2、または 3 次元) の点として表現し、その座標は、適切に結合する隠れた (潜在的な) 因子の値であることです。オブジェクトを説明します。 確率的および統計的モデリングと非数値データの統計結果の適用例として、我々は、クラスカルが発見的考察から以前に提案した、多次元尺度構成法におけるデータの次元の推定量の一貫性を正当化します。 私たちは、(回帰分析と分類理論において) モデルの次元の一貫した推定を数多く検討してきました。 また、自動化されたシステム認知分析で次元を削減するためのアルゴリズムに関する情報も提供します。

科学研究のテキスト トピック「統計データ空間の次元を削減する方法」について

UDC 519.2: 005.521:633.1:004.8

01.00.00 物理科学および数理科学

統計データ空間の次元を削減する方法

オルロフ・アレクサンダー・イワノビッチ

経済学博士、技術科学博士、物理数理科学候補者、教授

RSCI BRS コード: 4342-4994

モスクワ国立工科大学

にちなんで名付けられた大学 北東部 バウマン、ロシア、105005、

モスクワ、2nd Baumanskaya st.、5、[email protected]

Lutsenko Evgeniy Veniaminovich 経済学博士、技術科学候補者、RSCI 教授 BRS コード: 9523-7101 クバン国立農業大学、クラスノダール、ロシア prof.lutsenko@gmail. コム

応用統計の「成長点」の 1 つは、統計データ空間の次元を削減する方法です。 これらは、社会学研究などの特定の応用研究におけるデータ分析でますます使用されています。 次元削減の最も有望な方法を考えてみましょう。 主成分分析は、最も一般的に使用される次元削減手法の 1 つです。 視覚的なデータ分析では、最初の 2 つの主成分の平面への元のベクトルの投影がよく使用されます。 通常、データ構造は明確に表示され、オブジェクトのコンパクトなクラスターと個々のベクトルが区別されます。 主成分法とは因子分析の手法の一つです。 主成分法と比較した新しいアイデアは、因子が荷重に基づいてグループに分割されることです。 新しい基底の要素に同様の影響を与える要因は、1 つのグループに結合されます。 その場合、各グループから 1 人の代表者を残すことをお勧めします。 場合によっては、計算によって代表者を選ぶのではなく、問題のグループの中心となる新しい要素が形成されることもあります。 次元の減少は、グループを代表する因子系に移行するときに発生します。 他の要素は無視されます。 広範な種類の多次元スケーリング手法は、特性間の距離 (近接度、差異指標) の使用に基づいています。 このクラスのメソッドの主なアイデアは、各オブジェクトを幾何学的空間 (通常は 1、2、または 3 次元) 内の点として表現し、その座標は隠れた (潜在的な) 因子の値であり、適切に説明する

UDC 519.2: 005.521:633.1:004.8

物理学と数理科学

統計データのスペース次元を削減する方法

オルロフ・アレクサンダー・イワノビッチ

科学経済博士、科学技術博士、物理数学科学博士、

バウマン モスクワ国立工科大学、モスクワ、ロシア

Lutsenko Eugeny Veniaminovich 博士、科学経済学、Cand.Tech.Sci.、教授 RSCI SPIN コード: 9523-7101

クバン国立農業大学、クラスノダール、ロシア

prof.lutsenko@gmail. コム

応用統計の「成長点」の 1 つは、統計データの次元を削減する方法です。 社会学などの特定の応用研究におけるデータ分析での使用が増えています。 私たちは次元を削減するための最も有望な方法を調査します。 主成分は、次元を削減するために最も一般的に使用される方法の 1 つです。 データの視覚的な分析には、最初の 2 つの主成分の平面上の元のベクトルの投影がよく使用されます。 通常、データ構造は明確に表示され、オブジェクトのコンパクトなクラスターと個別に割り当てられたベクトルが強調表示されます。 主成分は因子分析の 1 つの手法です。 主成分法と比較した因子分析の新しい考え方は、負荷に基づいて因子がグループに分割されるということです。 因子の 1 つのグループでは、新しい因子が新しい基底の要素に対する同様の影響と組み合わされます。 その後、各グループに代表者を 1 名残すことが推奨されます。 場合によっては、計算によって代表者を選ぶのではなく、問題のグループの中心となる新しい要素が選ばれることもあります。 次元の縮小は、グループを代表するシステム要因への移行中に発生します。 他の要素は無視されます。 フィーチャと広範なクラス間の距離 (近接度、差異の指標) の使用は、多次元スケーリングの手法に基づいています。 このクラスのメソッドの基本的な考え方は、各オブジェクトを幾何学的空間 (通常は 1、2、または 3 次元) の点として表現し、その座標は、適切に結合する隠れた (潜在的な) 因子の値であることです。オブジェクトを説明します。 確率的および統計的モデリングと非数値データの統計結果の適用例として、我々は、次のような推定量の一貫性を正当化します。

物体。 確率統計モデリングと非数値データの統計結果の適用例として、以前にクラスカルがヒューリスティックな理由から提案した、多次元尺度法におけるデータ空間の次元推定の一貫性を正当化します。 (回帰分析および分類理論における) モデルの次元の推定に関する多くの研究が考慮されています。 自動化されたシステム認知分析における次元削減のためのアルゴリズムに関する情報が提供されます。

キーワード: 数学、応用統計学、数理統計学、成長点、主成分法、因子分析、多次元尺度法、データ次元推定、モデル次元推定

多次元スケーリングにおけるデータの次元。これは、発見的考察に基づいてクラスカルによって以前に提案されました。 私たちは、(回帰分析と分類理論において) モデルの次元の一貫した推定を数多く検討してきました。 また、自動化されたシステム認知分析で次元を削減するためのアルゴリズムに関する情報も提供します。

キーワード: 数学、応用統計学、数理統計学、成長点、主成分分析、因子分析、多次元尺度法、データ次元の推定、モデル次元の推定

1. はじめに

すでに述べたように、応用統計の「成長点」の 1 つは、統計データ空間の次元を削減する方法です。 これらは、社会学研究などの特定の応用研究におけるデータ分析でますます使用されています。 次元削減の最も有望な方法を考えてみましょう。 確率統計モデリングと非数値データの統計結果の適用例として、クラスカルがヒューリスティックな理由で以前に提案した空間次元の推定の一貫性を正当化します。

多変量統計解析では、各オブジェクトは任意の次元 (ただし、すべてのオブジェクトで同じ) のベクトルによって記述されます。 しかし、人間が直接認識できるのは数値データか平面上の点だけです。 3 次元空間内の点の集合を分析することは、はるかに困難です。 高次元のデータを直接認識することは不可能です。 したがって、多次元のサンプルから小次元のデータに移行して、「次のような用途に使用できる」と考えるのはごく自然なことです。

見て"。 たとえば、マーケティング担当者は、消費者の行動のさまざまな種類が何種類あるか (つまり、区別することが賢明な市場セグメントの数)、およびそれらの中にどの消費者 (どのような特性を持つ) が含まれているかを明確に確認できます。

明瞭さへの欲求に加えて、次元を減らす動機は他にもあります。 研究者にとって関心のある変数が依存しないこれらの要因は、統計分析を妨げるだけです。 まず、資金、時間、人的リソースがそれらに関する情報の収集に費やされます。 第 2 に、証明できるように、分析にそれらを含めると統計的手順の特性が悪化します (特に、パラメータ推定値と分布特性のばらつきが増加します)。 したがって、そのような要因を取り除くことをお勧めします。

多変量データを分析する場合、通常は 1 つではなく多くの問題、特に独立変数と従属変数の異なる選択を検討します。 そこで、次の定式化で次元削減の問題を考えてみましょう。 多変量サンプルが与えられます。 可能であれば、データに含まれる情報を失わずに、元のデータの構造を可能な限り保存しながら、そこから低次元のベクトルのセットに移動する必要があります。 タスクは、それぞれの特定の次元削減方法のフレームワーク内で指定されます。

2. 主成分法

これは、最も一般的に使用される次元削減方法の 1 つです。 その主なアイデアは、データのばらつきが最も大きい方向を一貫して特定することです。 サンプルがベクトル X = (x(1), x(2), ... , x(n)) と同一に分布するベクトルで構成されているとします。 線形結合を考えてみましょう

7(^(1), X(2), ., l(n)) = X(1)x(1) + X(2)x(2) + ... + l(n)x(n) 、

X2(1) + X2(2) + ...+ X2(n) = 1。ここで、ベクトル X = (X(1), X(2), ..., X(n)) はユニット上にあります。 n 次元空間の球。

主成分法では、まず最大散乱の方向が求められます。 確率変数 7(X) = 7(X(1), X(2), ..., X(n)) の分散が最大に達する X です。 次に、ベクトル X は第 1 主成分を定義し、値 7(X) はランダム ベクトル X を第 1 主成分の軸に投影したものになります。

それから、用語的には、 線形代数、第一主成分に垂直な n 次元空間内の超平面を考え、サンプルのすべての要素をこの超平面に投影します。 超平面の次元は、元の空間の次元より 1 小さくなります。

検討中の超平面では、この手順が繰り返されます。 最大の散乱の方向がその中に見つかります。 第二主成分。 次に、最初の 2 つの主成分に垂直な超平面が特定されます。 その次元は、元の空間の次元より 2 小さくなります。 次は次の反復です。

線形代数の観点からは、ベクトルが主成分である n 次元空間に新しい基底を構築することについて話しています。

新しい主成分のそれぞれに対応する分散は、前の主成分の分散よりも小さくなります。 通常、所定のしきい値を下回ると停止します。 k 個の主成分が選択された場合、これは n 次元空間から k 次元空間への移動が可能であることを意味します。 実質的にソース データの構造を歪めることなく、次元を n から k に削減します。

視覚的なデータ分析では、最初の 2 つの主成分の平面への元のベクトルの投影がよく使用されます。 いつもの

データ構造が明確に表示され、オブジェクトのコンパクトなクラスターと個々のベクトルが強調表示されます。

3. 要因分析

主成分法とは因子分析の手法の一つです。 さまざまな因子分析アルゴリズムは、それらすべてにおいて元の n 次元空間の新しい基底への移行があるという事実によって統合されています。 「因子負荷」の概念は重要であり、新しい基底から特定のベクトルを形成する際の元の因子 (変数) の役割を説明するために使用されます。

主成分法と比較した新しいアイデアは、因子が荷重に基づいてグループに分割されることです。 新しい基底の要素に同様の影響を与える要因は、1 つのグループに結合されます。 その場合、各グループから 1 人の代表者を残すことをお勧めします。 場合によっては、計算によって代表者を選ぶ代わりに、問題のグループの中心となる新しい要素が形成されることもあります。 次元の減少は、グループを代表する因子系に移行するときに発生します。 他の要素は無視されます。

説明した手順は、因子分析を使用するだけで実行できるわけではありません。 特徴(因子、変数)のクラスター分析について話しています。 フィーチャをグループに分割するには、さまざまなクラスター分析アルゴリズムを使用できます。 特性間の距離 (近さの尺度、違いの指標) を入力するだけで十分です。 X と Y を 2 つの記号とします。 それらの差 d(X,Y) は、サンプル相関係数を使用して測定できます。

di(X,Y) = 1 - \rn(X,Y)\、d2(X,Y) = 1 - \pn(X,Y)\、ここで、rn(X,Y) はサンプルの線形ピアソン相関係数です。 、pn(X, Y) - サンプル係数 順位相関スピアマン。

4. 多次元スケーリング。

広範なクラスの多次元スケーリング手法は、特性 X と Y の間の距離 (近接度、差異指標) d(X,Y) の使用に基づいています。 このクラスのメソッドの主なアイデアは、各オブジェクトを幾何学的空間 (通常は 1、2、または 3 次元) 内の点として表現し、その座標は隠れた (潜在的な) 因子の値であり、オブジェクトを適切に説明します。 この場合、オブジェクト間の関係は、点間の関係、つまりその代表点間の関係に置き換えられます。 このようにして、物体の類似性に関するデータ - 点間の距離、優劣に関するデータ - 相対位置

5. 因子空間の真の次元を推定する問題

社会学的データを分析する実践では、さまざまな多次元尺度モデルが使用されます。 それらのすべてにおいて、因子空間の真の次元を推定するという問題が発生します。 メトリックスケーリングを使用してオブジェクトの類似性に関するデータを処理する例を使用して、この問題を考えてみましょう。

n 個のオブジェクト 0(1)、O(2)、...、O(n) があるとします。オブジェクト 0(/)、O(j) の各ペアに対して、それらの類似度の尺度 s(ij) が与えられます。 常に s(i,j) = s(j,i) であると仮定します。 数値 s(ij) の起源は、アルゴリズムの動作を説明する上では重要ではありません。 これらは、直接測定するか、専門家を使用するか、一連の記述的特性から計算するか、その他の方法で取得できます。

ユークリッド空間では、検討中の n 個のオブジェクトは n 個の点の構成によって表現されなければならず、ユークリッド距離 d(i,j) は代表点の近さの尺度として機能します。

対応する点の間。 オブジェクトのセットとそれらを表す点のセットの間の一致度は、類似性行列 ||i(,)|| を比較することによって決定されます。 ShM-Metric 類似度関数の形式は次のとおりです。

i = £|*(/, ]) - th (/, M

幾何学的構成は、関数 S が最小値に達するように選択する必要があります。

コメント。 非計量スケーリングでは、近接測定値と距離自体の近接性の代わりに、近接測定値のセットと対応する距離のセットの順序の近接性が考慮されます。 機能的な S の代わりに類似物が使用されます ランキング係数スピアマンとケンダルの相関関係。 言い換えれば、非計量尺度法は、近接度が順序尺度で測定されることを前提としています。

ユークリッド空間の次元を m とします。平均二乗誤差の最小値を考えます。

ここで、最小値は、m 次元ユークリッド空間内の n 点のすべての可能な構成にわたって取得されます。 考慮された最小値が特定の構成で達成されることを示すことができます。 m が増加するにつれて、am の値が単調減少する (より正確には増加しない) ことは明らかです。 m > n - 1 の場合、0 に等しいことがわかります ( がメトリックの場合)。 意味のある解釈の可能性を高めるには、可能な限り最小の次元の空間で操作することが望ましいです。 ただし、この場合、点が大きな歪みなくオブジェクトを表すように寸法を選択する必要があります。 問題は、空間の次元、つまり空間の次元をどのように合理的に選択するかという問題です。 自然数t?

6. データ空間の次元を推定するためのモデルと方法

内で 決定論的分析この質問に対する実証された答えは明らかにデータがありません。 したがって、特定の確率モデルで am の動作を研究する必要があります。 近接測度 s(ij) が確率変数であり、その分布が「真の次元」 m0 (およびおそらく他のパラメータ) に依存する場合、古典的な数学統計スタイルで m0 を推定する問題を提起できます。 、一貫した見積もりなどを探します。

確率モデルの構築を始めましょう。 オブジェクトが次元 k のユークリッド空間内の点であると仮定します。ここで、k は十分に大きいです。 「真の次元」が m0 に等しいという事実は、これらすべての点が次元 m0 の超平面上にあることを意味します。 明確にするために、検討中の点のセットが分散 o (0) の円正規分布からのサンプルであると仮定しましょう。 これは、オブジェクト 0(1)、0(2)、...、O(n) が集合的に独立したランダム ベクトルであり、それぞれが次のように構築されることを意味します。

Z(1)e(1) + Z(2)e(2) + ... + Z(m0)e(m0)、ここで e(1)、e(2)、... 、e(m0)は、考慮中の点が存在する次元 m0 の部分空間内の正規直交基底であり、Z(1)、Z(2)、...、Z(m0) は、数学的期待値 0 および分散 0 を持つ集合的に独立した 1 次元正規確率変数です。 (0)。

近接測度 s(ij) を取得するための 2 つのモデルを考えてみましょう。 最初の点では、点には歪みがあることがわかっているため、s(ij) は対応する点間のユークリッド距離とは異なります。 c(1)、c(2)、...、c(n) を考慮中の点とします。 それから

s(i,j) = d(c(i) + e(i), c(j) + s(/))、ij = 1, 2, ... , n,

ここで、 d は次元空間内の点間のユークリッド距離であり、ベクトル е(1)、 е(2)、...、 е(n) は、ゼロの数学的期待値と共分散行列 o をもつ次元空間内の円形正規分布からのサンプルを表します。 (1)/、ここで I は単位行列です。 言い換えると、

e(0 = p(1)e(1) + P(2)e(2) + ... + c(k)v(k)、ここで e(1)、e(2)、...、 e(k) は ^ 次元空間の正規直交基底であり、 [μ^^), i = 1, 2, ... , n, ? =1, 2, ... , k) - ゼロの数学的期待値と分散 o (1) を持つ独立した 1 次元確率変数のセット。

2 番目のモデルでは、距離自体に歪みが直接適用されます。

Kch) = d(Ф\SI)) + £(УХ u = 1, 2. , n, i f j,

ここで、 と 、最初の間隔では、2 番目の間隔よりも速く減少します。 その統計によると、

m* = Arg minam+1 - 2am + an-x)

は、真の寸法 m0 の一貫した推定値です。

したがって、確率論から、因子空間の次元の推定値として m* を使用することが推奨されます。 このような推奨事項は、多次元スケーリングの創設者の 1 人である J. Kruskal によってヒューリスティックとして定式化されたものであることに注意してください。 彼は、多次元尺度構成法と計算実験の実践の経験から来ました。 確率論により、このヒューリスティックな推奨を正当化することが可能になりました。

7. モデル寸法の見積もり

可能性のある特徴のサブセットが拡張ファミリーを形成する場合 (たとえば、多項式の次数が推定される場合)、「モデル次元」という用語を導入するのは自然です (この概念は、多くの点で、データ空間次元の概念と似ています)多次元スケーリング)。 この記事の著者は、モデルの次元の推定に関する多数の著作物を所有しています。これらは、上で説明したデータ空間の次元の推定に関する著作物と比較することをお勧めします。

最初のそのような研究は、1976 年にフランスへの出張中にこの記事の著者によって実行されました。そこでは、回帰におけるモデルの次元の 1 つの推定値、つまり次数に基づく多項式の次数の推定値が研究されました。依存関係が多項式で記述されると仮定します。 この推定値は文献で知られていましたが、後にこの記事の著者がその特性を研究し、特に一貫性がないことを確立し、その限界的な幾何学的分布を発見しただけであると誤って考えられ始めました。 この記事では、回帰モデルの次元に関する他のすでに一貫した推定値が提案され、研究されています。 このサイクルは、多くの明確化を含む作業によって完了しました。

このトピックに関する最新の出版物には、モンテカルロ法を使用して得た極限定理の収束率を研究した結果についての説明が含まれています。

この記事では、混合物の分割問題 (分類理論の一部) におけるモデル次元の方法論的に同様の推定について説明しています。

上で説明した多次元スケーリングにおけるモデルの次元の推定は現在研究中です。 同じ研究で、主成分法の特性の制限的な動作が確立されました (極限統計問題に対する解の動作の漸近理論を使用)。

8. 自動システム認知分析における次元削減アルゴリズム

自動システム認知分析 (ASC 分析) では、次元削減の別の方法が提案され、Eidos システムに実装されました。 これについては、セクション 4.2「システム分析の基本的な認知操作 (BCOSA) のアルゴリズムの説明」および 4.3 「BCOSA の詳細なアルゴリズム (ASC 分析)」の作業で説明されています。 あげましょう 簡単な説明 2 つのアルゴリズム - BKOSA-4.1 と BKOSA-4.2。

BKOSA-4.1。 「因子の抽象化(因子の意味空間の次元の削減)」

逐次近似の方法 (反復アルゴリズム) を使用すると、指定された境界条件の下で、属性空間の体積を大幅に減らすことなく、属性空間の次元が縮小されます。 反復プロセスを停止する基準は、境界条件の 1 つが達成されたことです。

BKOSA-4.2。 「クラスの抽象化(意味クラス空間の次元の削減)」

逐次近似の方法 (反復アルゴリズム) を使用すると、与えられた境界条件の下で、クラス空間の体積を大幅に減らすことなく、クラス空間の次元が削減されます。 反復プロセスを停止する基準は、境界条件の 1 つが達成されたことです。

ここでは、作業の準備時 (2002 年) に実装されていたバージョンの Eidos システムに実装された実際のアルゴリズムをすべて示します: http://lc.kubagro.ru/aidos/aidos02/4.3.htm

アルゴリズムの本質はこれです。

1. オブジェクトのクラスに対応する状態への遷移に関する因子の値の情報量が計算されます。

2. オブジェクトをクラスに分類するための係数値の値を計算します。 この値は、単に因子値の情報内容の変動性です(変動性の定量的な尺度は数多くあります:平均からの平均偏差、標準偏差など)。 言い換えれば、平均して因子値にオブジェクトがクラスに属するか属さないかに関する情報がほとんど含まれていない場合、この値はあまり価値がありませんが、多く含まれている場合は価値があります。

3. クラスごとにオブジェクトを区別するための記述スケールの値が計算されます。 E.V.の作品で ルツェンコ氏は現在、このスケールの段階の値の平均としてこれを行っています。

4. 次に、因子と記述スケールの値のパレート最適化が実行されます。

因子の値 (記述スケールのグラデーション) は値の降順にランク付けされ、パレート曲線の接線 45 度の右側にある最も価値の低いものがモデルから削除されます。

因子 (記述スケール) は値の降順にランク付けされ、パレート曲線の接線 45 度の右側にある最も価値の低い因子がモデルから削除されます。

その結果、相互に相関するスケールが削除されるため、記述スケールに基づいて構築される空間の次元が大幅に縮小されます。 本質的に、これは情報メトリックにおける空間の直交正規化です。

このプロセスは繰り返すことができます。 にいる間に反復する 新しいバージョン Eidos システムでは、反復は手動で開始されます。

クラスの情報空間も同様に正規直交化されます。

スケールとその目盛りは数値にすることもできます (この場合、間隔の値が処理されます)。また、テキスト (順序または公称) にすることもできます。

したがって、BCOSA (ASC 分析) アルゴリズムの助けを借りて、情報の損失を最小限に抑えながら、空間の次元が可能な限り縮小されます。

応用統計における統計データの分析のために、他にも多数の次元削減アルゴリズムが開発されています。 このようなアルゴリズムの種類全体を説明することは、この記事の範囲ではありません。

文学

1.オルロフA.I. 統計手法の成長点 // 多テーマネットワーク電子 科学雑誌クバン国立農業大学。 2014. No. 103. pp. 136-162。

2. Kruskal J. 多次元尺度構成法とクラスター分析の関係 // 分類とクラスター。 M.: ミール、1980 年。P.20-41。

4. ハーマン G. 現代因子分析。 M.: 統計、1972 年、489 ページ。

5.オルロフA.I. 分類理論に関するメモ。 / 社会学: 方法論、手法、 数学的モデル。 1991. No. 2. P.28-50。

6.オルロフA.I. 分類の数学的理論の基礎的な結果 // クバン州立農業大学の多テーマネットワーク電子科学ジャーナル。 2015. No. 110. pp. 219-239.

7.オルロフA.I. 分類理論の数学的方法 // クバン州立農業大学の多テーマネットワーク電子科学ジャーナル。 2014. No. 95. P. 23 - 45.

8.テレキナ・A・ユ。 多次元尺度法を使用したデータ分析。 -M.: ナウカ、1986 年、168 ページ。

9. Perekrest V. T. 社会経済情報の非線形類型分析: 数学的および計算的手法。 - L.: ナウカ、1983 年、176 ページ。

10. チュリン・ユ.N.、リトヴァク B.G.、オルロフ A.I.、サタロフ G.A.、シュマーリング D.S. 非数値情報の分析。 M.: 「サイバネティクス」の複雑な問題に関するソ連科学アカデミー科学評議会、1981年。 - 80 p。

11.オルロフA.I. 非数値的な性質のオブジェクトの統計の一般的なビュー // における非数値情報の分析 社会学研究。 - M.: ナウカ、1985 年。P.58-92。

12.オルロフA.I. 回帰における基底関数の数の 1 つの推定値の分布を制限します。 // 多変量統計解析を適用します。 統計に関する科学ノート、第 33 巻。 - M.: ナウカ、1978 年、P.380-381。

13.オルロフA.I. 回帰によるモデル次元推定 // アルゴリズムと ソフトウェア応用統計分析。 統計に関する科学ノート、第 36 巻。 - M.: ナウカ、1980 年。P.92-99。

14.オルロフA.I. 回帰におけるモデル次元のいくつかの推定値の漸近線 // 応用統計。 統計に関する科学ノート、第 45 巻。 - M.: ナウカ、1983 年、P.260-265。

15.オルロフA.I. 回帰多項式の推定について // Factory Laboratory。 材料の診断。 1994.T.60。 No.5、P.43-47。

16.オルロフA.I. 分類理論のいくつかの確率的な問題 // 応用統計。 統計に関する科学ノート、第 45 巻。 - M.: ナウカ、1983 年、P.166-179。

17.オルロフA.I. 非数値オブジェクトの統計の発展について // 実験計画法とデータ分析: 新しい傾向と結果。 - M.: アンタル、1993 年。R.52-90。

18.オルロフA.I. 次元を削減する方法 // 本の付録 1: Tolstova Yu.N. 多次元スケーリングの基本: チュートリアル大学向け。 - M.: KDU Publishing House、2006. - 160 p.

19.オルロフA.I. 極端な統計問題に対する解の漸近線 // システム研究における非数値データの分析。 作品集。 Vol. 10. - M.: システム研究のための全連合科学研究所、1982. P. 412。

20.オルロフA.I. 組織および経済モデリング: 教科書: パート 1: 非数値統計。 - M.: MSTU im の出版社。 北東部 バウマン。 - 2009. - 541 p.

21. ルツェンコ E.V. アクティブオブジェクトの管理における自動システム認知分析(経済、社会心理学、技術および組織技術システムの研究における情報のシステム理論とその応用):モノグラフ(科学出版物)。 -クラスノダール:KubSAU。 2002. - 605 p. http://elibrary.ru/item.asp?id=18632909

1.オルロフA.I. Tochki rosta statisticheskih medov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. No. 103. S. 136-162.

2.クラスカルDzh。 Vzaimosvjaz" mezhdu mnogomernym shkalirovaniem i klaster-analizom // Klassifikacija i klaster。M.: ミール、1980。S.20-41。

3. Kruskal J.B.、Wish M. 多次元スケーリング // セージ大学論文シリーズ: 社会科学における質的応用。 1978年第11号。

4. ハーマン G. ソブレメンニーの分析。 M.: Statistika、1972、489 秒。

5.オルロフA.I. ザメトキ・ポ・テオリイ・クラッシフィカシイ。 / Sociologija: メトドロギヤ、メディ、マテマティチェスキー・モデル。 1991. No. 2. S.28-50。

6.オルロフA.I. Bazovye rezul"taty matematicheskoj teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. No. 110. S. 219-239.

7.オルロフA.I. Matematicheskie meody teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta。 2014. No. 95. S. 23 - 45.

8. テレヒナ・A・ジュ アナリス・ダニー・メトダミ・ムノゴメルノゴ・シュカリロヴァニア。 - M.: ナウカ、1986 年、168 秒。

9. ペレクレスト V.T. 社会的な情報を分析し、「非ジェコノミチェスコージ」情報を提供します。 - L.: ナウカ、1983 年、176 秒。

10. Tjurin Ju.N.、Litvak B.G.、Orlov A.I.、Satarov G.A.、Shmerling D.S. アナリス・ネキスロヴォジ情報。 M.: Nauchnyj Sovet AN SSSR po kompleksnoj 問題「Kibernetika」、1981 年 - 80 年代。

11.オルロフA.I. Obshhij vzgljad na statistiku ob#ektov nechislovoj prirody // Analiz nechislovoj informationacii v sociologicheskih isledovanijah. - M.: ナウカ、1985。S.58-92。

12.オルロフA.I. Predel "noe raspredelenie odnoj ocenki chisla bazisnyh funkcij v regressii // Prikladnoj mnogomernyj statisticheskij Analiz. Uchenye zapiski po statistike, t.33. - M.: Nauka, 1978. S.380-381.

13.オルロフA.I. razmernosti modeli v regressii // Algoritmicheskoe i Programmnoe obespechenie prikladnogo statisticheskogo analiza を推定します。 Uchenye zapiski po statistike、t.36。 - M.: ナウカ、1980。S.92-99。

14.オルロフA.I. Asimptotika nekotoryh ocenok razmernosti modeli v regressii // Prikladnaja statistika。 Uchenye zapiski po statistike、t.45。 - M.: ナウカ、1983 年。S.260-265。

15.オルロフA.I. Ob ocenivanii regressionnogo polinoma // Zavodskaja Laboratorija。 診断資料。 1994.T.60。 No. 5. S.43-47。

16.オルロフA.I. ネコトリエ ベロジャトノストニエ ヴォプロシー テオリイ クラシフィカシ // Prikladnaja statistika。 Uchenye zapiski po statistike、t.45。 - M.: ナウカ、1983 年。S.166-179。

17.オルロフA.I. 非数値オブジェクトの統計の発展について // 実験計画法とデータ分析: 新しい傾向と結果。 - M.: アンタル、1993 年。R.52-90。

18.オルロフA.I. Metody snizhenija razmernosti // Prilozhenie 1 k 本: Tolstova Ju.N. Osnovy mnogomernogo shkalirovanija: 教育的な姿勢。 - M.: Izdatel "stvo KDU、2006。- 160 秒。

19.オルロフA.I. Asimptotika reshenij jekstremal"nyh statisticheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah. Sbornik trudov. Vyp.10. - M.: Vsesojuznyj nauchno-issledovatel"skij institut sistemnyh issledovanij, 1982. S. 12.

20.オルロフA.I. Organizacionno-jekonomicheskoe モデリング: uchebnik: v 3 ch。 Chast" 1: Nechislovaja statistika。 - M.: Izd-vo MGTU im. N.Je. Baumana。 - 2009。 - 541 s。

21. ルチェンコ E.V. Avtomatizirovannyj systemno-kognitivnyj anaiz v upravlenii aktivnymi ob#ektami (システムナジャ テオリジャ 情報システム、社会的心理学、テクノロジチェスキー、組織化技術システム): Monografija (nauchnoe)イズダニエ) - クラスノダール: KubGAU 2002. - 605 http://elibrary.ru/item.asp?id=18632909

研究の目的:

データ次元削減技術の有効性を評価して、認識 (識別) 実践における使用を最適化します。

研究目的:

1. に関する文献情報のレビュー 既存の方法データの次元を削減します。

2. 分類問題におけるデータの次元を削減するために実際に使用されるアルゴリズムの有効性を比較する研究 (実験) の実施

調査方法(ソフトウェア):

C++ プログラミング言語、OpenCV ライブラリ

高次元のデータを認識することは人間にとって困難であり、場合によっては不可能です。 この点で、多次元のサンプリングから小次元のデータに移行して、「データを見て」、評価し、認識タスクの実行を含めて使用できるようにしたいと考えるのはごく自然なことになりました。 明確さに加えて、次元を減らすことにより、統計分析を妨げる要因 (情報) を取り除くことができ、情報収集にかかる時間が長くなり、パラメータの推定値や分布の特性のばらつきが大きくなります。

次元削減とは、高次元の元のデータを、基礎となる情報を保持した新しい低次元の表現に変換することです。 理想的には、変換された表現の次元はデータの固有の次元と一致します。 データの内部次元は、データの考えられるすべてのプロパティを表現するために必要な変数の最小数です。 縮小されたデータセットから構築された分析モデルは、元のセットから構築されたモデルよりも処理、実装、理解が容易になるはずです。

次元削減方法を選択する決定は、解決される問題の特性と期待される結果、および限られた時間とコンピューティング リソースに関する知識に基づいて行われます。 文献レビューによると、最も一般的に使用される次元削減方法には、主成分分析 (PCA)、独立成分分析 (ICA)、および特異値分解 (SVD) が含まれます。

主成分分析 (PCA) - データの次元を削減する最も簡単な方法。 これは、分類問題におけるデータの次元を削減しながら特徴を変換するために広く使用されています。 この方法は、行列の固有ベクトルと固有値によって決定される、低次元の新しい座標系にデータを投影することに基づいています。 数学的な観点から見ると、主成分法は直交線形変換です。

この方法の主な考え方は、分散を最小限に抑えるためにデータの共分散行列の固有値と固有ベクトルを計算することです。 共分散行列は、平均値の周囲の相互の広がりを決定するために使用されます。 2 つの確率変数 (次元) の共分散は、それらの線形依存性の尺度です。

ここで、 は確率変数 X の数学的期待値、 は確率変数 Y の数学的期待値です。式 (1) は次の形式で書くこともできます。

ここで、 は平均 X、 は平均 Y、N はデータの次元です。

固有ベクトルと固有値を計算した後、それらの値は降順に並べ替えられます。 したがって、重要度の高い順にコンポーネントが取得されます。 最大の固有値を持つ固有ベクトルがデータセットの主成分となります。 主成分は、固有ベクトルの行にソートされた固有値を乗算することによって取得されます。 より低い次元の最適な空間を見つけるには、式 (3) が使用されます。これにより、元のデータセットと次の基準に従って取得されたデータセットの間の最小誤差が計算されます。

ここで、P は新しい空間の次元、N は元のサンプルの次元、 は固有値、 はしきい値です。 アルゴリズムの操作中に、MN から線形変換されたデータ MP を含む行列を取得します。その後、PCA は評価関数を最小化する線形マッピング M を見つけます。

ここで、 は点と の間のユークリッド距離、 は点と 、 、 の間のユークリッド距離です。 。 この評価関数の最小値は、グラム行列のスペクトル分解を実行し、この行列の固有ベクトルに対応する固有値の根を乗算することによって計算できます。

独立成分分析 ( ICA ) , PCA とは対照的に、これはかなり新しい方法ですが、急速に人気が高まっています。 という考えに基づいています 線形変換データを、統計的に可能な限り独立しており、必ずしも相互に直交しているわけではない新しいコンポーネントに変換します。 この研究では、記事で詳しく説明されている FastICa アルゴリズムが選択されました。 主な業務 この方法センタリング (データから平均を引く) とホワイトニング (ベクトル x を、分散が 1 に等しい相関のない座標を持つベクトルに線形変換する) です。

FastICA の独立性の基準は非ガウス性であり、尖度係数を使用して測定されます。

ガウス確率変数の場合、この値はゼロであるため、FastICA はその値を最大化します。 が「白色化」データの場合、「白色化」データの共分散行列が単位行列になります。

このような変革はいつでも可能です。 一般的なホワイトニング方法は、共分散行列のスペクトル分解を使用します。 、ここで、 は固有ベクトルの直交行列、および – 対角行列固有値。 「美白」は次のように表すことができることがわかります。

ここで、行列はコンポーネントごとの演算によって計算されます。

実験

提案された方法の実験的研究のために、CASIA GAIT データベースからのストーリーボード化されたビデオ シーケンスが使用されました。 データベースには、ビデオ シーケンスの個々のフレームに対応するバイナリ画像のシーケンスが含まれており、移動物体がすでに識別されています。

一連のビデオ シーケンス全体から 15 のクラスがランダムに選択され、撮影角度は 90 度で、人々は冬以外の普通の服を着てバッグを持たずに描かれています。 各クラスには 6 つのシーケンスがありました。 各シーケンスの長さは少なくとも 60 フレームでした。 クラスは、それぞれ 3 つのシーケンスからなるトレーニング セットとテスト セットに分割されました。

PCA および ICA メソッドの結果として得られた特徴は、分類器のトレーニングに使用されました。この研究では、分類器はサポート ベクター マシン (SVM) でした。

方法の品質を決定するために、正しく分類されたオブジェクトの割合として定義される分類精度が評価されました。 実験中、トレーニング モードとテスト モードで費やした時間も記録されました。

図 1. a) 主成分分析 (PCA) b) 独立成分法(ICA)

図 1(a、b) は、変換後の出力データ次元の値に対する分類精度の依存性を示しています。 PCAでは成分数の増加に伴い分類精度が若干変化するが、ICAではある値を境に精度が低下し始めることが分かる。

図 2. 成分数に対する分類時間の依存性 A) PCA 、b) ICA

図 2(a、b) は、PCA および ICA コンポーネントの数に対する分類時間の依存性を示しています。 どちらの場合も次元が増加すると、処理時間は直線的に増加しました。 グラフから、主成分分析 (PCA) を使用した次元削減後、SVM 分類器のパフォーマンスが向上したことがわかります。

主成分分析 (PCA)、独立成分分析 (ICA) 手法は非常に迅速に機能し、特定のパラメーターを使用すると、分類タスクで良好な結果が得られました。 しかし、複雑な構造を持つデータの場合、これらの方法では必ずしも望ましい結果が得られるとは限りません。 したがって、 最近特定の品種にデータ射影を実行し、データ構造の保存を可能にする局所的非線形手法にますます注目が集まっています。

将来的には、機能説明の生成に使用されるアルゴリズムのリストと使用される分類方法のリストの両方を拡張することが計画されています。 もう 1 つの重要な研究分野は、処理時間の短縮であるようです。

参考文献:

  1. Jolliffe、I.T.、主成分分析、Springer、2002
  2. Hyvärinen および Erkki Oja、独立成分分析: アルゴリズムとアプリケーション、ニューラル ネットワーク、13、2000
  3. Josiński, H. 人間識別を目的とした歩行ビデオ シーケンスの特徴抽出と HMM ベースの分類/Springer、2013 - Vol 481。

機械学習は、明示的なプログラミングを必要とせずにコンピューターが人間と同じように「学習」できるようにする学習分野にほかなりません。

予測モデリングとは:予測モデリングは、特定の予測因子に基づいて結果を予測できる確率的プロセスです。 これらの予測子は基本的に、最終出力、つまりモデルの出力を決定する際に機能する関数です。

次元削減とは何ですか?

機械学習の分類問題では、最終的な分類を行うための要素が多すぎることがよくあります。 これらの要因は基本的に特性と呼ばれる変数です。 機能が増えるほど、トレーニング セットを視覚化し、それに取り組むことが難しくなります。 場合によっては、これらの機能のほとんどが相互に関連しているため、冗長になることがあります。 ここで次元削減アルゴリズムが登場します。 次元削減は、主変数のセットを取得することによって考慮される確率変数の数を削減するプロセスです。 これは、特徴選択と特徴抽出に分けられます。

機械学習と予測モデリングにおいて次元削減が重要なのはなぜですか?

次元削減の直観的な例は、単純な電子メール分類問題を使用して説明できます。 電子メールスパムかどうか。 これには、次のような多数の機能が含まれる場合があります。 電子メール一般的なヘッダー、電子メールの内容、電子メールがテンプレートを使用しているかどうかなど。ただし、これらの機能の一部は重複する場合があり、別の状態では、湿度と降水量の両方に依存する分類問題が 1 つの基本的な機能に凝縮されることがあります。上記の両方は非常に相関性があるためです。 したがって、このような問題では関数の数を減らすことができます。 3 次元の分類問題は想像するのが困難ですが、2 次元の分類問題は単純な 2 次元空間にマッピングでき、1 次元の問題は単純な線にマッピングできます。 以下の図はこの概念を示しています。3D 特徴空間が 2 つの 1D 特徴空間に分割され、その後、それらに相関があることが判明した場合、特徴の数をさらに減らすことができます。

次元削減コンポーネント

次元削減には 2 つの要素があります。

  • 機能の選択:このセクションでは、元の変数または関数のセットのサブセットを見つけて、問題のモデル化に使用できるより小さなサブセットを取得しようとします。 これには通常、次の 3 つの方法が含まれます。
    1. フィルター
    2. ラッパー
    3. 実装された
  • 特徴抽出:これにより、高次元空間のデータが低次元、つまりより低い番号の空間に縮小されます。 サイズ。

次元削減方法

次元削減に使用されるさまざまな手法には次のものがあります。

  • 主成分分析 (PCA)
  • 線形判別分析 (LDA)
  • 一般化判別分析 (GDA)

次元削減は、使用される方法に応じて、線形または非線形のいずれかになります。 基本 線形法主成分分析 (PCA) と呼ばれる分析については、以下で説明します。

主成分分析

この方法はカール・ピアソンによって導入されました。 これは、高次元空間のデータが低次元空間のデータにマッピングされる一方で、低次元空間のデータの分散が最大化されなければならないという条件の下で機能します。

これには次の手順が含まれます。

  • データの共分散行列を構築します。
  • この行列の固有ベクトルを計算します。
  • 最大の固有値に対応する固有ベクトルは、元のデータの分散の大部分を回復するために使用されます。

したがって、より少ない固有ベクトルが残り、その過程で一部のデータ損失が発生した可能性があります。 ただし、最も重要な偏差は残りの固有ベクトルによって保存されなければなりません。

次元削減の利点

  • これはデータ圧縮に役立ち、ストレージ容量が削減されます。
  • これにより計算時間が短縮されます。
  • また、冗長な機能がある場合はそれを削除するのにも役立ちます。

次元削減のデメリット

  • これにより、一部のデータが失われる可能性があります。
  • PCA は変数間の線形相関を見つける傾向がありますが、これは望ましくない場合があります。
  • PCA は、平均と共分散がデータ セットを定義するのに十分でない場合には失敗します。
  • 実際にはどれだけの基本コンポーネントに従えばよいのかわからない場合がありますが、いくつかの経験則が適用されます。

この記事の提供元は アナンネイ・ウベロイ。 GeeksforGeeks のような方で、貢献したい場合は、contribute.geeksforgeeks.org を使用して記事を書くか、記事をメールで送信することもできます。 [メールで保護されています]。 あなたの記事が掲載されているのを見てください ホームページ GeeksforGeeks、そして他のオタクを助けてください。

データ削減

分析テクノロジーにおいて、データの次元削減とは、データを分析と解釈に最も便利な形式に変換するプロセスを指します。 これは通常、その量を減らし、使用される特徴の数とその意味の多様性を減らすことによって達成されます。

多くの場合、分析されたデータは、調査対象のビジネス プロセスの依存関係やパターンをほとんど反映していないため、不完全になります。 この理由としては、観察の数が不十分であること、物体の本質的な特性を反映する兆候が存在しないことが考えられます。 この場合、データエンリッチメントが適用されます。

次元削減は、データが冗長である場合には逆に適用されます。 冗長性は、より小さいデータ次元を使用して、同じレベルの効率と精度で分析問題を解決できる場合に発生します。 これにより、問題解決にかかる時間と計算コストが削減され、データとその分析結果がユーザーにとってより解釈しやすく、理解しやすくなります。

より小さいサンプル サイズから同等の品質のソリューションを取得できる場合は、データ観測の数を減らすことが使用され、それによって計算コストと時間コストが削減されます。 これは、スケーラブルではないアルゴリズムの場合に特に当てはまり、レコード数がわずかに減少するだけでも、計算時間の大幅な増加につながります。

問題の高品質な解決に必要な情報が機能の特定のサブセットに含まれており、それらすべてを使用する必要がない場合、機能の数を減らすことは理にかなっています。 これは、相関のある特徴に特に当てはまります。 たとえば、特性「年齢」と「職歴」は基本的に同じ情報を保持するため、どちらかを除外できます。

特徴量を減らす最も効果的な手段は因子分析と主成分法です。

たとえば、データ表現の精度が過剰で、モデルの品質を低下させることなく実際の値の代わりに整数を使用できる場合、特徴値の多様性を減らすことは理にかなっています。 ただし、これにより、データが占有するメモリの量と計算コストが削減されます。

次元削減の結果として得られるデータのサブセットは、特定の精度で問題を解決するのに必要なだけの情報を元のセットから継承する必要があり、データ削減の計算コストと時間コストによって、そこから得られるメリットの価値が低下してはなりません。

縮小されたデータセットから構築された分析モデルは、元のセットから構築されたモデルよりも処理、実装、理解が容易になるはずです。

次元削減方法を選択する決定は、解決される問題の特性と期待される結果、および限られた時間とコンピューティング リソースに関する先験的な知識に基づいて行われます。

多変量統計解析では、各オブジェクトは任意の次元 (ただし、すべてのオブジェクトで同じ) のベクトルによって記述されます。 しかし、人間が直接認識できるのは数値データか平面上の点だけです。 3 次元空間内の点の集合を分析することは、はるかに困難です。 高次元のデータを直接認識することは不可能です。 したがって、「見てわかるように」多次元サンプルから低次元データに移行したいと思うのはごく自然なことです。

明瞭さへの欲求に加えて、次元を減らす動機は他にもあります。 研究者にとって関心のある変数が依存しないこれらの要因は、統計分析を妨げるだけです。 まず、リソースはそれらに関する情報の収集に費やされます。 第 2 に、証明できるように、分析にそれらを含めると統計的手順の特性が悪化します (特に、パラメータ推定値と分布特性のばらつきが増加します)。 したがって、そのような要因を取り除くことをお勧めします。

サブセクション 3.2.3 で説明した、売上高を予測するために回帰分析を使用する例を次元削減の観点から説明します。 まず、この例では、独立変数の数を 17 から 12 に減らすことができました。第 2 に、他のすべての線形結合よりも販売量をより正確に予測する、前述の 12 個の因子の一次関数である新しい因子を構築することができました。要因の。 したがって、結果として、問題の次元が 18 から 2 に減少したと言えます。つまり、1 つの独立因子 (サブセクション 3.2.3 で与えられる線形結合) と 1 つの従属因子 (売上高) が残りました。

多変量データを分析する場合、通常は 1 つではなく多くの問題、特に独立変数と従属変数の異なる選択を検討します。 そこで、次の定式化で次元削減の問題を考えてみましょう。 多変量サンプルが与えられます。

可能であれば、データに含まれる情報を失わずに、元のデータの構造を可能な限り保存しながら、そこから低次元のベクトルのセットに移動する必要があります。 タスクは、それぞれの特定の次元削減方法のフレームワーク内で指定されます。主成分法 は、最も一般的に使用される次元削減手法の 1 つです。 = (その主なアイデアは、データのばらつきが最も大きい方向を一貫して特定することです。 サンプルがベクトルと同一に分布するベクトルで構成されているとします。(1), その主なアイデアは、データのばらつきが最も大きい方向を一貫して特定することです。 サンプルがベクトルと同一に分布するベクトルで構成されているとします。(2), … , その主なアイデアは、データのばらつきが最も大きい方向を一貫して特定することです。 サンプルがベクトルと同一に分布するベクトルで構成されているとします。(××

n))。 線形結合を考えてみましょう × Y その主なアイデアは、データのばらつきが最も大きい方向を一貫して特定することです。 サンプルがベクトルと同一に分布するベクトルで構成されているとします。(λ(1), λ(2), …, λ( その主なアイデアは、データのばらつきが最も大きい方向を一貫して特定することです。 サンプルがベクトルと同一に分布するベクトルで構成されているとします。)) = λ(1) ×)その主なアイデアは、データのばらつきが最も大きい方向を一貫して特定することです。 サンプルがベクトルと同一に分布するベクトルで構成されているとします。(×),

(1) + λ(2) ×) = 1.

(2) + … + λ( ×λ 2 (1) + λ 2 (2) + …+ λ 2 ( ×ここで、ベクトル λ = (λ(1), λ(2), …, λ(

)) の単位球上にあります。 n(λ) = n))。 線形結合を考えてみましょう ×-次元空間。 n主成分法では、まず最大散乱の方向が求められます。 確率変数の分散が最大に達するような λ ))。 次に、ベクトル λ は最初の主成分を指定し、量は(λ) はランダム ベクトルの投影です。

次に、線形代数の観点から、次の超平面を考えます。 ×第一主成分に垂直な - 次元空間であり、サンプルのすべての要素をこの超平面に投影します。 超平面の次元は、元の空間の次元より 1 小さくなります。

検討中の超平面では、この手順が繰り返されます。 最大の散乱の方向がその中に見つかります。 第二主成分。 次に、最初の 2 つの主成分に垂直な超平面が特定されます。 その次元は、元の空間の次元より 2 小さくなります。 次は次の反復です。

線形代数の観点から、私たちは次のような新しい基礎を構築することについて話しています。 ×-次元空間。そのベクトルが主成分です。

新しい主成分のそれぞれに対応する分散は、前の主成分の分散よりも小さくなります。 通常、所定のしきい値を下回ると停止します。 選択した場合 k主要コンポーネント、つまり、 ×なんとか移動できた次元空間 k- 次元、つまり ~から次元を減らす ×-に k, 実質的にソースデータの構造を歪めることなく .

視覚的なデータ分析では、最初の 2 つの主成分の平面への元のベクトルの投影がよく使用されます。 通常、データ構造は明確に表示され、オブジェクトのコンパクトなクラスターと個々のベクトルが区別されます。

主成分法はその手法の一つです。 因子分析. さまざまな因子分析アルゴリズムは、そのすべてにおいて元の要素の新しい基礎への移行があるという事実によって統合されています。 ×-次元空間。 「因子負荷」の概念は重要であり、新しい基底から特定のベクトルを形成する際の元の因子 (変数) の役割を説明するために使用されます。

主成分法と比較した新しいアイデアは、因子が荷重に基づいてグループに分割されることです。 新しい基底の要素に同様の影響を与える要因は、1 つのグループに結合されます。 その場合、各グループから 1 人の代表者を残すことをお勧めします。 場合によっては、計算によって代表者を選ぶのではなく、問題のグループの中心となる新しい要素が形成されることもあります。 次元の減少は、グループを代表する因子系に移行するときに発生します。 他の要素は無視されます。

説明した手順は、因子分析を使用するだけで実行できるわけではありません。 特徴(因子、変数)のクラスター分析について話しています。 フィーチャをグループに分割するには、さまざまなクラスター分析アルゴリズムを使用できます。 特性間の距離 (近さの尺度、違いの指標) を入力するだけで十分です。 させて ×そして U- 2 つの標識。 違い d(は、最も一般的に使用される次元削減手法の 1 つです。, n) それらの間の相関は、サンプル相関係数を使用して測定できます。

d 1 (X、Y) = 1 – rn(X、Y), d 2 (X、Y) = 1 – ρ n(X、Y),

どこ rn(は、最も一般的に使用される次元削減手法の 1 つです。, n) – サンプルの線形ピアソン相関係数、ρ n(は、最も一般的に使用される次元削減手法の 1 つです。, n) – スピアマンの順位相関係数のサンプル。

多次元スケーリング。 距離の使用について(近さの尺度、違いの指標) d(は、最も一般的に使用される次元削減手法の 1 つです。, n) 記号の間 ×そして U広範なクラスの多次元スケーリング手法が確立されました。 このクラスのメソッドの主なアイデアは、各オブジェクトを幾何学的空間 (通常は 1、2、または 3 次元) 内の点として表現し、その座標は隠れた (潜在的な) 因子の値であり、オブジェクトを適切に説明します。 この場合、オブジェクト間の関係は、点間の関係、つまりその代表点間の関係に置き換えられます。 したがって、オブジェクトの類似性に関するデータは点間の距離によって、優位性に関するデータは点の相対位置によって得られます。

実際には、さまざまな多次元尺度モデルが多数使用されます。

それらのすべてにおいて、因子空間の真の次元を推定するという問題が発生します。 メトリックスケーリングを使用してオブジェクトの類似性に関するデータを処理する例を使用して、この問題を考えてみましょう。 ×ありましょう オブジェクト(1), オブジェクト(2), …, について(×オブジェクト()、オブジェクトのペアごとに), について( j ) それらの類似性の尺度が与えられます()、オブジェクトのペアごとに, s ) それらの類似性の尺度が与えられます()、オブジェクトのペアごとに, ) = ) それらの類似性の尺度が与えられます(, )、オブジェクトのペアごとに)。 私たちは常にそう信じています ) それらの類似性の尺度が与えられます()、オブジェクトのペアごとに, )。 数字の由来

) は、アルゴリズムの動作を説明する上では重要ではありません。 これらは、直接測定するか、専門家を使用するか、一連の記述的特性から計算するか、その他の方法で取得できます。 ×ユークリッド空間で考えると、 ×オブジェクトは構成によって表現される必要があります d()、オブジェクトのペアごとに, 代表点の近さの尺度はユークリッド距離です ) それらの類似性の尺度が与えられます()、オブジェクトのペアごとに, ) 対応する点の間。 d()、オブジェクトのペアごとに, オブジェクトのセットとそれらを表す点のセットの間の一致度は、類似度行列 || を比較することによって決定されます。

)|| と距離 ||

)||。 メトリック類似度関数の形式は次のとおりです。非計量スケーリングでは、近接測定値と距離自体の近接性の代わりに、近接測定値のセットと対応する距離のセットの順序の近接性が考慮されます。 機能性の代わりに Sスピアマンとケンドールの順位相関係数の類似物が使用されます。 言い換えれば、非計量尺度法は、近接度が順序尺度で測定されることを前提としています。

ユークリッド空間に次元を持たせる メートル。 最小平均二乗誤差を考慮する

,

ここで、最小値はすべての可能な構成に適用されます。 ×のポイント メートル-次元ユークリッド空間。 考慮された最小値が特定の構成で達成されることを示すことができます。 成長に伴って明らかに メートル値α m は単調減少する(より正確には、増加しない)。 いつであるかを示すことができます メートル > ×– 1 は 0 に等しい ( ) それらの類似性の尺度が与えられます()、オブジェクトのペアごとに, ) – メートル法)。 意味のある解釈の可能性を高めるには、可能な限り最小の次元の空間で操作することが望ましいです。 ただし、この場合、点が大きな歪みなくオブジェクトを表すように寸法を選択する必要があります。 問題は、どのようにして次元を合理的に選択するかということです。 自然数 メートル?

決定論的データ分析の枠組み内では、この質問に対する合理的な答えはないようです。 したがって、特定の確率モデルにおける α m の挙動を研究する必要があります。 近接対策の場合 ) それらの類似性の尺度が与えられます()、オブジェクトのペアごとに, ) は確率変数であり、その分布は「真の次元」に依存します。 メートル 0 (場合によっては他のパラメータも) の場合、古典的な数学統計スタイルで推定問題を提起できます。 メートル 0、一貫した推定値などを探します。

確率モデルの構築を始めましょう。 オブジェクトが次元のユークリッド空間内の点であると仮定します。 k、 どこ k十分に大きい。 「真の次元」とは メートル 0 は、これらすべての点が次元の超平面上にあることを意味します メートル 0 。 オブジェクト(1), オブジェクト(2), …, について(×明確にするために、検討中の点のセットが分散 σ 2 (0) の円正規分布からのサンプルであると仮定しましょう。 これは、オブジェクトが ) は集合的に独立したランダム ベクトルであり、それぞれは ζ(1) として構築されます。 e ) は集合的に独立したランダム ベクトルであり、それぞれは ζ(1) として構築されます。(1) + ζ(2) メートル 0)) は集合的に独立したランダム ベクトルであり、それぞれは ζ(1) として構築されます。(メートル(2) + … + ζ( ) は集合的に独立したランダム ベクトルであり、それぞれは ζ(1) として構築されます。(1), ) は集合的に独立したランダム ベクトルであり、それぞれは ζ(1) として構築されます。(2), … , ) は集合的に独立したランダム ベクトルであり、それぞれは ζ(1) として構築されます。(メートル 0)、ここで メートル 0) – 次元の部分空間における正規直交基底 メートル考慮中の点が存在する 0、および ζ(1), ζ(2), … , ζ(

0) は、数学的期待値と分散 σ 2 (0) を備えた集合的に独立した 1 次元正規確率変数です。 ) それらの類似性の尺度が与えられます()、オブジェクトのペアごとに, 近接測度を取得するための 2 つのモデルを考えてみましょう ) それらの類似性の尺度が与えられます()、オブジェクトのペアごとに, ) 点は歪みがあることがわかっているため、対応する点間のユークリッド距離とは異なります。 させて(1),(2), … , させて(×

) それらの類似性の尺度が与えられます()、オブジェクトのペアごとに, ) = d()が検討中のポイントです。 それから()、オブジェクトのペアごとに) + ε( )、オブジェクトのペアごとに), )が検討中のポイントです。 それから() + ε( )), )、オブジェクトのペアごとに, = 1, 2, … , ×,

どこ d c k– の点間のユークリッド距離 ×-次元空間、ベクトル ε(1), ε(2), … , ε( k) の円正規分布からのサンプルを表します。 数学的期待値がゼロの次元空間と共分散行列 σ 2 (1)、 どこ 数学的期待値がゼロの次元空間と共分散行列 σ 2 (1))、オブジェクトのペアごとに– 単位行列。 つまり、ε( ) は集合的に独立したランダム ベクトルであり、それぞれは ζ(1) として構築されます。) = η(1) ) は集合的に独立したランダム ベクトルであり、それぞれは ζ(1) として構築されます。(1) + η(2) k)) は集合的に独立したランダム ベクトルであり、それぞれは ζ(1) として構築されます。(k(2) + … + η( ) は集合的に独立したランダム ベクトルであり、それぞれは ζ(1) として構築されます。(1), ) は集合的に独立したランダム ベクトルであり、それぞれは ζ(1) として構築されます。(2), …, ) は集合的に独立したランダム ベクトルであり、それぞれは ζ(1) として構築されます。(k)、 どこ k) – 正規直交基底 )、オブジェクトのペアごとに, -次元空間、および (η(), )、オブジェクトのペアごとに t -次元空間、および (η(= 1、2、…、n、

= 1, 2, … , k) – ゼロの数学的期待値と分散 σ 2 (1) を持つ独立した 1 次元確率変数のセット。

) それらの類似性の尺度が与えられます(2 番目のモデルでは、距離自体に歪みが直接適用されます。) = d()が検討中のポイントです。 それから()、オブジェクトのペアごとに), )が検討中のポイントです。 それから()) + ε( 2 番目のモデルでは、距離自体に歪みが直接適用されます。), 2 番目のモデルでは、距離自体に歪みが直接適用されます。 = 1, 2, … , ×, )、オブジェクトのペアごとに,

私、j )、オブジェクトのペアごとに, ), )、オブジェクトのペアごとに, = 1, 2, … , ×ここで (ε(

) – 数学的期待値を持つ集合的に独立した正規確率変数) と分散 σ 2 (1)。 ×この研究は、両方の定式化されたモデルについて、最小平均二乗誤差 α m が

→ ∞ は確率的に次のように収束します。(メートル) = → ∞ は確率的に次のように収束します。 1 (メートル f kメートル), メートル = 1, 2, …, k,

) + σ 2 (1)( → ∞ は確率的に次のように収束します。(メートルしたがって、関数は

) と の区間では線形であり、最初の区間では 2 番目の区間よりも速く減少します。 その統計によると、 メートル 0 .

真の寸法の一貫した推定値です メートルしたがって、確率論に基づく推奨事項は、因子空間の次元の推定値として使用することです。

*。 このような推奨事項は、多次元スケーリングの創設者の 1 人である J. Kruskal によってヒューリスティックとして定式化されたものであることに注意してください。