順位相関とケンダルの順位相関係数。 ケンダルの順位相関係数 ケンダルのタウの順位相関係数

27.10.2021

Kendall の相関係数は、関連するランクがない場合に、変数が 2 つの順序スケールで表される場合に使用されます。 Kendall 係数の計算には、一致と反転の数をカウントすることが含まれます。 前の問題の例を使用してこの手順を考えてみましょう。

問題を解決するためのアルゴリズムは次のとおりです。

    表内のデータを並べ替えます。 8.5 なので、行の 1 つ ( この場合× i) ランク付けされたことが判明しました。 言い換えれば、ペアを並べ替えます ×そして y 正しい順序で、そして テーブルの列 1 と列 2 にデータを入力します。 8.6.

表8.6

×

y

2. 2行目の「順位」を決定します( y私)。 この手順は次の順序で実行されます。

a) ランク付けされていない系列の最初の値「3」を取得します。 ランク数のカウント 下に指定された番号、 もっと比較した値。 そのような値は 9 つあります (数字 6、7、4、9、5、11、8、12、および 10)。 「一致」列に数字 9 を入力します。 次に、その値の数を数えます。 少ない三つ。 そのような値は 2 つあります (ランク 1 と 2)。 「反転」列に数値 2 を入力します。

b) 数値 3 を破棄し (すでに処理済み)、次の値「6」について手順を繰り返します。一致の数は 6 (ランク 7、9、11、8、12、および 10) です。反転数は 4 (ランク 1、2、4、および 5) です。 「一致」列に数字 6 を入力し、「反転」列に数字 4 を入力します。

c) 行の終わりまで同様の手順が繰り返されます。 それぞれの「計算された」値はそれ以上の考慮から除外されることに注意してください (この数値を下回るランクのみが計算されます)。

注記

計算を間違えないように、「ステップ」ごとに一致と反転の合計が 1 ずつ減少することに留意する必要があります。 毎回 1 つの値が考慮から除外されることを考えると、これは理解できます。

3. 一致の合計が計算されます (P)そして反転の和 (問); データは、ケンダル係数 (8.10) の 1 つおよび 3 つの交換可能な式に入力されます。 対応する計算が実行されます。

t (8.10)

私たちの場合:

テーブル内 XIV 付録には、このサンプルの係数の臨界値 τ cr が含まれています。 = 0.45; 0.59。 経験的に得られた値が表に基づいた値と比較されます。

結論

τ = 0.55 > τ cr. = 0.45。 相関関係はレベル 1 で統計的に有意です。

注記:

必要に応じて(たとえば、臨界値の表がない場合)、統計的有意性 t Kendall は次の式で決定できます。

(8.11)

どこ S* = P – Q+1の場合 P< Q 、 そして S* = P – Q – 1 の場合 P>Q。

価値観 z対応する有意水準はピアソン測定に対応しており、対応する表に記載されています (付録には含まれていません。標準有意水準の場合) z kr = 1.96 (β 1 = 0.95 の場合) および 2.58 (β 2 = 0.99 の場合)。 Kendall の相関係数は、次の場合に統計的に有意です。 z > z cr

私たちの場合 S* = P – Q– 1 = 35、および z= 2.40、つまり、最初の結論が確認されます。特性間の相関は、第 1 レベルの有意性に関して統計的に有意です。

簡単な理論

Kendall の相関係数は、関連するランクがない場合に、変数が 2 つの順序スケールで表される場合に使用されます。 Kendall 係数の計算には、一致と反転の数をカウントすることが含まれます。

この係数は制限内で変化し、次の式を使用して計算されます。

計算では、すべてのユニットが次のようにランク付けされます。 別の特性の行に従って、各ランクについて、指定されたランクを超える後続のランクの数 ( で表します)、および指定されたランクを下回る後続のランクの数 ( で表します)。

それは次のことを示すことができます

と係数 順位相関ケンダルは次のように書くことができます

競合する仮説の下で一般的なケンダル順位相関係数がゼロに等しいという有意水準で帰無仮説を検定するには、臨界点を計算する必要があります。

ここで、 はサンプルサイズです。

– 両側臨界領域の臨界点。ラプラス関数の表から等式によって求められます。

If – 帰無仮説を棄却する理由はありません。 特性間の順位相関は重要ではありません。

If – 帰無仮説は棄却されます。 特性間には有意な順位相関があります。

問題解決の例

問題の状態

採用プロセス中、空席の候補者 7 名に 2 つのテストが課されました。 テスト結果 (ポイント単位) を表に示します。 テスト 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

候補者

2 つのテストのテスト結果間の Kendall 順位相関係数を計算し、そのレベルでの有意性を評価します。

問題の解決策

因子特性のランクは厳密に昇順に配置され、結果の特性の対応するランクが並行して記録されます。 各ランクについて、それに続くランクの数から、値が大きいランクの数 (列に入力) と値の小さいランクの数 (列に入力) がカウントされます。

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 16 5

定量的または定性的指標をランク付けできる場合、それらの間の関係を特定するために使用されます。 X インジケーターの値は昇順および割り当てられたランクで表示されます。 Y 指標の値がランク付けされ、Kendall 相関係数が計算されます。

どこ S = PQ.

P 大きいランクYの値。

Q- 現在の観測に続く観測の総数 小さいランクYの値。 (同じランクは考慮されません!)

研究対象のデータが繰り返される (同じ順位を持つ) 場合、調整された Kendall 相関係数が計算に使用されます。

t- シリーズ X と Y のそれぞれの関連ランクの数。

19.研究のテーマ、対象、主題、目的、目的、仮説を決めるときは何から進めるべきですか?

研究プログラムには、原則として、方法論と手順の 2 つのセクションがあります。 1つ目は、トピックの関連性の正当化、問題の定式化、対象と主題の定義、研究の目標と目的、基本概念(カテゴリー的装置)の定式化、研究対象と定式化の予備的な体系的分析を含みます。作業仮説の。 2 番目のセクションでは、研究の戦略的設計と、一次データを収集および分析するための設計と基本手順を明らかにします。

まず第一に、研究テーマを選択するときは、関連性から進めなければなりません。 関連性の正当化これには、教育と教育の理論と実践をさらに発展させるために、問題を研究し解決する必要性と適時性の示唆が含まれています。 現在の研究は最も差し迫った問題に対する答えを提供します 与えられた時間社会の社会秩序を教育科学に反映する質問は、実際に起こっている最も重要な矛盾を明らかにします。 関連性の基準は動的かつ柔軟であり、特定の特殊な状況を考慮して時間に依存します。 最も一般的な形式では、関連性は、科学的アイデアおよび実践的な推奨事項(特定のニーズを満たすための)に対する需要と、科学と実践が現時点で提供できる提案との間の矛盾の程度を特徴付けます。

研究テーマを定義する最も説得力のある根拠は社会秩序であり、緊急の解決策を必要とする最も差し迫った社会的に重要な問題を反映しています。 社会秩序には、特定のトピックに対する正当化が必要です。 通常、これは科学における疑問がどの程度発展したかを分析するものです。

社会秩序が教育実践の分析から導き出されるのであれば、 科学的な問題別の次元にいます。 それは科学によって解決されなければならない主要な矛盾を表現しています。 問題の解決策は通常、 研究の目的。目標は問題を再定式化することです。

問題の定式化には次のことが含まれます オブジェクトの選択研究。 それは教育的プロセス、教育的現実の領域、または矛盾を含む何らかの教育的関係である可能性があります。 言い換えれば、オブジェクトとは、明示的または暗黙的に矛盾を含み、問題のある状況を引き起こすものであれば何でも構いません。 オブジェクトとは、認識のプロセスが目的とするものです。 研究テーマ -物体の部分、側面。 これらは、直接研究の対象となる、実用的または理論的な観点から見たオブジェクトの最も重要な特性、側面、および特徴です。

研究の目的、目的、主題に応じて研究内容を決定します タスク、通常はチェックすることを目的としています 仮説。後者は理論に基づいた一連の仮定であり、その真実性は検証の対象となります。

基準 科学的な新規性完了した研究の品質を評価するために適用できます。 それは、現時点では知られておらず、教育学の文献にも記録されていない、新しい理論的および実践的な結論、教育のパターン、その構造とメカニズム、内容、原理、技術を特徴づけます。 研究の新規性は、理論的および実用的な意味の両方を持ちます。 研究の理論的意義は、コンセプトを作成し、問題、傾向、方向性を特定するための仮説、パターン、方法、モデルを取得することにあります。 研究の実際的な意義は、提案書や勧告などを作成することにあります。 新規性、理論的および実用的重要性の基準は、研究の種類によって異なります。また、新しい知識を取得した時期によっても異なります。

Kendall 順位相関係数を計算するには rkいずれかの特性に従ってデータを昇順にランク付けし、2 番目の特性に対応するランクを決定する必要があります。 次に、第 2 属性のランクごとに、取得したランクよりも値が大きい後続のランクの数が決定され、これらの数の合計が求められます。

ケンダルの順位相関係数は次のように与えられます。


どこ – 2 番目の変数のランク数 (次から始まります) +1、その値が値より大きい この変数の - 番目のランク。

係数分布のパーセントポイントの表があります rkを使用して、相関係数の重要性に関する仮説を検証できます。

サンプルサイズが大きい場合、重要な値 rkは表にまとめられていないため、帰無仮説 H 0 の下で次の事実に基づく近似式を使用して計算する必要があります。 rk=0 以上 n確率変数

ほぼ標準法則に従って分布します。

40. 名目尺度または順序尺度で測定された形質間の依存性

多くの場合、名目または順序スケールで測定された 2 つの特性の独立性をチェックするというタスクが発生します。

いくつかのオブジェクトに 2 つの特性を測定してみましょう ×そして Yレベルの数に応じて rそして sそれぞれ。 このような観察結果は、特性分割表と呼ばれる表の形式で表すと便利です。

表の中で あなたは私( = 1, ..., r) そして v j (j= 1, ..., s) – 特性によって受け入れられる値、価値 いいえ– からのオブジェクトの数 総数特徴を持った物体 ×価値を受け入れた あなたは私、そしてサイン Y- 意味 v j

次の確率変数を導入してみましょう。

あなたは私


– 値を持つオブジェクトの数 v j


さらに、明らかな等式があります



離散確率変数 ×そして Yその場合に限り独立

すべてのカップルのために , j

したがって、離散確率変数の独立性に関する仮説は、 ×そして Y次のように書くことができます:

代替案として、原則として仮説が使用されます。

仮説 H 0 の妥当性はサンプル周波数に基づいて判断する必要があります いいえ分割表。 大数の法則に従って、 n→∞ 相対頻度は、対応する確率に近いです。



統計は仮説 H 0 を検定するために使用されます。

仮説が正しい場合、分布は次のようになります。 χ 2秒 rs − (r + s− 1) 自由度。

独立性の基準 χ 2 は、次の場合に有意水準 α で仮説 H 0 を棄却します。


41. 回帰分析。 回帰分析の基本概念

研究対象の変数間の統計的関係を数学的に説明するには、次の問題を解決する必要があります。

ü 対象となる依存関係の (ある意味で) 最適な近似を探すことが推奨される関数のクラスを選択します。

ü 必要な依存関係の方程式に含まれるパラメータの未知の値の推定値を見つけます。

ü 結果として得られる方程式が望ましい関係に対して適切であることを確立する。

ü 最も有益な入力変数を特定します。

リストされたタスクの全体が回帰分析の研究対象となります。

回帰関数 (または回帰) は、ある確率変数の数学的期待値が別の確率変数によって取得される値に依存するもので、最初に確率変数の 2 次元システムを形成します。

確率変数系があるとします ( ×,Y)、回帰関数 Yの上 ×

そして回帰関数 ×の上 Y

回帰関数 f(×) そして φ (y)、間の関係が成立しない限り、相互に可逆的ではありません。 ×そして Y機能していません。

万一に備えて n-座標を持つ次元ベクトル × 1 , × 2 ,…, Xn任意のコンポーネントに対する条件付きの数学的期待を考慮できます。 たとえば、 × 1


回帰と呼ばれる × 1人につき1個 × 2 ,…, Xn.

回帰関数を完全に定義するには、入力変数の固定値に対する出力変数の条件付き分布を知る必要があります。

実際の状況ではそのような情報がないため、通常は適切な近似関数を検索することに限定されます。 ファ(×) のために f(×)、形式 ( x i, はい、私), = 1,…, n。 このデータはその結果です n独立した観察 y 1 ,…, yn確率変数 Y入力変数の値に対して × 1 ,…, ×n一方、回帰分析では、入力変数の値が正確に指定されていることが前提となります。

最適な近似関数を選択する問題 ファ(×)は回帰分析の主要なものであり、その解決のための正式な手順はありません。 選択は実験データの分析に基づいて決定されることもありますが、多くの場合は理論的考察に基づいて決定されます。

回帰関数が十分に滑らかであると仮定される場合、それを近似する関数は ファ(×) は、線形に独立した基底関数の特定のセットの線形結合として表すことができます。 ψk(×), k = 0, 1,…, メートル−1、つまり次の形式で


どこ メートル– 不明なパラメータの数 θ k(一般的な場合、量は不明であり、モデルの構築中に調整されます)。

このような関数はパラメータが線形であるため、検討中のケースでは、パラメータが線形である回帰関数モデルについて話します。

次に、回帰直線の最適な近似を見つけるタスクです。 f(×) は、そのようなパラメータ値を見つけることに帰着します。 ファ(×;θ) は、入手可能なデータに対して最も適切です。 この問題を解決できる方法の 1 つが最小二乗法です。

42. 最小二乗法

点の集合( x i, はい、私), = 1,…, nある直線に沿った平面上に位置する

あとは機能としては ファ(×)、回帰関数を近似します。 f(×) = M [Y|×]自然に摂取 一次関数口論 ×:


つまり、ここで選択された基底関数は次のとおりです。 ψ 0 (×)≡1 と ψ 1 (×)≡×。 このタイプの回帰は単純線形回帰と呼ばれます。

点の集合 ( x i, はい、私), = 1,…, nある曲線に沿って位置し、 ファ(×) 放物線のファミリーを選択しようとするのは自然なことです

この関数はパラメータが非線形です θ 0と θ ただし、関数変換 (この場合は対数) を使用すると、次のように減らすことができます。 新機能 ふーん(×) パラメータの線形:


43. 単純な線形回帰

最も単純なモデル回帰は、次の形式を持つ単純な (単変量、1 因子、ペア) 線形モデルです。


どこ εi– 相互に相関がなく、数学的期待値がゼロで分散が同一である確率変数 (誤差) σ 2 , あるそして b– 測定された応答値から推定する必要がある定数係数(パラメータ) はい、私.

パラメータ推定値を見つけるには あるそして b線形回帰、実験データを最もよく満たす直線を決定します。


最小二乗法が使用されます。

によると 最小二乗法 パラメータ推定値 あるそして b値の偏差の二乗和を最小にする条件から求めます。 はい、私「真の」回帰直線から垂直に:

確率変数の 10 個の観測が行われるとします。 Y固定変数値の場合 ×

最小限に抑えるには Dに関する偏導関数をゼロに等しいとします。 あるそして b:



その結果、推定値を求めるための次の連立方程式が得られます。 あるそして b:


これら 2 つの方程式を解くと、次のようになります。



パラメータ推定の式 あるそして b次のように表すこともできます。

次に回帰直線の経験式 Yの上 ×次のように書くことができます:


不偏分散推定器 σ 2つの値の偏差 はい、私近似された直線回帰直線から、次の式で与えられます。

回帰式のパラメータを計算してみましょう


したがって、回帰直線は次のようになります。


そして値の偏差の分散の推定値 はい、私近似直線回帰直線から


44. 回帰直線の有意性の確認

見つかった推定値 b≠ 0 は、数学的期待値が 0 に等しい確率変数の実現である可能性があります。つまり、実際には回帰依存性が存在しないことが判明する可能性があります。

この状況に対処するには、仮説 H 0 をテストする必要があります。 b= 0 と競合する仮説 H 1: b ≠ 0.

回帰直線の有意性の検定は、分散分析を使用して行うことができます。

次のアイデンティティを考えてみましょう。

マグニチュード はい、私 = εiは剰余と呼ばれ、2 つの量の差です。

ü 全体の平均応答からの観察値 (応答) の偏差。

ü 予測応答値の偏差 同じ平均から

書面による身元情報は次の形式で記述できます。


両辺を二乗して合計すると 、次のようになります。


数量に名前が付けられている場合:

完全 (合計) 平方和 SC n。これは観測値の平均値に対する観測値の偏差の二乗の合計に等しい

SC p の回帰による平方和。これは、観測値の平均に対する回帰直線の値の偏差の平方和に等しい。

残差二乗和 SC 0 。 これは、回帰直線の値に対する観測値の偏差の二乗の合計に等しい

したがって、スプレッドは、 Y平均に対する -kov の値は、すべての観測値が回帰直線上にあるわけではないという事実にある程度起因する可能性があります。 この場合、回帰に対する二乗和はゼロになります。 SC p の二乗和が SC 0 の二乗和より大きい場合、回帰は有意になるということになります。

回帰の有意性をテストするための計算は、次の ANOVA 表で実行されます。

エラーの場合 εiが正規法則に従って分布している場合、仮説 H 0 が真である場合、次のようになります。 b= 0 統計:


自由度 1 のフィッシャーの法則に従って分布し、 n−2.

統計量の計算値が以下の場合、帰無仮説は有意水準 α で棄却されます。 Fαパーセントポイントより大きくなります f 1;n−2;α フィッシャー分布。

45. 回帰モデルの適切性をチェックします。 残差法

構築された回帰モデルが適切であるということは、他のモデルでは応答の予測において大幅な改善が得られないことを意味します。

全ての応答値が得られた場合 さまざまな意味 ×つまり、同時に取得される複数の応答値はありません。 x i、その後、実行することしかできません 限定チェック線形モデルの妥当性。 このようなチェックの基礎となるのは残高です。

確立されたパターンからの逸脱:

以来 ×– 1 次元変数、点 ( x i, 私は)は、いわゆる残差グラフの形で平面上に描くことができます。 この表現により、残基の動作におけるある種のパターンを検出できる場合があります。 さらに、残差分析により、誤差分布則に関する仮定を分析することができます。

誤差が正規法則に従って分布しており、その分散の事前推定がある場合 σ 2 (以前に実行された測定に基づいて得られた推定値) であれば、モデルの適切性をより正確に評価することが可能になります。

を使用することで F-フィッシャーの検定を使用して、残差分散が有意かどうかを確認できます。 s 0 2 は事前推定値とは異なります。 それが著しく大きい場合は、不適当であるため、モデルを修正する必要があります。

事前推定であれば σ 2 いいえ、ただし応答測定 Y同じ値で 2 回以上繰り返される ×、その後、これらの繰り返しの観察を使用して別の推定値を取得できます。 σ 2 (1 つ目は残差分散)。 このような推定は「純粋な」誤差を表すと言われます。 × 2 つ以上の観測値が同一である場合、ランダムな変化のみが結果に影響を与え、それらの間にばらつきが生じる可能性があります。

結果として得られる推定値は、他の方法で得られた推定値よりも信頼性の高い分散推定値であることがわかります。 このため、実験を計画するときは、繰り返して実験を実行することが合理的です。

あると仮定しましょう メートルさまざまな意味 × : × 1 , × 2 , ..., ×メートル。 これらのそれぞれの値について考えてみましょう x i利用可能 私は応答観察 Y。 合計の観察結果は次のとおりです。

この場合、単純な線形回帰モデルは次のように記述できます。


「純粋な」誤差の分散を求めてみましょう。 この分散はプールされた分散推定値です σ 2 応答値を想像すると y ij× = x iサンプルボリュームとして 私は。 結果として、「純粋な」誤差の分散は次のようになります。

この差異は推定値として機能します σ 2 適合モデルが正しいかどうかに関係なく。

「純粋誤差」の二乗和が残差二乗和(残差分散の式に含まれる二乗和)の一部であることを示しましょう。 残りの期間 jでの 3 番目の観測 x i次のように書くことができます:

この方程式の両辺を二乗して合計すると、 jそしてによって そうすると、次のようになります。

この等式の左側は残差二乗和です。 右側の最初の項は「純粋な」誤差の二乗和であり、二番目の項は不十分さの二乗和と呼ぶことができます。 最後の金額は、 メートル−2 自由度、したがって不十分さの分散

仮説 H 0: 単純な線形モデルは適切である、仮説 H 1: 単純な線形モデルは不適切であるを検定するための検定統計量は確率変数です。

帰無仮説が真の場合、値は F自由度を持つフィッシャー分布を持ちます メートル−2と nメートル。 得られた統計値が自由度付きフィッシャー分布の α パーセンテージ ポイントより大きい場合、回帰直線の直線性の仮説は有意水準 α で棄却される必要があります。 メートル−2と nメートル.

46. 回帰モデルの適切性をチェックする (45 を参照)。 分散分析

47. 回帰モデルの適切性をチェックする (45 を参照)。 決定係数

回帰直線の品質を特徴付けるために、サンプルの決定係数が使用されることがあります。 R図 2 は、回帰による平方和 SC p が平方和総和 SC p のどの部分 (シェア) を構成するかを示しています。

近いほど R 2 を 1 に近づけるほど、回帰が実験データに近似するほど、観測値は回帰直線に近づきます。 もし R 2 = 0 の場合、応答の変化は完全に原因不明の要因の影響によるものであり、回帰直線は軸に平行になります。 ×-s。 単回帰の場合、決定係数は R 2 は相関係数の 2 乗に等しい r 2 .

R 2 =1の最大値は、観察が異なるx値で実行された場合にのみ達成され得る。 データに繰り返しの実験が含まれている場合、モデルがどれほど優れていても、R 2 の値は 1 に達することはできません。

48. 単純線形回帰パラメータの信頼区間

サンプル平均が真の平均 (母集団平均) の推定値であるのと同様に、回帰式のサンプル パラメーターも同様です あるそして b- 真の回帰係数の推定にすぎません。 サンプルが異なれば、回帰係数の推定値も異なるのと同様に、サンプルが異なれば平均の推定値も異なります。

誤差分布則が成立すると仮定すると、 εi通常法則、パラメータ推定によって記述される b次のパラメータを持つ正規分布になります。


パラメータ推定以来 あるは独立した正規分布量の線形結合ですが、数学的な期待値と分散を伴う正規分布も持ちます。


この場合、分散を推定するための (1 − α) 信頼区間 σ 2 比率 ( n−2)s 0 2 /σ 2 法律に従って配布される χ 2 自由度あり n−2は次の式で求められます。


49. 回帰直線の信頼区間。 従属変数値の信頼区間

通常、回帰係数の真の値はわかりません。 そして b。 私たちが知っているのは彼らの推定値だけです。 言い換えれば、真の回帰直線は、サンプル データから構築された回帰直線よりも高いか低いか、急であるか平坦である可能性があります。 回帰係数の信頼区間を計算しました。 回帰直線自体の信頼領域を計算することもできます。

単純な線形回帰を考えると、(1− α ) 応答の数学的期待値の信頼区間 Y価値のあるもの × = × 0 。 この数学的期待値は以下に等しい ある+bx 0 とそのスコア

だって、それでは。

結果として得られる数学的期待値の推定値は、相関のない正規分布値の線形結合であるため、条件付き数学的期待値と分散の真の値の点を中心とする正規分布も持ちます。

したがって、各値における回帰直線の信頼区間は × 0 は次のように表すことができます


ご覧のとおり、最小信頼区間は次の場合に得られます。 × 0 は平均値に等しく、次のように増加します。 × 0 は、どの方向でも平均から「遠ざかります」。

回帰関数全体に適した一連の同時信頼区間をその全長にわたって取得するには、代わりに上記の式を使用します。 トン −2,α /2 を置換する必要があります

正規性の仮定に基づく検定の使用を制限する要因の 1 つはサンプル サイズです。 標本が十分に大きい限り (たとえば、観測値が 100 以上)、母集団内の変数の分布が正規であるかどうかわからない場合でも、標本分布は正規であると仮定できます。 ただし、サンプルが小さい場合、変数が実際に正規分布を持っていると確信できる場合にのみ、これらの検定を使用する必要があります。 ただし、この仮定を小さなサンプルでテストする方法はありません。

正規性の仮定に基づく基準の使用は、測定スケールによっても制限されます (「データ分析の基本概念」の章を参照)。 そのような 統計的手法、t 検定、回帰などのように、元のデータが連続していることを前提としています。 ただし、データが正確に測定されるのではなく、単にランク付けされる (順序尺度で測定される) 場合があります。

典型的な例は、インターネット上のサイトの評価です。1 位は訪問者数が最大のサイトであり、2 位は残りのサイトの中で訪問者数が最大のサイトです。評価が分かれば、あるサイトへの訪問者数が別のサイトへの訪問者数よりも多いと言えますが、それ以上のことは言えません。 A、B、C、D、E の 5 つのサイトがあり、上位 5 位にランク付けされているとします。 当月は A、B、C、D、E という配置で、前月は D、E、A、B、C だったとします。問題は、ランキングに大きな変化があったかどうかです。サイトの有無? この状況では、明らかに、t 検定を使用してこれら 2 つのデータ グループを比較することはできず、特定の確率計算の分野に進みます (そして、統計検定には確率計算が含まれます!)。 我々はおよそ次のように推論します: 2 つのサイト配置の違いが純粋にランダムな理由によるものである可能性はどのくらいあるのか、それともこの違いが大きすぎて純粋な偶然では説明できないのか。 これらの議論では、サイトのランクまたは順列のみを使用し、サイトへの訪問者数の特定の種類の分布は決して使用しません。

ノンパラメトリック手法は、小さなサンプルや不十分なスケールで測定されたデータを分析するために使用されます。

ノンパラメトリック手続きの概要

基本的に、各パラメトリック基準には次のようなものがあります。 少なくとも、ノンパラメトリックな代替案の 1 つ。

一般に、これらの手順は次のカテゴリのいずれかに分類されます。

  • 独立したサンプルの差分テスト。
  • 依存サンプルの差分テスト。
  • 変数間の依存度の評価。

一般に、データ分析における統計的基準へのアプローチは実用的であるべきであり、不必要な理論的推論を負担すべきではありません。 STATISTICA を実行しているコンピューターを使用すると、複数の基準をデータに簡単に適用できます。 いくつかのことを知る 落とし穴方法については、実験を通じて適切なソリューションを選択します。 プロットの展開は非常に自然です。2 つの変数の値を比較したい場合は、t 検定を使用します。 ただし、これは各グループの分散の正規性と等しいという仮定に基づいていることに注意してください。 これらの仮定を取り除くと、ノンパラメトリック検定が得られ、これはサンプルが小さい場合に特に役立ちます。

t 検定の開発により、比較されるグループの数が 2 つ以上の場合に使用される分散分析が可能になりました。 対応するノンパラメトリック手順の開発により、ノンパラメトリック分散分析が得られますが、古典的な分散分析よりも著しく劣ります。

依存性、またはやや尊大な言い方をすれば、接続の密接さの程度を評価するために、ピアソン相関係数が計算されます。 厳密に言えば、その使用には、データが測定されるスケールの種類や関係の非線形性、つまり使用されるノンパラメトリック相関係数、またはいわゆるランク相関係数などに関連する制限があります。 、ランク付けされたデータの場合は、代替としても使用されます。 データが公称スケールで測定されている場合、分割表で表示するのが自然です。分割表では、精度を高めるためにさまざまなバリエーションと調整を加えたピアソンのカイ 2 乗検定が使用されます。

したがって、基本的に、データの詳細に応じて、知っていて使用できるようにする必要がある基準と手順は数種類だけです。 特定の状況でどの基準を適用するかを決定する必要があります。

ノンパラメトリック手法は、サンプル サイズが小さい場合に最も適しています。 大量のデータがある場合 (たとえば、n >100)、ノンパラメトリック統計を使用するのは意味がありません。

サンプル サイズが非常に小さい場合 (たとえば、n = 10 以下)、正規近似を使用するノンパラメトリック検定の有意水準は、大まかな推定値としか考えられません。

独立したグループ間の違い。 平均血圧や白血球数などの平均値に関して比較したい 2 つのサンプル (男性と女性など) がある場合は、独立したサンプルの t 検定を使用できます。

この検定のノンパラメトリック代替法は、Wald-Wolfowitz 級数検定、Mann-Whitney )/n です。ここで、x i - i 番目の値, n - 観測値の数。 変数に負の値またはゼロ (0) が含まれる場合、幾何平均は計算できません。

調和平均

調和平均は、周波数を平均するために使用されることがあります。 調和平均は次の式で計算されます: GS = n/S(1/x i) ここで、GS は調和平均、n は観測値の数、x i は観測値 i の値です。 変数にゼロ (0) が含まれている場合、調和平均は計算できません。

分散と標準偏差

標本分散と標準偏差は、データのばらつき (ばらつき) の尺度として最も一般的に使用されます。 分散は、サンプル平均からの変数値の二乗偏差の合計を n-1 (n ではなく) で割ったものとして計算されます。 標準偏差は、分散推定値の平方根として計算されます。

範囲

変数の範囲は変動性の指標であり、最大値から最小値を引いたものとして計算されます。

四分位範囲

四半期範囲は、定義上、上位 4 分の 1 から下位 4 分の 1 を引いた値 (75% パーセンタイル - 25% パーセンタイル) です。 75% パーセンタイル (上位四分位) は、観測値の 75% が含まれる左側の値であり、25% パーセンタイル (下位四分位) は、観測値の 25% が含まれる左側の値であるため、四分位数はrange は、観測値 (変数値) の 50% を含む中央値の周囲の間隔です。

非対称

歪度は分布の形状の特性です。 歪度の値が負の場合、分布は左に偏ります。 歪度が正の場合、分布は右に偏ります。 標準正規分布の歪度は 0 です。歪度は 3 次モーメントに関連付けられており、次のように定義されます: 歪度 = n × M 3 /[(n-1) × (n-2) × s 3 ]。ここで、M 3 は以下に等しい: (x i -xaverage x) 3、s 3 - 標準偏差の 3 乗、n - 観測値の数。

過剰

尖度は分布の形状の特性、つまりピークの鋭さの尺度です (尖度が 0 の正規分布と比較して)。 通常、通常の分布よりも鋭いピークを持つ分布は正の尖度を持ちます。 ピークが正規分布のピークよりも鋭くない分布は、負の尖度を持ちます。 尖度は 4 番目のモーメントに関連付けられており、次の式で決定されます。

尖度 = /[(n-1) × (n-2) × (n-3) × s 4 ]、M j は次の値に等しくなります: (x-平均 x、s 4 - 標準偏差の 4 乗、n - 観測値の数。