ケンダルの順位相関係数。 ケンダルの順位相関係数 Excel でのケンダルの相関係数

27.10.2021

Kendall の相関係数は、関連するランクがない場合に、変数が 2 つの順序スケールで表される場合に使用されます。 Kendall 係数の計算には、一致と反転の数をカウントすることが含まれます。 前の問題の例を使用してこの手順を考えてみましょう。

問題を解決するためのアルゴリズムは次のとおりです。

    表内のデータを並べ替えます。 8.5 なので、行の 1 つ ( この場合× i) ランク付けされたことが判明しました。 言い換えれば、ペアを並べ替えます ×そして y 正しい順序で、そして テーブルの列 1 と列 2 にデータを入力します。 8.6.

表8.6

×

y

2. 2行目の「順位」を決定します( y私)。 この手順は次の順序で実行されます。

a) ランク付けされていない系列の最初の値「3」を取得します。 ランク数のカウント 下に指定された番号、 もっと比較した値。 そのような値は 9 つあります (数字 6、7、4、9、5、11、8、12、および 10)。 「一致」列に数字 9 を入力します。 次に、その値の数を数えます。 少ない三つ。 そのような値は 2 つあります (ランク 1 と 2)。 「反転」列に数値 2 を入力します。

b) 数値 3 を破棄し (すでに処理済み)、次の値「6」について手順を繰り返します。一致の数は 6 (ランク 7、9、11、8、12、および 10) です。反転数は 4 (ランク 1、2、4、および 5) です。 「一致」列に数字 6 を入力し、「反転」列に数字 4 を入力します。

c) 行の終わりまで同様の手順が繰り返されます。 それぞれの「計算された」値はそれ以上の考慮から除外されることに注意してください (この数値を下回るランクのみが計算されます)。

注記

計算を間違えないように、「ステップ」ごとに一致と反転の合計が 1 ずつ減少することに留意する必要があります。 毎回 1 つの値が考慮から除外されることを考えると、これは理解できます。

3. 一致の合計が計算されます (P)そして反転の和 (問); データは、ケンダル係数 (8.10) の 1 つおよび 3 つの交換可能な式に入力されます。 対応する計算が実行されます。

t (8.10)

私たちの場合:

テーブル内 XIV 付録には、このサンプルの係数の臨界値 τ cr が含まれています。 = 0.45; 0.59。 経験的に得られた値が表に基づいた値と比較されます。

結論

τ = 0.55 > τ cr. = 0.45。 相関関係はレベル 1 で統計的に有意です。

注記:

必要に応じて(たとえば、臨界値の表がない場合)、統計的有意性 t Kendall は次の式で決定できます。

(8.11)

どこ S* = P – Q+1の場合 P< Q 、 そして S* = P – Q – 1 の場合 P>Q。

価値観 z対応する有意水準はピアソン測定に対応しており、対応する表に記載されています (付録には含まれていません。標準有意水準の場合) z kr = 1.96 (β 1 = 0.95 の場合) および 2.58 (β 2 = 0.99 の場合)。 Kendall の相関係数は、次の場合に統計的に有意です。 z > z cr

私たちの場合 S* = P – Q– 1 = 35、および z= 2.40、つまり、最初の結論が確認されます。特性間の相関は、第 1 レベルの有意性に関して統計的に有意です。

順位相関係数非線形関係の一般的な性質を特徴づけます。つまり、階乗属性の増加に伴う結果の属性の増加または減少です。 これは、単調非線形接続の堅さを示す指標です。

サービスの目的。 このオンライン計算機を使用すると、次のように計算できます。 係数 順位相関ケンダルすべての基本公式とその重要性の評価に従っています。

説明書。 データ量(行数)を指定します。 結果として得られたソリューションは Word ファイルに保存されます。

Kendal によって提案された係数は、「more-less」タイプの関係に基づいており、その妥当性はスケールを作成するときに確立されています。
いくつかのオブジェクトを選択し、ある特性と別の特性に従ってそれらのランクを比較してみましょう。 特定の特性のランクが直接順序 (つまり、自然系列の順序) を形成する場合、そのペアには +1 が割り当てられ、その逆の場合は -1 が割り当てられます。 選択したペアについて、対応するプラス単位とマイナス単位 (属性 X および属性 Y による) が乗算されます。 結果は明らかに +1 です。 両方の特徴のペアのランクが同じ順序にある​​場合は -1、逆の順序にある​​場合は -1。
両方の特性の順位がすべてのペアで同じである場合、オブジェクトのすべてのペアに割り当てられる単位の合計は最大となり、ペアの数と等しくなります。 すべてのペアの順位が逆の場合は、 –C 2 N になります。 一般的なケースでは、C 2 N = P + Q です。ここで、P は、両方の基準でランクを比較するときにペアに割り当てられた正のユニットの数、Q は負のユニットの数です。
この値はケンダル係数と呼ばれます。
この式から、係数 τ が、両方の根拠で順序が同じであるオブジェクトのペアの割合 (すべてのペアの数に対する) と、順序が一致しないオブジェクトのペアの割合との差を表すことは明らかです。
たとえば、係数値 0.60 は、ペアの 80% が同じ順序のオブジェクトを持ち、20% がそうでないことを意味します (80% + 20% = 100%; 0.80 – 0.20 = 0.60)。 それらの。 τ は、ランダムに選択されたオブジェクトのペアの両方の特性の次数が一致する確率と一致しない確率の差として解釈できます。
一般的なケースでは、N が 10 程度であっても、τ (より正確には P または Q) の計算は面倒であることがわかります。
計算を簡略化する方法を紹介します。


例。 2003 年のロシア連邦の連邦管区の 10 地域における工業生産量と固定資本投資の関係は、次のデータによって特徴付けられます。


スピアマンとケンダルの順位相関係数を計算します。 α=0.05 での有意性を確認します。 検討中のロシア連邦の地域の工業生産量と固定資本投資との関係について結論を策定する。

解決。 特徴 Y と因子 X にランクを割り当てましょう。


データを X 順に並べ替えてみましょう。
3 の右側の行 Y には 3 より大きいランクが 7 つあるため、3 は P の項 7 を生成します。
1 の右側には、1 より大きい 8 つのランクがあります (これらは 2、4、6、9、5、10、7、8)。 P には 8 などが含まれます。 結果として、P = 37 となり、式を使用すると次のようになります。

×Yランク X、d xランクY、d yPQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


簡略化した式を使用すると、次のようになります。




ここで、n はサンプルサイズです。 z kp は、両側臨界領域の臨界点であり、ラプラス関数の表から等式 Ф(z kp)=(1-α)/2 によって求められます。
|τ| の場合< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - 帰無仮説は棄却されます。 定性的特性間には有意な順位相関があります。
臨界点 z kp を見つけよう
Ф(z kp) = (1-α)/2 = (1 - 0.05)/2 = 0.475

重要な点を見つけてみましょう。

τ > T kp であるため、帰無仮説を棄却します。 2 つのテストのスコア間の順位相関は重要です。

例。 当社が独自に実施した建設および設置工事の量と、ロシア連邦のいずれかの都市にある建設会社 10 社の従業員数に関するデータに基づいて、ケンデル係数を使用してこれらの特性間の関係を決定します。

解決電卓を使って求めます。
特徴 Y と因子 X にランクを割り当てましょう。
X のランクが自然系列を表すようにオブジェクトを配置しましょう。 この系列の各ペアに割り当てられた推定値は正であるため、P に含まれる値「+1」は、Y のランクが直接順序を形成するペアによってのみ生成されます。
これらは、Y 列の各オブジェクトのランクを鋼鉄のオブジェクトと順次比較することで簡単に計算できます。
ケンダル係数.

一般的なケースでは、N が 10 程度であっても、τ (より正確には P または Q) の計算は面倒であることがわかります。 計算を簡略化する方法を紹介します。

または

解決.
データを X 順に並べ替えてみましょう。
2 の右側の行 Y には 2 より大きいランクが 8 つあるため、2 は P に項 8 を生成します。
4 の右側には、4 より大きい 6 ランク (これらは 7、5、6、8、9、10) があります。 Pには6などが含まれます。 結果として、P = 29 となり、式を使用すると次のようになります。

×Yランク X、d xランクY、d yPQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


簡略化した式を使用すると、次のようになります。


競合仮説 H 1: τ ≠ 0 の下で、一般的な Kendall 順位相関係数がゼロに等しいという帰無仮説を有意水準 α で検定するには、臨界点を計算する必要があります。

ここで、n はサンプルサイズです。 z kp は、両側臨界領域の臨界点であり、ラプラス関数の表から等式 Ф(z kp)=(1 - α)/2 によって求められます。
|τ| の場合 T kp - 帰無仮説は棄却されます。 定性的特性間には有意な順位相関があります。
臨界点 z kp を見つけよう
Ф(z kp) = (1 - α)/2 = (1 - 0.05)/2 = 0.475
ラプラス表を使用すると、z kp = 1.96 がわかります。
重要な点を見つけてみましょう。

τ以来

経済的および社会的実践のニーズには、定量的要因だけでなく定性的要因も正確に記録できるプロセスの定量的記述方法の開発が必要です。 定性的特性の値を、その特性の減少(増加)の程度に応じて順序付けまたはランク付けできれば、定性的特性間の関係の近さを評価することが可能です。 「定性的」とは、正確に測定できない特性を意味しますが、オブジェクトを相互に比較できるため、品質の高い順または高い順に並べることができます。 そして、ランク付けスケールにおける測定の実際の内容は、測定される特性の発現の程度に応じてオブジェクトが配置される順序です。

実際の目的では、ランク相関の使用は非常に便利です。 例えば、製品の 2 つの定性的特性の間に高い順位の相関関係が確立されている場合、どちらか一方の特性だけで製品を管理すれば十分であり、コストが削減され、管理が高速化されます。

一例として、多くの企業の商用製品の入手可能性と販売にかかる諸経費との間に関連性が存在することを考えることができます。 10 回の観察を通じて、次の表が得られました。

X の値を昇順に並べ替えて、各値を対応する値に割り当てましょう。 シリアルナンバー(ランク):

したがって、

次の表を作成してみましょう。ここには、ランクを含む観察の結果として得られたペア X と Y が記録されています。

順位の差を次のように表すと、サンプルのスピアマン相関係数を計算する式を書きます。

ここで、n は観測値の数であり、ランクのペアの数でもあります。

スピアマン係数には次の特性があります。

オブジェクトのランクが i のすべての値で一致するという意味で、定性的特性 X と Y の間に完全な直接関係がある場合、サンプルのスピアマン相関係数は 1 に等しくなります。実際、それを式に代入すると、 1を取得します。

ランクがランクに対応するという意味で、定性的特性 X と Y の間に完全な逆関係がある場合、サンプルのスピアマン相関係数は -1 に等しくなります。

確かに、もし

この値をスピアマン相関係数式に代入すると、-1 が得られます。

完全な直線も完全な直線もない場合 フィードバックの場合、サンプルのスピアマン相関係数は -1 と 1 の間にあり、その値が 0 に近づくほど、特性間の関係が小さくなります。

上記の例のデータを使用して、これを行うために P の値を見つけ、その値を含むテーブルを完成させます。

ケンダル相関係数のサンプル。 Kendall 順位相関係数を使用して、2 つの定性的特性間の関係を評価できます。

サイズ n のサンプル内のオブジェクトのランクが次と等しいとします。

特性 X による:

特性 Y による: 。 右に大のランクがあり、右に大のランクがあり、右に大のランクがあると仮定します。 ランクの合計の表記を導入しましょう

同様に、右側にある、より小さいランクの数の合計として表記を導入します。

サンプルの Kendall 相関係数は次のように記述されます。

ここで、n はサンプルサイズです。

Kendall 係数には、Spearman 係数と同じ特性があります。

オブジェクトのランクが i のすべての値で一致するという意味で、定性的特徴 X と Y の間に完全な直接関係がある場合、サンプルの Kendall 相関係数は 1 に等しくなります。実際、右側には n 個あります。 -1 ランク、大きいので、同じ方法で確立します。 それから。 そして、ケンダル係数は次と等しくなります。

ランクがランクに対応するという意味で、定性的特性 X と Y の間に完全な逆関係がある場合、サンプルの Kendall 相関係数は -1 に等しくなります。 右に上位は存在しない、それが理由だ。 同じく。 値 R+=0 を Kendall 係数式に代入すると、-1 が得られます。

サンプルサイズが十分に大きく、順位相関係数の値が 1 に近づかない場合、ほぼ等しくなります。

Kendall 係数は、Spearman 係数よりも保守的な相関推定値を提供しますか? (数値?常により小さい)。 係数を計算しているのに? 係数を計算するよりも労力がかかりません。系列に新しい項が追加された場合、後者の方が再計算が簡単です。

この係数の重要な利点は、偏順位相関係数を決定するために使用できることです。これにより、2 つの順位特性間の「純粋な」関係の程度を評価し、3 番目の順位の影響を排除できます。

順位相関係数の重要性。 サンプルデータから順位相関の強さを決定する場合、次の質問を考慮する必要があります。特定のサンプル順位相関係数が得られた場合、母集団に相関が存在するという結論にどの程度自信を持って信頼できるかです。 言い換えれば、観察された順位相関の重要性は、検討中の 2 つの順位の統計的独立性の仮説に基づいてテストされる必要があります。

サンプルサイズ n が比較的大きい場合、順位相関係数の有意性のチェックは正規分布表 (付録表 1) を使用して実行できます。 スピアマン係数の重要性をテストするには? (n>20 の場合) 値を計算します

ケンダル係数の重要性をテストするには? (n>10 の場合) 値を計算します

ここで、S=R+- R-、n - サンプルサイズ。

次に、有意水準 を設定し、スチューデント分布の臨界点の表から臨界値 tcr(?,k) を決定し、計算値またはそれと比較します。 自由度の数は k = n-2 であると仮定します。 or > tcr の場合、値 or は重要であるとみなされます。

フェヒナー相関係数。

最後に、接続の基本的な近さの度合いを特徴付けるフェヒナー係数について触れておきます。初期情報が少ない場合に接続の存在を確立するために使用することをお勧めします。 その計算の基礎は、各変動系列の算術平均からの偏差の方向を考慮に入れ、2 つの系列のこれらの偏差の符号の一貫性を判断し、それらの間の関係を測定することです。

この係数は次の式で求められます。

ここで、 na は、算術平均からの個々の値の逸脱の兆候の一致数です。 注 - それぞれ、不一致の数。

フェヒナー係数は -1.0 以内で変化する可能性があります<= Кф<= +1,0.

ランク相関の応用面。 すでに述べたように、ランク相関係数は、2 つのランク特性間の関係の定性分析だけでなく、ランクと量的特性の間の関係の強さを決定するためにも使用できます。 この場合、量的特性の値は順序付けされ、対応するランクがそれらに割り当てられます。

2 つの量的特性間の関連性の強さを判断するときに、順位相関係数の計算が推奨される状況も数多くあります。 したがって、それらのいずれか (または両方) の分布が正規分布から大きく外れる場合、サンプル相関係数 r の有意水準の決定は不正確になりますが、ランク係数? そして? 重要度を決定する際には、そのような制限は受けません。

この種の別の状況は、2 つの量的特性間の関係が本質的に非線形 (ただし単調) である場合に発生します。 サンプル内のオブジェクトの数が少ない場合、または研究者にとって接続の兆候が重要な場合、相関関係を使用しますか? ここでは不十分かもしれません。 順位相関係数を計算すると、これらの困難を回避できます。

実践編

タスク 1. 相関分析と回帰分析

問題の記述と形式化:

装置の状態 (故障) と製造された製品の数の多数の観察に基づいて編集された経験的なサンプルが提供されます。 このサンプルは、故障した機器の量と製造された製品の数との関係を暗黙的に特徴づけます。 サンプルの意味によれば、故障した設備の割合が高いほど製造製品が少なくなるため、稼働し続けている設備で製造製品が生産されていることがわかります。 相関-回帰依存性についてサンプルの研究を行う必要があります。つまり、依存性の形式を確立し、回帰関数を評価し (回帰分析)、さらに確率変数間の関係を特定し、その緊密性 (相関関係) を評価する必要があります。分析)。 相関分析の追加タスクは、ある変数の別の変数の回帰式を推定することです。 さらに、30% の設備故障時に生産される製品の数を予測する必要があります。

データ「設備故障率、%」を X、データ「製品数」を Y として指定して、指定されたサンプルを表に形式化してみましょう。

初期データ。 表1

問題の物理的意味から、製造された製品の数 Y は設備の故障率に直接依存すること、つまり、Y の X に対する依存関係があることは明らかです。回帰分析を実行する場合、次の式を見つける必要があります。 X と Y の値を結び付ける数学的関係 (回帰)。この場合、回帰分析では、相関分析とは対照的に、値 X が値 Y の独立変数または因子として機能すると仮定します。従属変数、または有効な属性。 したがって、適切な経済的および数学的モデルを合成する必要があります。 X と Y の値の間の関係を特徴付ける関数 Y = f(X) を決定 (検索、選択) します。これを使用すると、X = 30 での Y の値を予測できます。 この問題の解決策相関回帰分析を使用して実行できます。

相関回帰問題を解決する方法の簡単な概要と、選択した解決方法の正当性。

結果の特性に影響を与える要因の数に基づく回帰分析の方法は、単一要因と多要因に分けられます。 単一因子 - 独立因子の数 = 1、つまり Y = F(X)

多因子 - 因子の数 > 1、つまり

研究対象の従属変数 (結果特徴) の数に基づいて、回帰問題は 1 つの結果特徴を持つ問題と多数の結果特徴を持つ問題に分割することもできます。 一般に、多くの効果的な特性を持つ問題は次のように書くことができます。

相関回帰分析の方法は、形式の近似(近似)依存関係のパラメーターを見つけることにあります。

上記の問題には独立変数が 1 つだけ含まれているため、つまり、結果に影響を与える 1 つの因子のみへの依存性が研究されるため、1 因子依存性の研究、または一対回帰を使用する必要があります。

要素が 1 つだけの場合、依存関係は次のように定義されます。

特定の回帰式を記述する形式は、因子と結果の特性の間の統計的関係を表示する関数の選択によって異なります。これには次のものが含まれます。

線形回帰、次の形式の方程式、

放物線の形の方程式

三次、次の形式の方程式

双曲線の形式の方程式

片対数、次の形式の方程式

指数関数、次の形式の方程式

形式のべき乗方程式。

関数を見つけるには、回帰式のパラメーターを決定し、式自体の信頼性を評価する必要があります。 パラメーターを決定するには、最小二乗法と最小係数法の両方を使用できます。

それらの 1 つ目は、計算された平均 Yi からの Yi の経験値の偏差の二乗の合計が最小限であることを確認することです。

最小係数の方法は、Yi の経験値と計算された平均 Yi の差の係数の合計を最小化することにあります。

この問題を解決するには、最小二乗法を選択します。これは最も単純で、統計的特性の観点から適切な推定値が得られるからです。

最小二乗法を用いて回帰分析の問題を解く技術。

計算値 y から実際の値 y の偏差を推定することで、変数間の関係のタイプ (線形、二次、三次など) を決定できます。

ここで、 は経験値、 は近似関数を使用した計算値です。 さまざまな関数の Si の値を推定し、その中で最小のものを選択することにより、近似関数を選択します。

特定の関数のタイプは、特定の方程式系の解として各関数で見つかる係数を見つけることによって決定されます。

線形回帰、形式の方程式、システム -

放物線、形方程式、系 -

3次、方程式、系 -

システムを解くと、解析関数の特定の式に到達し、それを使用して計算値が得られることがわかります。 次に、偏差 S の大きさの推定値を見つけて最小値を分析するためのデータがすべて揃っています。

線形関係の場合、因子 X と結果の特性 Y の間の関係の近さを相関係数 r の形式で推定します。

インジケーターの平均値。

平均因子値。

y はインジケーターの実験値です。

x は係数の実験値です。

x の標準偏差。

y 単位の標準偏差。

相関係数が r = 0 の場合、特性間の関連性は重要ではないか、存在しないと考えられます。r = 1 の場合、特性間に非常に高度な機能的関連性があると考えられます。

Chaddock テーブルを使用すると、特性間の相関関係の近さを定性的に評価できます。

チャドックテーブル 表2.

非線形依存性の場合、次の依存性から計算される相関比 (0 1) と相関指数 R が決定されます。

ここで、 value は回帰依存関係から計算されたインジケーターの値です。

計算の精度を評価するために、近似の平均相対誤差の値を使用します。

高精度では 0 ~ 12% の範囲になります。

関数依存性の選択を評価するには、決定係数を使用します。

決定係数は、因子と合計分散の間の関係、より正確には全体における因子分散の割合を表すため、関数モデルの適合の質の「一般化された」尺度として使用されます。

相関指数 R の有意性を評価するには、フィッシャーの F 検定が使用されます。 基準の実際の値は次の式で決定されます。

ここで、m は回帰式のパラメーターの数、n は観測値の数です。 この値は、許容される有意水準と自由度の数を考慮して、F 基準テーブルから決定される臨界値と比較されます。 そうであれば、相関指数 R の値は重要であると考えられます。

選択した回帰形式について、回帰式の係数が計算されます。 便宜上、計算結果は次の構造の表に含まれています (通常、列の数とその種類は回帰の種類によって異なります)。

表3

問題を解決します。

経済現象、つまり製品の生産量が機器の故障率に依存することが観察されました。 値のセットが取得されます。

選択した値を表 1 に示します。

与えられたサンプルに基づいて経験的依存性のグラフを構築します (図 1)

グラフの外観に基づいて、分析的な依存関係は一次関数として表すことができると判断します。

ペアの相関係数を計算して、X と Y の関係を評価しましょう。

補助テーブルを作成しましょう。

表4

連立方程式を解いて係数を求め、次のことを行います。

最初の式から値を代入します。

2 番目の方程式に代入すると、次のようになります。

私たちは見つけます

回帰方程式の形が得られます。

9. 見つかった接続の堅さを評価するには、相関係数 r を使用します。

Chaddock 表を使用すると、r = 0.90 の場合、X と Y の関係が非常に高いため、回帰式の信頼性も高いことがわかります。 計算の精度を評価するために、近似の平均相対誤差の値を使用します。

この値は回帰式の信頼性が高いと考えられます。

X と Y 間の線形関係の場合、決定指標は相関係数 r: の 2 乗に等しくなります。 したがって、変動全体の 81% は因子形質 X の変化によって説明されます。

相関指数 R の有意性を評価するには、線形関係の場合、絶対値が相関係数 r に等しいため、フィッシャー F 検定が使用されます。 実際の値は次の式を使用して決定します。

ここで、m は回帰式のパラメーターの数、n は観測値の数です。 つまり、n = 5、m = 2 となります。

受け入れられた有意水準 =0.05 と自由度の数を考慮して、臨界テーブル値を取得します。 相関指数 R の値は重要であると考えられるためです。

X = 30 での Y の予測値を計算してみましょう。

見つかった関数をプロットしてみましょう。

11. 標準偏差の値により相関係数の誤差を求める

そして正規化された偏差の値を決定します

確率が 95% で比率 > 2 から、結果として得られる相関係数の重要性について話すことができます。

問題 2. 線形最適化

オプション 1。

地域開発計画では、総生産量900万トンの3つの油田の稼働を計画している。 最初のフィールドの生産量は少なくとも100万トン、2番目のフィールドでは300万トン、3番目のフィールドでは500万トンです。 このような生産性を達成するには、少なくとも 125 個の井戸を掘削する必要があります。 この計画を実行するために、2,500万ルーブルが割り当てられました。 設備投資(指標 K)と 80 km のパイプ(指標 L)。

各ほ場で計画された生産性を確保するには、最適(最大)の井戸数を決定する必要があります。 タスクの初期データを表に示します。

初期データ

問題文は上に示したとおりです。

問題で指定された条件と制限を形式化してみましょう。 この最適化問題を解く目的は、問題に対する既存の制限を考慮して、各油田の最適な数の油井で石油生産の最大値を見つけることです。

目的関数は、問題の要件に従って次の形式になります。

ここで、 は各フィールドのウェルの数です。

既存のタスク制限:

パイプ敷設長さ:

各フィールドのウェルの数:

1 つの井戸を建設するのにかかる費用:

線形最適化問題は、たとえば次の方法で解決されます。

グラフィカルに

シンプレックス方式

グラフィカル手法の使用は、2 つの変数を使用して線形最適化問題を解く場合にのみ便利です。 変数の数が増えると、代数装置を使用する必要があります。 シンプレックス法と呼ばれる線形最適化問題を解くための一般的な方法を考えてみましょう。

シンプレックス法は、ほとんどの最適化問題を解く際に使用される反復計算の典型的な例です。 私たちは、オペレーションズ リサーチ モデルを使用して問題の解決策を提供する、この種の反復手順を検討します。

シンプレックス法を使用して最適化問題を解くには、未知数 Xi の数が方程式の数よりも大きい必要があります。 方程式系

関係 m を満たしました

A=mに等しい。

行列 A の列を と表し、自由項の列を と表します。

システム (1) の基本解は、システム (1) の解である m 個の未知数のセットです。

シンプレックス法のアルゴリズムを簡単に説明すると、次のようになります。

型の不等式として記述された元の制約<= (=>) は、制約の左側に残差変数を追加する (左側から超過変数を減算する) ことにより、等式として表すことができます。

たとえば、元の制約の左側に

残差変数が導入され、その結果、元の不等式が等式に変わります。

初期制約がパイプの流量を決定する場合、変数はそのリソースの残り、または未使用部分として解釈される必要があります。

目的関数の最大化は、同じ関数を逆の符号で最小化することと同じです。 つまり、私たちの場合は、

同等

シンプレックス テーブルは、次の形式の基本的なソリューション用にコンパイルされます。

この表は、問題を解決した後、これらのセルに基本的な解決策が含まれることを示しています。 - 列を列の 1 つで割った商。 - 解像度列に関連するテーブルセルの値をリセットするための追加の乗数。 - 目的関数の最小値 -Z、 - 未知数の目的関数の係数の値。

値の中から任意の正の値が見つかります。 そうでない場合、問題は解決されたとみなされます。 を含むテーブルの任意の列を選択します。この列は「許可」列と呼ばれます。 解決策列の要素に正の数がない場合、その解の集合に対する目的関数の非有界性のため、問題は解決できません。 [解決策] 列に正の数値がある場合は、手順 5 に進みます。

列には分数が入力されます。分数の分子は列の要素であり、分母は解決する列の対応する要素です。 すべての値のうち最小の値が選択されます。 最小値を生成するラインは「解決」ラインと呼ばれます。 解決行と解決列の交点で解決要素が見つかり、色などの何らかの方法で強調表示されます。

最初のシンプレックス テーブルに基づいて、次のシンプレックス テーブルがコンパイルされます。

行ベクトルを列ベクトルに置き換えます。

有効化文字列は、有効化要素で分割された同じ文字列に置き換えられます。

テーブルの残りの各行は、この行と解決する行の合計に、解決する列のセルで 0 を取得するために特別に選択された追加係数を乗じたもので置き換えられます。

ポイント 4 を新しい表で参照します。

問題を解決します。

問題の定式化に基づいて、次の不等式系が得られます。

と目的関数

追加の変数を導入して、不等式系を方程式系に変換してみましょう。

目的関数を同等のものに縮小してみましょう。

最初のシンプレックス テーブルを構築しましょう。

解像度の列を選択しましょう。 列を計算してみましょう。

テーブルに値を入力します。 それらの最小値 = 10 を使用して、解決文字列を決定します。 解決行と解決列の交点で、解決要素 = 1 が見つかります。テーブルの一部に次のような追加の係数を入力します。解決行にそれらを乗算し、テーブルの残りの行に加算すると、次のようになります。解決列の要素に 0 が含まれています。

2 番目のシンプレックス テーブルを作成しましょう。

その中で解像度列を取得し、値を計算してテーブルに入力します。 少なくとも、解像度ラインが得られます。 解決要素は 1 になります。追加の要素を見つけて列を埋めます。

次のシンプレックス テーブルを作成します。

同様の方法で、列の解決、行の解決、要素の解決 = 2 を見つけます。次のシンプレックス テーブルを構築します。

-Z 行には正の値がないため、このテーブルは有限です。 最初の列は、未知数の望ましい値を示します。 最適な基本ソリューション:

この場合、目的関数の値は -Z = -8000 となり、Zmax = 8000 と同等になります。問題は解決されました。

タスク 3. クラスター分析

問題文:

表に示されているデータに基づいてオブジェクトを分割します。 自分で解決方法を選択し、データ依存関係グラフを構築します。

オプション 1。

初期データ

この種の問題を解決するための方法を検討します。 解決方法の正当性。

クラスター分析の問題は、次の方法を使用して解決されます。

ユニオンまたはツリー クラスタリング手法は、「非類似性」または「オブジェクト間の距離」クラスタの形成に使用されます。 これらの距離は、1 次元または多次元空間で定義できます。

双方向結合は、データが「オブジェクト」や「オブジェクト プロパティ」の観点ではなく、観測値や変数の観点から解釈される状況で (比較的まれに) 使用されます。 観測と変数の両方が同時に意味のあるクラスターの発見に貢献すると期待されます。

K 平均法。 クラスターの数に関する仮説がすでに存在する場合に使用されます。 たとえば、できる限り異なるように 3 つのクラスターを正確に形成するようにシステムに指示できます。 一般に、K 平均法では、相互に可能な限り最大の距離に位置する正確に K 個の異なるクラスターが構築されます。

距離を測定するには次の方法があります。

ユークリッド距離。 これは最も一般的なタイプの距離です。 これは単に多次元空間における幾何学的距離であり、次のように計算されます。

ユークリッド距離 (およびその 2 乗) は、標準化されたデータではなく、元のデータから計算されることに注意してください。

市街区距離 (マンハッタン距離)。 この距離は、単に座標間の差の平均です。 ほとんどの場合、この距離測定では、通常のユークリッド距離と同じ結果が得られます。 ただし、この測定では、個々の大きな差(外れ値)の影響が(二乗されていないため)減少することに注意してください。 マンハッタンの距離は次の式を使用して計算されます。

チェビシェフ距離。 この距離は、2 つのオブジェクトの座標 (次元) が異なる場合に、2 つのオブジェクトを「異なる」ものとして定義したい場合に役立ちます。 チェビシェフ距離は次の式を使用して計算されます。

パワーディスタンス。 場合によっては、対応するオブジェクトが大きく異なる次元に関連する重みを徐々に増加または減少させたい場合があります。 これはべき乗則距離を使用して実現できます。 電力距離は次の式を使用して計算されます。

ここで、r と p はユーザー定義のパラメーターです。 いくつかの計算例で、この測定がどのように「機能」するかを示します。 p パラメータは個々の座標に沿った差の段階的な重み付けを担当し、r パラメータはオブジェクト間の大きな距離の段階的な重み付けを担当します。 パラメータ r と p の両方が 2 に等しい場合、この距離はユークリッド距離と一致します。

不一致の割合。 この尺度は、データがカテゴリカルな場合に使用されます。 この距離は次の式で計算されます。

問題を解決するには、問題の条件と定式化 (オブジェクトの分割) に最もよく適合する統合方法 (ツリー クラスタリング) を選択します。 さらに、参加方法では通信ルールのいくつかのバリエーションを使用できます。

シングルリンク(ニアレストネイバー方式)。 この方法では、2 つのクラスター間の距離は、異なるクラスター内の 2 つの最も近いオブジェクト (最近傍) 間の距離によって決まります。 つまり、2 つのクラスター内の任意の 2 つのオブジェクトは、対応する通信距離よりも互いに近くなります。 このルールは、ある意味、オブジェクトをつなぎ合わせてクラスターを形成する必要があり、結果として得られるクラスターは長い「チェーン」で表される傾向があります。

完全なリンク (最遠近傍法)。 この方法では、クラスター間の距離は、異なるクラスター内の任意の 2 つのオブジェクト間の最大距離 (つまり、「最も遠い隣接オブジェクト」) によって決定されます。

このようなクラスターを結合するには、他にも多くの方法があります (たとえば、重み付けされていないペアごとの結合、重み付けされたペアごとの結合など)。

解決手法技術。 指標の計算。

最初のステップでは、各オブジェクトが個別のクラスターである場合、これらのオブジェクト間の距離は選択した測定値によって決定されます。

この問題ではフィーチャの測定単位が指定されていないため、それらは一致すると仮定されます。 したがって、ソース データを正規化する必要がないため、すぐに距離行列の計算に進みます。

問題を解決します。

初期データに基づいて依存グラフを構築しましょう (図 2)

オブジェクト間の距離として通常のユークリッド距離を採用します。 次に、式に従って次のようになります。

ここで、l は記号です。 k はフィーチャの数で、オブジェクト 1 と 2 の間の距離は次の値に等しくなります。

残りの距離の計算を続けます。

取得した値からテーブルを作成しましょう。

最短距離。 これは、要素 3、6、および 5 を 1 つのクラスターに結合することを意味します。 次の表が得られます。

最短距離。 要素 3、6、5、および 4 が 1 つのクラスターに結合され、2 つのクラスターのテーブルが得られます。

要素 3 と 6 の間の最小距離は等しいです。 これは、要素 3 と要素 6 が 1 つのクラスターに結合されることを意味します。 新しく形成されたクラスターと残りの要素の間の最大距離を選択します。 たとえば、クラスター 1 とクラスター 3.6 の間の距離は max(13.34166, 13.60147)= 13.34166 です。 次のテーブルを作成してみましょう。

この中で、最小距離はクラスター 1 と 2 の間の距離です。1 と 2 を 1 つのクラスターに結合すると、次のようになります。

したがって、「遠い隣接」法を使用して、2 つのクラスター 1,2 と 3,4,5,6 を取得しました。これらの間の距離は 13.60147 です。

問題は解決しました。

アプリケーション。 アプリケーション パッケージを使用した問題の解決 (MS Excel 7.0)

相関分析と回帰分析のタスク。

初期データをテーブルに入力します (図 1)

メニュー「サービス/データ分析」を選択します。 表示されるウィンドウで、「回帰」行を選択します (図 2)。

次のウィンドウで入力間隔をXとYに設定し、信頼度は95%のままにして、出力データを別シート「レポートシート」に配置しましょう(図3)。

計算後、最終的な回帰分析データが「レポート シート」シートに表示されます。

近似関数の散布図、つまり「フィットグラフ」もここに表示されます。


計算された値と偏差は、表の「予測 Y」列と「残差」列にそれぞれ表示されます。

初期データと偏差に基づいて、残差グラフが構築されます。

最適化問題


次のように初期データを入力します。

必要な未知数 X1、X2、X3 をセル C9、D9、E9 にそれぞれ入力します。

X1、X2、X3 の目的関数の係数がそれぞれ C7、D7、E7 に入力されます。

セル B11 に目的関数を式 =C7*C9+D7*D9+E7*E9 として入力します。

既存のタスクの制限

パイプ敷設長さの場合:

セル C5、D5、E5、F5、G5 に入力します

各フィールドのウェルの数:

X3×100; セル C8、D8、E8 に入力します。

井戸1基の建設費:

セル C6、D6、E6、F6、G6 に入力します。

全長を計算する式 C5*C9+D5*D9+E5*E9 がセル B5 に配置され、総コストを計算する式 C6*C9+D6*D9+E6*E9 がセル B6 に配置されます。


メニューで「サービス/ソリューションの検索」を選択し、入力された初期データに従ってソリューションを検索するためのパラメーターを入力します (図 4)。

「パラメータ」ボタンを使用して、解を検索するための次のパラメータを設定します (図 5)。


解決策を検索した後、結果に関するレポートを受け取ります。

Microsoft Excel 8.0e 結果レポート

レポート作成日: 2002 年 11 月 17 日 1:28:30 AM

ターゲットセル(最大)

結果

総生産量

変更可能なセル

結果

ウェル数

ウェル数

ウェル数

制限

意味

長さ

関連している

事業費

接続されていません。

ウェル数

接続されていません。

ウェル数

関連している

ウェル数

関連している

最初の表は、解決される問題の目的関数が配置されるターゲット セルの初期値と最終 (最適) 値を示します。 2 番目の表には、変更可能なセルに含まれる最適化された変数の初期値と最終値が表示されます。 結果レポートの 3 番目の表には、制限事項に関する情報が含まれています。 「値」列には、必要なリソースと最適化された変数の最適値が含まれます。 「式」列には、消費されるリソースと最適化された変数に関する制限が含まれており、このデータを含むセルへのリンクの形式で記述されます。 「ステータス」列は、特定の制限がバインドされているかアンバインドされているかを決定します。 ここで、「限界」とは、厳密な等式の形式で最適解に実装される制限です。 リソース制限の「差異」列は、使用されるリソースのバランスを決定します。 必要なリソースの量とその可用性の差。

同様に、ソリューションの検索結果を「安定性レポート」フォームに記録すると、次の表が得られます。

Microsoft Excel 8.0e 持続可能性レポート

ワークシート: [最適化問題の解決.xls]生産最適化問題の解決

レポート作成日: 2002 年 11 月 17 日 1:35:16 AM

変更可能なセル

許容できる

許容できる

意味

価格

係数

増加

減少

ウェル数

ウェル数

ウェル数

制限

制限

許容できる

許容できる

意味

右側

増加

減少

長さ

事業費

持続可能性レポートには、変更 (最適化) されている変数とモデルの制限に関する情報が含まれています。 指定された情報は、問題の解決の部分で前述した、線形問題の最適化に使用されるシンプレックス法に関連しています。 これにより、結果として得られる最適なソリューションが、モデル パラメーターの変化の可能性に対してどの程度敏感であるかを評価できます。

レポートの最初の部分には、フィールド内のウェルの数の値を含む変更可能なセルに関する情報が含まれています。 「結果値」列は、最適化された変数の最適値を示します。 「対象係数」列には、対象関数の係数値の初期データが含まれます。 次の 2 つの列は、見つかった最適なソリューションを変更せずに、これらの係数をどのように増減できるかを示しています。

持続可能性レポートの 2 番目の部分には、最適化された変数に課せられる制限に関する情報が含まれています。 最初の列は、最適なソリューションのリソース要件を示します。 2 番目には、使用されるリソースの種類のシャドウ価格が含まれます。 最後の 2 つの列には、利用可能なリソースの量の増加または減少の可能性に関するデータが含まれています。

クラスタリングの問題。

問題を解決するための段階的な方法は上に示されています。 以下は、問題解決の進捗状況を示す Excel の表です。

「ニアレストネイバー方式」

クラスター分析の課題を解決する「NEAREST NEIGHBOR METHOD」

初期データ

ここで、x1 は出力のボリュームです。

x2 - 固定資産の年間平均コスト

工業生産資産

「ファーネイバー方式」

クラスター分析の課題を解決する「FAR NEIGHBOR METHOD」

初期データ

ここで、x1 は出力のボリュームです。

x2 - 固定資産の年間平均コスト

工業生産資産

ランク付けする場合、専門家は評価対象の要素を好みの昇順(降順)に並べ、自然数の形式でそれぞれの要素にランクを割り当てる必要があります。 直接ランキングでは、最も優先される要素はランク 1 (場合によっては 0) を持ち、最も優先されない要素はランク m を持ちます。

専門家が、いくつかの要素の優先順位が同じであると考え、厳密なランク付けを実行できない場合は、そのような要素に同じランクを割り当てることが許可されます。 ランクの合計がランク付けされた要素の順位の合計と等しくなるように、いわゆる標準化ランクが使用されます。 標準化されたランクは、優先順位が同じであるランク付けされた系列内の要素の数の算術平均です。

例2.6。専門家は 6 つの項目を次のように優先順位でランク付けしました。

次に、これらの要素の標準化されたランクは次のようになります。

したがって、要素に割り当てられたランクの合計は、自然系列の数値の合計と等しくなります。

項目をランク付けすることで好みを表現する精度は、一連のプレゼンテーションの力に大きく依存します。 ランク付け手順では、評価される要素の数が 10 個以下の場合に、(明らかにされた好みと「真」の近さの度合いという点で) 最も信頼できる結果が得られます。プレゼンテーション セットの最大パワーは 20 を超えてはなりません。

ランキングの処理と分析は、個人の嗜好に基づいてグループの嗜好関係を構築することを目的として実行されます。 この場合、次のタスクを設定できます。 a) 一連のプレゼンテーションの要素に関する 2 人の専門家のランキング間の関係の近さを決定します。 b) 2 つの要素のさまざまな特性に関するグループメンバーの個人的な意見に従って 2 つの要素間の関係を決定する。 c) 3 人以上の専門家からなるグループにおける専門家の意見の一貫性を評価する。

最初の 2 つのケースでは、順位相関係数が接続の近さの尺度として使用されます。 厳密なランキングのみが許可されるか、非厳密なランキングのみが許可されるかに応じて、Kendall または Spearman の順位相関係数が使用されます。

問題 (a) の Kendall の順位相関係数

どこ メートル− 要素の数。 r1i –最初の専門家によって割り当てられたランク −番目の要素。 r2i – 2人目の専門家も同様。

問題 (b) の場合、コンポーネント (2.5) は次の意味を持ちます。 m - 評価される 2 つの要素の特性の数。 r1i(r 2 i) - 専門家のグループによって設定された、最初 (2 番目) の要素のランキングにおける i 番目の特性のランク。

厳密なランキングには順位相関係数が使用されます rスピアマン:


そのコンポーネントは (2.5) と同じ意味を持ちます。

相関係数 (2.5)、(2.6) は -1 から +1 まで変化します。 相関係数が +1 の場合、ランキングが同じであることを意味します。 -1 に等しい場合、- は反対です (ランキングは互いに反対です)。 相関係数がゼロの場合は、ランキングが線形に独立している (相関がない) ことを意味します。

このアプローチでは (専門家はランダムな誤差を伴う「測定者」です)、個々のランキングはランダムであるとみなされるため、結果として得られる相関係数の有意性に関する仮説を統計的に検定するタスクが発生します。 この場合、Neyman-Pearson 基準が使用されます。基準 α の有意水準が設定され、相関係数の分布の法則を知って、しきい値が決定されます。 、相関係数の結果の値が比較されます。 クリティカルエリアは右手系です(実際には、通常、最初に基準値が計算され、そこから有意水準が決定され、しきい値レベルと比較されます) α ).

m > 10 の場合、ケンダルの順位相関係数 τ は次のパラメーターで正規に近い分布になります。

ここで、M [τ] – 数学的期待値。 D [τ] – 分散。

この場合、標準正規分布関数のテーブルが使用されます。

そして臨界領域の境界 τ α は方程式の根として定義されます。

係数の計算値 τ ≥ τ α の場合、ランキングはよく一致していると考えられます。 通常、α の値は 0.01 ~ 0.05 の範囲で選択されます。 t ≤ 10 の場合、t の分布を表に示します。 2.1.

スピアマン係数 ρ を使用した 2 つのランキングの一貫性の重要性のチェックは、m > 10 のスチューデント分布表を使用して同じ順序で実行されます。

この場合の値は

の分布は Student 分布によってよく近似されています。 メートル– 2 つの自由度。 で メートル> 30 では、ρ の分布は通常の分布とよく一致し、M [ρ] = 0 および D [ρ] = になります。

m ≤ 10 の場合、ρ の有意性はテーブルを使用してチェックされます。 2.2.

ランキングが厳密でない場合、スピアマン係数は

ここで、ρ – は (2.6) に従って計算されます。

ここで、k 1 、k 2 は、それぞれ第 1 位と第 2 位の非厳密ランクの異なるグループの数です。 i は同じランクの数です。 番目のグループ。 実際に順位相関係数 ρ Spearman および τ Kendall を使用する場合、最小分散という意味では係数 ρ の方がより正確な結果が得られることに留意する必要があります。

表2.1。ケンダルの順位相関係数分布

正規性の仮定に基づく検定の使用を制限する要因の 1 つはサンプル サイズです。 標本が十分に大きい限り (たとえば、観測値が 100 以上)、母集団内の変数の分布が正規であるかどうかわからない場合でも、標本分布は正規であると仮定できます。 ただし、サンプルが小さい場合、変数が実際に正規分布を持っていると確信できる場合にのみ、これらの検定を使用する必要があります。 ただし、この仮定を小さなサンプルでテストする方法はありません。

正規性の仮定に基づく基準の使用は、測定スケールによっても制限されます (「データ分析の基本概念」の章を参照)。 そのような 統計的手法、t 検定、回帰などのように、元のデータが連続していることを前提としています。 ただし、データが正確に測定されるのではなく、単にランク付けされる (順序尺度で測定される) 場合があります。

典型的な例は、インターネット上のサイトの評価です。1 位は訪問者数が最大のサイトであり、2 位は残りのサイトの中で訪問者数が最大のサイトです。評価が分かれば、あるサイトへの訪問者数が別のサイトへの訪問者数よりも多いと言えますが、それ以上のことは言えません。 A、B、C、D、E の 5 つのサイトがあり、上位 5 位にランク付けされているとします。 当月は A、B、C、D、E という配置で、前月は D、E、A、B、C だったとします。問題は、ランキングに大きな変化があったかどうかです。サイトの有無? この状況では、明らかに、t 検定を使用してこれら 2 つのデータ グループを比較することはできず、特定の確率計算の分野に進みます (そして、統計検定には確率計算が含まれます!)。 我々はおよそ次のように推論します: 2 つのサイト配置の違いが純粋にランダムな理由によるものである可能性はどのくらいあるのか、それともこの違いが大きすぎて純粋な偶然では説明できないのか。 これらの議論では、サイトのランクまたは順列のみを使用し、サイトへの訪問者数の特定の種類の分布は決して使用しません。

ノンパラメトリック手法は、小さなサンプルや不十分なスケールで測定されたデータを分析するために使用されます。

ノンパラメトリック手続きの概要

基本的に、各パラメトリック基準には次のようなものがあります。 少なくとも、ノンパラメトリックな代替案の 1 つ。

一般に、これらの手順は次のカテゴリのいずれかに分類されます。

  • 独立したサンプルの差分テスト。
  • 依存サンプルの差分テスト。
  • 変数間の依存度の評価。

一般に、データ分析における統計的基準へのアプローチは実用的であるべきであり、不必要な理論的推論を負担すべきではありません。 STATISTICA を実行しているコンピューターを使用すると、複数の基準をデータに簡単に適用できます。 いくつかのことを知る 落とし穴方法については、実験を通じて適切なソリューションを選択します。 プロットの展開は非常に自然です。2 つの変数の値を比較したい場合は、t 検定を使用します。 ただし、これは各グループの分散の正規性と等しいという仮定に基づいていることに注意してください。 これらの仮定を取り除くと、ノンパラメトリック検定が得られ、これはサンプルが小さい場合に特に役立ちます。

t 検定の開発により、比較されるグループの数が 2 つ以上の場合に使用される分散分析が可能になりました。 対応するノンパラメトリック手順の開発により、ノンパラメトリック分散分析が得られますが、古典的な分散分析よりも著しく劣ります。

依存性、またはやや尊大な言い方をすれば、接続の密接さの程度を評価するために、ピアソン相関係数が計算されます。 厳密に言えば、その使用には、データが測定されるスケールの種類や関係の非線形性、つまり使用されるノンパラメトリック相関係数、またはいわゆるランク相関係数などに関連する制限があります。 、ランク付けされたデータの場合は、代替としても使用されます。 データが公称スケールで測定されている場合、分割表で表示するのが自然です。分割表では、精度を高めるためにさまざまなバリエーションと調整を加えたピアソンのカイ 2 乗検定が使用されます。

したがって、基本的に、データの詳細に応じて、知っていて使用できるようにする必要がある基準と手順は数種類だけです。 特定の状況でどの基準を適用するかを決定する必要があります。

ノンパラメトリック手法は、サンプル サイズが小さい場合に最も適しています。 大量のデータがある場合 (たとえば、n >100)、ノンパラメトリック統計を使用するのは意味がありません。

サンプル サイズが非常に小さい場合 (たとえば、n = 10 以下)、正規近似を使用するノンパラメトリック検定の有意水準は、大まかな推定値としか考えられません。

独立したグループ間の違い。 平均血圧や白血球数などの平均値に関して比較したい 2 つのサンプル (男性と女性など) がある場合は、独立したサンプルの t 検定を使用できます。

この検定のノンパラメトリック代替法は、Wald-Wolfowitz 級数検定、Mann-Whitney )/n です。ここで、x i - i 番目の値, n - 観測値の数。 変数に負の値またはゼロ (0) が含まれる場合、幾何平均は計算できません。

調和平均

調和平均は、周波数を平均するために使用されることがあります。 調和平均は次の式で計算されます: GS = n/S(1/x i) ここで、GS は調和平均、n は観測値の数、x i は観測値 i の値です。 変数にゼロ (0) が含まれている場合、調和平均は計算できません。

分散と標準偏差

標本分散と標準偏差は、データのばらつき (ばらつき) の尺度として最も一般的に使用されます。 分散は、サンプル平均からの変数値の二乗偏差の合計を n-1 (n ではなく) で割ったものとして計算されます。 標準偏差は、分散推定値の平方根として計算されます。

範囲

変数の範囲は変動性の指標であり、最大値から最小値を引いたものとして計算されます。

四分位範囲

四半期範囲は、定義上、上位 4 分の 1 から下位 4 分の 1 を引いた値 (75% パーセンタイル - 25% パーセンタイル) です。 75% パーセンタイル (上位四分位) は、観測値の 75% が含まれる左側の値であり、25% パーセンタイル (下位四分位) は、観測値の 25% が含まれる左側の値であるため、四分位数はrange は、観測値 (変数値) の 50% を含む中央値の周囲の間隔です。

非対称

歪度は分布の形状の特性です。 歪度の値が負の場合、分布は左に偏ります。 歪度が正の場合、分布は右に偏ります。 標準正規分布の歪度は 0 です。歪度は 3 次モーメントに関連付けられており、次のように定義されます: 歪度 = n × M 3 /[(n-1) × (n-2) × s 3 ]。ここで、M 3 は以下に等しい: (x i -xaverage x) 3、s 3 - 標準偏差の 3 乗、n - 観測値の数。

過剰

尖度は分布の形状の特性、つまりピークの鋭さの尺度です (尖度が 0 の正規分布と比較して)。 通常、通常の分布よりも鋭いピークを持つ分布は正の尖度を持ちます。 ピークが正規分布のピークよりも鋭くない分布は、負の尖度を持ちます。 尖度は 4 番目のモーメントに関連付けられており、次の式で決定されます。

尖度 = /[(n-1) × (n-2) × (n-3) × s 4 ]、M j は次の値に等しくなります: (x-平均 x、s 4 - 標準偏差の 4 乗、n - 観測値の数。