Parametrické a neparametrické metódy testovania štatistických hypotéz.

V modernom výskume pedagogických problémov sa široko využívajú metódy matematického spracovania údajov. Metódy spracovania kvantitatívnych údajov zahŕňajú štatistické techniky na zhrnutie výsledkov štúdie, identifikáciu určitých súvislostí medzi nimi a testovanie spoľahlivosti predloženej hypotézy.

Matematické spracovanie výsledkov výskumu zabezpečuje ich dôkaznosť a reprezentatívnosť. V kombinácii s kvalitatívnymi ukazovateľmi kvantitatívne spracovanie údajov výrazne zvyšuje objektivitu štúdie. Štatistické spracovanie výsledkov, zaznamenávajúce štúdium jednotlivých javov, umožňuje robiť zovšeobecnenia a závery týkajúce sa celého súboru skúmaných javov. Dôležitým znakom využitia štatistických metód v pedagogickom výskume je, že umožňuje využiť kvantitatívne štúdium aj tam, kde nie je možné určiť samotné vlastnosti skúmaných objektov. Napríklad nie je možné priamo merať úroveň rozvoja morálnych kvalít žiakov, mieru účinnosti konkrétnej vyučovacej metódy a pod. Ale zaznamenávaním relevantných udalostí, činov, prejavov je možné získať určité kvalitatívne charakteristiky všetky tieto znaky, určiť možné vzorce ich prejavu a potvrdiť správnosť vyslovených hypotéz.

V štatistike sa testovanie hypotéz vykonáva pomocou kritérií na statické posúdenie rozdielov. Štatistické kritérium je rozhodujúcim pravidlom, ktoré zabezpečuje spoľahlivé správanie, t.j. prijatie pravdivej hypotézy a odmietnutie falošnej s vysokou pravdepodobnosťou (G.V. Suchodolskij). Štatistické kritériá označujú aj spôsob výpočtu určitého čísla a samotného čísla.

Štatistické kritériá používané v pedagogike sa delia na parametrické a neparametrické. Parametrické kritériá zahŕňajú kritériá, ktoré zahŕňajú distribučné parametre vo výpočtovom vzorci, t.j. priemer a rozptyl (Student, Fisher, Chí-kvadrát test). Neparametrické kritériá zahŕňajú tie, ktoré sú založené na práci s frekvenciami alebo pozíciami a nezahŕňajú distribučné parametre do vzorca na výpočet distribučných parametrov (znakové testy, Kolmogorov-Smirnov, Wilcoxon, Mann-Whitney). Obe skupiny kritérií majú svoje výhody a nevýhody. Porovnávací popis schopností a obmedzení parametrických a neparametrických kritérií je uvedený v nasledujúcej tabuľke.



Parametrické kritériá Neparametrické testy
Umožňuje priame posúdenie rozdielov v priemeroch získaných v dvoch vzorkách (Studentov t test) Umožňuje vyhodnotiť iba priemerné trendy (napríklad odpovedať na otázku, či vyššie hodnoty charakteristiky sú bežnejšie vo vzorke A a nižšie hodnoty charakteristiky sa nachádzajú vo vzorke B (kritériá Q, U atď.) .)
Umožňuje priame posúdenie rozdielov v rozptyloch (Fisherov test) Umožňuje hodnotiť iba rozdiely v rozsahoch variability vlastnosti
Umožňuje identifikovať trendy v zmenách znaku pri prechode z podmienky do stavu (jednorozmerná analýza rozptylu), ale iba za podmienky normálneho rozloženia znaku Umožňuje identifikovať trendy zmien v charakteristike pri prechode z podmienky do podmienky pre akékoľvek rozloženie charakteristiky (kritériá pre trendy L a S)
Umožňuje vyhodnotiť interakciu dvoch alebo viacerých faktorov pri ich vplyve na zmeny vlastnosti (dvojfaktorová analýza rozptylu) Táto možnosť nie je dostupná
Experimentálne údaje musia spĺňať dve a niekedy tri podmienky: a) hodnoty charakteristiky sa merajú na intervalovej stupnici; b) rozdelenie charakteristiky je normálne; c) pri analýze rozptylu musí byť splnená požiadavka rovnosti rozptylov v bunkách komplexu Experimentálne údaje nemusia spĺňať žiadnu z podmienok: a) hodnoty atribútov môžu byť prezentované v akejkoľvek škále, počnúc stupnicou mien; b) rozdelenie charakteristiky môže byť ľubovoľné a jej zhoda s akýmkoľvek teoretickým zákonom rozdelenia nie je potrebná a nie je potrebné ju overovať; c) neexistuje požiadavka na rovnosť rozptylov
Ak sú splnené špecifikované podmienky, parametrické kritériá sú výkonnejšie v porovnaní s neparametrickými kritériami Ak nie sú splnené špecifikované podmienky, neparametrické kritériá sú spoľahlivejšie, pretože sú menej citlivé na „upchatie“
Matematika je dosť komplikovaná Matematické výpočty sú väčšinou jednoduché a zaberú málo času

Parametrické metódy

Študentov t test

Na porovnanie priemerných hodnôt vzorky patriacich do dvoch súborov údajov a na rozhodnutie, či sa priemerné hodnoty od seba štatisticky významne líšia v psychologických a pedagogických experimentoch, často používajú t- Študentské kritérium, ktorého vypočítaná hodnota je určená vzorcom:

,

kde je priemerná hodnota vzorky premennej pre jednu vzorku údajov; -priemerná hodnota vzorky na základe inej vzorky údajov; m 1 A m 2 - integrované ukazovatele odchýlok čiastkových hodnôt z dvoch vzoriek od im zodpovedajúcich priemerných hodnôt.

Ak t je výpočet väčší alebo rovný tabuľke, potom dospejú k záveru, že porovnávané priemerné hodnoty z dvoch vzoriek sú skutočne štatisticky významne odlišné s pravdepodobnosťou prijateľnej chyby.

Táto technika sa používa, keď je potrebné zistiť, či bol experiment úspešný alebo neúspešný, či mal alebo nemal vplyv na úroveň kvality, ktorú mal zmeniť.

Ak t odhaduje menej t tabuľkovo, potom v tomto prípade neexistuje žiadny presvedčivý dôvod, že experiment bol úspešný, aj keď samotné priemerné hodnoty na začiatku a na konci experimentu sa líšia v absolútnych hodnotách.

Kritériumφ* - Uhlová Fisherova transformácia

Táto metóda je opísaná v mnohých príručkách (Plokhinsky N.A., 1970; Gubler E.V., 1978; Ivanter E.V., Korosov A.V., 1992 atď.) Tento opis je založený na verzii metódy, ktorú vyvinul a prezentoval E.V. Gubler.

Fisherov test je určený na porovnanie dvoch vzoriek podľa frekvencie výskytu účinku, ktorý je pre výskumníka zaujímavý. Kritérium hodnotí spoľahlivosť rozdielov medzi percentami dvoch vzoriek, v ktorých bol zaznamenaný efekt zaujímavý pre výskumníka.

Podstatou Fisherovej uhlovej transformácie je previesť percentá na hodnoty stredového uhla, ktoré sa merajú v radiánoch. Väčšie percento bude zodpovedať väčšiemu uhlu φ a menšie percento bude zodpovedať menšiemu uhlu, ale vzťahy tu nie sú lineárne:

φ = 2 arcsin(),

kde je percento vyjadrené v zlomkoch jednotky.

So zvyšujúcim sa rozdielom medzi uhlami φ 1 a φ 2 a zvyšovaním počtu vzoriek sa zvyšuje hodnota kritéria. Čím väčšia je hodnota φ*, tým je pravdepodobnejšie, že rozdiely sú významné.

Všetky parametrické metódy štatistiky pracujú s intervalovou stupnicou, na rozdiel od neparametrických metód, ktoré sa zameriavajú predovšetkým na prvé dve stupnice. Poďme vysvetliť rozdiely medzi týmito metódami.

Pri zvažovaní väčšiny štatistických metód sa predpokladá, že príslušné pozorovania sú vyjadrené na intervalovej škále a sú realizáciou náhodnej premennej, ktorej rozdelenie patrí do nejakej parametrickej rodiny rozdelení. Napríklad náhodná premenná má normálne alebo Poissonovo alebo iné rozdelenie. To znamená, že predpokladáme, že tvar rozloženia je známy, napríklad môžeme predpokladať, že je normálny N (μ, δ ) model, ale s neznámymi parametrami μ A δ . Metódy odhadovania a testovania hypotéz nám umožňujú vyvodzovať závery o neznámych parametroch a hodnota akýchkoľvek záverov musí do určitej miery závisieť od primeranosti počiatočného predpokladu o parametrickej rodine, teda o tvare rozdelenia. Existujú však náhodné premenné, ktoré nesledujú jednu z bežných distribučných foriem. V dôsledku toho na ne nemožno aplikovať matematické metódy vyvinuté pre parametrické rozdelenia. Preto boli vyvinuté špeciálne matematické modely pre také charakteristiky, ktoré sa nazývajú neparametrické alebo distribučné.

Možno teda rozlíšiť dve skupiny štatistických metód: parametrické a neparametrické.

Výhodou parametrických metód je, že na ne existuje dobre vyvinutý matematický aparát. Použitie týchto metód si však okrem iného vyžaduje veľkú veľkosť vzorky. Pre kvantitatívne charakteristiky sa používajú parametrické metódy.

Na analýzu nominálnych a poradových premenných sa používajú iba neparametrické metódy, ktoré nevyžadujú predbežné predpoklady o type pôvodného rozdelenia. Toto je ich dôstojnosť. No je tu aj nevýhoda – pokles tzv. moc (citlivosť na rozdiely v objektoch). Poďme si to vysvetliť.

Pripomeňme, že pred začatím analýzy výsledkov experimentu výskumník predkladá dve vzájomne sa vylučujúce hypotézy. Jednou z nich je štatistická hypotéza, ktorú výskumník zvyčajne očakáva, že ju zamietne (takzvaná nulová hypotéza H 0: napríklad študované odrody sa nelíšia úrodou). Alternatívna hypotéza ( H 1) v skutočnosti odmieta nulovú hypotézu. Alternatívna hypotéza zvyčajne obsahuje predpoklady výskumníka (existujú rozdiely).

V analýze existujú dva typy štatistických chýb. Chyba prvého typu (chyba α – typ): nulová hypotéza, ktorá je v skutočnosti pravdivá, sa zamieta. Chyba druhého typu (chyba β – typ): prijímame nulovú hypotézu, ktorá je vlastne nepravdivá.

Sila alebo citlivosť štatistického kritéria (metódy) je pravdepodobnosť, že výsledkom jeho aplikácie bude správne rozhodnutie ( H 1) za skutočne falošnej nulovej hypotézy. Sila testu závisí od veľkosti vzorky, úrovne významnosti, smerovania nulových a alternatívnych hypotéz, spoľahlivosti experimentálnych údajov, nástrojov a samotnej štatistickej metódy. Za rovnakých podmienok sú parametrické metódy výkonnejšie ako neparametrické. Sila neparametrických metód sa však zvyšuje so zvyšujúcou sa veľkosťou vzorky.

Každý typ stupnice má svoju vlastnú štatistickú techniku. Pre nominálne stupnice sa často používa test χ 2 (chí-kvadrát). Pre poradové stupnice – štatistika poradia. Pre intervalové váhy - celý arzenál štatistických kritérií.

Algoritmy a príklady výpočtu neparametrických kritérií.

Štatistické stupnice

Štatistické spracovanie výskumných údajov

Štatistické údaje sa používajú pri spracovaní psychologických výskumných materiálov s cieľom vyťažiť z kvantitatívnych údajov získaných v experimente čo najviac užitočných informácií.

O použití určitých štatistických metód rozhoduje, do akej štatistickej škály získaný materiál patrí.

Menná stupnica. Táto mierka zahŕňa materiály, v ktorých sa skúmané predmety navzájom líšia svojou kvalitou a poradie nie je dôležité. Napríklad rozdelenie účastníkov konferencie. Pri štatistickom spracovaní takýchto materiálov treba brať do úvahy počet jednotiek, ktorými je každý objekt reprezentovaný.

Objednávková stupnica. V centre pozornosti je poradie objektov. Táto škála v štatistike zahŕňa také výskumné materiály, v ktorých sa považujú predmety, ktoré patria do jednej alebo viacerých tried, ale líšia sa pri porovnaní medzi sebou: viac - menej, vyššie - nižšie atď.

Najjednoduchší spôsob, ako ukázať typické znaky poradovej stupnice, je pozrieť sa na výsledky akejkoľvek športovej súťaže. Postupne uvádzajú účastníkov, ktorí sa umiestnili na prvom, druhom, treťom a ďalších.

v poradí podľa miesta a informácie o skutočných úspechoch športovcov ustupujú do pozadia alebo chýbajú.

Intervalová stupnica. To zahŕňa materiály, ktoré poskytujú kvantitatívne hodnotenie skúmaného objektu v pevných jednotkách. Materiály zodpovedajúce intervalovej stupnici musia mať mernú jednotku, ktorá je rovnaká pre všetky opakované merania.

Vzťahová škála. Táto stupnica zahŕňa materiály, ktoré zohľadňujú nielen počet pevných jednotiek , ako v intervalovej škále, ale aj vzťah výsledných celkových výsledkov k sebe navzájom. Ak chcete pracovať s takýmito vzťahmi, musíte mať nejaký absolútny bod, od ktorého sa dá počítať.

Ak sa údaje, ktoré má výskumník k dispozícii, po dôkladnom preskúmaní len mierne odchyľujú od krivky Gaussovho normálneho rozdelenia, dáva výskumníkovi právo použiť pri štatistickom spracovaní parametrické metódy, ktorých východiskové body sú založené na krivke normálneho rozdelenia Gaussovho rozdelenia. . Normálne rozdelenie sa nazýva parametrické, pretože na zostrojenie a analýzu Gaussovej krivky stačí mať len dva parametre: aritmetický priemer, ktorého hodnota musí zodpovedať výške kolmice obnovenej v strede krivky a tzv. -tzv. odmocnina alebo štandardná odchýlka, hodnota, ktorá charakterizuje rozsah oscilácií tejto krivky.

Ak nie je možné použiť parametrické metódy, mali by ste sa obrátiť na neparametrické metódy.

Otázky o neparametrických testoch.

Štatistické kritérium je rozhodujúcim pravidlom, ktoré zabezpečuje prijatie pravdivej hypotézy a zamietnutie nesprávnej hypotézy s vysokou pravdepodobnosťou.Štatistické kritérium je zároveň metódou na výpočet určitého čísla a tohto čísla samotného.

Parametrické kritériá sa používajú v prípade, keď je vzorka normálna a výpočet v týchto kritériách zahŕňa znaky rozdelenia pravdepodobnosti charakteristiky, teda priemer a rozptyl. To predpokladá, že údaje sú nepretržité. Medzi parametrické testy patria: Studentov t-test, chí-kvadrát test. Vhodné pre intervalové pomerové váhy.

Neparametrické kritériá sa používajú vtedy, keď nie je možné hovoriť o normálnom rozdelení; kritériá sú založené na práci s hodnotami alebo frekvenciami. Medzi neparametrické patrí znamienkový test, Wilcoxonov test, Mann-Whitney test, Jonckheere test. Vhodné pre váhy slabšie ako intervalové.

Pred výberom kritéria musíme skontrolovať normalitu vzorky.

Nemám tušenie, čo napísať o mierach priemeru a mierach rozptylu, pretože zjavne existujú rovnaké pojmy rozptylu a bla bla iné veci *_*

2. Metódy testovania štatistických hypotéz: t-test, Wilcoxonov test, Mann-Whitney test, Kruskal-Wallace test (podmienky aplikácie, formulácia hypotéz, rozdelenie štatistík, myšlienka výpočtu)

t-test (Student) – používa sa, ak je vzorka normálna. Hypotézy sú formulované takto:

1. H0 je formulovaná

2. Formuluje sa H1, alternatíva k H0 (zvyčajne označuje interakciu znakov).

3. Vyberte štatistiku a vyberte si z dvoch hypotéz

4. Pre každú hladinu významnosti α je stanovená kritická oblasť, kde a) ak výsledok spadá do tejto oblasti, označuje H1 a nie H0, b) pravdepodobnosť, že výsledok spadne do tejto oblasti, ak je H0 pravdivá, sa rovná α.

Pravdepodobnosť prijateľnej chyby prvého typu je α = 0,05, ak je hodnota kritéria v našej vzorke väčšia ako t 0,05, potom prijmeme hypotézu H0 a zamietneme hypotézu H1.

Pre jednu vzorku

Pre nezávislé vzorky.

Wilcoxonov podpísaný poradový test - nezohľadňuje hodnoty čísel vo vzorke, ale iba ich znamienka. Kritérium zohľadňuje absolútne hodnoty členov vzorky. Používa sa, keď vzorka nemusí byť normálna a keď sa chcete rozhodnúť, či má vzorka priemer výrazne odlišný od nuly. Na použitie potrebujete:

1) Nastavte hladinu významnosti α a nájdite zodpovedajúci nižší Wilcoxonov kvantil.


2) Usporiadajte všetkých členov vzorky vo vzostupnom poradí absolútnej hodnoty, podpíšte poradie pod nimi.

3) Vypočítajte Wilcoxonovu štatistiku výpočtom súčtu hodnotení priradených negatívnym členom vzorky.

4) Porovnajte získané štatistiky s predtým zisteným kvantilom. Ak je tento súčet poradí menší ako dolný kvantil, zamietneme hypotézu H0 a prijmeme hypotézu H1. Podobne, ak je súčet poradí všetkých pozitívnych členov vzorky väčší ako horný kvantil, akceptujeme H1 a zamietneme H0.

Mann-Whitney test (U) je test pre nezávislé vzorky, analóg Studentovho t-testu. Jeho empirická hodnota ukazuje, do akej miery sa tieto dve série hodnôt atribútov zhodujú. Používa sa, keď vzorka nemusí byť normálna, je zachovaná len požiadavka podobnosti rozdelení, ale nemusia byť normálne + keď je potrebné riešiť úlohu, dá sa to tvrdiť. Že priemer experimentálnej vzorky je výrazne vyšší ako priemer kontrolnej skupiny.

1) Zapisujeme členy oboch vzoriek vo vzostupnom poradí, pričom členy rôznych vzoriek zvýrazníme rôznymi spôsobmi.

2) Pre každé číslo v prvej (kontrolnej) vzorke spočítajte, koľko čísel v druhej (experimentálnej) vzorke sa nachádza naľavo od nej. Ak sa číslo prvej vzorky rovná číslu druhej, pridajte 0,5. Dostaneme sekvenčný výsledok a spočítame ho.

3) Pozeráme sa na spodný kvantil podľa Mann-Whitneyho na nami zvolenej hladine významnosti. Ak je suma, ktorú dostaneme, menšia ako dolný kvantil, potom zamietneme hypotézu H0 a prijmeme hypotézu H1.

Mann-Whitneyho rozdelenie je symetrické (to znamená, že ho možno vypočítať inverzne a použiť horný kvantil).

Kruskal-Wallace test je neparametrický analóg jednosmernej analýzy rozptylu pre nezávislé vzorky. Podobne ako Mann-Whitney test. Hodnotí stupeň zhody niekoľkých sérií hodnôt zmenenej charakteristiky. Hlavnou myšlienkou je reprezentovať všetky hodnoty porovnávaných vzoriek ako spoločnú postupnosť hodnotených hodnôt, po ktorých nasleduje výpočet priemerného hodnotenia pre každú vzorku.

Vypočítané po hodnotení.

N je celkový počet všetkých vzoriek.

k – počet porovnávaných vzoriek.

R i je súčet hodnotení pre konkrétnu vzorku.

n i – veľkosť vzorky i.

Čím sú vzorky rozdielnejšie, tým väčšia je výpočtová hodnota H a tým nižšia je p-hladina významnosti. Ak sa nulová štatistická hypotéza zamietne, prijme sa alternatívna hypotéza týkajúca sa štatisticky významných rozdielov pre túto charakteristiku bez určenia smeru rozdielov. (Mann-Whitney test je potrebný pre smerovanie, pretože je pre dve vzorky a tento je pre viac ako dve).

2.1. Základné pojmy

Parametrické metódy spracovania experimentálnych údajov vychádzajú zo základnej skutočnosti, podľa ktorej vlastnosti výsledkov experimentálnych štúdií, považovaných za náhodné objekty, popisuje nejaký distribučný zákon. Predpokladá sa, že analýza experimentálnych údajov umožňuje s dostatočnou presnosťou určiť typ a konkrétnu formu distribučného zákona alebo hodnoty jeho parametrov, ak nie je potrebné použiť samotný zákon. Takéto informácie umožňujú plne využiť metódy teórie pravdepodobnosti na riešenie problémov spracovania.

Keďže skutočný zákon rozdelenia a hodnoty jeho parametrov nie sú známe, parametrické metódy pracujú s ich aproximáciami – zákonmi štatistického rozdelenia a odhadmi parametrov rozdelenia.

Štatistický zákon rozdelenia náhodnej premennej sa nazýva zákon rozdelenia danej veličiny, stanovený pomocou štatistických metód spracovania údajov.

Zákon štatistického rozdelenia možno definovať ako funkciu štatistického rozdelenia, hustotu štatistického rozdelenia alebo rad štatistického rozdelenia P * (x i), .

Štatistické odhady parametrov distribučného zákona náhodnej veličiny sú približné hodnoty týchto parametrov (štatistiky), získané pomocou štatistických metód spracovania údajov.

V nasledujúcom texte sa štatistické odhady pre stručnosť nazývajú jednoducho odhady.

Ak je nejaký distribučný zákon charakterizovaný parametrami a 1 , a 2 ,…, a m, potom budú ich odhady označené v tvare , ,…,. Najbežnejšími typmi parametrov distribučných zákonov pri spracovaní experimentálnych údajov sú matematické očakávania, disperzia alebo smerodajná odchýlka a pre systém náhodných veličín - korelačný moment alebo korelačný koeficient. Niekedy sa používajú centrálne momenty tretieho a štvrtého rádu. Preto sa pri spracovaní údajov používajú ich štatistické analógy - odhady matematického očakávania, korelačného momentu atď.

Ak teda existuje súbor experimentálnych údajov X 1 , X 2 ,…, x n, potom zákon štatistického rozdelenia, napríklad funkcia, aj odhady jej parametrov predstavujú niektoré funkcie týchto údajov:

, . (2.1.2)

Typ štatistiky y a f j určuje kvalitu hodnotení a . V tejto súvislosti vzniká množstvo problémov, z ktorých hlavným je problém určenia podmienok, za ktorých môžu odhady (2.1.1) a (2.1.2) reprezentovať teoretické zákony rozdelenia a ich parametre s požadovanou spoľahlivosťou. Tieto podmienky sa vytvárajú limitné vety teória pravdepodobnosti. Slúžia ako základ parametrických metód spracovania experimentálnych dát, na základe ktorých možno získať vhodné odhady zákonitostí a parametrov rozloženia pozorovaných charakteristík.

Druhým problémom je výber dostatočné štatistiky, t.j. také štatistiky, ktoré umožňujú za špecifických podmienok získať odhady danej kvality. Pretože na základe výsledkov pozorovania X 1 , X 2 ,…, x n možno vytvoriť široké spektrum štatistík (2.1.1) a (2.1.2), pričom tento problém spočíva v tom, vybrať z nich štatistiky, ktoré sú v určitom zmysle optimálne. Problém je riešený pomocou metód teórie štatistického rozhodovania.

Ako je zrejmé z obr. 1.1, problémom rozhodovania pri spracovaní experimentálnych údajov nie je len problém výberu dostatočnej štatistiky. Väčšinu úloh spracovania údajov možno v rôznej miere klasifikovať ako úlohy rozhodovania. V súvislosti s tým sú základom parametrických metód spracovania aj princípy štatistického rozhodovania, na základe ktorých sa formujú kritériá rozhodovania, ktoré sú v určitom zmysle optimálne. Osobitnú úlohu medzi týmito princípmi zohráva princíp maximálnej pravdepodobnosti a metóda najmenších štvorcov, ktoré z neho vyplývajú pre prípad normálneho distribučného zákona.

Táto brožúra sa zaoberá problematikou parametrického spracovania experimentálnych údajov.

2.2. Limitné vety teórie pravdepodobnosti

Použitie parametrických metód spracovania údajov zahŕňa identifikáciu podmienok, ktoré určujú platnosť apriórnych predpokladov o forme distribučného zákona skúmanej náhodnej premennej a vlastnostiach jej parametrov. Tieto podmienky sú formulované vo forme limitných viet v teórii pravdepodobnosti. Nižšie uvádzame obsah a podstatu teorémov bez dôkazu, ako aj niekoľko odporúčaní pre ich praktické uplatnenie.