Regressioonanalüüs võimaldab hinnata. Andmeanalüüsi alused

Regressioonanalüüs on enamiku ökonomeetriliste mudelite loomise aluseks, mille hulka tuleks lisada ka kuluhinnangu mudelid. Hindamismudelite koostamiseks saab seda meetodit kasutada juhul, kui analoogide (võrreldavate objektide) ja kulutegurite (võrdluselementide) arv korreleeruvad üksteisega järgmiselt: P> (5 -g-10) x selleks, need. analooge peaks olema 5-10 korda rohkem kui kulutegureid. Sama nõue andmemahu ja tegurite arvu suhte kohta kehtib ka muude ülesannete puhul: objekti maksumuse ja tarbija parameetrite vahelise seose loomine; parandusindeksite arvutamise korra põhjendus; hinnasuundumuste selgitamine; kulumise ja mõjutegurite muutuste vahelise seose tuvastamine; kulunormide arvutamiseks sõltuvuste saamine jne. Selle nõude täitmine on vajalik selleks, et vähendada tõenäosust töötada andmevalimiga, mis ei rahulda juhuslike suuruste normaaljaotuse nõuet.

Regressioonisuhe kajastab ainult saadud muutuja, näiteks maksumuse, keskmist trendi, mis tuleneb muutustest ühes või mitmes faktorimuutujas, nagu asukoht, tubade arv, pindala, korrus jne. See on erinevus regressiooniseose ja funktsionaalse seose vahel, mille puhul on saadud muutuja väärtus faktormuutujate antud väärtuse jaoks rangelt määratletud.

Regressioonisuhte olemasolu / tulemuse vahel juures ja faktorimuutujad x lk ..., x k(tegurid) näitab, et seda seost ei määra mitte ainult valitud tegurimuutujate mõju, vaid ka muutujate mõju, millest mõned on üldiselt teadmata, teisi ei saa hinnata ja arvesse võtta:

Arvestamata muutujate mõju tähistatakse selle võrrandi teise liikmega ?, mida nimetatakse lähendusveaks.

Regressioonisõltuvusi on järgmist tüüpi:

  • ? paarisregressioon – seos kahe muutuja vahel (resultant ja faktoriaal);
  • ? mitmekordne regressioon – ühe saadud muutuja ja kahe või enama uuringusse kaasatud faktorimuutuja sõltuvus.

Regressioonanalüüsi põhiülesanne on kvantifitseerida muutujate (paarisregressioonis) ja mitme muutuja (mitmekordses regressioonis) vahelise seose lähedust. Seoste tihedust kvantifitseeritakse korrelatsioonikordaja abil.

Regressioonanalüüsi kasutamine võimaldab tuvastada peamiste tegurite (hedooniliste tunnuste) mõju mustri uuritavale näitajale nii nende tervikuna kui ka igaüks eraldi. Regressioonanalüüsi kui matemaatilise statistika meetodi abil on võimalik esiteks leida ja kirjeldada saadava (soovitava) muutuja analüütilise sõltuvuse vorm faktoriaalsetest ning teiseks hinnata muutujate lähedust. see sõltuvus.

Esimese ülesande lahendamisel saadakse matemaatiline regressioonimudel, mille abil arvutatakse seejärel etteantud faktorite väärtustele soovitud näitaja. Teise ülesande lahendus võimaldab kindlaks teha arvutatud tulemuse usaldusväärsuse.

Seega võib regressioonanalüüsi defineerida kui formaalsete (matemaatiliste) protseduuride kogumit, mis on kavandatud mõõtma tulem- ja faktorimuutujate vahelise seose tihedust, suunda ja vormi analüütilist väljendust, s.o. sellise analüüsi väljundiks peaks olema vormi struktuurselt ja kvantitatiivselt määratletud statistiline mudel:

kus y - saadud muutuja keskmine väärtus (soovitav näitaja, näiteks maksumus, üür, kapitalisatsioonimäär) üle P tema tähelepanekud; x on tegurimuutuja väärtus (/-th kulutegur); kuni - tegurimuutujate arv.

Funktsioon f(x l ,...,x lc), kirjeldades saadud muutuja sõltuvust faktoriaalsetest, nimetatakse regressioonivõrrandiks (funktsiooniks). Mõiste "regressioon" (regressioon (lat.) - taganemine, millegi juurde naasmine) on seotud ühe konkreetse meetodi kujunemise etapis lahendatud ülesande spetsiifikaga ega kajasta praegu kogu meetodi olemust. meetod, kuid seda kasutatakse jätkuvalt.

Regressioonianalüüs sisaldab tavaliselt järgmisi samme:

  • ? homogeensete objektide valimi moodustamine ja nende objektide kohta esialgse teabe kogumine;
  • ? saadud muutujat mõjutavate peamiste tegurite valik;
  • ? proovi normaalsuse kontrollimine kasutades X 2 ehk binoomkriteerium;
  • ? suhtlusvormi puudutava hüpoteesi aktsepteerimine;
  • ? matemaatiline andmetöötlus;
  • ? regressioonimudeli saamine;
  • ? selle statistiliste näitajate hindamine;
  • ? kontrollarvutused regressioonimudeli abil;
  • ? tulemuste analüüs.

Määratud toimingute jada leiab aset nii faktormuutuja ja ühe tulemuseks muutuva vahelise paarisuhte kui ka saadud muutuja ja mitme faktormuutuja vahelise mitmekordse seose uurimisel.

Regressioonanalüüsi kasutamine seab esialgsele teabele teatud nõuded:

  • ? objektide statistiline valim peaks olema funktsionaalselt ja konstruktiivtehnoloogiliselt homogeenne;
  • ? üsna palju;
  • ? uuritav kulunäitaja - tulenev muutuja (hind, maksumus, kulud) - tuleb selle arvutamiseks kõigi valimis olevate objektide puhul taandada samadele tingimustele;
  • ? tegurmuutujaid tuleb mõõta piisavalt täpselt;
  • ? tegurmuutujad peavad olema sõltumatud või minimaalselt sõltuvad.

Valimi homogeensuse ja täielikkuse nõuded on vastuolus: mida rangemalt toimub objektide valik nende homogeensuse järgi, seda väiksem on valim, ja vastupidi, valimi suurendamiseks on vaja kaasata objekte, mis ei ole üksteisega väga sarnased.

Pärast andmete kogumist homogeensete objektide rühma kohta analüüsitakse neid, et teha kindlaks teoreetilise regressioonijoone kujul saadud ja faktormuutujate vahelise seose vorm. Teoreetilise regressioonisirge leidmise protsess seisneb lähendava kõvera mõistlikus valikus ja selle võrrandi koefitsientide arvutamises. Regressioonijoon on sujuv kõver (konkreetsel juhul sirgjoon), mis kirjeldab matemaatilist funktsiooni kasutades uuritava sõltuvuse üldist trendi ja silub kõrvaltegurite mõjust tulenevaid ebaregulaarseid juhuslikke kõrvalekaldeid.

Paaritud regressioonisõltuvuste kuvamiseks hindamisülesannetes kasutatakse kõige sagedamini järgmisi funktsioone: lineaarne - y - a 0 + ars + s võimsus - y - aj&i + c demonstratiivne - y - lineaarne eksponentsiaalne - y - a 0 + ar * + s. Siin - e ligikaudne viga, mis tuleneb arvestamata juhuslike tegurite toimest.

Nendes funktsioonides on y saadud muutuja; x - tegur muutuja (tegur); aga 0 , a r a 2 - regressioonimudeli parameetrid, regressioonikordajad.

Lineaarne eksponentsiaalne mudel kuulub nn hübriidmudelite klassi järgmisel kujul:

kus

kus x (i = 1, /) - tegurite väärtused;

b t (i = 0, /) on regressioonivõrrandi koefitsiendid.

Selles võrrandis on komponendid A, B Ja Z vastavad hinnatava vara üksikute komponentide maksumusele, näiteks maatüki maksumusele ja parendustööde maksumusele ning parameetrile K on levinud. See on loodud selleks, et kohandada hinnatava vara kõigi komponentide väärtust ühise mõjuteguri (nt asukoha) alusel.

Tegurite väärtused, mis on vastavate koefitsientide astmes, on binaarsed muutujad (0 või 1). Kraadi aluseks olevad tegurid on diskreetsed või pidevad muutujad.

Korrutamismärgikoefitsientidega seotud tegurid on samuti pidevad või diskreetsed.

Spetsifikatsioon viiakse reeglina läbi empiirilise lähenemisviisi abil ja see hõlmab kahte etappi:

  • ? regressioonivälja punktide joonistamine graafikule;
  • ? võimaliku lähenduskõvera tüübi graafiline (visuaalne) analüüs.

Regressioonikõvera tüüp ei ole alati koheselt valitav. Selle määramiseks kantakse esmalt graafikule vastavalt algandmetele regressioonivälja punktid. Seejärel tõmmatakse piki punktide asukohta visuaalselt joon, püüdes välja selgitada seose kvalitatiivse mustri: ühtlane kasv või ühtlane langus, kasv (vähenemine) koos dünaamika kiiruse suurenemisega (vähenemisega), sujuv lähenemine teatud tase.

Seda empiirilist lähenemist täiendab loogiline analüüs, mis lähtub juba teadaolevatest ideedest uuritavate tegurite majandusliku ja füüsilise olemuse ning nende vastastikuse mõju kohta.

Näiteks on teada, et saadud muutujate - majandusnäitajate (hinnad, üür) sõltuvused mitmetest faktormuutujatest - hinda kujundavad tegurid (kaugus asula keskusest, pindala jne) on mittelineaarsed , ja neid saab üsna rangelt kirjeldada astme-, eksponentsiaal- või ruutfunktsiooni abil. Kuid väikeste tegurite vahemikega saab vastuvõetavaid tulemusi saada ka lineaarfunktsiooni abil.

Kui ühe funktsiooni kohta ei ole siiski võimalik koheselt kindlat valikut teha, siis valitakse kaks või kolm funktsiooni, arvutatakse nende parameetrid ja seejärel, kasutades sobivaid ühenduse tiheduse kriteeriume, valitakse lõpuks funktsioon.

Teoreetiliselt nimetatakse kõvera kuju leidmise regressiooniprotsessi spetsifikatsioon mudel ja selle koefitsiendid - kalibreerimine mudelid.

Kui leitakse, et saadud muutuja y sõltub mitmest faktoriaalmuutujast (tegurist) x ( , x 2 , ..., x k, seejärel kasutavad nad mitmekordse regressioonimudeli loomist. Tavaliselt kasutatakse kolme mitmekordse suhtluse vormi: lineaarne - y - a 0 + a x x x + a^x 2 + ... + a k x k, demonstratiivne - y - a 0 a*i a x t- a x b, võimsus - y - a 0 x x ix 2 a 2. .x^ või nende kombinatsioonid.

Eksponent- ja eksponentsiaalfunktsioonid on universaalsemad, kuna need on ligikaudsed mittelineaarsetele seostele, mis on suurem osa hindamisel uuritud sõltuvustest. Lisaks saab neid kasutada objektide hindamisel ja massihindamise statistilise modelleerimise meetodil ning individuaalsel hindamisel vahetu võrdluse meetodil parandustegurite kehtestamisel.

Kalibreerimisetapis arvutatakse regressioonimudeli parameetrid vähimruutude meetodil, mille põhiolemus on see, et saadud muutuja arvutatud väärtuste ruutude hälvete summa. juures., st. arvutatud vastavalt valitud seose võrrandile, tegelikest väärtustest peaks olema minimaalne:

Väärtused j) (. ja y. seega teada K on funktsioon ainult võrrandi kordajatest. Et leida miinimum S võtta osatuletised K võrrandi koefitsientide järgi ja võrdsusta need nulliga:

Selle tulemusena saame normaalvõrrandi süsteemi, mille arv on võrdne soovitud regressioonivõrrandi määratud kordajate arvuga.

Oletame, et peame leidma lineaarvõrrandi koefitsiendid y - a 0 + ars. Ruuthälvete summa on:

/=1

Funktsiooni eristamine K tundmatute koefitsientide järgi a 0 ja võrdsustage osatuletised nulliga:

Pärast teisendusi saame:

kus P - algsete tegelike väärtuste arv juures neid (analoogide arv).

Ülaltoodud regressioonivõrrandi kordajate arvutamise protseduur on rakendatav ka mittelineaarsete sõltuvuste puhul, kui neid sõltuvusi on võimalik lineariseerida, s.t. muuta muutujate muutust kasutades lineaarsele kujule. Positiivsed ja eksponentsiaalfunktsioonid pärast logaritmi ja vastava muutujate muutuse võtmist omandavad lineaarse kuju. Näiteks on võimsusfunktsioon pärast logaritmi võtmist järgmisel kujul: In y \u003d 1n 0 +a x 1ph. Pärast muutujate muutumist Y- sisse y, L 0 - sisse ja nr X- X-is saame lineaarse funktsiooni

Y = A0 + cijX, mille koefitsiendid leitakse ülalkirjeldatud viisil.

Vähimruutude meetodit kasutatakse ka mitmekordse regressioonimudeli koefitsientide arvutamiseks. Niisiis, normaalvõrrandi süsteem kahe muutujaga lineaarfunktsiooni arvutamiseks Xj Ja x 2 pärast mitmeid ümberkujundamisi näeb see välja järgmine:

Tavaliselt lahendatakse see võrrandisüsteem lineaaralgebra meetodite abil. Mitmekordne eksponentsiaalfunktsioon viiakse lineaarsesse vormi, võttes logaritme ja muutes muutujaid samamoodi nagu paaris eksponentsiaalfunktsioon.

Hübriidmudelite kasutamisel leitakse mitmekordsed regressioonikoefitsiendid, kasutades järjestikuste lähenduste meetodi arvprotseduure.

Lõpliku valiku tegemiseks mitme regressioonivõrrandi vahel on vaja testida iga võrrandit seose tiheduse suhtes, mida mõõdetakse korrelatsioonikordaja, dispersiooni ja variatsioonikordaja abil. Hindamisel saab kasutada ka Studenti ja Fisheri kriteeriume. Mida suurem on ühenduse tihedus, mis näitab kõverat, seda eelistatavam on see, kui kõik muud asjad on võrdsed.

Kui lahendatakse sellise klassi probleem, kui on vaja kindlaks teha kulunäitaja sõltuvus kuluteguritest, siis on soov võtta arvesse võimalikult palju mõjutegureid ja seeläbi koostada täpsem mitme regressiooni mudel. mõistetav. Kuid kaks objektiivset piirangut takistavad tegurite arvu laienemist. Esiteks nõuab mitme regressioonimudeli loomine palju suuremat objektide valimit kui paarismudeli loomine. Üldtunnustatud seisukoht on, et objektide arv valimis peaks ületama arvu P tegurid, vähemalt 5-10 korda. Sellest järeldub, et kolme mõjuteguriga mudeli koostamiseks on vaja koguda ligikaudu 20 erineva teguriväärtuste kogumiga objektist koosnev valim. Teiseks peaksid mudelisse valitud tegurid oma mõjus väärtusindikaatorile olema üksteisest piisavalt sõltumatud. Seda pole lihtne tagada, kuna valim ühendab tavaliselt samasse perekonda kuuluvaid objekte, mille puhul toimub mitmete tegurite korrapärane muutumine objektide lõikes.

Regressioonimudelite kvaliteeti testitakse tavaliselt järgmise statistika abil.

Regressioonivõrrandi vea standardhälve (hinnanguviga):

kus P - valimi suurus (analoogide arv);

kuni - tegurite arv (kulutegurid);

Regressioonivõrrandiga seletamatu viga (joonis 3.2);

y. - saadud muutuja tegelik väärtus (näiteks maksumus); y t - saadud muutuja arvutatud väärtus.

Seda indikaatorit nimetatakse ka hinnangu standardviga (RMS-viga). Joonisel tähistavad punktid valimi konkreetseid väärtusi, sümbol näitab valimi keskmiste väärtuste joont, kaldkriipsjoon on regressioonijoon.


Riis. 3.2.

Hindamisvea standardhälve mõõdab y tegelike väärtuste kõrvalekalde suurust vastavatest arvutatud väärtustest. juures( , saadud regressioonimudeli abil. Kui valim, millele mudel on üles ehitatud, allub normaaljaotuse seadusele, siis võib väita, et 68% reaalväärtustest juures on vahemikus juures ± &e regressioonijoonest ja 95% - vahemikus juures ± 2d e. See indikaator on mugav, kuna mõõtühikud vm? sobitada mõõtühikutega juures,. Sellega seoses saab seda kasutada hindamisprotsessis saadud tulemuse täpsuse näitamiseks. Näiteks väärtussertifikaadil saate näidata, et regressioonimudeli abil saadud turuväärtuse väärtus V tõenäosusega 95% on vahemikus alates (V-2d,.) enne (at + 2ds).

Saadud muutuja variatsioonikoefitsient:

kus y - saadud muutuja keskmine väärtus (joonis 3.2).

Regressioonanalüüsis on variatsioonikordaja var tulemuse standardhälve, väljendatuna protsendina tulemusmuutuja keskmisest. Variatsioonikordaja võib olla saadud regressioonimudeli ennustamisomaduste kriteeriumiks: mida väiksem on väärtus var, seda kõrgemad on mudeli ennustavad omadused. Variatsioonikordaja kasutamine on eelistatavam eksponendile &e, kuna see on suhteline astendaja. Selle indikaatori praktilisel kasutamisel võib soovitada mitte kasutada mudelit, mille variatsioonikordaja ületab 33%, kuna sel juhul ei saa väita, et need valimid alluksid normaaljaotuse seadusele.

Määramiskoefitsient (mitmekordne korrelatsioonikordaja ruudus):

Seda indikaatorit kasutatakse saadud regressioonimudeli üldise kvaliteedi analüüsimiseks. See näitab, kui suur protsent saadud muutuja variatsioonist tuleneb kõigi mudelis sisalduvate faktorimuutujate mõjust. Määramiskoefitsient jääb alati vahemikku nullist üheni. Mida lähemal on determinatsioonikoefitsiendi väärtus ühtsusele, seda paremini kirjeldab mudel algset andmerida. Määramiskoefitsienti saab esitada muul viisil:

Siin on regressioonimudeliga seletatav viga,

aga - seletamatu viga

regressioonimudel. Majanduslikust vaatenurgast võimaldab see kriteerium hinnata, mitu protsenti hinnakõikumistest seletatakse regressioonivõrrandiga.

Indikaatori täpne vastuvõtupiir R2 seda on võimatu kõigil juhtudel täpsustada. Arvesse tuleb võtta nii valimi suurust kui ka võrrandi mõtestatud tõlgendamist. Reeglina on sama tüüpi objektide andmete uurimisel, mis on saadud ligikaudu samal ajal, väärtus R2 ei ületa taset 0,6-0,7. Kui kõik ennustusvead on nullid, st. kui seos tulemus- ja faktorimuutujate vahel on funktsionaalne, siis R2 =1.

Kohandatud määramiskoefitsient:

Kohandatud määramiskoefitsiendi kasutuselevõtu vajadus on seletatav asjaoluga, et tegurite arvu suurenemisega juurde tavaline määramistegur peaaegu alati suureneb, kuid vabadusastmete arv väheneb (n-k- üks). Sisestatud korrigeerimine vähendab väärtust alati R2, niivõrd kui (P - 1) > (p- kuni -üks). Selle tulemusena väärtus R 2 CKOf) võib muutuda isegi negatiivseks. See tähendab, et väärtus R2 oli enne korrigeerimist nullilähedane ja dispersiooni osakaal on seletatav muutuja regressioonivõrrandiga juures väga väike.

Kahest regressioonimudeli variandist, mis erinevad korrigeeritud determinatsioonikoefitsiendi väärtuse poolest, kuid millel on sama head muud kvaliteedikriteeriumid, eelistatakse suure korrigeeritud determinantkoefitsiendi väärtusega varianti. Determinatsioonikoefitsienti ei korrigeerita, kui (n - k): k> 20.

Fisheri suhe:

Seda kriteeriumi kasutatakse määramiskoefitsiendi olulisuse hindamiseks. Ruudude jääksumma on ennustusvea mõõt, mis kasutab teadaolevate kuluväärtuste regressiooni aadressil.. Selle võrdlus ruutude regressioonisummaga näitab, mitu korda ennustab regressioonisõltuvus tulemust keskmisest paremini juures. Seal on kriitiliste väärtuste tabel F R Fisheri koefitsient sõltuvalt lugeja vabadusastmete arvust - et, nimetaja v 2 = p - k- 1 ja olulisuse tase a. Kui Fisheri kriteeriumi arvutatud väärtus F R on suurem kui tabeli väärtus, siis hüpotees determinatsioonikordaja ebaolulisusest, s.o. regressioonivõrrandis sisalduvate seoste ja reaalselt eksisteerivate seoste lahknevuse kohta tõenäosusega p = 1 - a lükatakse tagasi.

Keskmine lähendusviga(keskmine protsentuaalne hälve) arvutatakse keskmise suhtelise erinevusena, väljendatuna protsentides, saadud muutuja tegelike ja arvutatud väärtuste vahel:

Mida madalam on selle indikaatori väärtus, seda parem on mudeli prognoositav kvaliteet. Kui selle indikaatori väärtus ei ole suurem kui 7%, näitavad need mudeli suurt täpsust. Kui 8 > 15%, näitavad mudeli ebarahuldavat täpsust.

Regressioonikordaja standardviga:

kus (/I) -1 .- maatriksi diagonaalelement (X G X) ~ 1 kuni - tegurite arv;

X- tegurmuutujate väärtuste maatriks:

X7- tegurimuutujate väärtuste transponeeritud maatriks;

(JL) _| on maatriksi pöördvõrdeline maatriks.

Mida väiksemad on need skoorid iga regressioonikordaja kohta, seda usaldusväärsem on vastava regressioonikordaja hinnang.

Õpilase test (t-statistika):

See kriteerium võimaldab mõõta seose usaldusväärsuse (olulisuse) astet antud regressioonikordaja tõttu. Kui arvutatud väärtus t. suurem kui tabeli väärtus

t av , kus v - p - k - 1 on vabadusastmete arv, siis lükatakse tagasi hüpotees, et see koefitsient on statistiliselt ebaoluline, tõenäosusega (100 - a)%. On olemas spetsiaalsed /-jaotuse tabelid, mis võimaldavad määrata kriteeriumi kriitilise väärtuse etteantud olulisuse taseme a ja vabadusastmete arvu v järgi. Kõige sagedamini kasutatav a väärtus on 5%.

Multikollineaarsus, st. faktormuutujate vaheliste vastastikuste seoste mõju toob kaasa vajaduse olla rahul nende piiratud arvuga. Kui seda arvesse ei võeta, võib tulemuseks olla ebaloogiline regressioonimudel. Multikollineaarsuse negatiivse mõju vältimiseks arvutatakse enne mitme regressioonimudeli loomist paaride korrelatsioonikordajad rxjxj valitud muutujate vahel X. Ja X

Siin XjX; - kahe faktoriaalmuutuja korrutise keskmine väärtus;

XjXj- kahe teguri muutuja keskmiste väärtuste korrutis;

Tegurmuutuja x dispersiooni hindamine..

Kaht muutujat peetakse regressiivselt seotud (st kollineaarseks), kui nende paaridevaheline korrelatsioonikordaja on absoluutväärtuses rangelt suurem kui 0,8. Sel juhul tuleks kõik neist muutujatest arvesse võtta.

Saadud regressioonimudelite majandusliku analüüsi võimaluste laiendamiseks kasutatakse keskmisi elastsuskoefitsiendid, määratakse valemiga:

kus Xj- vastava tegurimuutuja keskmine väärtus;

y - saadud muutuja keskmine väärtus; a i - vastava tegurimuutuja regressioonikordaja.

Elastsustegur näitab, mitu protsenti muutub keskmiselt saadud muutuja väärtus, kui tegurmuutuja muutub 1%, s.o. kuidas saadud muutuja reageerib tegurimuutuja muutusele. Näiteks kuidas kujuneb ruutmeetri hind? m suurune korter kesklinnast eemal.

Konkreetse regressioonikordaja olulisuse analüüsimise seisukohalt on kasulik hinnang privaatne määramise koefitsient:

Siin on tulemuse dispersiooni hinnang

muutuv. See koefitsient näitab, mitu protsenti on saadud muutuja kõikumine seletatav regressioonivõrrandis sisalduva /-nda faktori muutuja variatsiooniga.

  • Hedooniliste omaduste all mõistetakse objekti omadusi, mis peegeldavad selle kasulikke (väärtuslikke) omadusi ostjate ja müüjate seisukohalt.

Regressioonanalüüs on meetod uuritavate tunnuste vahelise stohhastilise seose analüütilise väljenduse tuvastamiseks. Regressioonivõrrand näitab, kuidas keskmiselt muutub juures kui muudate mõnda neist x i , ja näeb välja selline:

kus y - sõltuv muutuja (see on alati üks);

X i - sõltumatud muutujad (tegurid) (neid võib olla mitu).

Kui on ainult üks sõltumatu muutuja, on see lihtne regressioonanalüüs. Kui neid on mitu P 2), siis nimetatakse sellist analüüsi mitmemõõtmeliseks.

Regressioonanalüüsi käigus lahendatakse kaks peamist ülesannet:

    regressioonivõrrandi konstrueerimine, s.o. tulemusnäitaja ja sõltumatute tegurite vahelise seose tüübi leidmine x 1 , x 2 , …, x n .

    saadud võrrandi olulisuse hindamine, s.o. selle kindlaksmääramine, kui palju valitud faktortunnused selgitavad tunnuse varieerumist y.

Regressioonanalüüsi kasutatakse peamiselt planeerimisel, samuti regulatiivse raamistiku väljatöötamisel.

Erinevalt korrelatsioonianalüüsist, mis vastab vaid küsimusele, kas analüüsitavate tunnuste vahel on seos, annab regressioonanalüüs ka selle formaliseeritud väljenduse. Lisaks, kui korrelatsioonianalüüs uurib mingit tegurite seost, siis regressioonanalüüs uurib ühepoolset sõltuvust, s.o. seos, mis näitab, kuidas faktorimärkide muutus mõjutab resultatiivset märki.

Regressioonanalüüs on üks enim arenenud matemaatilise statistika meetodeid. Rangelt võttes eeldab regressioonanalüüsi rakendamine mitmete erinõuete täitmist (eelkõige x l ,x 2 ,...,x n ;y peavad olema sõltumatud, normaalse jaotusega juhuslikud muutujad konstantse dispersiooniga). Reaalses elus on regressioon- ja korrelatsioonanalüüsi nõuete range järgimine väga haruldane, kuid majandusuuringutes on need mõlemad meetodid väga levinud. Sõltuvused majanduses võivad olla mitte ainult otsesed, vaid ka pöördvõrdelised ja mittelineaarsed. Regressioonimudeli saab üles ehitada mis tahes sõltuvuse olemasolul, kuid mitme muutujaga analüüsis kasutatakse ainult vormi lineaarseid mudeleid:

Regressioonivõrrandi konstrueerimine toimub reeglina vähimruutude meetodil, mille põhiolemus on minimeerida saadud atribuudi tegelike väärtuste ruutude kõrvalekallete summa selle arvutatud väärtustest, st:

kus T - vaatluste arv;

j =a+b 1 x 1 j +b 2 x 2 j + ... + b n X n j - tulemusteguri arvutatud väärtus.

Regressioonikoefitsiendid on soovitatav määrata personaalarvuti analüütiliste pakettide või spetsiaalse finantskalkulaatori abil. Lihtsamal juhul vormi ühefaktorilise lineaarse regressioonivõrrandi regressioonikordajad y = a + bx saab leida valemite abil:

klastri analüüs

Klasteranalüüs on üks mitme muutujaga analüüsi meetoditest, mis on mõeldud populatsiooni rühmitamiseks (klastrimiseks), mille elemente iseloomustavad paljud tunnused. Iga tunnuse väärtused toimivad mitmemõõtmelises tunnuste ruumis uuritava populatsiooni iga üksuse koordinaatidena. Iga vaatlust, mida iseloomustavad mitme indikaatori väärtused, saab esitada punktina nende indikaatorite ruumis, mille väärtusi käsitletakse koordinaatidena mitmemõõtmelises ruumis. Punktide vaheline kaugus R Ja q alates k koordinaadid on määratletud järgmiselt:

Klasterdamise põhikriteerium on see, et erinevused klastrite vahel peaksid olema olulisemad kui samale klastrile määratud vaatluste vahel, s.t. mitmemõõtmelises ruumis tuleb jälgida ebavõrdsust:

kus r 1, 2 – 1. ja 2. klastrite vaheline kaugus.

Nagu ka regressioonanalüüsi protseduurid, on ka klasterdamise protseduur üsna töömahukas, seda on soovitav teha arvutis.

A) Lihtsa lineaarse regressiooni graafiline analüüs.

Lihtne lineaarse regressiooni võrrand y=a+bx. Kui juhuslike suuruste Y ja X vahel on korrelatsioon, siis väärtus y = ý + ,

kus ý on y teoreetiline väärtus, mis saadakse võrrandist ý = f(x),

 on teoreetilise võrrandi ý hälve tegelikest (katse)andmetest.

Võrrandit ý keskmise väärtuse sõltuvuse kohta x-st, st ý = f (x), nimetatakse regressioonivõrrandiks. Regressioonanalüüs koosneb neljast etapist:

1) ülesande püstitamine ja ühendamise põhjuste väljaselgitamine.

2) uurimisobjekti piiramine, statistilise teabe kogumine.

3) seosvõrrandi valimine lähtuvalt kogutud andmete analüüsist ja iseloomust.

4) arvväärtuste arvutamine, korrelatsiooni tunnused.

Kui kaks muutujat on omavahel seotud nii, et ühe muutuja muutus vastab teise muutuja süstemaatilisele muutusele, siis nende muutujate teadaolekul kasutatakse nendevahelise seose võrrandi hindamiseks ja valimiseks regressioonanalüüsi. Erinevalt regressioonanalüüsist kasutatakse korrelatsioonianalüüsi X ja Y vahelise seose tiheduse analüüsimiseks.

Kaaluge regressioonanalüüsis sirgjoone leidmist:

Teoreetiline regressioonivõrrand.

Mõiste "lihtne regressioon" näitab, et ühe muutuja suurust hinnatakse teise muutuja teadmiste põhjal. Erinevalt lihtsast mitme muutujaga regressioonist kasutatakse seda muutuja hindamiseks kahe, kolme või enama muutuja teadmiste põhjal. Mõelge lihtsa lineaarse regressiooni graafilisele analüüsile.

Oletame, et meil on olemas tööleasumise ja tööviljakuse sõeltestide tulemused.

Valiku tulemused (100 punkti), x

Esitus (20 punkti), a

Pannes punktid graafikule, saame hajusdiagrammi (välja). Kasutame seda valikutestide tulemuste ja tööviljakuse analüüsimiseks.

Analüüsime regressioonijoont hajuvusdiagrammi abil. Regressioonanalüüsis määratakse alati vähemalt kaks muutujat. Ühe muutuja süstemaatiline muutus on seotud teise muutumisega. peamine eesmärk regressioonanalüüs on ühe muutuja väärtuse hindamine, kui teise muutuja väärtus on teada. Täieliku ülesande täitmisel on oluline tööviljakuse hindamine.

Sõltumatu muutuja regressioonanalüüsis võetakse teise muutuja analüüsi aluseks suurus. Sel juhul on need valikutestide tulemused (piki X-telge).

sõltuv muutuja nimetatakse hinnanguliseks väärtuseks (piki Y-telge). Regressioonanalüüsis saab olla ainult üks sõltuv muutuja ja mitu sõltumatut muutujat.

Lihtsa regressioonianalüüsi jaoks võib sõltuvust esitada kahe koordinaadi süsteemis (x ja y), piki x-telge - sõltumatu muutuja, piki y-telge - sõltuv. Lõikepunktid joonistame nii, et graafikul esitatakse suuruste paar. Graafikut nimetatakse hajuvusdiagramm. Selle koostamine on regressioonanalüüsi teine ​​etapp, kuna esimene on analüüsitavate väärtuste valik ja prooviandmete kogumine. Seega kasutatakse statistilise analüüsi jaoks regressioonanalüüsi. Diagrammi näidisandmete vaheline seos on lineaarne.

Muutuja y väärtuse hindamiseks muutuja x põhjal on vaja hajuvusdiagrammi punktide asukoha põhjal määrata selle sirge asukoht, mis kõige paremini esindab x ja y vahelist suhet. Meie näites on see jõudlusanalüüs. Läbi hajuvuspunktide tõmmatud joon - regressioonijoon. Üks võimalus visuaalsel kogemusel põhineva regressioonijoone koostamiseks on vabakäe meetod. Meie regressioonijoont saab kasutada tööviljakuse määramiseks. Regressioonisirge võrrandi leidmisel

Sageli kasutatakse vähimruutude testi. Sobivaim on sirge, kus hälvete ruudu summa on minimaalne.

Kasvujoone matemaatiline võrrand esindab aritmeetilise progressiooni kasvu seadust:

juures = agabX.

Y = aga + bX– ühe parameetriga taandatud võrrand on piiranguvõrrandi kõige lihtsam vorm. Keskmiste väärtuste korral on see vastuvõetav. Et omavahelist suhet paremini väljendada X Ja juures, võetakse kasutusele täiendav proportsionaalsustegur b, mis näitab regressioonijoone kallet.

B) Teoreetilise regressioonisirge konstrueerimine.

Selle leidmise protsess seisneb kõvera tüübi valimises ja põhjendamises ning parameetrite arvutamises aga, b, alates jne. Ehitusprotsessi nimetatakse tasandamiseks ja mati pakutavate kõverate varu. analüüs, mitmekesine. Kõige sagedamini kasutatakse majandusprobleemides kõverate perekonda, võrrandeid, mida väljendatakse positiivsete täisarvude polünoomidega.

1)
- sirgjoone võrrand,

2)
on hüperbooli võrrand,

3)
on parabooli võrrand,

kus ý on teoreetilise regressioonisirge ordinaadid.

Olles valinud võrrandi tüübi, on vaja leida parameetrid, millest see võrrand sõltub. Näiteks punktide asukoha olemus hajuvusväljas näitas, et teoreetiline regressioonisirge on sirge.

Hajuvusdiagramm võimaldab teil regressioonanalüüsi abil kujutada tööviljakust. Majandusteaduses ennustab regressioonanalüüs paljusid lõpptoodet mõjutavaid omadusi (arvestades hinnakujundust).

C) Väikseimate raamide kriteerium sirge leidmiseks.

Üks kriteerium, mida saaksime hajuvusgraafikus sobiva regressioonijoone jaoks rakendada, põhineb sirge valimisel, mille puhul on vigade ruudu summa minimaalne.

Hajumispunktide lähedust sirgele mõõdetakse lõikude ordinaatidega. Nende punktide hälbed võivad olla positiivsed või negatiivsed, kuid teoreetilise sirge katsejoonest kõrvalekallete ruudu summa on alati positiivne ja peaks olema minimaalne. Asjaolu, et kõik hajuvuspunktid ei kattu regressioonijoone asukohaga, viitab lahknevuse olemasolule eksperimentaalsete ja teoreetiliste andmete vahel. Seega võib öelda, et ükski teine ​​regressioonisirge peale leitud ühe ei suuda anda väiksemat summat hälvete katse- ja katseandmete vahel. Seega, olles leidnud teoreetilise võrrandi ý ja regressioonisirge, täidame vähimruutude nõude.

Seda tehakse piiranguvõrrandi abil
, kasutades parameetrite leidmiseks valemeid aga Ja b. Võttes teoreetilise väärtuse
ja võrrandi vasaku poole tähistamine läbi f, saame funktsiooni
tundmatutest parameetritest aga Ja b. Väärtused aga Ja b täidab funktsiooni miinimumi f ja leitakse osadiferentsiaalvõrranditest
Ja
. See vajalik tingimus, aga positiivse ruutfunktsiooni korral on see ka piisav tingimus leidmiseks aga Ja b.

Tuletame osatuletiste võrranditest parameetrite valemid aga Ja b:



saame võrrandisüsteemi:

kus
– aritmeetilised keskmised vead.

Arvväärtusi asendades leiame parameetrid aga Ja b.

On kontseptsioon
. See on ligikaudne tegur.

Kui e < 33%, то модель приемлема для дальнейшего анализа;

Kui e> 33%, siis võtame hüperbooli, parabooli jne. See annab õiguse erinevates olukordades analüüsida.

Järeldus: lähenduskoefitsiendi kriteeriumi järgi on sobivaim rida, mille jaoks

, ja ükski teine ​​meie probleemi regressioonisirge ei anna minimaalseid hälbeid.

D) Hinnangu ruutviga, nende tüüpilisuse kontrollimine.

Populatsiooni jaoks, kus on vähem kui 30 uuringuparameetrit ( n < 30), для проверки типичности параметров уравнения регрессии используется t- Üliõpilase kriteerium. See arvutab tegeliku väärtuse t- kriteeriumid:

Siit

kus on jääkkeskmine ruutviga. Vastu võetud t a Ja t b võrreldes kriitilisega t küliõpilase tabelist, võttes arvesse aktsepteeritud olulisuse taset ( = 0,01 = 99% või  = 0,05 = 95%). P = f = k 1 = m on uuritava võrrandi parameetrite arv (vabadusaste). Näiteks kui y = a + bx; m = 2, k 2 = f 2 = lk 2 = n – (m+ 1), kus n- uuritud tunnuste arv.

t a < t k < t b .

Väljund: tüüpilisuse suhtes kontrollitud regressioonivõrrandi parameetrite järgi koostatakse ühenduse matemaatiline mudel
. Sel juhul saavad analüüsis kasutatud matemaatilise funktsiooni parameetrid (lineaarne, hüperbool, parabool) vastavad kvantitatiivsed väärtused. Sel viisil saadud mudelite semantiline sisu seisneb selles, et need iseloomustavad efektiivse tunnuse keskmist väärtust
faktori tunnusest X.

E) Kurviline regressioon.

Üsna sageli esineb kõverjooneline seos, kui muutujate vahel luuakse muutuv seos. Suurenemise (vähenemise) intensiivsus sõltub X leidmise tasemest. Kurviline sõltuvus võib olla erinevat tüüpi. Näiteks kaaluge saagikuse ja sademete vahelist seost. Sademete hulga suurenemisega võrdsetes looduslikes tingimustes, saagikuse intensiivne suurenemine, kuid teatud piirini. Pärast kriitilist punkti on sademete hulk üleliigne ja saagikus langeb katastroofiliselt. Näide näitab, et alguses oli suhe positiivne ja seejärel negatiivne. Kriitiline punkt – tunnuse X optimaalne tase, mis vastab tunnuse Y maksimaalsele või minimaalsele väärtusele.

Majandusteaduses täheldatakse sellist seost hinna ja tarbimise, tootlikkuse ja tööstaaži vahel.

paraboolne sõltuvus.

Kui andmed näitavad, et faktoriatribuudi suurenemine toob kaasa resultantatribuudi suurenemise, siis võetakse regressioonivõrrandiks teist järku võrrand (parabool).

. Koefitsiendid a,b,c leitakse osadiferentsiaalvõrranditest:

Saame võrrandisüsteemi:

Kõverajooneliste võrrandite tüübid:

,

,

On mõistlik eeldada, et tööviljakuse ja valikutestide skooride vahel on kõverjooneline seos. See tähendab, et punktisüsteemi kasvuga hakkab jõudlus mingil tasemel langema, nii et otsemudel võib osutuda kõverjooneliseks.

Kolmas mudel on hüperbool ja kõigis võrrandites on muutuja x asemel avaldis.

Regressioonanalüüsi põhijooneks on see, et selle abil on võimalik saada konkreetset teavet uuritavate muutujate vahelise seose vormi ja olemuse kohta.

Regressioonanalüüsi etappide järjestus

Vaatleme lühidalt regressioonanalüüsi etappe.

    Ülesande formuleerimine. Selles etapis moodustatakse esialgsed hüpoteesid uuritud nähtuste sõltuvuse kohta.

    Sõltuvate ja sõltumatute (selgitavate) muutujate defineerimine.

    Statistiliste andmete kogumine. Andmeid tuleb koguda iga regressioonimudelis sisalduva muutuja kohta.

    Hüpoteesi püstitamine seose vormi kohta (lihtne või mitmekordne, lineaarne või mittelineaarne).

    Definitsioon regressioonifunktsioonid (koosneb regressioonivõrrandi parameetrite arvväärtuste arvutamisest)

    Regressioonanalüüsi täpsuse hindamine.

    Saadud tulemuste tõlgendamine. Regressioonanalüüsi tulemusi võrreldakse esialgsete hüpoteesidega. Hinnatakse saadud tulemuste õigsust ja usutavust.

    Sõltuva muutuja tundmatute väärtuste ennustamine.

Regressioonanalüüsi abil on võimalik lahendada prognoosimise ja klassifitseerimise probleem. Ennustavad väärtused arvutatakse seletavate muutujate väärtuste asendamisega regressioonivõrrandisse. Klassifitseerimisülesanne lahendatakse nii: regressioonisirge jagab kogu objektide komplekti kahte klassi ja see osa hulgast, kus funktsiooni väärtus on suurem kui null, kuulub ühte klassi ja see osa, kus see on väiksem. kui null, kuulub teise klassi.

Regressioonanalüüsi ülesanded

Mõelge regressioonanalüüsi peamistele ülesannetele: sõltuvuse vormi kindlaksmääramine, määramine regressioonifunktsioonid, sõltuva muutuja tundmatute väärtuste hinnang.

Sõltuvuse vormi tuvastamine.

Muutujate vahelise seose olemus ja vorm võivad moodustada järgmist tüüpi regressiooni:

    positiivne lineaarne regressioon (väljendatud funktsiooni ühtlase kasvuna);

    positiivne ühtlaselt kiirenev regressioon;

    positiivne ühtlaselt kasvav regressioon;

    negatiivne lineaarne regressioon (väljendatud funktsiooni ühtlase langusena);

    negatiivne ühtlaselt kiirendatud kahanev regressioon;

    negatiivne ühtlaselt kahanev regressioon.

Kirjeldatud sorte ei leidu aga enamasti puhtal kujul, vaid omavahel kombineerituna. Sel juhul räägitakse regressiooni kombineeritud vormidest.

Regressioonifunktsiooni definitsioon.

Teiseks ülesandeks on määrata peamiste tegurite või põhjuste mõju sõltuvale muutujale, kusjuures kõik muud asjaolud on võrdsed ja välistatakse mõju juhuslike elementide sõltuvale muutujale. regressioonifunktsioon defineeritud kui üht või teist tüüpi matemaatiline võrrand.

Sõltuva muutuja tundmatute väärtuste hindamine.

Selle probleemi lahendus on taandatud ühe järgmist tüüpi probleemi lahendamiseks:

    Sõltuva muutuja väärtuste hindamine algandmete vaadeldavas intervallis, s.o. puuduvad väärtused; see lahendab interpoleerimise probleemi.

    Sõltuva muutuja tulevikuväärtuste hindamine, s.o. väärtuste leidmine väljaspool algandmete antud intervalli; see lahendab ekstrapoleerimise probleemi.

Mõlemad probleemid lahendatakse sõltumatute muutujate väärtuste parameetrite leitud hinnangute asendamisega regressioonivõrrandisse. Võrrandi lahendamise tulemuseks on siht- (sõltuva) muutuja väärtuse hinnang.

Vaatame mõningaid eeldusi, millele regressioonanalüüs tugineb.

Lineaarsuse eeldus, st. eeldatakse, et vaadeldavate muutujate vaheline seos on lineaarne. Nii et selles näites koostasime hajuvusdiagrammi ja nägime selget lineaarset seost. Kui muutujate hajuvusdiagrammil näeme selget lineaarse seose puudumist, s.t. on olemas mittelineaarne seos, tuleks kasutada mittelineaarseid analüüsimeetodeid.

Normaalsuse eeldus ülejäägid. See eeldab, et prognoositud ja vaadeldud väärtuste erinevuse jaotus on normaalne. Jaotuse olemuse visuaalseks määramiseks võite kasutada histogramme ülejäägid.

Regressioonanalüüsi kasutamisel tuleks arvesse võtta selle peamist piirangut. See seisneb selles, et regressioonanalüüs võimaldab tuvastada ainult sõltuvusi, mitte aga nende sõltuvuste aluseks olevaid seoseid.

Regressioonanalüüs võimaldab hinnata muutujate seose astet, arvutades mitme teadaoleva väärtuse põhjal muutuja eeldatava väärtuse.

Regressioonivõrrand.

Regressioonivõrrand näeb välja selline: Y=a+b*X

Seda võrrandit kasutades väljendatakse muutujat Y konstandi a ja sirge (või kalde) b kalde korrutamisel muutuja X väärtusega. Konstanti a nimetatakse ka lõikepunktiks ja kalle on regressioon. koefitsient või B-tegur.

Enamikul juhtudel (kui mitte alati) esineb regressioonijoone kohta teatud vaatluste hajuvus.

Ülejäänud on üksiku punkti (vaatluse) kõrvalekalle regressioonijoonest (ennustusväärtus).

Regressioonanalüüsi ülesande lahendamiseks MS Excelis vali menüüst Teenindus"Analüüsipakett" ja regressioonianalüüsi tööriist. Määrake sisestusintervallid X ja Y. Y sisendintervall on analüüsitavate sõltuvate andmete vahemik ja see peab sisaldama ühte veergu. Sisestusintervall X on analüüsitavate sõltumatute andmete vahemik. Sisestusvahemike arv ei tohi ületada 16.

Protseduuri väljundis väljundvahemikus saame aruande, mis on antud tabel 8.3a-8,3 V.

TULEMUSED

Tabel 8.3a. Regressioonistatistika

Regressioonistatistika

Mitu R

R-ruut

Normaliseeritud R-ruut

standardviga

Tähelepanekud

Esiteks kaaluge esitatud arvutuste ülemist osa tabel 8.3a, - regressioonistatistika.

Väärtus R-ruut, mida nimetatakse ka kindluse mõõduks, iseloomustab saadud regressioonijoone kvaliteeti. Seda kvaliteeti väljendab algandmete ja regressioonimudeli (arvutatud andmete) vastavuse määr. Kindluse mõõt on alati intervalli sees.

Enamasti väärtus R-ruut on nende väärtuste vahel, mida nimetatakse äärmuslikuks, st. nulli ja ühe vahel.

Kui väärtus R-ruutühtsuse lähedal, tähendab see, et konstrueeritud mudel selgitab peaaegu kogu vastavate muutujate varieeruvuse. Vastupidi, väärtus R-ruut, nullilähedane, tähendab konstrueeritud mudeli halba kvaliteeti.

Meie näites on kindluse mõõduks 0,99673, mis näitab regressioonijoone väga head sobivust algandmetega.

mitmus R - mitmikkorrelatsiooni koefitsient R - väljendab sõltumatute muutujate (X) ja sõltuva muutuja (Y) sõltuvusastet.

Mitu R võrdne määramiskoefitsiendi ruutjuurega, võtab see väärtus väärtusi vahemikus nullist üheni.

Lihtsa lineaarse regressiooni analüüsiga mitmus R võrdne Pearsoni korrelatsioonikordajaga. Tõesti, mitmus R meie puhul on see võrdne eelmise näite Pearsoni korrelatsioonikordajaga (0,998364).

Tabel 8.3b. Regressioonikoefitsiendid

Koefitsiendid

standardviga

t-statistika

Y-ristmik

Muutuja X 1

* Esitatakse arvutuste kärbitud versioon

Nüüd kaaluge esitatud arvutuste keskmist osa tabel 8.3b. Siin on antud regressioonikordaja b (2,305454545) ja nihe piki y-telge, s.o. konstant a (2,694545455).

Arvutuste põhjal saame regressioonivõrrandi kirjutada järgmiselt:

Y= x*2,305454545+2,694545455

Muutujate vahelise seose suund määratakse regressioonikordajate (koefitsient b) märkide (negatiivsete või positiivsete) alusel.

Kui regressioonikordaja märk on positiivne, on seos sõltuva muutuja ja sõltumatu muutuja vahel positiivne. Meie puhul on regressioonikordaja märk positiivne, järelikult on ka seos positiivne.

Kui regressioonikordaja märk on negatiivne, on sõltuva muutuja ja sõltumatu muutuja vaheline seos negatiivne (pöördvõrdeline).

IN tabel 8.3c. esitatakse väljundtulemused ülejäägid. Nende tulemuste aruandes kuvamiseks on vaja "Regressiooni" tööriista käivitamisel aktiveerida märkeruut "Jääkud".

JÄÄB VÄLJAVÕTMINE

Tabel 8.3c. Jäänused

Vaatlus

Ennustas Y

Jäänused

Standardsaldod

Aruande seda osa kasutades näeme iga punkti kõrvalekaldeid konstrueeritud regressioonijoonest. Suurim absoluutväärtus ülejäänud osa meie puhul - 0,778, väikseim - 0,043. Nende andmete paremaks tõlgendamiseks kasutame algandmete graafikut ja konstrueeritud regressioonijoont, mis on esitatud joonisel fig. riis. 8.3. Nagu näete, on regressioonijoon üsna täpselt "sobitatud" algandmete väärtustega.

Arvestada tuleb sellega, et vaadeldav näide on üsna lihtne ja lineaarset regressioonisirget pole kaugeltki alati võimalik kvalitatiivselt konstrueerida.

Riis. 8.3. Algandmed ja regressioonisirge

Arvestamata jäi sõltumatu muutuja teadaolevate väärtuste põhjal sõltuva muutuja teadmata tulevikuväärtuste hindamise probleem, s.o. prognoosimisülesanne.

Regressioonivõrrandi kasutamisel taandatakse prognoosimisülesanne võrrandi Y= x*2,305454545+2,694545455 lahendamiseks teadaolevate väärtustega x. Esitatakse sõltuva muutuja Y kuus sammu ette ennustamise tulemused tabelis 8.4.

Tabel 8.4. Y muutuja prognoosi tulemused

Y (ennustuslik)

Seega Microsoft Exceli paketis regressioonanalüüsi kasutamise tulemusena:

    koostas regressioonivõrrandi;

    kehtestas sõltuvuse vormi ja muutujatevahelise seose suuna - positiivne lineaarne regressioon, mis väljendub funktsiooni ühtlases kasvus;

    kehtestas muutujatevahelise seose suuna;

    hindas saadud regressioonisirge kvaliteeti;

    oskasid näha arvutuslike andmete kõrvalekaldeid algkogumi andmetest;

    ennustas sõltuva muutuja tulevasi väärtusi.

Kui regressioonifunktsioon on määratletud, tõlgendatud ja põhjendatud ning regressioonanalüüsi täpsuse hinnang vastab nõuetele, võib eeldada, et konstrueeritud mudel ja ennustusväärtused on piisavalt usaldusväärsed.

Sel viisil saadud prognoositud väärtused on keskmised väärtused, mida võib oodata.

Selles artiklis vaatlesime peamisi omadusi kirjeldav statistika ja nende hulgas sellised mõisted nagu tähendab,mediaan,maksimaalselt,miinimum ja muud andmete varieerumise omadused.

Samuti arutati lühidalt kontseptsiooni heitkogused. Vaadeldavad tunnused viitavad nn uurimuslikule andmeanalüüsile, selle järeldused ei pruugi kehtida üldkogumile, vaid ainult andmevalimile. Uurimuslikku andmeanalüüsi kasutatakse esmaste järelduste tegemiseks ja populatsiooni kohta hüpoteeside kujundamiseks.

Samuti käsitleti korrelatsioon- ja regressioonanalüüsi aluseid, nende ülesandeid ja praktilise kasutusvõimalusi.

Faktor- ja resultantmärkide vahelise korrelatsiooni olemasolul peavad arstid sageli kindlaks tegema, kui palju võib ühe märgi väärtus muutuda, kui teist muudetakse üldtunnustatud või uurija enda kehtestatud mõõtühikuga.

Näiteks kuidas muutub 1. klassi kooliõpilaste (tüdrukute või poiste) kehakaal, kui nende pikkus suureneb 1 cm. Selleks kasutatakse regressioonanalüüsi meetodit.

Kõige sagedamini kasutatakse regressioonanalüüsi meetodit füüsilise arengu normskaalade ja standardite väljatöötamiseks.

  1. Regressiooni definitsioon. Regressioon on funktsioon, mis võimaldab ühe atribuudi keskmise väärtuse põhjal määrata teise atribuudi keskmise väärtuse, mis on korrelatsioonis esimesega.

    Sel eesmärgil kasutatakse regressioonikoefitsienti ja mitmeid muid parameetreid. Näiteks saate arvutada külmetushaiguste arvu keskmiselt igakuise keskmise õhutemperatuuri teatud väärtuste juures sügis-talvisel perioodil.

  2. Regressioonikordaja definitsioon. Regressioonikoefitsient on absoluutväärtus, mille võrra ühe atribuudi väärtus keskmiselt muutub, kui muu sellega seotud atribuut muutub määratud mõõtühiku võrra.
  3. Regressioonikordaja valem. R y / x \u003d r xy x (σ y / σ x)
    kus R y / x - regressioonikoefitsient;
    r xy - tunnuste x ja y vaheline korrelatsioonikordaja;
    (σ y ja σ x) - tunnuste x ja y standardhälbed.

    Meie näites;
    σ x = 4,6 (õhutemperatuuri standardhälve sügis-talvisel perioodil;
    σ y = 8,65 (nakkuslike külmetushaiguste arvu standardhälve).
    Seega on R y/x regressioonikordaja.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, s.o. kuu keskmise õhutemperatuuri (x) langusega 1 kraadi võrra muutub sügis-talvisel perioodil nakatunud külmetushaiguste keskmine arv (y) 1,8 juhtumi võrra.

  4. Regressioonivõrrand. y \u003d M y + R y / x (x - M x)
    kus y on atribuudi keskmine väärtus, mis tuleks määrata, kui teise atribuudi (x) keskmine väärtus muutub;
    x - muu tunnuse teadaolev keskmine väärtus;
    R y/x - regressioonikordaja;
    M x, M y - tunnuste x ja y teadaolevad keskmised väärtused.

    Näiteks saab ilma erimõõtmisteta määrata nakkuslike külmetushaiguste keskmise arvu (y) iga kuu keskmise õhutemperatuuri (x) keskmise väärtuse juures. Niisiis, kui x \u003d - 9 °, R y / x \u003d 1,8 haigust, M x \u003d -7 °, M y \u003d 20 haigust, siis y \u003d 20 + 1,8 x (9-7) \u003d 20 + 3 ,6 = 23,6 haigust.
    Seda võrrandit rakendatakse kahe tunnuse (x ja y) vahelise sirgjoonelise seose korral.

  5. Regressioonivõrrandi eesmärk. Regressioonijoone joonistamiseks kasutatakse regressioonivõrrandit. Viimane võimaldab ilma erimõõtmisteta määrata ühe tunnuse mis tahes keskmist väärtust (y), kui teise tunnuse väärtus (x) muutub. Nende andmete põhjal koostatakse graafik - regressioonijoon, mida saab kasutada külmetushaiguste keskmise arvu määramiseks igakuise keskmise temperatuuri mis tahes väärtusel külmetushaiguste arvu arvutatud väärtuste vahelises vahemikus.
  6. Regressiooni sigma (valem).
    kus σ Ru/x - regressiooni sigma (standardhälve);
    σ y on tunnuse y standardhälve;
    r xy - tunnuste x ja y vaheline korrelatsioonikordaja.

    Niisiis, kui σ y on külmetushaiguste arvu standardhälve = 8,65; r xy - korrelatsioonikoefitsient külmetushaiguste arvu (y) ja kuu keskmise õhutemperatuuri vahel sügis-talvisel perioodil (x) on - 0,96, siis

  7. Sigma regressiooni eesmärk. Annab saadud tunnuse (y) mitmekesisuse mõõdu tunnuse.

    Näiteks iseloomustab see külmetushaiguste arvu mitmekesisust igakuise keskmise õhutemperatuuri teatud väärtusel sügis-talvisel perioodil. Niisiis võib keskmine külmetushaiguste arv õhutemperatuuril x 1 \u003d -6 ° olla vahemikus 15,78 kuni 20,62 haigust.
    Kui x 2 = -9°, võib keskmine külmetushaiguste arv ulatuda 21,18 haigusest 26,02 haiguseni jne.

    Regressioonisigmat kasutatakse regressiooniskaala koostamisel, mis kajastab efektiivse atribuudi väärtuste kõrvalekaldeid selle regressioonijoonele kantud keskmisest väärtusest.

  8. Regressiooniskaala arvutamiseks ja joonistamiseks vajalikud andmed
    • regressioonikordaja - Ry/x;
    • regressioonivõrrand - y \u003d M y + R y / x (x-M x);
    • regressioonisigma - σ Rx/y
  9. Arvutuste jada ja regressiooniskaala graafiline esitus.
    • määrata regressioonikordaja valemiga (vt punkt 3). Näiteks tuleks määrata, kui palju muutub kehakaal keskmiselt (sõltuvalt soost teatud vanuses), kui keskmine pikkus muutub 1 cm võrra.
    • vastavalt regressioonivõrrandi valemile (vt lõik 4) määrake, milline on keskmine, näiteks kehakaal (y, y 2, y 3 ...) * teatud kasvuväärtuse (x, x 2, x 3 ...) .
      ________________
      * "y" väärtus tuleks arvutada vähemalt kolme teadaoleva "x" väärtuse jaoks.

      Samal ajal on teada teatud vanuse ja soo keskmised kehakaalu ja pikkuse (M x ja M y) väärtused

    • arvutage regressiooni sigma, teades vastavaid σ y ja r xy väärtusi ning asendades nende väärtused valemiga (vt lõik 6).
    • põhinevad teadaolevatel väärtustel x 1, x 2, x 3 ja neile vastavatel keskmistel väärtustel y 1, y 2 y 3, samuti väikseimal (y - σ ru / x) ja suurimal (y + σ ru) / x) väärtused (y) konstrueerivad regressiooniskaala.

      Regressiooniskaala graafiliseks esitamiseks märgitakse graafikule esmalt väärtused x, x 2 , x 3 (y-telg), s.o. koostatakse regressioonisirge, näiteks kehakaalu (y) sõltuvus pikkusest (x).

      Seejärel märgitakse vastavatesse punktidesse y 1 , y 2 , y 3 regressioonisigma arvväärtused, s.o. leidke graafikult y 1 , y 2 , y 3 väikseim ja suurim väärtus.

  10. Regressiooniskaala praktiline kasutamine. Töötatakse välja normskaalad ja standardid, eelkõige füüsilise arengu jaoks. Standardskaala järgi on võimalik anda individuaalne hinnang laste arengule. Samas hinnatakse füüsilist arengut harmooniliseks, kui näiteks teatud pikkuse juures on lapse kehakaal ühe regressioonisigma piires keskmise arvestusliku kehakaalu ühikuni - (y) antud pikkuse (x) korral ( y ± 1 σ Ry / x).

    Füüsilist arengut peetakse kehamassi osas ebaharmooniliseks, kui lapse kehakaal teatud pikkuse puhul jääb teise regressioonisigma piiresse: (y ± 2 σ Ry/x)

    Füüsiline areng on järsult ebaharmooniline nii liigse kui ka ebapiisava kehakaalu tõttu, kui kehakaal on teatud pikkuse puhul regressiooni kolmanda sigma piires (y ± 3 σ Ry/x).

5-aastaste poiste füüsilise arengu statistilise uuringu tulemuste põhjal on teada, et nende keskmine pikkus (x) on 109 cm, keskmine kehakaal (y) 19 kg. Pikkuse ja kehakaalu korrelatsioonikoefitsient on +0,9, standardhälbed on toodud tabelis.

Nõutud:

  • arvutada regressioonikordaja;
  • regressioonivõrrandi abil määrake, milline on 5-aastaste poiste eeldatav kehakaal pikkusega x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • arvutada regressioonisigmat, koostada regressiooniskaala, esitada selle lahenduse tulemused graafiliselt;
  • teha vastavad järeldused.

Ülesande seisukord ja selle lahendamise tulemused on toodud koondtabelis.

Tabel 1

Probleemi tingimused Probleemilahenduse tulemused
regressioonivõrrand sigma regressioon regressiooniskaala (eeldatav kehakaal (kg))
M σ r xy R y/x X Kell σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Kõrgus (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Kehakaal (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg Kaal 21,11 kg

Lahendus.

Väljund. Seega võimaldab arvutatud kehakaalu väärtuste regressiooniskaala määrata selle mis tahes muu kasvuväärtuse jaoks või hinnata lapse individuaalset arengut. Selleks taasta regressioonijoonega risti.

  1. Vlasov V.V. Epidemioloogia. - M.: GEOTAR-MED, 2004. - 464 lk.
  2. Lisitsyn Yu.P. Rahvatervis ja tervishoid. Õpik gümnaasiumile. - M.: GEOTAR-MED, 2007. - 512 lk.
  3. Medik V.A., Juriev V.K. Rahvatervise ja tervishoiu loengute kursus: 1. osa. Rahvatervis. - M.: Meditsiin, 2003. - 368 lk.
  4. Minjajev V.A., Višnjakov N.I. ja teised.Sotsiaalmeditsiin ja tervishoiukorraldus (Juhend 2 köites). - Peterburi, 1998. -528 lk.
  5. Kucherenko V.Z., Agarkov N.M. ja teised Sotsiaalhügieen ja tervishoiu korraldus (Õpetus) - Moskva, 2000. - 432 lk.
  6. S. Glantz. Meditsiini-bioloogiline statistika. Per inglise keelest. - M., Praktika, 1998. - 459 lk.