Statistisk modell: essensen av metoden, konstruktion och analys

Innehållsförteckning:

Statistisk modell: essensen av metoden, konstruktion och analys
Statistisk modell: essensen av metoden, konstruktion och analys
Anonim

En statistisk modell är en matematisk projektion som förkroppsligar en uppsättning olika antaganden om genereringen av vissa provdata. Termen presenteras ofta i en mycket idealiserad form.

Antagandena uttryckta i den statistiska modellen visar en uppsättning sannolikhetsfördelningar. Många av dem är avsedda att korrekt approximera distributionen från vilken en viss uppsättning information hämtas. Sannolikhetsfördelningarna som är inneboende i statistiska modeller är det som skiljer projektionen från andra matematiska modifieringar.

Allmän projektion

statistiska processmodeller
statistiska processmodeller

Matematisk modell är en beskrivning av systemet med vissa begrepp och språk. De gäller naturvetenskap (som fysik, biologi, geovetenskap, kemi) och ingenjörsvetenskap (som datavetenskap, elektroteknik), samt samhällsvetenskap (som ekonomi, psykologi, sociologi, statsvetenskap).

Modellen kan hjälpa till att förklara systemet ochstudera inverkan av olika komponenter och göra förutsägelser om beteende.

Matematiska modeller kan ta många former, inklusive dynamiska system, statistiska projektioner, differentialekvationer eller spelteoretiska parametrar. Dessa och andra typer kan överlappa varandra, och denna modell innehåller många abstrakta strukturer. I allmänhet kan matematiska projektioner också innehålla logiska komponenter. I många fall beror kvaliteten på ett vetenskapsområde på hur väl de teoretiskt utvecklade matematiska modellerna överensstämmer med resultaten av upprepade experiment. Bristande överensstämmelse mellan teoretiska processer och experimentella mätningar leder ofta till viktiga framsteg när bättre teorier utvecklas.

Inom de fysiska vetenskaperna innehåller den traditionella matematiska modellen ett stort antal av följande element:

  • Kontrollekvationer.
  • Ytterligare undermodeller.
  • Definiera ekvationer.
  • Konstituerande ekvationer.
  • Antaganden och begränsningar.
  • Initial- och gränsvillkor.
  • Klassiska begränsningar och kinematiska ekvationer.

Formel

En statistisk modell sätts som regel av matematiska ekvationer som kombinerar en eller flera slumpvariabler och, möjligen, andra naturligt förekommande variabler. På liknande sätt anses projektion vara "det formella konceptet för ett koncept."

Alla statistiska hypoteser och statistiska utvärderingar erhålls från matematiska modeller.

Introduktion

statistiska matematiska modeller
statistiska matematiska modeller

Informellt sett kan en statistisk modell ses som ett antagande (eller en uppsättning antaganden) med en specifik egenskap: den tillåter en att beräkna sannolikheten för vilken händelse som helst. Som ett exempel, betrakta ett par vanliga sexsidiga tärningar. Två olika statistiska antaganden om benet måste utforskas.

Det första antagandet är:

För varje tärning är sannolikheten att få ett av talen (1, 2, 3, 4, 5 och 6): 1/6.

Från detta antagande kan vi beräkna sannolikheten för båda tärningarna: 1:1/6×1/6=1/36.

Mer generellt kan du beräkna sannolikheten för vilken händelse som helst. Det bör dock förstås att det är omöjligt att beräkna sannolikheten för någon annan icke-trivial händelse.

Endast den första åsikten samlar in en statistisk matematisk modell: på grund av det faktum att det med endast ett antagande är möjligt att bestämma sannolikheten för varje åtgärd.

I exemplet ovan med initi alt tillstånd är det lätt att avgöra möjligheten till en händelse. Med några andra exempel kan beräkningen vara svår eller till och med orealistisk (det kan till exempel kräva många år av beräkningar). För en person som utformar en statistisk analysmodell anses sådan komplexitet vara oacceptabel: genomförandet av beräkningar bör inte vara praktiskt omöjligt och teoretiskt omöjligt.

Formell definition

I matematiska termer betraktas den statistiska modellen för ett system vanligtvis som ett par (S, P), där S äruppsättningen av möjliga observationer, d.v.s. sampelutrymmet, och P är uppsättningen sannolikhetsfördelningar på S.

Intuitionen för denna definition är som följer. Det antas att det finns en "sann" sannolikhetsfördelning orsakad av processen som genererar viss data.

Set

Det är han som bestämmer parametrarna för modellen. Parametrering kräver i allmänhet olika värden för att resultera i olika distributioner, dvs

Modell Konsekvens
Modell Konsekvens

måste hålla (med andra ord, den måste vara injektiv). En parametrisering som uppfyller kravet sägs vara identifierbar.

Exempel

Statistikdiagram
Statistikdiagram

Anta att det finns ett antal elever som är i olika åldrar. Barnets höjd kommer att vara stokastiskt relaterad till födelseåret: till exempel, när en skolpojke är 7 år, påverkar detta sannolikheten för tillväxt, bara så att personen blir längre än 3 centimeter.

Du kan formalisera detta tillvägagångssätt till en rätlinjig regressionsmodell, till exempel enligt följande: höjd i=b 0 + b 1agei + εi, där b 0 är skärningspunkten, b 1 är parametern med vilken åldern är multipliceras när man erhåller höjdövervakning. Detta är en felterm. Det vill säga, det förutsätter att höjden förutsägs av ålder med ett visst fel.

Ett giltigt formulär måste matcha alla informationspunkter. Den rätlinjiga riktningen (nivå i=b 0 + b 1agei) är alltså inte kapabel att vara en ekvation för en datamodell - om den inte tydligt svarar på absolut alla punkter. d.v.sutan undantag ligger all information felfritt på linjen. Felmarginalen εi måste anges i ekvationen så att formuläret matchar absolut all information.

För att göra en statistisk slutledning måste vi först anta några sannolikhetsfördelningar för ε i. Till exempel kan man anta att fördelningarna av ε i har en gaussisk form med noll medelvärde. I det här fallet kommer modellen att ha 3 parametrar: b 0, b 1 och variansen för den gaussiska fördelningen.

Du kan formellt ange modellen som (S, P).

I det här exemplet definieras modellen genom att specificera S och därför kan vissa antaganden göras om P. Det finns två alternativ:

Denna tillväxt kan uppskattas av en linjär funktion av ålder;

Att felen i approximationen är fördelade som inuti en gaussisk.

Allmänna kommentarer

Statistiska parametrar för modeller är en speciell klass av matematisk projektion. Vad skiljer en art från en annan? Så det är så att den statistiska modellen är icke-deterministisk. Således, i den, till skillnad från matematiska ekvationer, har vissa variabler inte vissa värden, utan har istället en fördelning av möjligheter. Det vill säga att enskilda variabler anses vara stokastiska. I exemplet ovan är ε en stokastisk variabel. Utan den skulle projektionen vara deterministisk.

Att bygga en statistisk modell används ofta, även om materialprocessen anses vara deterministisk. Till exempel är att kasta mynt i princip en förutbestämd handling. Detta är dock fortfarande i de flesta fall modellerat som stokastiskt (genom en Bernoulli-process).

Enligt Konishi och Kitagawa finns det tre mål för en statistisk modell:

  • Förutsägelser.
  • Informationsutvinning.
  • Beskrivning av stokastiska strukturer.

Projekteringsstorlek

Anta att det finns en statistisk förutsägelsemodell, Modellen kallas parametrisk om O har en ändlig dimension. I lösningen måste du skriva att

Modellskillnad
Modellskillnad

där k är ett positivt heltal (R står för alla reella tal). Här kallas k modellens dimension.

Som ett exempel kan vi anta att all data kommer från en univariat gaussisk fördelning:

Statistik formel
Statistik formel

I det här exemplet är dimensionen k 2.

Och som ett annat exempel kan data antas bestå av (x, y) punkter, som antas vara fördelade i en rät linje med Gaussiska residualer (med noll medelvärde). Då är dimensionen för den statistiska ekonomiska modellen lika med 3: linjens skärningspunkt, dess lutning och variansen av fördelningen av residualer. Det bör noteras att i geometri har en rät linje dimensionen 1.

Även om värdet ovan tekniskt sett är den enda parametern som har dimensionen k, anses den ibland innehålla k distinkta värden. Till exempel, med en endimensionell Gaussfördelning är O den enda parametern med storleken 2, men anses ibland innehålla tvåindividuell parameter – medelvärde och standardavvikelse.

En statistisk processmodell är icke-parametrisk om uppsättningen av O-värden är oändlig dimensionell. Den är också semi-parametrisk om den har både änddimensionella och oändliga dimensionella parametrar. Formellt, om k är en dimension av O och n är antalet sampel, har semi-parametriska och icke-parametriska modeller

Modellformel
Modellformel

då är modellen semi-parametrisk. Annars är projektionen icke-parametrisk.

Parametriska modeller är den mest använda statistiken. När det gäller semi-parametriska och icke-parametriska projektioner, sa Sir David Cox:

"De involverar vanligtvis de minsta hypoteserna om textur och distributionsform, men de inkluderar kraftfulla teorier om självförsörjning."

Inbäddade modeller

Förväxla dem inte med projektioner på flera nivåer.

Två statistiska modeller är kapslade om den första kan konverteras till den andra genom att införa begränsningar för parametrarna för den första. Till exempel har uppsättningen av alla gaussiska distributioner en kapslad uppsättning nollmedelsfördelningar:

Det vill säga, du måste begränsa medelvärdet i uppsättningen av alla Gaussfördelningar för att få fördelningar med nollmedelvärde. Som ett andra exempel har den kvadratiska modellen y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) en inbäddad linjär modell y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - dvs parametern b2 är lika med 0.

I båda dessa exempel har den första modellen en högre dimensionalitet än den andra modellen. Detta är ofta, men inte alltid fallet. Ett annat exempel är uppsättningen av gaussiska fördelningar med positivt medelvärde, som har dimension 2.

Jämförelse av modeller

statistisk modell
statistisk modell

Det antas att det finns en "sann" sannolikhetsfördelning bakom de observerade data som induceras av processen som genererade den.

Och även modeller kan jämföras med varandra, med explorativ analys eller bekräftande. I en explorativ analys formuleras olika modeller och en bedömning görs av hur väl var och en av dem beskriver datan. I en bekräftande analys jämförs den tidigare formulerade hypotesen med den ursprungliga. Vanliga kriterier för detta inkluderar P 2, Bayesiansk faktor och relativ sannolikhet.

Konishi och Kitagawas tanke

“De flesta problem i en statistisk matematisk modell kan ses som prediktiva frågor. De är vanligtvis formulerade som jämförelser av flera faktorer.”

Dessutom sa Sir David Cox: "Som en översättning från ämnet är problemet i den statistiska modellen ofta den viktigaste delen av analysen."

Rekommenderad: