Statistisk information: insamling, bearbetning, analys

2026 Författare: Angel Austin | [email protected]. Senast ändrad: 2025-01-23 12:34:36

Genom statistikens historia har olika försök gjorts för att skapa en taxonomi av mätnivåer. Psykofysikern Stanley Smith Stevens definierade nominella, ordinala, intervall- och proportionella skalor.

Nominella mått har ingen signifikant rangordning bland värden och tillåter alla en-till-en-konverteringar.

Vanliga dimensioner har inexakta skillnader mellan på varandra följande värden, men har en specifik ordning på dessa värden och tillåter alla ordningsbevarande transformationer.

Intervallmätningar har meningsfulla avstånd mellan punkter, men nollvärdet är godtyckligt (som i fallet med longitud- och temperaturmätningar i Celsius eller Fahrenheit) och tillåter all linjär transformation.

Ratiodimensioner har både ett meningsfullt nollvärde och avstånd mellan olika dimensioner och tillåter alla skalförändringar.

Variabler och klassificering av information

För att variablernasom endast motsvarar nominella eller ordinala mått kan rimligen inte mätas numeriskt och grupperas ibland som kategoriska variabler. Förhållandet och intervallmätningarna är grupperade som kvantitativa variabler, som kan vara antingen diskreta eller kontinuerliga på grund av deras numeriska karaktär. Sådana distinktioner är ofta löst relaterade till datatyp inom datavetenskap, eftersom dikotoma kategoriska variabler kan representeras av booleska värden, polytoma kategoriska variabler med godtyckliga heltal i en integral datatyp och kontinuerliga variabler med reella komponenter som involverar flyttalsberäkning. Men visningen av statistisk informationsdatatyper beror på vilken klassificering som tillämpas.

Andra klassificeringar

Andra klassificeringar av statistiska data (information) har också skapats. Till exempel skiljde Mosteller och Tukey mellan betyg, rang, räknade andelar, antal, belopp och saldon. Nelder beskrev vid ett tillfälle kontinuerliga räkningar, kontinuerliga förhållanden, korrelation av räkningar och kategoriska sätt att kommunicera data. Alla dessa klassificeringsmetoder används vid insamling av statistisk information.

Problems

Frågan om det är lämpligt att tillämpa olika typer av statistiska metoder på data som erhållits genom olika mätnings- (insamlings)procedurer kompliceras av frågor som rör omvandling av variabler och den exakta tolkningen av frågorforskning. Relationen mellan data och vad den beskriver återspeglar helt enkelt det faktum att vissa typer av statistiska påståenden kan ha sanningsvärden som inte är oföränderliga under vissa transformationer. Huruvida omvandlingen är värd att överväga beror på frågan du försöker svara på.

Vad är en datatyp

Datatypen är en grundläggande komponent i det semantiska innehållet i en variabel och styr vilka typer av sannolikhetsfördelningar som logiskt kan användas för att beskriva variabeln, vilka operationer som tillåts på den, vilken typ av regressionsanalys som används för att förutsäga den, etc. Konceptet för en datatyp liknar begreppet mätnivå, men mer specifikt - till exempel kräver dataräkningar en annan fördelning (Poisson eller binomial) än för icke-negativa reella värden, men båda faller under samma mätnivå (koefficientskala).

Vågar

Olika försök har gjorts för att skapa en taxonomi av mätnivåer för bearbetning av statistisk information. Psykofysikern Stanley Smith Stevens definierade nominella, ordinala, intervall- och proportionella skalor. Nominella mätningar har inte en signifikant rangordning bland värdena och tillåter en en-till-en-konvertering. Vanliga mätningar har oprecisa skillnader mellan successiva värden, men skiljer sig åt i den signifikanta ordningen för dessa värden, och tillåternågon ordningsbevarande omvandling. Intervallmätningar har meningsfulla avstånd mellan mätningarna, men nollvärdet är godtyckligt (som i fallet med longitud- och temperaturmätningar i Celsius eller Fahrenheit) och tillåter all linjär transformation. Förhållandedimensioner har både ett meningsfullt nollvärde och avstånd mellan olika definierade dimensioner och tillåter alla skalförändringar.

Data som inte kan beskrivas med ett enda tal ingår ofta i slumpmässiga vektorer av verkliga slumpvariabler, även om det finns en växande trend att bearbeta dem själv. Sådana exempel kommer att diskuteras nedan.

Slumpmässiga vektorer

Enskilda element kan vara korrelerade eller inte. Exempel på fördelningar som används för att beskriva korrelerade slumpmässiga vektorer är den multivariata normalfördelningen och den multivariata t-fördelningen. I allmänhet kan det finnas godtyckliga korrelationer mellan alla element, men detta blir ofta ohanterligt över en viss storlek, vilket kräver ytterligare begränsningar för de korrelerade komponenterna.

Slumpmässiga matriser

Slumpmässiga matriser kan ordnas linjärt och behandlas som slumpmässiga vektorer, men detta kanske inte är ett effektivt sätt att representera korrelationer mellan olika element. Vissa sannolikhetsfördelningar är specifikt utformade för slumpmässiga matriser, till exempel normalmatrisendistribution och Wishart-distribution.

Random Sequences

Ibland anses de vara samma som slumpvektorer, men i andra fall används termen specifikt för fall där varje slumpvariabel korrelerar endast med närliggande variabler (som i en Markov-modell). Detta är ett specialfall av det Bayesianska nätverket och används för mycket långa sekvenser, såsom genkedjor eller långa textdokument. Ett antal modeller är speciellt designade för sådana sekvenser, till exempel dolda Markov-sekvenser.

Slumpmässiga processer

De liknar slumpmässiga sekvenser, men bara när längden på sekvensen är oändlig eller oändlig, och elementen i sekvensen bearbetas en efter en. Detta används ofta för data som kan beskrivas som tidsserier. Detta gäller till exempel när det gäller aktiekursen nästa dag.

Slutsats

Analysen av statistisk information beror helt på kvaliteten på insamlingen. Det senare är i sin tur starkt relaterat till dess klassificeringsmöjligheter. Naturligtvis finns det många typer av klassificering av statistisk information, som läsaren själv kan se när han läser den här artikeln. Icke desto mindre kommer närvaron av effektiva verktyg och goda kunskaper i matematik, såväl som kunskaper inom sociologiområdet, att göra sitt jobb, vilket gör att du kan genomföra en undersökning eller studie utan betydande felkorrigeringar. Källor till statistisk information i formuläretmänniskor, organisationer och andra ämnen inom sociologi finns lyckligtvis representerade i stort överflöd. Och inga svårigheter kan stå i vägen för en sann upptäcktsresande.