Multidimensionell skalning: definition, mål, mål och exempel

Innehållsförteckning:

Multidimensionell skalning: definition, mål, mål och exempel
Multidimensionell skalning: definition, mål, mål och exempel
Anonim

Multivariate scaling (MDS) är ett verktyg för att visualisera graden av likhet för enskilda fall i en datamängd. Det hänvisar till en uppsättning relaterade ordinationsmetoder som används vid visualisering av information, i synnerhet för att visa informationen som finns i en avståndsmatris. Detta är en form av icke-linjär dimensionalitetsreduktion. MDS-algoritmen syftar till att placera varje objekt i ett N-dimensionellt utrymme på ett sådant sätt att avstånden mellan objekten bevaras så bra som möjligt. Varje objekt tilldelas sedan koordinater i var och en av de N dimensionerna.

Antalet dimensioner för MDS-grafen kan överstiga 2 och anges på förhand. Om du väljer N=2 optimerar du objektplaceringen för 2D-spridningsdiagrammet. Du kan se exempel på flerdimensionell skalning på bilderna i artikeln. Exempel med symboler på ryska är särskilt illustrativa.

Flerdimensionell skalning
Flerdimensionell skalning

Essence

Metod för flerdimensionell skalning (MMS,MDS) är en utökad uppsättning klassiska verktyg som generaliserar optimeringsproceduren för en uppsättning förlustfunktioner och inmatningsmatriser med kända avstånd med vikter och så vidare. I detta sammanhang kallas en användbar förlustfunktion stress, som ofta minimeras genom en procedur som kallas stressmajorisering.

Manuell

Det finns flera alternativ för flerdimensionell skalning. MDS-program minimerar automatiskt belastningen för att få en lösning. Kärnan i den icke-metriska MDS-algoritmen är en dubbel optimeringsprocess. Först måste den optimala monotona närhetstransformationen hittas. För det andra måste konfigurationspunkter vara optim alt placerade så att deras avstånd matchar de skalade närhetsvärdena så nära som möjligt.

Flerdimensionell skalningsexempel
Flerdimensionell skalningsexempel

Expansion

En förlängning av metrisk flerdimensionell skalning i statistik där målutrymmet är ett godtyckligt jämnt icke-euklidiskt utrymme. Där skillnaderna är avstånd på en yta och målutrymmet är en annan yta. Tematiska program låter dig hitta en bilaga med minimal förvrängning av en yta till en annan.

Step

Det finns flera steg i att genomföra en studie med multivariat skalning:

  1. Formulering av problemet. Vilka variabler vill du jämföra? Hur många variabler vill du jämföra? I vilket syfte kommer studien att användas?
  2. Hämtar indata. Respondenterna ställs en rad frågor. För varje produktpar ombeds de betygsätta likheten (vanligtvis på en 7-gradig Likert-skala från mycket lik till mycket olik). Den första frågan kan vara för Coca-Cola/Pepsi, till exempel, nästa för öl, nästa för Dr. Pepper, etc. Antalet frågor beror på antalet varumärken.
Avståndsskalning
Avståndsskalning

Alternativa tillvägagångssätt

Det finns två andra tillvägagångssätt. Det finns en teknik som kallas "Perceptual Data: Derived Approach" där produkter bryts ner i attribut och utvärderingen görs på en semantisk differentialskala. En annan metod är "preferensdatametoden", där respondenterna tillfrågas om preferenser snarare än likheter.

Den består av följande steg:

  1. Lanserar MDS-statistikprogrammet. Programvara för att utföra proceduren finns tillgänglig i många statistiska programvarupaket. Det finns ofta ett val mellan metrisk MDS (som handlar om intervall- eller förhållandenivådata) och icke-metrisk MDS (som handlar om ordningsdata).
  2. Bestämma antalet mätningar. Forskaren måste bestämma hur många mätningar han vill skapa på datorn. Ju fler mätningar, desto bättre är den statistiska anpassningen, men desto svårare är det att tolka resultaten.
  3. Visa resultat och definiera mätningar - statistikprogrammet (eller relaterad modul) visar resultaten. Kartan visar varje produkt (vanligtvis i 2D). Plats). Produkternas närhet till varandra indikerar antingen deras likhet eller preferens, beroende på vilket tillvägagångssätt som användes. Hur mätningar faktiskt motsvarar mätningar av systembeteende är dock inte alltid klart. En subjektiv bedömning av överensstämmelse kan göras här.
  4. Kontrollera resultaten för tillförlitlighet och validitet - beräkna R-kvadrat för att bestämma andelen skalad datavarians som kan förklaras av MDS-proceduren. Kvadrat R 0,6 anses vara den lägsta acceptabla nivån. R i kvadrat med 0,8 anses vara bra för metrisk skalning, medan 0,9 anses vara bra för icke-metrisk skalning.
Multivariat skalningsresultat
Multivariat skalningsresultat

Olika tester

Andra möjliga test är stresstester av Kruskal-typ, delade datatester, datastabilitetstester och omtestning av tillförlitlighetstester. Skriv i detalj om resultaten i testet. Tillsammans med kartläggningen bör åtminstone ett mått på avstånd (t.ex. Sorenson-index, Jaccard-index) och tillförlitlighet (t.ex. spänningsvärde) anges.

Det är också mycket önskvärt att ge en algoritm (t.ex. Kruskal, Mather) som ofta bestäms av det program som används (ibland ersätter algoritmrapporten), om du har angett en startkonfiguration eller haft ett slumpmässigt val, nummer av dimensionskörningar, Monte Carlo-resultat, antal iterationer, stabilitetspoäng och proportionell varians för varje axel (r-kvadrat).

Visuell information och dataanalysmetodflerdimensionell skalning

Informationsvisualisering är studiet av interaktiva (visuella) representationer av abstrakta data för att förbättra mänsklig kognition. Abstrakta data inkluderar både numeriska och icke-numeriska data såsom textuell och geografisk information. Informationsvisualisering skiljer sig dock från vetenskaplig visualisering: "det är informativ (informationsvisualisering) när en rumslig representation väljs, och scivis (vetenskaplig visualisering) när en rumslig representation ges."

Informationsvisualiseringsområdet uppstod ur forskning inom människa-datorinteraktion, datavetenskapliga tillämpningar, grafik, visuell design, psykologi och affärsmetoder. Det används alltmer som en viktig komponent i vetenskaplig forskning, digitala bibliotek, datautvinning, finansiell data, marknadsundersökningar, produktionskontroll och så vidare.

Metoder och principer

Informationsvisualisering tyder på att visualiserings- och interaktionsmetoder drar fördel av rikedomen i mänsklig perception, vilket gör det möjligt för användare att samtidigt se, utforska och förstå stora mängder information. Informationsvisualisering syftar till att skapa metoder för att kommunicera abstrakt data, information på ett intuitivt sätt.

Färg flerdimensionell skalning
Färg flerdimensionell skalning

Dataanalys är en integrerad del av all tillämpad forskning och problemlösning inom industrin. MestDe grundläggande tillvägagångssätten för dataanalys är visualisering (histogram, spridningsdiagram, ytplots, trädkartor, parallella koordinatdiagram, etc.), statistik (hypotestestning, regression, PCA, etc.), dataanalys (matchning, etc.)..d.) och maskininlärningsmetoder (klustring, klassificering, beslutsträd, etc.).

Bland dessa tillvägagångssätt är informationsvisualisering eller visuell dataanalys mest beroende av den analytiska personalens kognitiva färdigheter och tillåter upptäckten av ostrukturerade handlingsbara insikter som endast begränsas av mänsklig fantasi och kreativitet. En analytiker behöver inte lära sig några komplexa tekniker för att kunna tolka datavisualiseringar. Informationsvisualisering är också ett hypotesgenereringsschema som kan och vanligtvis åtföljs av mer analytisk eller formell analys såsom statistisk hypotestestning.

Studier

Det moderna studiet av visualisering började med datorgrafik, som "ända från början användes för att studera vetenskapliga problem. Men under de första åren begränsade bristen på grafikkraft ofta dess användbarhet. Prioriteringen av visualisering började att utvecklas 1987, med lanseringen av speciell programvara för datorgrafik och visualisering i vetenskaplig datoranvändning. Sedan dess har det hållits flera konferenser och workshops gemensamt organiserade av IEEE Computer Society och ACM SIGGRAPH".

De täckte de allmänna ämnena datavisualisering, informationsvisualisering och vetenskaplig visualisering,samt mer specifika områden som volymåtergivning.

Multidimensionell varumärkesskalning
Multidimensionell varumärkesskalning

Sammanfattning

Generalized Multidimensional Scaling (GMDS) är en förlängning av metrisk flerdimensionell skalning där målutrymmet är icke-euklidiskt. När skillnaderna är avstånd på en yta och målutrymmet är en annan yta, låter GMDS dig hitta kapslingen av en yta i en annan med minimal förvrängning.

GMDS är en ny forskningslinje. För närvarande är huvudapplikationerna deformerbar objektigenkänning (till exempel för 3D ansiktsigenkänning) och texturmapping.

Syftet med flerdimensionell skalning är att representera flerdimensionell data. Flerdimensionell data, det vill säga data som kräver mer än två eller tre dimensioner för att representera, kan vara svåra att tolka. Ett tillvägagångssätt för förenkling är att anta att data av intresse ligger på ett inbäddat icke-linjärt grenrör i ett högdimensionellt utrymme. Om samlaren har en tillräckligt låg dimension kan data visualiseras i lågdimensionellt utrymme.

Många av metoderna för minskning av icke-linjär dimensionalitet är relaterade till linjära metoder. Icke-linjära metoder kan grovt delas in i två grupper: de som tillhandahåller kartläggning (antingen från högdimensionellt utrymme till lågdimensionell inbäddning eller vice versa), och de som helt enkelt tillhandahåller visualisering. I samband med maskininlärning kan kartläggningsmetoder ses somett preliminärt skede av funktionsextraktion, varefter mönsterigenkänningsalgoritmer tillämpas. Vanligtvis är de som bara ger visualiseringar baserade på närhetsdata - dvs avståndsmätningar. Multidimensionell skalning är också ganska vanligt inom psykologi och andra humaniora.

Diagonal flerdimensionell skalning
Diagonal flerdimensionell skalning

Om antalet attribut är stort, är utrymmet för unika möjliga strängar också exponentiellt stort. Ju större dimensionen är, desto svårare blir det att avbilda utrymmet. Detta orsakar många problem. Algoritmer som arbetar på högdimensionell data tenderar att ha mycket hög tidskomplexitet. Att reducera data till färre dimensioner gör ofta analysalgoritmer mer effektiva och kan hjälpa maskininlärningsalgoritmer att göra mer exakta förutsägelser. Det är därför flerdimensionell dataskalning är så populär.

Rekommenderad: