Informationsentropi: definition av begrepp, egenskaper, system

2025 Författare: Angel Austin | austin@vogueindustry.com. Senast ändrad: 2025-01-23 12:34

Begreppet informationsentropi innebär den negativa logaritmen för sannolikhetsmassfunktionen för ett värde. Således, när datakällan har ett värde med en lägre sannolikhet (dvs. när en händelse med låg sannolikhet inträffar), innehåller händelsen mer "information" ("överraskning") än när källdata har ett värde med högre sannolikhet.

Mängden information som förmedlas av varje händelse som definieras på detta sätt blir en slumpvariabel vars förväntade värde är informationsentropin. Generellt hänvisar entropi till oordning eller osäkerhet, och dess definition som används i informationsteori är direkt analog med den som används i statistisk termodynamik. Begreppet IE introducerades av Claude Shannon i hans artikel "A Mathematical Theory of Communication" från 1948. Det är härifrån termen "Shannons informationsentropi" kom ifrån.

Definition och system

Grundmodellen för ett dataöverföringssystem består av tre delar: en datakälla, en kommunikationskanal och en mottagare,och, som Shannon uttrycker det, är det "grundläggande kommunikationsproblemet" att mottagaren ska kunna identifiera vilken data som genererades av källan baserat på signalen den tar emot över kanalen. Entropi ger en absolut begränsning för den kortaste möjliga genomsnittliga förlustfria kodningslängden för komprimerad källdata. Om entropin för källan är mindre än kommunikationskanalens bandbredd, kan data som den genererar överföras tillförlitligt till mottagaren (åtminstone i teorin, kanske om man försummar några praktiska överväganden såsom komplexiteten i systemet som krävs för att överföra datan och hur lång tid det kan ta att överföra data).

Informationsentropi mäts vanligtvis i bitar (alternativt kallade "shannoner") eller ibland i "naturliga enheter" (nats) eller decimaler (kallade "dits", "bans" eller "hartleys"). Måttenheten beror på basen för logaritmen, som används för att bestämma entropin.

Egenskaper och logaritm

Loggsannolikhetsfördelningen är användbar som ett mått på entropi eftersom den är additiv för oberoende källor. Till exempel är entropin för en rättvis insats av ett mynt 1 bit, medan entropin för m-volymer är m bitar. I en enkel representation behövs log2(n) bitar för att representera en variabel som kan anta ett av n värden om n är en potens av 2. Om dessa värden är lika sannolika är entropin (i bitar) lika med det antalet. Om ett av värdena är mer sannolikt än de andra, observationen att det ärbetydelse uppstår, är mindre informativ än om något mindre generellt resultat skulle inträffa. Omvänt ger sällsynta händelser ytterligare spårningsinformation.

Eftersom observation av mindre sannolika händelser är mindre frekvent, finns det inget gemensamt att entropin (som anses vara genomsnittlig information) som erhålls från ojämnt fördelade data alltid är mindre än eller lika med log2(n). Entropin är noll när ett resultat är definierat.

Shannons informationsentropi kvantifierar dessa överväganden när sannolikhetsfördelningen för de underliggande data är känd. Innebörden av observerade händelser (innebörden av meddelanden) är irrelevant i definitionen av entropi. Den senare tar bara hänsyn till sannolikheten att se en viss händelse, så informationen den kapslar in är data om den underliggande fördelningen av möjligheter, inte om innebörden av själva händelserna. Egenskaperna för informationsentropi förblir desamma som beskrivits ovan.

Informationsteori

Grundtanken med informationsteori är att ju mer man vet om ett ämne, desto mindre information kan man få om det. Om en händelse är mycket sannolik är det inte förvånande när det inträffar och ger därför lite ny information. Omvänt, om händelsen var osannolik, var det mycket mer informativt att händelsen inträffade. Därför är nyttolasten en ökande funktion av den omvända sannolikheten för händelsen (1 / p).

Nu om fler händelser inträffar, entropimäter det genomsnittliga informationsinnehåll du kan förvänta dig om en av händelserna inträffar. Det betyder att kasta en tärning har mer entropi än att kasta ett mynt eftersom varje kristallutfall har en lägre sannolikhet än varje myntutfall.

Funktioner

Entropi är alltså ett mått på oförutsägbarheten hos ett tillstånd eller, vilket är samma sak, dess genomsnittliga informationsinnehåll. För att få en intuitiv förståelse av dessa termer, överväg exemplet med en politisk undersökning. Vanligtvis sker sådana undersökningar eftersom resultatet av till exempel val inte är känt ännu.

Med andra ord, resultaten av undersökningen är relativt oförutsägbara, och att genomföra den och undersöka data ger faktiskt en del ny information; de är bara olika sätt att säga att den tidigare entropin i omröstningsresultaten är stor.

Tänk nu på fallet där samma omröstning utförs en andra gång strax efter den första. Eftersom resultatet av den första undersökningen redan är känt, kan resultaten av den andra undersökningen förutsägas väl och resultaten bör inte innehålla mycket ny information; i detta fall är a priori-entropin för det andra undersökningsresultatet liten jämfört med det första.

Coin Toss

Tänk nu på exemplet med att vända ett mynt. Om man antar att sannolikheten för svansar är densamma som sannolikheten för huvuden, är entropin för ett myntkast mycket hög, eftersom det är ett märkligt exempel på informationsentropin i ett system.

Detta beror påatt det är omöjligt att förutsäga att resultatet av ett mynt kastas i förväg: om vi måste välja är det bästa vi kan göra att förutsäga att myntet kommer att landa på svansar, och denna förutsägelse kommer att vara korrekt med en sannolikhet av 1 / 2. En sådan myntkastning har en bit entropi, eftersom det finns två möjliga utfall som händer med lika sannolikhet, och att studera det faktiska utfallet innehåller en bit information.

Tvärtom, att vända ett mynt med båda sidor med svansar och inga huvuden har noll entropi eftersom myntet alltid kommer att landa på detta tecken och resultatet kan förutsägas perfekt.

Slutsats

Om komprimeringsschemat är förlustfritt, vilket innebär att du alltid kan återställa hela det ursprungliga meddelandet genom att dekomprimera, så har det komprimerade meddelandet samma mängd information som originalet, men sänds med färre tecken. Det vill säga, den har mer information eller högre entropi per tecken. Det betyder att det komprimerade meddelandet har mindre redundans.

I grova drag säger Shannons källkodssats att ett förlustfritt komprimeringsschema inte kan reducera meddelanden i genomsnitt till att ha mer än en bit information per meddelandebit, men vilket värde som helst mindre än en bit information per bit kan uppnås meddelanden med lämpligt kodningsschema. Entropin för ett meddelande i bitar gånger dess längd är ett mått på hur mycket allmän information det innehåller.