Frekvenstextanalys: funktioner och exempel

Innehållsförteckning:

Frekvenstextanalys: funktioner och exempel
Frekvenstextanalys: funktioner och exempel
Anonim

Du har mött det här konceptet mer än en gång i ditt liv om du varit tvungen att arbeta med texter. I synnerhet kan du vända dig till onlineräknare som utför exakt frekvensanalysen av texten. Dessa behändiga verktyg visar hur många gånger ett visst tecken eller bokstav förekommer i ett textstycke. Ofta visas också en procentsats. Varför behövs detta? Hur bidrar frekvensanalys av text till att enkla chiffer "spricker"? Vad är dess väsen, vem uppfann det? Vi kommer att besvara dessa och andra viktiga frågor om ämnet under artikelns gång.

Definition

Frekvensanalys är en av varianterna av kryptoanalys. Den är baserad på forskarnas antagande om förekomsten av en statistisk icke-trivial fördelning av enskilda karaktärer och deras regelbundna sekvenser i både vanlig text och chiffertext.

Man tror att en sådan distribution, upp till ersättning av enskilda tecken, också kommer att bevaras i krypterings-/dekrypteringsprocesserna.

frekvensanalys av system
frekvensanalys av system

Processkarakteristik

Nu ska vi ta en titt på frekvensanalys i enkla termer. Detta innebär att antalet förekomster av samma alfabetiska tecken i texter med tillräcklig längd är detsamma i olika texter skrivna på samma språk.

Och hur är det nu med monoalfabetisk kryptering? Det antas att om det finns en karaktär med en sådan liknande sannolikhet att förekomma i avsnittet med chiffertext, så är det realistiskt att anta att det är den chiffrerade bokstaven.

Följare av frekvenstextanalys tillämpar samma resonemang på digram (sekvenser av två bokstäver). Trigram - detta gäller redan polyalfabetiska chiffer.

History of the method

Frekvensanalys av ord är inte ett fynd av modernitet. Det har varit känt för den vetenskapliga världen sedan 900-talet. Dess skapelse förknippas med namnet Al-Kindi.

Men de kända fallen av tillämpning av metoden för frekvensanalys hör till en mycket senare period. Det mest slående exemplet här är dechiffreringen av egyptiska hieroglyfer, framställd 1822 av J.-F. Champollion.

Om vi vänder oss till skönlitteratur kan vi hitta många intressanta referenser till denna dekrypteringsmetod:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Children of Captain Grant".
  • Edgar Poe - "Gold Bug".

Men sedan mitten av förra seklet har de flesta av de algoritmer som används vid kryptering utvecklats med hänsyn till deras motståndskraft mot sådan frekvenskryptanalys. Därför detidag används de oftast bara för att utbilda framtida kryptografer.

textfrekvensanalys
textfrekvensanalys

Grundläggande metod

Låt oss nu presentera frekvenssvarsanalysen i detalj. Denna typ av analys är direkt baserad på det faktum att testet består av ord, och de i sin tur av bokstäver. Antalet bokstäver som fyller de nationella alfabeten är begränsat. Bokstäver kan helt enkelt listas här.

De viktigaste egenskaperna hos en sådan text kommer att vara både upprepning av bokstäver, olika bigram, trigram och n-gram, såväl som kompatibiliteten av olika bokstäver med varandra, växlingen av konsonanter / vokaler och annat varianter av dessa symboler.

Huvudidén med metoderna är att räkna förekomster av möjliga n-gram (betecknade med nm) i klartext tillräckligt lång för analys (betecknad med T=t1t2…tl) sammansatt av bokstäver i det nationella alfabetet (betecknas med {a1, a2, …, an}). Allt ovanstående orsakar några på varandra följande m-gram av texten:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Om detta är antalet förekomster av m-gram ai1ai2…sikte i en viss text T, och L är det totala antalet m-gram som analyserats av forskaren, så är det möjligt att fastställa empiriskt att för tillräckligt stort L kommer frekvenserna för ett sådant m-gram att skilja sig lite från varandra.

frekvensanalys
frekvensanalys

Vanligt förekommande bokstäver i det ryska alfabetet

Men tids-frekvensanalys, trots det liknande namnet, har ingenting att göra med ämnet för vårt samtal. Denna typ av analys utförs försignaler från lågobserverbara radarstationer som använder en speciell vågtransform.

Låt oss nu gå tillbaka till huvudämnet. När du gör en frekvensanalys kan du ta reda på vilka bokstäver i det ryska alfabetet som oftast finns i ganska voluminösa texter (procent från 0,062 till 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Även en speciell mnemonisk regel har införts, som hjälper till att lära sig de vanligaste bokstäverna i det ryska alfabetet. För att göra detta räcker det att bara komma ihåg ett ord - "höloft".

I vanliga fall ställs frekvensen för användning av bokstäver i procent på ett enkelt sätt: specialisten räknar hur många gånger bokstaven förekommer i texten och dividerar sedan det resulterande värdet med det totala antalet tecken i texten. Och för att uttrycka detta värde i procent räcker det att multiplicera det med 100.

Det är viktigt att tänka på att frekvensen inte bara beror på textens volym utan också på dess karaktär. Till exempel, i tekniska källor förekommer bokstaven "F" mycket oftare än i fiktion. Därför, för objektiva resultat, måste en specialist skriva texter av olika karaktär och stil för forskning.

textfrekvensanalysprogram
textfrekvensanalysprogram

Bi-, tri-, four-grams

I meningsfulla texter kan du också hitta de vanligaste (respektive de mestupprepade) kombinationer av två eller flera bokstäver. Specialister har också sammanställt flera tabeller, som indikerar frekvensen av liknande digram i olika alfabet.

När det gäller ryska gjorde frekvensanalysen av system med omfattande meningsfulla texter det möjligt att fastställa de vanligaste bigrammen och trigrammen:

  • EN.
  • ST.
  • MEN.
  • NOT.
  • PÅ.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NEW
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Föredragna relationer mellan brev till varandra

Och detta är inte alla möjligheter som frekvensanalys kan ge textforskare. Genom att systematisera information från liknande tabeller av bigram och trigram, är det möjligt att extrahera data om de vanligaste kombinationerna av bokstäver. Eller, med andra ord, deras föredragna relationer med varandra.

En sådan omfattande studie har redan utförts av experter. Resultatet blev en tabell där, tillsammans med varje bokstav i alfabetet, dess grannar indikerades. Dessutom de karaktärer som ofta finns både omedelbart före och efter det. Bokstäverna i tabellen är inte stavade av en slump. Närmare symbolen anges de vanligaste grannarna, ytterligare - mer sällsynta.

Tänk på exempel:

  • Brev "A". Följande föredragna anslutningar urskiljs här: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Härifrån ser vi att det oftast före "A" i texterna står "H" ("NA"). Och efter "A" oftast i texter på ryska kan vi möta "L"("AL").
  • Brev "M". Experter har identifierat sådana föredragna anslutningar: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Brev "b". Föredragna anslutningar är följande: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Brevet "Sh". Föredragna anslutningar: "e-b-a-i-u-Sch-e-i-a".
  • Brev "P". Föredragna anslutningar med denna symbol för det ryska alfabetet: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
tids-frekvensanalys
tids-frekvensanalys

Vad definierar analys?

Moderne frekvenstextanalysprogram hjälper till att studera stora volymer av en mängd olika artiklar, uppsatser, passager och så vidare. Följande information ges till forskaren som standard:

  • Tot alt antal tecken i texten.
  • Antal blanksteg som används av författaren.
  • Antal siffror.
  • Information om använda skiljetecken - punkter, kommatecken, etc.
  • Antalet bokstäver i vart och ett av de tillgängliga alfabeten - kyrilliska, latinska, etc.
  • Information om hur ofta varje bokstav och symbol används i texten - antalet omnämnanden och procentandel jämfört med hela texten.

Kamp mot överoptimering och övermättnad

Varför utförs textfrekvensanalys? Är det bara i nyfikenhetssyfte - att fastställa vilka karaktärer i den skrivna texten som visade sig vara frekvent påträffade? Nej, analysens huvudsakliga tillämpning är praktisk, och den ligger någon annanstans.

N-gram inkluderar inte bara stabila bigram och trigram. Till sammakategorier inkluderar nyckelord (taggar), samlokaliseringar. Det vill säga stabila kombinationer som består av två eller flera ord. De kännetecknas av att sådana sammansättningar förekommer tillsammans i texten och samtidigt bär en viss semantisk belastning.

Detta spelar i händerna på skrupelfria SEO-specialister. I sitt arbete missbrukar de ibland upprepningen av taggar och nyckelord i texten för att på konstgjord väg öka relevansen för en viss webbsida. De försöker lura systemet med ett sådant "trick": att göra en naturlig kombination med den vanliga kombinationen av ord, traditionell för det ryska språket ("köp en minkrock") till en inkonsekvent. Det vill säga fås genom att ordna om ord i ett sådant naturligt N-gram ("köp en minkrock").

Men idag har sökalgoritmer lärt sig att upptäcka överoptimering lika effektivt som överspam – övermättnad av text med nyckelord, taggar som påverkar rankningen av resultaten på söksidan. Överoptimerade sidor rankas nu tvärtom lägre av användarens fråga. Och människor själva tenderar inte att läsa meningslöst, övermättad med taggar, utan föredrar användbar information på en annan resurs.

frekvensanalysmetod
frekvensanalysmetod

Hjälper privat analys för SEO-specialister

Således ger moderna sökmotortextfilter idag företräde åt de internetsidor, vars information inte bara är lätt att läsa, utan också användbar för besökare. För att optimera sitt arbete för nya standarder, SEO-specialisteroch vänd dig till frekvensanalysen av texten. Många populära tjänster tillhandahåller det idag.

Frekvensanalys hjälper till att granska texten som förbereds för publicering för informativitet. Eliminera onödig redundans av taggar och nyckelfraser. Det låter dig också uppmärksamma författaren på onaturliga kombinationer av ord som väcker misstankar i sökmotorernas textfilter.

frekvenssvarsanalys
frekvenssvarsanalys

Frekvensanalys av texten hjälper alltså till att bestämma frekvensen av omnämnande av en viss karaktär i källan. Metoden används idag för att bedöma textöverbelastning med taggar, onaturliga permutationer av ord.

Rekommenderad: