Chastotali matn tahlili: xususiyatlar va misollar

Mundarija:

Chastotali matn tahlili: xususiyatlar va misollar
Chastotali matn tahlili: xususiyatlar va misollar
Anonim

Agar matnlar bilan ishlashga toʻgʻri kelgan boʻlsa, bu tushunchani hayotingizda bir necha marta uchratgansiz. Xususan, matnning chastotali tahlilini aniq amalga oshiradigan onlayn kalkulyatorlarga murojaat qilishingiz mumkin. Ushbu qulay vositalar matnning istalgan qismida ma'lum bir belgi yoki harf necha marta sodir bo'lishini ko'rsatadi. Ko'pincha foiz ham ko'rsatiladi. Bu nima uchun kerak? Matnning chastotali tahlili oddiy shifrlarning "yorilishi" ga qanday yordam beradi? Uning mohiyati nimada, uni kim ixtiro qilgan? Maqolada ushbu va boshqa muhim savollarga javob beramiz.

Tanrif

Chastotalar tahlili kriptoanalizning turlaridan biridir. U olimlarning oddiy va shifrlangan matnda individual belgilar va ularning muntazam ketma-ketliklarining statistik notrivial taqsimoti mavjudligi haqidagi taxminiga asoslanadi.

Alohida belgilar almashtirilgunga qadar bunday taqsimot shifrlash/parchalash jarayonlarida ham saqlanib qoladi, deb ishoniladi.

tizimlarning chastota tahlili
tizimlarning chastota tahlili

Jarayon xarakteristikasi

Endi oddiy so'zlar bilan chastota tahlilini ko'rib chiqamiz. Bu shuni anglatadiki, yetarli uzunlikdagi matnlarda bir xil alifbo belgilarining takrorlanish soni bir tilda yozilgan turli matnlarda bir xil bo‘ladi.

Endi esa monoalfavitli shifrlash haqida nima deyish mumkin? Agar shifrlangan matnli boʻlimda shunday ehtimoliga ega boʻlgan belgi mavjud boʻlsa, uni oʻsha shifrlangan harf deb taxmin qilish haqiqatga toʻgʻri keladi, deb taxmin qilinadi.

Tez chastotali matn tahlilining izdoshlari diagrammalarga (ikki harf ketma-ketligi) bir xil mulohazalarni qo'llaydilar. Trigrammalar - bu allaqachon polialfavitli shifrlar uchun.

Usul tarixi

So'zlarning chastota tahlili zamonaviylikning topilmasi emas. Ilm olamiga 9-asrdan beri maʼlum. Uning yaratilishi Al-Kindi nomi bilan bog'liq.

Ammo chastotani tahlil qilish usulini qo'llashning ma'lum holatlari ancha keyingi davrga tegishli. Bu erda eng yorqin misol 1822 yilda J.-F tomonidan ishlab chiqarilgan Misr ierogliflarining dekodlanishidir. Champollion.

Agar badiiy adabiyotga murojaat qilsak, ushbu shifrni ochish usuliga oid koʻplab qiziqarli havolalarni topishimiz mumkin:

  • Konan Doyl - "Raqsga tushgan erkaklar".
  • Jyul Vern - "Kapitan Grantning farzandlari".
  • Edgar Po - "Oltin xato".

Biroq, oʻtgan asrning oʻrtalaridan boshlab shifrlashda qoʻllaniladigan koʻpchilik algoritmlar ularning bunday chastotali kriptoanalizga chidamliligini hisobga olgan holda ishlab chiqilgan. Shuning uchun ubugungi kunda ular faqat kelajakdagi kriptograflarni tayyorlash uchun ishlatiladi.

matn chastotasini tahlil qilish
matn chastotasini tahlil qilish

Asosiy usul

Endi chastota reaktsiyasi tahlilini batafsil taqdim qilaylik. Bunday tahlil to'g'ridan-to'g'ri test so'zlardan va o'z navbatida harflardan iborat ekanligiga asoslanadi. Milliy alifboni to'ldiradigan harflar soni cheklangan. Harflarni bu yerda oddiygina roʻyxatga olish mumkin.

Bunday matnning eng muhim xususiyatlari ham harflarning takrorlanishi, turli bigrammalar, trigramlar va n-gramlar, shuningdek, turli harflarning bir-biriga mos kelishi, undoshlar / unlilarning almashinishi va boshqalar bo'ladi. bu belgilarning turlari.

Usullarning asosiy gʻoyasi milliy alifbo harflaridan tashkil topgan (T=t1t2…tl bilan belgilanadi) ochiq matnlarda mumkin boʻlgan n-grammlarning (nm bilan belgilangan) paydo boʻlishini hisoblashdan iborat. {a1, a2, …, an} bilan belgilanadi). Yuqoridagilarning barchasi matnning bir necha m-gramm ketma-ketligiga sabab bo'ladi:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Agar bu m-gramm ai1ai2…maqsadning ma’lum bir matnda uchraydigan soni T bo’lsa va L tadqiqotchi tomonidan tahlil qilingan m-grammlarning umumiy soni bo’lsa, empirik tarzda aniqlash mumkin. etarlicha katta L bo'lsa, bunday m-gramm uchun chastotalar bir-biridan biroz farq qiladi.

chastota tahlili
chastota tahlili

Rus alifbosining tez-tez uchraydigan harflari

Ammo vaqt-chastota tahlili, shunga o'xshash nomga qaramay, suhbatimiz mavzusiga hech qanday aloqasi yo'q. Ushbu turdagi tahlillar uchun amalga oshiriladimaxsus to'lqinli transformatsiyadan foydalangan holda past kuzatiladigan radar stantsiyalaridan signallar.

Endi asosiy mavzuga qaytaylik. Chastotani tahlil qilishda siz rus alifbosining qaysi harflari juda katta hajmli matnlarda ko'proq uchraydi (0,062 dan 0,018 foizgacha):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Hatto rus alifbosining eng keng tarqalgan harflarini o'rganishga yordam beradigan maxsus mnemonik qoida ham joriy qilingan. Buning uchun faqat bitta so'zni eslab qolish kifoya - "haylloft".

Umumiy hollarda harflardan foydalanish chastotasi foizda oddiygina belgilanadi: mutaxassis harfning matnda necha marta kelishini hisoblaydi, so'ngra olingan qiymatni matndagi belgilarning umumiy soniga bo'linadi. Bu qiymatni foiz sifatida ifodalash uchun uni 100 ga ko‘paytirish kifoya.

Shuni hisobga olish kerakki, chastota nafaqat matn hajmiga, balki uning tabiatiga ham bog'liq bo'ladi. Masalan, texnik manbalarda "F" harfi badiiy adabiyotga qaraganda ancha tez-tez uchraydi. Shu sababli, ob'ektiv natijalarga erishish uchun mutaxassis tadqiqot uchun turli xil tabiat va uslubdagi matnlarni yozishi kerak.

matn chastotasini tahlil qilish dasturlari
matn chastotasini tahlil qilish dasturlari

Bi-, tri-, to'rt gramm

Ma'noli matnlarda siz eng keng tarqalganini ham topishingiz mumkin (mos ravishda, engtakroriy) ikki yoki undan ortiq harflarning kombinatsiyasi. Mutaxassislar, shuningdek, turli alifbolarning o'xshash diagrammalarining chastotalarini ko'rsatadigan bir nechta jadvallarni tuzdilar.

Rus tiliga kelsak, katta hajmli mazmunli matnlar tizimining chastotali tahlili eng keng tarqalgan bigramma va trigrammalarni aniqlashga imkon berdi:

  • UZ.
  • ST.
  • AMMO.
  • YOQ.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • YANGI
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Harflarning bir-biriga afzal munosabati

Va bu chastota tahlili matn tadqiqotchilariga beradigan barcha imkoniyatlar emas. Bigramma va trigrammalarning o'xshash jadvallaridan ma'lumotlarni tizimlashtirish orqali harflarning eng keng tarqalgan birikmalari bo'yicha ma'lumotlarni olish mumkin. Yoki boshqacha qilib aytganda, ularning bir-birlari bilan afzal ko'rgan munosabatlari.

Bunday keng qamrovli tadqiqot allaqachon mutaxassislar tomonidan amalga oshirilgan. Uning natijasi alifboning har bir harfi bilan birga qo'shnilari ko'rsatilgan jadval edi. Bundan tashqari, ko'pincha undan oldin ham, undan keyin ham topiladigan belgilar. Jadvaldagi harflar tasodifan yozilmagan. Belgiga yaqinroq, eng tez-tez uchraydigan qo'shnilar ko'rsatilgan, keyinroq - kamdan-kam hollarda.

Misollarni ko'rib chiqing:

  • “A” harfi. Bu erda quyidagi afzal bog'lanishlar ajralib turadi: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Bu erdan ko'ramizki, matnlarda "A" dan oldin ko'pincha "H" ("NA") bo'ladi. Rus tilidagi matnlarda "A" dan keyin ko'pincha "L" harfini uchratishimiz mumkin.("AL").
  • “M” harfi. Mutaxassislar bunday afzal ulanishlarni aniqladilar: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • “b” harfi. Afzal ulanishlar quyidagicha: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • “Sh” harfi. Afzal ulanishlar: "e-b-a-i-u-Sch-e-i-a".
  • “P” harfi. Rus alifbosining ushbu belgisi bilan afzal qilingan ulanishlar: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
vaqt-chastota tahlili
vaqt-chastota tahlili

Tahlilni nima belgilaydi?

Zamonaviy chastotali matnni tahlil qilish dasturlari turli xil maqolalar, insholar, parchalar va hokazolarning katta hajmlarini o'rganishga yordam beradi. Tadqiqotchiga standart sifatida quyidagi maʼlumotlar taqdim etiladi:

  • Matndagi belgilarning umumiy soni.
  • Muallif tomonidan foydalanilgan boʻshliqlar soni.
  • Raqamlar soni.
  • Ishlatilgan tinish belgilari haqida ma'lumot - nuqta, vergul va hokazo.
  • Mavjud alifbolarning har biridagi harflar soni - kirill, lotin va boshqalar.
  • Matndagi har bir harf va belgidan foydalanish chastotasi haqida ma'lumot - eslatmalar soni va butun matnga nisbatan foiz.

Oddiy optimallashtirish va toʻyinganlikka qarshi kurash

Matn chastotasi tahlili nima uchun amalga oshiriladi? Bu shunchaki qiziquvchanlik uchunmi - yozma matndagi qaysi belgilar tez-tez uchrab turishini aniqlash uchunmi? Yo'q, tahlilning asosiy qo'llanilishi amaliy va u boshqa joyda yotadi.

N-grammlar nafaqat barqaror bigrammalar va trigramlarni o'z ichiga oladi. Xuddi shundaytoifalarga kalit so'zlar (teglar), birikmalar kiradi. Ya'ni, ikki yoki undan ortiq so'zlardan tashkil topgan barqaror birikmalar. Ular bunday kompozitsiyalarning matnda birga kelishi va ayni paytda ma'lum bir semantik yukni ko'tarishi bilan ajralib turadi.

Bu vijdonsiz SEO mutaxassislarining qo'liga tushadi. Ular o'z ishlarida ba'zan ma'lum bir veb-sahifaning dolzarbligini sun'iy ravishda oshirish uchun matndagi teglar va kalit so'zlarning takrorlanishini suiiste'mol qiladilar. Ular tizimni shunday "hiyla" bilan aldashga harakat qilmoqdalar: rus tili uchun an'anaviy bo'lgan so'zlarning odatiy birikmasi bilan tabiiy birikmani ("nokali p alto sotib ol") mos kelmaydiganga aylantirish. Ya'ni, shunday tabiiy N-grammdagi so'zlarni qayta tartiblash orqali olingan ("nokali p alto sotib ol").

Ammo bugungi kunda qidiruv algoritmlari haddan tashqari optimallashtirishni – qidiruv sahifasidagi natijalar reytingiga taʼsir etuvchi kalit soʻzlar, teglar bilan matnning haddan tashqari toʻyinganligi kabi samarali aniqlashni oʻrgandi. Haddan tashqari optimallashtirilgan sahifalar endi, aksincha, foydalanuvchi so'rovi bo'yicha pastroqda joylashgan. Odamlarning o‘zlari esa boshqa manbadagi foydali ma’lumotlarni afzal ko‘rib, ma’nosiz, teglar bilan to‘ldirilgan matnni o‘qishga moyil emaslar.

chastotani tahlil qilish usuli
chastotani tahlil qilish usuli

SEO mutaxassislari uchun shaxsiy tahlilga yordam berish

Shunday qilib, zamonaviy qidiruv tizimining matn filtrlari bugungi kunda ma'lumotlar nafaqat o'qish oson, balki tashrif buyuruvchilar uchun ham foydali bo'lgan Internet sahifalariga ustunlik beradi. Yangi standartlar uchun o'z ishini optimallashtirish uchun, SEO mutaxassislariva matnning chastotali tahliliga murojaat qiling. Ko'pgina mashhur xizmatlar uni bugun taqdim etadi.

Chastotalar tahlili nashrga tayyorlanayotgan matnni maʼlumotlilik uchun koʻrib chiqishga yordam beradi. Teglar va kalit iboralarning keraksiz ortiqchaligini yo'q qiling. Shuningdek, u muallifning eʼtiborini qidiruv tizimlarining matn filtrlarida shubha uygʻotadigan gʻayritabiiy soʻz birikmalariga qaratish imkonini beradi.

chastota reaktsiyasini tahlil qilish
chastota reaktsiyasini tahlil qilish

Matnning chastota tahlili shu tariqa manbada ma'lum bir belgi zikr qilish chastotasini aniqlashga yordam beradi. Usul bugungi kunda teglar bilan matnning haddan tashqari yuklanishini, soʻzlarning gʻayritabiiy almashinuvini baholash uchun ishlatiladi.

Tavsiya: