Давтамжийн текстийн шинжилгээ: онцлог, жишээ

Агуулгын хүснэгт:

Давтамжийн текстийн шинжилгээ: онцлог, жишээ
Давтамжийн текстийн шинжилгээ: онцлог, жишээ
Anonim

Хэрэв та тексттэй ажиллах шаардлагатай байсан бол та амьдралдаа энэ ойлголттой нэгээс олон удаа таарч байсан. Ялангуяа та текстийн давтамжийн шинжилгээг яг таг хийдэг онлайн тооны машинд хандаж болно. Эдгээр хэрэглүүр хэрэглүүр нь текстийн аль ч хэсэгт тодорхой тэмдэгт эсвэл үсэг хэдэн удаа гарч байгааг харуулдаг. Ихэнхдээ хувийг бас харуулдаг. Энэ яагаад хэрэгтэй вэ? Текстийн давтамжийн шинжилгээ нь энгийн шифрүүдийн "хагарал"-д хэрхэн нөлөөлдөг вэ? Үүний мөн чанар юу вэ, хэн зохион бүтээсэн бэ? Бид нийтлэлийн хүрээнд эдгээр болон бусад чухал асуултуудад хариулах болно.

Тодорхойлолт

Давтамжийн шинжилгээ нь криптоанализийн нэг төрөл юм. Энэ нь энгийн болон шифрлэгдсэн текстийн аль алинд нь бие даасан тэмдэгтүүд болон тэдгээрийн тогтмол дарааллын статистикийн ач холбогдолгүй тархалт байгаа тухай эрдэмтдийн таамаглал дээр суурилдаг.

Ийм хуваарилалт нь хувь хүний тэмдэгтүүдийг солих хүртэл шифрлэлт/шифр тайлах процесст хадгалагдана гэж үзэж байна.

системийн давтамжийн шинжилгээ
системийн давтамжийн шинжилгээ

Процессын шинж чанар

Одоо давтамжийн шинжилгээг энгийн үгээр авч үзье. Энэ нь хангалттай урттай бичвэрт ижил цагаан толгойн үсгийн тохиолдлын тоо ижил хэлээр бичигдсэн өөр өөр бичвэрт ижил байна гэсэн үг.

Тэгээд одоо нэг цагаан толгойн шифрлэлт яах вэ? Хэрэв шифрлэгдсэн тексттэй хэсэгт ийм магадлал бүхий тэмдэгт байгаа бол тэр шифрлэгдсэн үсэг гэж үзэх нь бодитой юм.

Давтамжийн текстийн шинжилгээний дагагчид диаграммд (хоёр үсгийн дараалал) ижил үндэслэлийг ашигладаг. Триграммууд - энэ нь аль хэдийн олон үсэгт шифрлэгдсэн тохиолдолд зориулагдсан болно.

Аргын түүх

Үгийн давтамжийн шинжилгээ нь орчин үеийн олдвор биш юм. Энэ нь 9-р зуунаас шинжлэх ухааны ертөнцөд мэдэгдэж байсан. Үүнийг бүтээсэн нь Аль-Кинди нэртэй холбоотой.

Гэхдээ давтамжийн шинжилгээний аргыг хэрэглэсэн тохиолдлууд нэлээд хожуу үетэй холбоотой. Энд байгаа хамгийн тод жишээ бол 1822 онд Ж.-Ф-ын бүтээсэн Египетийн иероглифийн тайлал юм. Шамполлон.

Хэрэв бид уран зохиол руу хандвал энэ шифрийг тайлах аргын талаар олон сонирхолтой лавлагаа олж болно:

  • Конан Дойл - "Бүжиглэж буй эрчүүд".
  • Жюль Верн - "Ахмад Грантын хүүхдүүд".
  • Эдгар По - "Алтан алдаа".

Гэсэн хэдий ч өнгөрсөн зууны дунд үеэс эхлэн шифрлэлтэд ашигласан ихэнх алгоритмууд ийм давтамжийн криптоанализыг эсэргүүцэх чадварыг нь харгалзан боловсруулсан. Тиймээс тэрӨнөөдөр тэдгээрийг зөвхөн ирээдүйн криптографчдыг сургахад ашигладаг.

текстийн давтамжийн шинжилгээ
текстийн давтамжийн шинжилгээ

Үндсэн арга

Одоо давтамжийн хариуны шинжилгээг дэлгэрэнгүй танилцуулъя. Энэ төрлийн дүн шинжилгээ нь тест нь үгсээс бүрдэх ба тэдгээр нь эргээд үсгүүдээс бүрддэг гэдэгт шууд тулгуурладаг. Үндэсний цагаан толгойн үсгийг дүүргэх үсгийн тоо хязгаарлагдмал. Захидлуудыг энд жагсааж болно.

Ийм бичвэрийн хамгийн чухал шинж чанарууд нь үсэг, янз бүрийн биграмм, триграмм, n-грамм давтагдахаас гадна янз бүрийн үсгүүд хоорондоо нийцтэй байх, гийгүүлэгч / эгшиг солигдох болон бусад зүйлс байх болно. эдгээр тэмдгийн төрлүүд.

Аргын гол санаа нь үндэсний цагаан толгойн үсгүүдээс бүрдсэн (T=t1t2…tl-ээр тэмдэглэсэн) задлан шинжлэхэд хангалттай урт (nm-ээр тэмдэглэсэн) боломжтой n-граммуудын тохиолдлыг тоолох явдал юм. {a1, a2, …, an}) гэж тэмдэглэнэ. Дээрх бүх зүйл нь текстийн дараалсан хэдэн м-граммыг үүсгэдэг:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Хэрэв энэ нь тодорхой текст дэх m-грамм ai1ai2…зорилтын тоо T, харин L нь судлаачийн задлан шинжилсэн нийт м-граммын тоо бол эмпирик байдлаар тодорхойлох боломжтой. хангалттай том L бол ийм м-грамын давтамжууд бие биенээсээ бага зэрэг ялгаатай байх болно.

давтамжийн шинжилгээ
давтамжийн шинжилгээ

Орос цагаан толгойн байнга гардаг үсэг

Гэхдээ ижил төстэй нэртэй хэдий ч цаг давтамжийн шинжилгээ нь бидний ярианы сэдэвтэй ямар ч холбоогүй юм. Энэ төрлийн шинжилгээг зориулалтын дагуу хийдэгТусгай долгионы хувиргалтыг ашиглан бага ажиглагдах радарын станцын дохио.

Одоо үндсэн сэдэв рүүгээ орцгооё. Давтамжийн шинжилгээ хийхдээ нэлээд том бичвэрт орос цагаан толгойн аль үсгийг ихэвчлэн олдог болохыг олж мэдэх боломжтой (0.062-0.018 хувь):

  • A.
  • V.
  • D.
  • F.
  • Би.
  • K.
  • М.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Ш.
  • б.
  • E.
  • Би.

Орос цагаан толгойн хамгийн түгээмэл үсгүүдийг сурахад тусалдаг тусгай мнемоник дүрмийг хүртэл нэвтрүүлсэн. Үүнийг хийхийн тулд "хадлан" гэсэн ганц үгийг санахад л хангалттай.

Ерөнхий тохиолдолд үсгийн хэрэглээний давтамжийг хувь хэмжээгээр нь энгийнээр тогтоодог: мэргэжилтэн текстэд хэдэн удаа үсэг гарч байгааг тоолж, дараа нь гарсан утгыг текст дэх нийт тэмдэгтүүдийн тоонд хуваана. Мөн энэ утгыг хувиар илэрхийлэхийн тулд 100-аар үржүүлэхэд хангалттай.

Давтамж нь зөвхөн текстийн эзэлхүүнээс гадна мөн чанараас хамаарна гэдгийг анхаарах нь чухал. Жишээлбэл, техникийн эх сурвалжид "F" үсэг нь уран зохиолоос хамаагүй илүү гарч ирдэг. Тиймээс бодит үр дүнд хүрэхийн тулд мэргэжилтэн судалгаанд зориулж янз бүрийн шинж чанар, хэв маягийн текстийг бичих ёстой.

текст давтамжийн шинжилгээний програмууд
текст давтамжийн шинжилгээний програмууд

Би-, три-, дөрвөн грамм

Утга утгатай бичвэрүүдээс та хамгийн түгээмэл (тус тус бүр хамгийндавтагдсан) хоёр ба түүнээс дээш үсгийн хослол. Мэргэжилтнүүд мөн янз бүрийн цагаан толгойн ижил төстэй диаграммуудын давтамжийг харуулсан хэд хэдэн хүснэгтийг эмхэтгэсэн.

Орос хэлний хувьд их хэмжээний утга учиртай бичвэрийн системийн давтамжийн шинжилгээ нь хамгийн түгээмэл биграмм ба триграммыг тогтоох боломжтой болсон:

  • EN.
  • ST.
  • ГЭХДЭЭ.
  • БИШ.
  • АСААЛТТАЙ.
  • RA.
  • OV.
  • КО.
  • VO.
  • STO.
  • ШИНЭ
  • ENO.
  • TOV.
  • OVA.
  • ОВО.

Үсэг хоорондын илүүд үздэг харилцаа

Мөн энэ нь давтамжийн шинжилгээ нь текст судлаачдад өгч чадах бүх боломж биш юм. Биграмм ба триграммуудын ижил төстэй хүснэгтүүдийн мэдээллийг системчлэх замаар үсгийн хамгийн түгээмэл хослолуудын өгөгдлийг гаргаж авах боломжтой. Эсвэл өөрөөр хэлбэл, тэдний бие биетэйгээ илүүд үздэг харилцаа.

Ийм өргөн хүрээтэй судалгааг мэргэжилтнүүд аль хэдийн хийсэн. Үүний үр дүн нь цагаан толгойн үсэг бүрийн хамт хөршүүдийг нь харуулсан хүснэгт байв. Түүгээр ч барахгүй эдгээр дүрүүд нь түүний өмнө болон дараа нь ихэвчлэн олддог. Хүснэгтэнд байгаа үсгүүдийг санамсаргүй байдлаар бичдэггүй. Тэмдэгтэд ойртох тусам хамгийн ойр ойрхон хөршүүдийг, цаашлаад илүү ховор хөршүүдийг зааж өгсөн болно.

Жишээнүүдийг авч үзье:

  • "А" үсэг. Дараах давуу холболтуудыг энд ялгаж үздэг: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Эндээс бид текст дэх "А" үсгийн өмнө ихэвчлэн "H" ("NA") байгааг харж байна. Орос хэл дээрх "А" үсгийн дараа бид "L" үсэгтэй таарч болно.("AL").
  • "М" үсэг. Мэргэжилтнүүд ийм илүүд үздэг холболтуудыг тодорхойлсон: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • "b" үсэг. Сонгосон холболтууд нь дараах байдалтай байна: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • "Ш" үсэг. Сонгосон холболтууд: "e-b-a-i-u-Sch-e-i-a".
  • "P" үсэг. ОХУ-ын цагаан толгойн энэ тэмдэгтэй илүүд үздэг холболтууд: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
цаг давтамжийн шинжилгээ
цаг давтамжийн шинжилгээ

Шинжилгээг юу тодорхойлдог вэ?

Орчин үеийн давтамжийн текстийн шинжилгээний програмууд нь олон төрлийн нийтлэл, эссэ, ишлэл гэх мэт томоохон хэмжээний судалгаа хийхэд тусалдаг. Дараах мэдээллийг судлаачид стандарт болгон өгдөг:

  • Текст дэх тэмдэгтүүдийн нийт тоо.
  • Зохиогчийн ашигласан зайны тоо.
  • Цифрүүдийн тоо.
  • Ашигласан цэг таслал гэх мэт мэдээлэл.
  • Боломжтой цагаан толгойн үсэг бүрийн тоо - Кирилл, Латин гэх мэт.
  • Текст дэх үсэг, тэмдэг тус бүрийн хэрэглээний давтамжийн талаарх мэдээлэл - бүх тексттэй харьцуулсан дурдагдсан тоо болон хувь.

Хэт оновчтой болгох, хэт ханасантай тэмцэх

Текстийн давтамжийн шинжилгээг яагаад хийдэг вэ? Энэ нь зөвхөн сониуч байдлын үүднээс үү - бичвэрийн аль тэмдэгтүүд байнга тааралддаг болохыг тогтоохын тулд юу? Үгүй, шинжилгээний гол хэрэглээ нь практик бөгөөд өөр газар байдаг.

N-граммд зөвхөн тогтвортой биграмм болон триграмм багтдаггүй. Үүнтэй адилкатегориуд нь түлхүүр үг (шошго), нэгдэл орно. Энэ нь хоёр ба түүнээс дээш үгнээс бүрдсэн тогтвортой хослолууд юм. Эдгээр зохиолууд нь текстэд хамт тохиолдож, нэгэн зэрэг тодорхой утгын ачааллыг үүрдгээрээ онцлог юм.

Энэ нь шударга бус SEO мэргэжилтнүүдийн гарт тоглодог. Тэд өөрсдийн ажилдаа зарим вэб хуудасны хамаарлыг зохиомлоор нэмэгдүүлэхийн тулд текст дэх шошго, түлхүүр үгсийн давталтыг урвуулан ашигладаг. Тэд ийм "заль мэх" -ээр системийг хуурахыг оролдож байна: Орос хэлний уламжлалт үгийн хослолтой байгалийн хослолыг ("булгатай цув худалдаж аваарай") үл нийцэх зүйл болгон хувиргах. Өөрөөр хэлбэл, ийм байгалийн N граммаар үгсийг дахин цэгцлэх замаар олж авсан ("булга зэрэг хүрэм худалдаж аваарай").

Гэхдээ өнөөдөр хайлтын алгоритмууд хайлтын хуудсан дээрх үр дүнгийн зэрэглэлд нөлөөлдөг түлхүүр үг, шошго бүхий текстийн хэт ханалтыг хэт спам шиг үр дүнтэй илрүүлж сурсан. Хэт оновчтой хуудсууд одоо эсрэгээрээ хэрэглэгчийн асуулгад доогуур байр эзэлдэг. Хүмүүс өөрсдөө утга учиргүй, хэт их шошготой текст унших хандлагатай биш, өөр эх сурвалжаас хэрэгтэй мэдээллийг илүүд үздэг.

давтамжийн шинжилгээний арга
давтамжийн шинжилгээний арга

SEO мэргэжилтнүүдэд зориулсан хувийн дүн шинжилгээ хийхэд тусална

Тиймээс орчин үеийн хайлтын системийн текст шүүлтүүрүүд өнөөдөр тэдгээр интернет хуудсуудыг илүүд үздэг бөгөөд эдгээр хуудсууд дээрх мэдээллийг уншихад хялбар төдийгүй зочдод хэрэгтэй байдаг. Шинэ стандартын дагуу тэдний ажлыг оновчтой болгохын тулд SEO мэргэжилтнүүдмөн текстийн давтамжийн шинжилгээнд хандана уу. Өнөөдөр үүнийг олон алдартай үйлчилгээ үзүүлдэг.

Давтамжийн шинжилгээ нь хэвлэн нийтлэхээр бэлтгэж буй текстийг мэдээллийн шинж чанартай болгоход тусална. Шаардлагагүй хаягууд болон түлхүүр хэллэгүүдийг арилгах. Энэ нь хайлтын системийн текст шүүлтүүрт сэжиг төрүүлэхүйц үгийн зүй бус хослолд зохиогчийн анхаарлыг хандуулах боломжийг танд олгоно.

давтамжийн хариу урвалын шинжилгээ
давтамжийн хариу урвалын шинжилгээ

Текстийн давтамжийн шинжилгээ нь эх сурвалж дахь тодорхой тэмдэгтийн давтамжийг тодорхойлоход тусалдаг. Энэ аргыг өнөөдөр шошго бүхий текстийн хэт ачаалал, үгийн байгалийн бус орлуулалтыг үнэлэхэд ашиглаж байна.

Зөвлөмж болгож буй: