Мэдээллийн энтропи: ойлголт, шинж чанар, системийн тодорхойлолт

Агуулгын хүснэгт:

Мэдээллийн энтропи: ойлголт, шинж чанар, системийн тодорхойлолт
Мэдээллийн энтропи: ойлголт, шинж чанар, системийн тодорхойлолт
Anonim

Мэдээллийн энтропи гэдэг ойлголт нь утгын магадлалын массын функцийн сөрөг логарифмыг илэрхийлдэг. Тиймээс, өгөгдлийн эх сурвалж нь магадлал багатай утгатай байх үед (жишээ нь, бага магадлалтай үйл явдал тохиолдох үед) уг үйл явдал нь эх сурвалжийн өгөгдөл өндөр магадлалтай утгатай байхаас илүү "мэдээлэл" ("гайхшрал") агуулдаг..

Ийм байдлаар тодорхойлсон үйл явдал бүрийн дамжуулсан мэдээллийн хэмжээ нь санамсаргүй хэмжигдэхүүн болж, хүлээгдэж буй утга нь мэдээллийн энтропи болно. Ерөнхийдөө энтропи нь эмх замбараагүй байдал эсвэл тодорхойгүй байдлыг илэрхийлдэг бөгөөд мэдээллийн онолд ашигладаг тодорхойлолт нь статистикийн термодинамикийн тодорхойлолттой шууд адил юм. IE-ийн тухай ойлголтыг Клод Шеннон 1948 онд "Харилцааны математикийн онол" хэмээх нийтлэлдээ танилцуулсан. Эндээс "Шэнноны мэдээллийн энтропи" гэсэн нэр томъёо гарч ирсэн.

Мэдээллийн энтропийн график
Мэдээллийн энтропийн график

Тодорхойлолт ба систем

Өгөгдөл дамжуулах системийн үндсэн загвар нь мэдээллийн эх үүсвэр, холбооны суваг, хүлээн авагч гэсэн гурван элементээс бүрдэнэ.мөн Шэнноны хэлснээр "харилцаа холбооны үндсэн асуудал" нь сувгаар хүлээн авсан дохион дээр үндэслэн эх сурвалж ямар өгөгдөл үүсгэснийг хүлээн авагч тодорхойлох боломжтой байх явдал юм. Энтропи нь шахсан эх өгөгдлийн хамгийн богино дундаж алдагдалгүй кодчиллын уртад үнэмлэхүй хязгаарлалтыг хангадаг. Хэрэв эх үүсвэрийн энтропи нь холбооны сувгийн зурвасын өргөнөөс бага байвал түүний үүсгэсэн өгөгдлийг хүлээн авагч руу найдвартай дамжуулах боломжтой (ядаж онолын хувьд өгөгдөл дамжуулахад шаардагдах системийн нарийн төвөгтэй байдал гэх мэт зарим практик асуудлыг үл тоомсорлож магадгүй юм). мөн өгөгдөл дамжуулахад шаардагдах хугацаа).

Мэдээллийн энтропийг ихэвчлэн битээр (өөр нэр нь "шаннон") эсвэл заримдаа "натурал нэгж" (nats) эсвэл аравтын бутархайгаар ("dits", "bans" эсвэл "hartleys" гэж нэрлэдэг) хэмждэг. Хэмжилтийн нэгж нь энтропийг тодорхойлоход хэрэглэгддэг логарифмын сууриас хамаарна.

Мэдээллийн чанар
Мэдээллийн чанар

Properties ба логарифм

Бүртгэлийн магадлалын тархалт нь бие даасан эх сурвалжид нэмэлт учир энтропийн хэмжүүр болгон ашиглахад тустай. Жишээлбэл, зоосны бооцооны энтропи нь 1 бит байхад m-хэмжээний энтропи нь m бит юм. Энгийн дүрслэлд хэрэв n нь 2-ын зэрэглэл байвал n утгын аль нэгийг нь авч чадах хувьсагчийг төлөөлөхөд log2(n) бит хэрэгтэй. Хэрэв эдгээр утгууд ижил магадлалтай бол энтропи (битээр) байна. тэр тоотой тэнцүү. Хэрэв утгуудын аль нэг нь бусдаас илүү өндөр магадлалтай бол энэ нь тийм байх болноутга учир нь ямар нэг ерөнхий үр дүн гарахаас бага мэдээлэлтэй байна. Үүний эсрэгээр, ховор тохиолдлууд нэмэлт мөрдөх мэдээллийг өгдөг.

Магадлал багатай үйл явдлуудыг ажиглах нь бага байдаг тул жигд бус тархсан өгөгдлөөс олж авсан энтропи (дундаж мэдээлэл гэж үздэг) log2(n)-ээс үргэлж бага буюу тэнцүү байх нийтлэг зүйл байхгүй. Нэг үр дүн тодорхойлогдсон үед энтропи тэг болно.

Шэнноны мэдээллийн энтропи нь үндсэн өгөгдлийн магадлалын тархалтыг мэдэж байх үед эдгээр тооцоог тоогоор илэрхийлдэг. Ажиглагдсан үйл явдлын утга (мэдээлэлүүдийн утга) нь энтропийн тодорхойлолтод хамааралгүй юм. Сүүлийнх нь зөвхөн тодорхой үйл явдлыг харах магадлалыг харгалзан үздэг тул түүний багтаасан мэдээлэл нь үйл явдлын утгын тухай биш харин боломжуудын үндсэн хуваарилалтын талаархи мэдээлэл юм. Мэдээллийн энтропийн шинж чанарууд дээр дурдсантай ижил хэвээр байна.

Шенноны томъёо
Шенноны томъёо

Мэдээллийн онол

Мэдээллийн онолын үндсэн санаа бол тухайн сэдвийн талаар илүү ихийг мэдэх тусам тухайн сэдвийн талаар бага мэдээлэл авах боломжтой байдаг. Хэрэв үйл явдал маш их магадлалтай бол энэ нь тохиолдоход гайхах зүйл биш бөгөөд тиймээс бага зэрэг шинэ мэдээлэл өгдөг. Үүний эсрэгээр, хэрэв үйл явдал боломжгүй байсан бол үйл явдал болсон нь илүү мэдээлэлтэй байсан. Тиймээс ачаалал нь тухайн үйл явдлын урвуу магадлалын өсөлтийн функц юм (1 / p).

Одоо илүү олон үйл явдал тохиолдвол энтропиХэрэв үйл явдлын аль нэг нь тохиолдвол таны хүлээж болох дундаж мэдээллийн агуулгыг хэмждэг. Энэ нь болорын үр дүн нь зоосны үр дүн тус бүрээс бага магадлалтай тул үхэр цутгах нь зоос шидэхээс илүү энтропитэй гэсэн үг юм.

Зураг дээрх энтропи
Зураг дээрх энтропи

Онцлогууд

Тиймээс энтропи нь төлөвийн урьдчилан таамаглах боломжгүй байдлын хэмжүүр юм уу, энэ нь мөн адил түүний дундаж мэдээллийн агууламж юм. Эдгээр нэр томъёоны талаар ойлголттой болохын тулд улс төрийн санал асуулгын жишээг авч үзье. Жишээлбэл, сонгуулийн дүн хараахан тодорхойгүй байгаа учраас ийм санал асуулга ихэвчлэн гардаг.

Өөрөөр хэлбэл, судалгааны үр дүн нь харьцангуй таамаглах аргагүй бөгөөд үнэн хэрэгтээ үүнийг хийж, өгөгдлийг шалгаж үзэх нь зарим шинэ мэдээлэл өгдөг; Тэд санал асуулгын үр дүнгийн өмнөх энтропи их байна гэж хэлэх өөр арга замууд юм.

Одоо нэг санал асуулга эхнийхээс хойш удалгүй хоёр дахь удаагаа хийгдсэн тохиолдлыг авч үзье. Эхний судалгааны үр дүн аль хэдийн тодорхой болсон тул хоёр дахь судалгааны үр дүнг урьдчилан таамаглах боломжтой бөгөөд үр дүн нь шинэ мэдээлэл их агуулаагүй байх; энэ тохиолдолд хоёр дахь санал асуулгын үр дүнгийн априори энтропи эхнийхтэй харьцуулахад бага байна.

энтропийн түвшин
энтропийн түвшин

Зоос шидэх

Одоо зоос эргүүлэх жишээг авч үзье. Сүүлний магадлал нь толгойн магадлалтай ижил гэж үзвэл зоос шидэлтийн энтропи нь системийн мэдээллийн энтропийн өвөрмөц жишээ тул маш өндөр байна.

Учир ньзоосны үр дүнг хугацаанаас нь өмнө шиднэ гэж таамаглах боломжгүй: хэрэв бид сонгох шаардлагатай бол зоос сүүл рүүгээ буухыг урьдчилан таамаглах нь бидний хийж чадах хамгийн сайн зүйл бөгөөд энэ таамаглал нь зөв байх магадлалтай. 1 / 2. Ийм зоос шидэх нь нэг бит энтропитэй байдаг, учир нь ижил магадлалтай хоёр үр дагавар гарах боломжтой бөгөөд бодит үр дүнг судлахад нэг бит мэдээлэл агуулагддаг.

Эсрэгээр нь зоосыг хоёр талдаа сүүлтэй, толгойгүй эргүүлэхэд энтропи тэг байх болно, учир нь зоос үргэлж энэ тэмдэг дээр буух бөгөөд үр дүнг төгс таамаглах боломжтой.

Мэдээллийн энтропи
Мэдээллийн энтропи

Дүгнэлт

Хэрэв шахалтын схем алдагдалгүй бол та хэзээд задлах замаар эх мессежийг бүхэлд нь сэргээх боломжтой гэсэн үг бол шахсан мессеж нь эхтэй ижил хэмжээний мэдээлэлтэй байх боловч цөөн тэмдэгтээр дамжуулагдана. Энэ нь илүү их мэдээлэлтэй эсвэл тэмдэгт бүрт илүү өндөр энтропитэй байдаг. Энэ нь шахсан мессежийн илүүдэл бага байна гэсэн үг.

Шэнноны эх кодын кодчилолын теоремыг товчоор хэлбэл, алдагдалгүй шахалтын схем нь мессеж бит тутамд нэг битээс илүү мэдээлэлтэй байхаар мессежийг бууруулж чадахгүй ч нэг битээс бага мэдээлэлтэй ямар ч утгад хүрч болно гэж заасан байдаг. зохих кодчилолын схемийг ашиглан мессеж. Мессежийн энтропи нь түүний уртыг битээр үржүүлсэн хэмжээ нь түүнд хэр их ерөнхий мэдээлэл агуулж байгааг илэрхийлдэг.

Зөвлөмж болгож буй: