Корпус хэл шинжлэл гэж юу вэ?

Агуулгын хүснэгт:

Корпус хэл шинжлэл гэж юу вэ?
Корпус хэл шинжлэл гэж юу вэ?
Anonim

Хэдэн арван жилийн өмнө эрдэмтэд хэл шинжлэлийн судалгааг автоматжуулахыг мөрөөддөг байсан. Ажлыг гараар хийсэн, олон тооны оюутнууд оролцсон, "анхаарал хайхрах" алдаа гарах магадлал өндөр байсан, хамгийн гол нь энэ бүхэн маш их, маш их цаг зарцуулсан.

Компьютерийн технологи хөгжихийн хэрээр судалгааны ажлыг илүү хурдан хийх боломжтой болсон бөгөөд өнөөдөр хэл судлалын ирээдүйтэй чиглэлүүдийн нэг бол корпус хэл шинжлэл юм. Үүний гол онцлог нь нэг өгөгдлийн санд нэгтгэж, тусгай аргаар тэмдэглэж, корпус гэж нэрлэгдэх их хэмжээний текст мэдээллийг ашиглах явдал юм.

Өнөөдөр олон саяас хэдэн арван тэрбум лексик нэгжийг хамарсан өөр өөр хэлний материалд тулгуурлан өөр өөр зорилгоор бүтээгдсэн олон корпорацууд байдаг. Энэ чиглэл нь ирээдүйтэй гэж хүлээн зөвшөөрөгдсөн бөгөөд хэрэглээний болон судалгааны зорилгод хүрэхэд мэдэгдэхүйц ахиц дэвшил гарч байгааг харуулж байна. Мэргэжилтнүүд, ямар нэг байдлаар харьцдагБайгалийн хэлний хувьд та текстийн корпорацтай наад зах нь суурь түвшинд танилцахыг зөвлөж байна.

Копус хэл шинжлэлийн түүх

Энэ чиглэлийг бий болгосон нь өнгөрсөн зууны 60-аад оны эхээр АНУ-д Браун корпус байгуулагдсантай холбоотой юм. Текстийн цуглуулга нь ердөө 1 сая үгийн хэлбэрээс бүрдсэн бөгөөд өнөөдөр ийм хэмжээний корпус нь өрсөлдөх чадваргүй болно. Энэ нь компьютерийн технологийн хөгжлийн хурдац, мөн судалгааны шинэ нөөцийн эрэлт нэмэгдэж байгаатай ихээхэн холбоотой.

90-ээд онд корпус хэл шинжлэл нь бүрэн эрхт, бие даасан шинжлэх ухаан болж төлөвшиж, эх бичвэрүүдийн цуглуулга эмхэтгэж, хэдэн арван хэлээр тэмдэглэгджээ. Жишээлбэл, энэ хугацаанд Британийн Үндэсний Корпусыг 100 сая үгийн хэрэглээнд зориулан бүтээсэн.

корпус хэл шинжлэл
корпус хэл шинжлэл

Хэл шинжлэлийн энэ чиглэл хөгжихийн хэрээр бичвэрийн хэмжээ ихсэж (мөн хэдэн тэрбум үгийн сангийн нэгжид хүрдэг), тэмдэглэгээ нь улам олон янз болж байна. Өнөөдөр та интернетийн орон зайд уран зохиол, эрдэм шинжилгээний уран зохиолд төвлөрсөн бичгийн болон аман ярианы, олон хэлтэй, боловсролын цогц бүтээлүүд болон бусад олон төрлийг олж болно.

Ямар тохиолдол байна

Корпус хэл шинжлэлийн корпусын төрлүүдийг хэд хэдэн аргаар төлөөлж болно. Ангилах үндэс нь текстийн хэл (Орос, Герман), нэвтрэх горим (нээлттэй эх, хаалттай эх сурвалж, арилжаа), эх материалын төрөл (уран зохиол) байж болох нь ойлгомжтой.уран зохиол, баримтат кино, академик, сэтгүүл зүй).

корпус хэл шинжлэлийн аргууд
корпус хэл шинжлэлийн аргууд

Сонирхолтой байдлаар аман яриаг илэрхийлэх материалыг бий болгодог. Ийм яриаг зориудаар бичих нь судалгаанд оролцогчдод зохиомол нөхцөлийг бий болгож, үүссэн материалыг "аяндаа" гэж нэрлэх боломжгүй тул орчин үеийн корпус хэл шинжлэл өөр замаар явав. Сайн дурын ажилтан нь микрофоноор тоноглогдсон бөгөөд өдрийн цагаар түүний оролцсон бүх яриаг бичдэг. Эргэн тойрон дахь хүмүүс өдөр тутмын ярианы явцад шинжлэх ухааны хөгжилд хувь нэмрээ оруулж байгааг мэдэхгүй нь мэдээжийн хэрэг.

Дараа нь хүлээн авсан аудио бичлэгүүд нь мэдээллийн санд хадгалагдаж, хуулбар шиг хэвлэмэл бичвэрүүд дагалддаг. Ингэснээр өдөр тутмын ярианы багцыг бий болгоход шаардлагатай тэмдэглэгээг хийх боломжтой болно.

Програм

Хэл хэрэглэх боломжтой бол текстийн корпус ашиглах боломжтой. Хэл шинжлэлд корпусын аргыг ашиглах зорилго нь:

  • Сонгогчид болон үйлчлүүлэгчдээс ирсэн эерэг, сөрөг санал хүсэлтийг хянахын тулд улс төр, бизнест өргөн хэрэглэгддэг сэтгэл хөдлөлийн хөтөлбөрүүдийг бий болгох.
  • Мэдээллийн системийг толь бичиг, орчуулагчидтай холбож, гүйцэтгэлийг нь сайжруулж байна.
  • Хэлний бүтэц, түүний хөгжлийн түүх, ойрын ирээдүйд өөрчлөгдөхийг урьдчилан таамаглахад хувь нэмэр оруулдаг судалгааны янз бүрийн даалгавар.
  • Морфологи,синтакс, семантик болон бусад онцлогууд.
  • Төрөл бүрийн хэл шинжлэлийн системийн ажлыг оновчтой болгох гэх мэт.

Бүрхүүлийг ашиглах

Нөөцийн интерфэйс нь ердийн хайлтын системтэй төстэй бөгөөд мэдээллийн сангаас хайхын тулд хэрэглэгчээс зарим үг эсвэл үгийн хослол оруулахыг сануулдаг. Яг хүсэлтийн маягтаас гадна та бараг бүх хэл шинжлэлийн шалгуураар текстэн мэдээллийг олох боломжийг олгодог өргөтгөсөн хувилбарыг ашиглаж болно.

компьютер ба корпус хэл шинжлэл
компьютер ба корпус хэл шинжлэл

Хайлтын үндэс нь:

  • ярианы тодорхой бүлэгт хамаарах;
  • дүрмийн онцлог;
  • семантик;
  • загварлаг болон сэтгэл хөдлөлийн өнгө.

Мөн та үгийн дарааллыг хайх шалгуурыг нэгтгэж болно: жишээлбэл, үйл үгийн одоогийн цаг, эхний хүн, ганц тоо, араас нь "д" гэсэн угтвар үг, яллах тохиолдолд нэр үгийг олоорой.. Ийм энгийн даалгаврыг шийдвэрлэхэд хэрэглэгч хэдхэн секунд зарцуулдаг бөгөөд өгөгдсөн талбарт хулганаар хэдхэн товшилт хийх шаардлагатай.

Бүтээх үйл явц

Хайлтыг өөрөө бүх дэд корпусын аль алинд нь хийх боломжтой бөгөөд тодорхой зорилгод хүрэхийн тулд хэрэгцээ шаардлагаас хамааран тусгайлан сонгосон нэгээр нь хийж болно:

  1. Юуны өмнө ямар бичвэрүүд корпусын үндэс суурь болох нь тодорхойлогддог. Практик зорилгоор сэтгүүл зүй, сонины материал, интернетийн тайлбарыг ихэвчлэн ашигладаг. Судалгааны төслүүдэд хамгийнянз бүрийн төрлийн корпус, гэхдээ текстийг зарим нэг нийтлэг үндэслэлээр сонгох ёстой.
  2. Үйлдвэрлэсэн бичвэрийн багцыг урьдчилан боловсруулж, алдааг засч, хэрэв байгаа бол текстийн ном зүй, хэл шинжлэлийн тайлбарыг бэлтгэнэ.
  3. Текст бус бүх мэдээллийг шүүсэн: график, зураг, хүснэгт устгагдсан.
  4. Токенууд нь ихэвчлэн үг бөгөөд цаашдын боловсруулалтанд зориулагдана.
  5. Эцэст нь, үүссэн элементүүдийн морфологи, синтакс болон бусад тэмдэглэгээг хийдэг.

Гүйцэтгэсэн бүх үйлдлүүдийн үр дүн нь түүн дээр тархсан элементүүдийн багц бүхий синтаксийн бүтэц бөгөөд тус бүрд нь ярианы хэсэг, дүрмийн болон зарим тохиолдолд утгын шинж чанарыг тодорхойлсон байдаг.

Хэрэг үүсгэхэд бэрхшээлтэй

Корпус авахын тулд олон үг, өгүүлбэр нийлүүлэх нь хангалтгүй гэдгийг ойлгох нь чухал. Нэг талаас, текстийн цуглуулга тэнцвэртэй байх ёстой, өөрөөр хэлбэл өөр өөр төрлийн текстийг тодорхой хувь хэмжээгээр харуулах ёстой. Нөгөөтэйгүүр, хэргийн агуулгыг тусгайлан тэмдэглэсэн байх ёстой.

Захаров корпус хэл шинжлэл
Захаров корпус хэл шинжлэл

Эхний асуудлыг тохиролцсоны үндсэн дээр шийддэг: жишээлбэл, түүвэрт уран зохиолын 60%, баримтат киноны 20%, аман яриа, хууль тогтоомжийн акт, шинжлэх ухааны бүтээлийн бичгээр танилцуулгад тодорхой хувийг өгдөг.. Тэнцвэртэй корпусын хамгийн тохиромжтой жор өнөөдөр байхгүй байна.

Агуулгын тэмдэглэгээтэй холбоотой хоёр дахь асуултыг шийдвэрлэхэд илүү хэцүү байна. Текстийг автоматаар тэмдэглэхэд ашигладаг тусгай программууд, алгоритмууд байдаг боловч тэдгээр нь 100% үр дүнг өгдөггүй, алдаа гаргаж, гараар сайжруулах шаардлагатай байдаг. Энэ асуудлыг шийдвэрлэх боломж, бэрхшээлийг В. П. Захаровын корпус хэл шинжлэлийн талаархи бүтээлд дэлгэрэнгүй тайлбарласан болно.

Текст тэмдэглэгээ нь хэд хэдэн түвшинд явагддаг бөгөөд бид доор жагсаах болно.

Морфологийн тэмдэглэгээ

Сургуулийн вандан сандал дээрээс бид орос хэл дээр ярианы янз бүрийн хэсгүүд байдаг бөгөөд тэдгээр нь тус бүр өөрийн гэсэн онцлогтой байдаг гэдгийг бид санаж байна. Жишээлбэл, үйл үг нь нэр үгэнд байдаггүй сэтгэлийн байдал, цагийн ангилалтай байдаг. Төрөлх хэлээр ярьдаг хүн эргэлзэлгүйгээр нэр үгнээс татгалзаж, үйл үгсийг нэгтгэдэг боловч гар ажиллагаа нь 100 сая үгийн хэрэглээг тэмдэглэхэд тохиромжгүй. Шаардлагатай бүх үйлдлүүдийг компьютер хийх боломжтой, гэхдээ үүний тулд үүнийг зааж өгөх шаардлагатай.

Морфологийн тэмдэглэгээ нь үг бүрийг тодорхой дүрмийн шинж чанартай ярианы хэсэг болгон "ойлгох"-ын тулд зайлшгүй шаардлагатай. Олон тооны ердийн дүрмүүд орос хэл дээр (бусад хэл дээрх адил) ажилладаг тул машинд хэд хэдэн алгоритмыг оруулах замаар морфологийн шинжилгээний автомат горимыг бий болгох боломжтой. Гэсэн хэдий ч дүрэмд үл хамаарах зүйлүүд, түүнчлэн янз бүрийн хүндрэл учруулдаг хүчин зүйлүүд байдаг. Үүний үр дүнд өнөөдөр цэвэр компьютерийн шинжилгээ хийх нь тийм ч тохиромжтой биш бөгөөд 4%-ийн алдаа ч гэсэн 100 сая нэгж дотор 4 сая үгийн утгыг өгч, гараар сайжруулах шаардлагатай.

Энэ асуудлыг В. П. Захаровын "Корпус хэл шинжлэл" номонд дэлгэрэнгүй тайлбарласан болно.

Сониктик тэмдэглэгээ

Үг хэллэгийн шинжилгээ буюу задлан шинжлэх нь өгүүлбэр дэх үгсийн хамаарлыг тодорхойлох процедур юм. Алгоритмуудын багцын тусламжтайгаар текст дэх сэдэв, предикат, нэмэлт, ярианы янз бүрийн эргэлтийг тодорхойлох боломжтой болно. Дараалсан үгсийн аль нь үндсэн, аль нь хамааралтай болохыг олж мэдсэнээр бид текстээс мэдээллийг үр дүнтэй гаргаж, хайлтын хүсэлтийн хариуд зөвхөн бидний сонирхож буй мэдээллийг буцааж өгөх машиныг сургах боломжтой.

Оросын их дээд сургуулиудын корпус хэл шинжлэлийн лаборатори
Оросын их дээд сургуулиудын корпус хэл шинжлэлийн лаборатори

Дашрамд дурдахад орчин үеийн хайлтын системүүд үүнийг ашиглан "нэг алимд хэдэн калори илчлэг байдаг" эсвэл "Москвагаас Санкт-Петербург хүртэлх зай" гэх мэт холбогдох асуултын хариуд урт бичвэрийн оронд тодорхой тоо өгдөг. Гэсэн хэдий ч тайлбарласан үйл явцын хамгийн үндсийг ойлгохын тулд та "Корпус хэл шинжлэлийн оршил" эсвэл өөр үндсэн сурах бичигтэй танилцах хэрэгтэй.

Утгын тэмдэглэгээ

Үгийн утга зүй гэдэг нь энгийн үгээр хэлбэл утгыг илэрхийлдэг. Утга зүйн шинжилгээнд өргөн хэрэглэгддэг арга бол үгэнд шошгуудыг хамааруулж, түүнийг семантик ангилал, дэд категорийн багцад хамааруулах явдал юм. Ийм мэдээлэл нь текстийн мэдрэмжийн шинжилгээний алгоритмыг оновчтой болгох, автомат лавлагаа хийх, корпус хэл шинжлэлийн аргыг ашиглан бусад ажлыг гүйцэтгэхэд чухал ач холбогдолтой.

Модны хэд хэдэн "үндэс" байдаг бөгөөд эдгээр нь хийсвэр үгс юм.маш өргөн семантик. Энэ мод салбарлах тусам илүү тодорхой лексик элементүүдийг агуулсан зангилаанууд үүсдэг. Жишээлбэл, "амьтан" гэдэг үгийг "хүн", "амьтан" гэх мэт ойлголтуудтай холбож болно. Эхний үг нь төрөл бүрийн мэргэжил, ураг төрөл, үндэс угсаа, хоёр дахь нь төрөл, амьтдын төрөлд хуваагдсаар байх болно.

Мэдээлэл хайх системийг ашиглах

Корпус хэл шинжлэлийн хэрэглээний хүрээ нь үйл ажиллагааны өргөн хүрээг хамардаг. Корпораг толь бичгүүдийг эмхэтгэх, засах, орчуулгын автомат системийг бий болгох, нэгтгэн дүгнэх, баримт задлах, сэтгэл хөдлөлийг тодорхойлох болон бусад текст боловсруулахад ашигладаг.

корпус хэл шинжлэлийн корпусын төрлүүд
корпус хэл шинжлэлийн корпусын төрлүүд

Түүгээр ч зогсохгүй ийм нөөцийг дэлхийн хэл, хэлний үйл ажиллагааны механизмыг судлахад идэвхтэй ашигладаг. Урьдчилан бэлтгэсэн их хэмжээний мэдээллийн хүртээмж нь хэлний хөгжлийн чиг хандлагыг хурдан бөгөөд иж бүрэн судлах, неологизм, ярианы тогтвортой эргэлтийг бий болгох, үг хэллэгийн нэгжийн утгыг өөрчлөх зэрэгт хувь нэмэр оруулдаг.

Ийм их хэмжээний өгөгдөлтэй ажиллахад автоматжуулалт шаардлагатай байдаг тул өнөөдөр компьютер болон корпус хэл шинжлэлийн хооронд нягт харилцан үйлчлэл бий.

Орос хэлний үндэсний корпус

Энэ корпус (NKRC гэж товчилсон) нь олон төрлийн даалгавруудыг шийдвэрлэхэд нөөцийг ашиглах боломжийг олгодог хэд хэдэн дэд корпусуудыг агуулдаг.

NCRA мэдээллийн санд байгаа материалыг дараах байдлаар хуваадаг:

  • 90, 2000-аад оны хэвлэл мэдээллийн хэрэгслээр гарсан нийтлэлүүд дээрдотоодын болон гадаадын аль алинд нь жил;
  • аман ярианы бичлэг;
  • өргөлтөөр тэмдэглэсэн бичвэрүүд (жишээ нь өргөлтийн тэмдэгтэй);
  • аялгуу яриа;
  • яруу найргийн бүтээл;
  • синтаксийн тэмдэглэгээтэй материал гэх мэт.

Мөн мэдээллийн системд орос хэлнээс англи, герман, франц болон бусад олон хэл рүү (мөн эсрэгээр) зэрэгцсэн бүтээлүүдийг орчуулсан дэд бүлгүүдийг багтаасан болно.

Мөн мэдээллийн санд хөгжлийнхөө янз бүрийн үе дэх орос хэл дээрх бичгийн яриаг харуулсан түүхэн бичвэрүүдийн хэсэг байдаг. Гадаадын иргэнд орос хэл сурахад хэрэг болохуйц сургалтын корпус бас бий.

Орос хэлний үндэсний корпус нь 400 сая лексик нэгжийг агуулдаг бөгөөд олон талаараа Европ хэлний корпусын нэлээд хэсэг нь түрүүлж байна.

хэтийн төлөв

Энэ чиглэлийг ирээдүйтэй гэж хүлээн зөвшөөрөх баримт бол Оросын их, дээд сургуулиудад корпус хэл шинжлэлийн лабораториуд, түүнчлэн гадаадын их сургуулиудад байдаг. Мэдээллийн эрэл хайгуулын нөөцийн хүрээнд ашиглах, судлах нь өндөр технологи, асуулт хариултын тогтолцооны зарим чиглэлийг хөгжүүлэхтэй холбоотой боловч энэ талаар дээр дурдсан болно.

корпус хэл шинжлэлийн түүх
корпус хэл шинжлэлийн түүх

Корпус хэл шинжлэлийн цаашдын хөгжлийг техникийн талаас нь эхлээд мэдээлэл хайх, боловсруулах үйл явцыг оновчтой болгох шинэ алгоритмуудыг нэвтрүүлэх, компьютерийн чадавхийг өргөжүүлэх, үйл ажиллагааны чадавхийг нэмэгдүүлэх зэргээр бүх түвшинд урьдчилан таамаглаж байна. Хэрэглэгчид өдөр тутмын амьдрал болон ажил дээрээ энэ төрлийн эх сурвалжийг ашиглах олон арга замыг олохын хэрээр ой санамж, мөн гэр ахуйнх нь дуусна.

дүгнэлтэнд

Өнгөрсөн зууны дунд үед 2017 он бол сансрын хөлөг сансар огторгуйд аялж, роботууд хүний төлөө бүх ажлыг хийдэг алс холын ирээдүй мэт санагдсан. Гэвч бодит байдал дээр шинжлэх ухаан "хоосон толбо"-оор дүүрэн бөгөөд олон зууны турш хүн төрөлхтнийг зовоож байсан асуултад хариулах гэж цөхрөлтгүй оролдлого хийж байна. Хэлний үйл ажиллагааны талаархи асуултууд энд бахархдаг бөгөөд корпус болон тооцооллын хэл шинжлэл бидэнд тэдэнд хариулахад тусална.

Их хэмжээний өгөгдөл боловсруулах нь урьд өмнө боломжгүй байсан хэв маягийг илрүүлэх, хэлний зарим онцлогийн хөгжлийг урьдчилан таамаглах, үг үүсэхийг бараг бодит цаг хугацаанд хянах боломжийг олгоно.

Практик дэлхийн түвшинд корпусыг, жишээлбэл, олон нийтийн санаа бодлыг үнэлэх боломжит хэрэгсэл гэж үзэж болно - Интернет бол бодит хэрэглэгчдийн бүтээсэн янз бүрийн текстүүдийн тасралтгүй шинэчлэгддэг мэдээллийн сан юм: эдгээр нь сэтгэгдэл, тойм, нийтлэлүүд юм., болон бусад олон төрлийн яриа.

Нэмж дурдахад, корпорацитай ажиллах нь Google эсвэл Yandex үйлчилгээнээс бидэнд танил болсон мэдээлэл хайхад оролцдог техникийн хэрэгсэл, машины орчуулга, цахим толь бичгүүдийг хөгжүүлэхэд хувь нэмэр оруулдаг.

Корпус хэл шинжлэл дөнгөж анхны алхмаа хийж байгаа бөгөөд ойрын ирээдүйд хурдацтай хөгжинө гэж хэлэхэд буруудахгүй.

Зөвлөмж болгож буй: