Дата олборлолт нь Үзэл баримтлал, алгоритмын шинжилгээ, зорилго, хэрэглээ

Агуулгын хүснэгт:

Дата олборлолт нь Үзэл баримтлал, алгоритмын шинжилгээ, зорилго, хэрэглээ
Дата олборлолт нь Үзэл баримтлал, алгоритмын шинжилгээ, зорилго, хэрэглээ
Anonim

Мэдээллийн технологийн хөгжил бодит үр дүнг авчирдаг. Гэхдээ мэдээлэл хайх, дүн шинжилгээ хийх, ашиглах зэрэг ажлууд нь өндөр чанартай үр дүнтэй хэрэгслийг хараахан хүлээж аваагүй байна. Аналитик болон тоон хэрэгслүүд байдаг, тэд үнэхээр ажилладаг. Гэвч мэдээллийн ашиглалтын чанарын хувьсгал хараахан болоогүй байна.

Компьютерийн технологи гарч ирэхээс өмнөхөн хүн их хэмжээний мэдээлэл боловсруулах шаардлагатай байсан бөгөөд үүнийг өөрийн туршлага, боломжит техникийн чадамжаараа даван туулах шаардлагатай байсан.

Мэдлэг, ур чадварыг хөгжүүлэх нь бодит хэрэгцээг хангаж, өнөөгийн зорилтод нийцэж ирсэн. Өгөгдлийн олборлолт гэдэг нь хүний үйл ажиллагааны янз бүрийн чиглэлээр шийдвэр гаргахад шаардлагатай өгөгдөл дэх урьд нь үл мэдэгдэх, өчүүхэн бус, практикт хэрэг болохуйц, хүртээмжтэй мэдлэгийг олж илрүүлэх аргуудын цогц нэр юм.

Хүн, оюун ухаан, програмчлал

Хүн ямар ч нөхцөлд хэрхэн биеэ авч явахаа үргэлж мэддэг. Мэдэхгүй байдал эсвэл танил бус нөхцөл байдал нь түүнийг шийдвэр гаргахад саад болохгүй. Хүний гаргасан аливаа шийдвэр бодитой, үндэслэлтэй эсэхэд эргэлзэж болох ч үүнийг хүлээн зөвшөөрөх болно.

Тагнуул нь: удамшлын "механизм", олж авсан, идэвхтэй мэдлэг дээр суурилдаг. Мэдлэгийг хүний өмнө тулгардаг асуудлыг шийдвэрлэхэд ашигладаг.

  1. Оюун ухаан бол хүний амьдрал, ажлын боломж ба үндэс суурь болох өвөрмөц мэдлэг, ур чадвар юм.
  2. Оюун ухаан байнга хувьсан өөрчлөгдөж байдаг ба хүний үйлдэл бусад хүмүүст нөлөөлдөг.

Програмчлал нь өгөгдлийн дүрслэл болон алгоритм үүсгэх үйл явцыг албан ёсны болгох анхны оролдлого юм.

Хүн, оюун ухаан, програмчлал
Хүн, оюун ухаан, програмчлал

Хиймэл оюун ухаан (AI) нь цаг хугацаа, нөөцийг дэмий үрсэн хэрэг боловч өнгөрсөн зууны хиймэл оюун ухааны салбарт хийсэн амжилтгүй оролдлогуудын үр дүн нь санах ойд үлдэж, янз бүрийн шинжээч (ухаалаг) системд ашиглагдаж, өөрчлөгдсөн, тухайлбал, алгоритм (дүрэм) болон математик (логик) өгөгдлийн шинжилгээ, Өгөгдөл олборлолт.

Мэдээлэл ба ердийн шийдэл хайх

Энгийн номын сан бол мэдлэгийн агуулах бөгөөд хэвлэмэл үг, график нь компьютерийн технологид хараахан хүрч чадаагүй байна. Физик, хими, онолын механик, дизайн, байгалийн түүх, гүн ухаан, байгалийн ухаан, ургамал судлал, сурах бичиг, монографи, эрдэмтдийн бүтээл, хурлын материал, хөгжлийн ажлын тайлан гэх мэт номууд үргэлж хамааралтай, найдвартай байдаг.

Номын сан нь өөр өөр эх сурвалжууд юмматериалын танилцуулгын хэлбэр, гарал үүсэл, бүтэц, агуулга, танилцуулгын хэв маяг гэх мэт.

Номын сан: ном, сэтгүүл болон бусад хэвлэмэл бүтээгдэхүүн
Номын сан: ном, сэтгүүл болон бусад хэвлэмэл бүтээгдэхүүн

Гаднаа бүх зүйл ойлгомжтой (унших, ашиглах боломжтой) харагдаж байна. Та аливаа асуудлыг шийдэж, даалгавраа зөв тавьж, шийдлийг зөвтгөж, эссэ, курсын ажил бичих, дипломын материал сонгох, диссертацийн сэдвээр эх сурвалжид дүн шинжилгээ хийх, шинжлэх ухаан, аналитик илтгэл гаргах боломжтой.

Мэдээллийн аливаа асуудлыг шийдэх боломжтой. Шаардлагатай тэвчээр, ур чадвар нь үнэн зөв, найдвартай үр дүнд хүрэх болно. Энэ утгаараа Data Mining нь огт өөр арга юм.

Үр дүнгээс гадна хүн зорилгодоо хүрэх явцад үзсэн бүх зүйлд "идэвхтэй холбоос"-ыг хүлээн авдаг. Асуудлыг шийдвэрлэхдээ түүний ашигласан эх сурвалжийг дурдаж болох бөгөөд эх сурвалж байгаа эсэхтэй хэн ч маргахгүй. Энэ нь жинхэнэ байдлын баталгаа биш, харин жинхэнэ байдлын хариуцлагыг хэн "захиалахаа больсон" баттай гэрчлэл юм. Энэ үүднээс авч үзвэл, Data Mining нь найдвартай байдлын талаар ихээхэн эргэлзэж, "идэвхтэй" холбоос байхгүй гэсэн үг.

Хэд хэдэн асуудлыг шийдвэрлэснээр хүн үр дүнд хүрч, оюуны чадамжаа олон "идэвхтэй холбоос" болгон өргөжүүлдэг. Хэрэв шинэ даалгавар нь аль хэдийн байгаа холбоосыг "идэвхжүүлбэл" тэр хүн үүнийг хэрхэн шийдвэрлэхээ мэдэх болно: дахин юу ч хайх шаардлагагүй.

"Идэвхтэй холбоос" нь тогтмол холбоо юм: тодорхой тохиолдолд хэрхэн, юу хийх. Хүний тархи түүнд сонирхолтой, хэрэгцээтэй мэт санагдаж болох бүх зүйлийг автоматаар санадаг.эсвэл ирээдүйд хэрэгтэй байх магадлалтай. Энэ нь олон талаараа далд ухамсрын түвшинд тохиолддог боловч "идэвхтэй холбоос" -той холбоотой ажил гарч ирмэгц тэр даруй оюун санаанд гарч ирэх бөгөөд нэмэлт мэдээлэл хайхгүйгээр шийдлийг олж авах болно. Дата олборлолт нь үргэлж хайлтын алгоритмын давталт бөгөөд энэ алгоритм өөрчлөгддөггүй.

Тогтмол хайлт: "уран сайхны" асуудлууд

Математикийн номын сан, түүнээс мэдээлэл хайх нь харьцангуй сул ажил юм. Интеграл шийдэх, матриц барих эсвэл хоёр төсөөллийн тоог нэмэх үйлдлийг гүйцэтгэх нэг арга замыг олох нь маш их хөдөлмөр шаарддаг боловч энгийн ажил юм. Та тодорхой хэлээр бичигдсэн хэд хэдэн номыг ангилж, зөв текстийг олж, судалж үзээд шаардлагатай шийдлийг олж авах хэрэгтэй.

Цаг хугацаа өнгөрөх тусам тооллого танил болж, хуримтлагдсан туршлага нь номын сангийн мэдээлэл болон бусад математикийн асуудлуудыг удирдах боломжийг олгоно. Энэ бол асуулт хариултын мэдээллийн хязгаарлагдмал орон зай юм. Онцлог шинж чанар: ийм мэдээлэл хайх нь ижил төстэй асуудлыг шийдвэрлэх мэдлэгийг хуримтлуулдаг. Хүн мэдээлэл хайх нь түүний санах ойд бусад асуудлыг шийдвэрлэх боломжит ул мөр ("идэвхтэй холбоос") үлдээдэг.

Уран зохиолоос "1248 оны 1-р сард хүмүүс хэрхэн амьдарч байсан бэ?" Гэсэн асуултын хариултыг олоорой. маш хэцүү. Дэлгүүрийн лангуун дээр юу байсан, хүнсний худалдаа хэрхэн зохион байгуулагдсан бэ гэсэн асуултад хариулахад бүр ч хэцүү. Зарим зохиолч энэ тухай романдаа тодорхой бөгөөд шууд бичсэн байсан ч энэ зохиолчийн нэрийг олж мэдэх юм бол эргэлзээ төрүүлдэг.хүлээн авсан мэдээллийн найдвартай байдал хэвээр байх болно. Найдвартай байдал нь аливаа хэмжээний мэдээллийн чухал шинж чанар юм. Үр дүнгийн худал болохыг үгүйсгэх эх сурвалж, зохиогч, нотлох баримт чухал.

Тодорхой нөхцөл байдлын объектив нөхцөл байдал

Хүн хардаг, сонсдог, мэдэрдэг. Зарим мэргэжилтнүүд өвөрмөц мэдрэмж - зөн совингоор чөлөөтэй ярьдаг. Асуудлын мэдэгдэл нь мэдээлэл шаарддаг бөгөөд асуудлыг шийдвэрлэх үйл явц нь ихэвчлэн асуудлын мэдэгдлийг боловсронгуй болгох замаар дагалддаг. Энэ нь мэдээллийг компьютерийн системд шилжүүлэхэд тохиолддог хамгийн бага асуудал юм.

Виртуал орон зай дахь мэдээлэл
Виртуал орон зай дахь мэдээлэл

Номын сан болон ажлын хамт олон нь шийдвэр гаргах үйл явцад шууд бус оролцогчид юм. Номын загвар (эх сурвалж), текст дэх график, мэдээллийг гарчиг болгон хуваах онцлог, зүүлт тайлбарыг хэллэгээр нь, сэдвийн индекс, анхдагч эх сурвалжийн жагсаалт - бүх зүйл нь тухайн хүнийг шийдвэрлэх үйл явцад шууд бусаар нөлөөлдөг холбоог өдөөдөг. асуудал.

Асуудлыг шийдвэрлэх цаг хугацаа, газар чухал. Хүн аливаа асуудлыг шийдвэрлэх явцад өөрийн эрхгүй эргэн тойронд байгаа бүх зүйлд анхаарал хандуулдаг тул зохион байгуулалттай байдаг. Энэ нь анхаарал сарниулах, эсвэл өдөөж болно. Дата олборлолт хэзээ ч "ойлгохгүй".

Виртуал орон зай дахь мэдээлэл

Хүн үргэлж аливаа үйл явдал, үзэгдэл, объектын тухай найдвартай мэдээлэл, асуудлыг шийдвэрлэх алгоритмыг л сонирхож ирсэн. Хүн хүссэн зорилгодоо хэрхэн хүрэхийг үргэлж төсөөлдөг.

Компьютер, мэдээллийн системүүд гарч ирсэн нь хүний амьдралыг хөнгөвчлөх ёстой байсан ч бүх зүйл улам төвөгтэй болсон. Мэдээлэл нь компьютерийн системийн гэдэс рүү шилжиж, нүднээс алга болсон. Шаардлагатай өгөгдлийг сонгохын тулд та зөв алгоритм үүсгэх эсвэл мэдээллийн санд хүсэлт гаргах шаардлагатай.

Мэдээллийн систем доторх өгөгдөл
Мэдээллийн систем доторх өгөгдөл

Асуулт зөв байх ёстой. Зөвхөн дараа нь та хариулт авах боломжтой. Гэхдээ жинхэнэ эсэхэд эргэлзсэн хэвээр байна. Энэ утгаараа Data Mining бол үнэхээр "малтлага", "мэдээллийн олборлолт" юм. Энэ хэллэгийг ингэж орчуулах нь моод болжээ. Орос хувилбар нь дата олборлох буюу өгөгдөл олборлох технологи юм.

Эрх бүхий мэргэжилтнүүдийн бүтээлд Data Mining-ийн даалгавруудыг дараах байдлаар тусгасан болно:

  • ангилал;
  • бөөгнөрөл;
  • холбоо;
  • дараалал;
  • урьдчилан таамаглах.

Мэдээллийг гар аргаар боловсруулахад хүнийг чиглүүлдэг практикийн үүднээс авч үзвэл эдгээр бүх байр суурь маргаантай байдаг. Ямар ч тохиолдолд хүн мэдээллийг автоматаар боловсруулж, өгөгдлийг ангилах, объектын сэдэвчилсэн бүлгийг эмхэтгэх (бөглөх), цаг хугацааны хэв маягийг хайх (дараалал) эсвэл үр дүнг таамаглах талаар боддоггүй.

Хүний оюун ухаан дахь эдгээр бүх байрлалыг идэвхтэй мэдлэгээр төлөөлдөг бөгөөд тэдгээр нь илүү олон байрлалыг хамарч, анхны өгөгдлийг боловсруулах логикийг динамикаар ашигладаг. Хүний далд ухамсар чухал үүрэг гүйцэтгэдэг, ялангуяа тухайн мэдлэгийн чиглэлээр мэргэшсэн хүн байх үед.

Жишээ нь: Компьютерийн тоног төхөөрөмжийн бөөний худалдаа

Даалгавар энгийн. Хэд хэдэн бийкомпьютерийн тоног төхөөрөмж, дагалдах хэрэгслийн олон арван нийлүүлэгчид. Тус бүр нь xls форматтай (Excel файл) үнийн жагсаалттай бөгөөд үүнийг нийлүүлэгчийн албан ёсны вэбсайтаас татаж авах боломжтой. Excel файлуудыг уншиж, өгөгдлийн сангийн хүснэгт болгон хувиргах, хэрэглэгчдэд хүссэн бүтээгдэхүүнээ хамгийн хямд үнээр сонгох боломжийг олгодог вэб нөөцийг бий болгох шаардлагатай.

Асуудал нэн даруй гарч ирнэ. Нийлүүлэгч бүр xls файлын бүтэц, агуулгын өөрийн гэсэн хувилбарыг санал болгодог. Та файлыг ханган нийлүүлэгчийн вэбсайтаас татаж авах, цахим шуудангаар захиалах, эсвэл өөрийн хувийн дансаар дамжуулан татаж авах линкийг авах, өөрөөр хэлбэл ханган нийлүүлэгчид албан ёсоор бүртгүүлснээр авах боломжтой.

Виртуал компьютерийн дэлгүүр
Виртуал компьютерийн дэлгүүр

Асуудлын шийдэл (эхэндээ) технологийн хувьд энгийн. Файлуудыг ачаалж байна (анхны өгөгдөл), ханган нийлүүлэгч бүрт файл таних алгоритм бичигдсэн бөгөөд өгөгдлийг анхны өгөгдлийн нэг том хүснэгтэд байрлуулна. Бүх өгөгдлийг хүлээн авсны дараа шинэ өгөгдлийг тасралтгүй солих (өдөр бүр, долоо хоног бүр эсвэл өөрчилсөн тохиолдолд) механизмыг бий болгосны дараа:

  • төрөллөө өөрчлөх;
  • үнийн өөрчлөлт;
  • нөөцөд байгаа тоо хэмжээг тодруулах;
  • баталгаат нөхцөл, техникийн үзүүлэлт гэх мэтийн тохируулга

Эндээс л жинхэнэ асуудал эхэлдэг. Гол нь нийлүүлэгч нь:

бичиж болно.

  • notebook Acer;
  • зөөврийн компьютер Asus;
  • Dell зөөврийн компьютер.

Бид нэг бүтээгдэхүүний тухай ярьж байна, гэхдээ өөр өөр үйлдвэрлэгчийн. Зөөврийн компьютер=зөөврийн компьютерийг хэрхэн тохируулах вэ эсвэл Acer, Asus, Dell-ийг бүтээгдэхүүний шугамаас хэрхэн устгах вэ?

Тиймхүн бол асуудал биш, гэхдээ Acer, Asus, Dell, Samsung, LG, HP, Sony нь худалдааны тэмдэг эсвэл ханган нийлүүлэгч гэдгийг алгоритм хэрхэн "ойлгох" вэ? "Принтер" болон принтер, "сканнер" болон "MFP", "хувилагч" болон "MFP", "чихэвч"-ийг "чихэвч", "дагалдах хэрэгсэл"-ийг "дагалдах хэрэгсэл"-тэй хэрхэн тааруулах вэ?

Эх өгөгдөл (эх файл) дээр тулгуурлан ангиллын мод үүсгэх нь бүх зүйлийг автоматаар тохируулах шаардлагатай үед аль хэдийн асуудалтай байдаг.

Өгөгдлийн түүвэрлэлт: "шинэхэн цутгасан" малтлага

Компьютерийн тоног төхөөрөмж нийлүүлэгчдийн мэдээллийн сан бүрдүүлэх ажлыг шийдвэрлэсэн. Ангиллын модыг бүтээж, бүх ханган нийлүүлэгчдээс санал болгосон нийтлэг ширээ ажиллаж байна.

Энэ жишээн дэх өгөгдөл олборлох ердийн ажлууд:

  • хамгийн хямд үнээр бүтээгдэхүүн олох;
  • хамгийн хямд тээвэрлэлтийн зардал болон үнээр барааг сонгоно уу;
  • бүтээгдэхүүний шинжилгээ: шалгуур үзүүлэлтээр шинж чанар, үнэ.

Хэдэн арван ханган нийлүүлэгчдийн өгөгдлийг ашигладаг менежерийн бодит ажилд эдгээр ажлуудын олон хувилбар, бүр илүү бодит нөхцөл байдал байх болно.

Жишээ нь, ASUS VivoBook S15 зардаг "А" ханган нийлүүлэгч байдаг: урьдчилгаа төлбөр, мөнгө хүлээн авснаас хойш 5 хоногийн дараа хүргэлт. Ижил загварын ижил төрлийн бүтээгдэхүүний нийлүүлэгч "В" байдаг: төлбөрийг хүлээн авсны дараа, гэрээ байгуулснаас хойш нэг өдрийн дотор хүргэлт, үнэ нь нэгээс хагас дахин өндөр байна.

Дата олборлолт эхэлдэг - "малтлага". Дүрслэлийн илэрхийлэл: "малтлага" эсвэл "өгөгдлийн олборлолт" нь ижил утгатай. Энэ нь шийдвэр гаргах шалтгаанаа хэрхэн олж авах тухай юм.

"А" болон "В" нийлүүлэгчид хүргэлтийн түүхтэй. ЗэрэгЭхний тохиолдолд урьдчилгаа төлбөрийг хүлээн авсан төлбөрийн эсрэг хоёр дахь тохиолдолд, хоёр дахь тохиолдолд хүргэлтийн дутагдал 65% -иар их байгааг харгалзан үзнэ. Үйлчлүүлэгчээс торгуулийн эрсдэл өндөр/бага байна. Хэрхэн, юуг тодорхойлж, ямар шийдвэр гаргах вэ?

Нөгөө талаар: мэдээллийн санг программист болон менежер үүсгэсэн. Програмист, менежер солигдсон бол өгөгдлийн сангийн өнөөгийн байдлыг хэрхэн тодорхойлж, хэрхэн зөв ашиглах талаар сурах вэ? Мөн та дата олборлолт хийх хэрэгтэй болно. Data Mining нь ямар төрлийн өгөгдлийг судалж байгаа нь хамаагүй олон төрлийн математик, логик аргуудыг санал болгодог. Энэ нь зарим тохиолдолд зөв шийдлийг өгдөг ч бүгдэд нь тийм биш.

Виртуал руу шилжиж, утга учрыг олох

Өгөгдөл олборлох аргууд нь мэдээллийн санд мэдээлэл бичигдэн “харагдах талбар”-аас алга болмогц утга учиртай болдог. Компьютерийн тоног төхөөрөмжийн худалдаа нь сонирхолтой ажил боловч зүгээр л бизнес юм. Тэр компанид хэр сайн зохион байгуулалттай байх нь амжилтаас хамаарна.

Дэлхий дээрх цаг уурын өөрчлөлт, тухайн хотын цаг агаарын байдал нь зөвхөн мэргэжлийн цаг уурын мэргэжилтнүүдийн сонирхлыг татдаг. Мянга мянган мэдрэгч нь дэлхийн хиймэл дагуулаас салхи, чийгшил, даралт, өгөгдлийг уншдаг бөгөөд олон жил, олон зуун жилийн өгөгдлийн түүх бий.

Цаг агаарын мэдээлэл гэдэг нь зөвхөн ажилдаа шүхэр авчрах эсэхээ шийддэггүй. Дата олборлолтын технологи нь онгоцны аюулгүй нислэг, хурдны замыг тогтвортой ажиллуулах, газрын тосны бүтээгдэхүүнийг далайгаар найдвартай хангах явдал юм.

"Түүхий" өгөгдлийг мэдээлэл рүү илгээсэнсистем. Data Mining-ийн үүрэг бол тэдгээрийг хүснэгтийн системчилсэн систем болгон хувиргах, холбоос үүсгэх, нэгэн төрлийн өгөгдлийн бүлгийг тодруулах, хэв маягийг илрүүлэх явдал юм.

Уур амьсгал, цаг агаар, түүхий мэдээлэл
Уур амьсгал, цаг агаар, түүхий мэдээлэл

Тоон аналитик OLAP (Онлайн аналитик боловсруулалт) бий болсон цагаас хойш математик болон логик аргууд нь практик ач холбогдолтой байдлаа харуулсан. Энд технологи нь компьютерийн тоног төхөөрөмж зарж байгаа жишээ шиг утга учрыг нь гээхгүй олох боломжийг олгодог.

Түүгээр ч барахгүй, глобал ажлуудад:

  • үндэстэн дамнасан бизнес;
  • агаарын тээврийн менежмент;
  • газрын хэвлий буюу нийгмийн асуудлыг судлах (улсын түвшинд);
  • эмийн амьд организмд үзүүлэх нөлөөг судлах;
  • үйлдвэрийн үйлдвэр барих үр дагаврыг урьдчилан таамаглах гэх мэт

Data Mine технологи, бодитой шийдвэр гаргах боломжийг олгодог "утгагүй" өгөгдлийг бодит өгөгдөл болгон хувиргах нь цорын ганц сонголт юм.

Түүхий мэдээлэл их байгаа газарт хүний боломж дуусдаг. Мэдээллийг харах, ойлгох, мэдрэх шаардлагатай үед өгөгдөл олборлох систем нь ашиг тусаа алддаг.

Функцуудын боломжийн хуваарилалт, бодитой байдал

Хүн, компьютер хоёр бие биенээ нөхөх ёстой - энэ бол аксиом юм. Диссертаци бичих нь хүний хувьд нэн тэргүүний асуудал бөгөөд мэдээллийн систем нь туслах болно. Энд Data Mining технологид байгаа өгөгдөл бол эвристик, дүрэм, алгоритм юм.

Долоо хоног бүрийн цаг агаарын урьдчилсан мэдээ бэлтгэх нь мэдээллийн системийн тэргүүлэх чиглэл юм. Хүн өгөгдлийг удирддаг боловч системийн тооцооллын үр дүнд үндэслэн шийдвэрээ гаргадаг. Энэ нь Data Mining аргууд, мэргэжилтнүүдийн өгөгдлийн ангилал, алгоритмын хэрэглээний гар удирдлага, өнгөрсөн өгөгдлийг автоматаар харьцуулах, математикийн таамаглал, мэдээллийн системийг ашиглахад оролцдог бодит хүмүүсийн мэдлэг, ур чадварыг хослуулсан.

Хүн ба компьютер
Хүн ба компьютер

Магадлалын онол, математикийн статистик нь мэдлэгийн хамгийн "дуртай" бөгөөд ойлгомжтой салбар биш юм. Олон мэргэжилтнүүд тэднээс маш хол байдаг боловч эдгээр чиглэлээр боловсруулсан аргууд нь бараг 100% зөв үр дүнг өгдөг. Data Mining-ийн санаа, арга, алгоритм дээр суурилсан системийг ашигласнаар шийдлийг бодитой, найдвартай олж авах боломжтой. Үгүй бол шийдэл олох боломжгүй.

Фараонууд ба өнгөрсөн зууны нууцууд

Түүхийг үе үе дахин бичсэн:

  • улсууд - стратегийн ашиг сонирхлынхоо төлөө;
  • эрх мэдэлтэй эрдэмтэд - субьектив итгэл үнэмшлийнхээ төлөө.

Юу нь үнэн, юу нь худал гэдгийг ялгахад бэрх. Дата олборлолтыг ашиглах нь бидэнд энэ асуудлыг шийдвэрлэх боломжийг олгодог. Жишээлбэл, пирамид барих технологийг он жил судлаачид тайлбарлаж, янз бүрийн зуунд эрдэмтэд судалж байжээ. Бүх материалыг интернетэд аваагүй, энд бүх зүйл өвөрмөц биш бөгөөд олон өгөгдөл байхгүй байж магадгүй:

  • цаг хугацааны тодорхойлсон цэг;
  • тайлбарыг бичих цаг;
  • тайлбарыг үндэслэсэн огноо;
  • зохиогч(ууд), санал (холбоос)-ыг харгалзан үзсэн;
  • объектив байдлын баталгаа.

Бномын сан, сүм хийд, "санаанд оромгүй газар"-аас та янз бүрийн зууны гар бичмэлүүд болон өнгөрсөн үеийн материаллаг нотлох баримтуудыг олж болно.

Сонирхолтой зорилго: бүгдийг нэгтгэж, "үнэн"-ийг илрүүлэх. Асуудлын онцлог: Фараонуудын амьдарч байсан үеэс өнөөг хүртэл олон эрдэмтдийн энэхүү асуудлыг орчин үеийн аргуудаар шийдэж байгаа он цагийн бичээсчүүдийн анхны тайлбараас мэдээлэл авч болно.

Data Mining ашиглах үндэслэл: гар хөдөлмөр хийх боломжгүй. Хэт олон тоо:

  • мэдээллийн эх сурвалж;
  • төлөөллийн хэлүүд;
  • судлаачид ижил зүйлийг янз бүрээр дүрсэлсэн;
  • огноо, арга хэмжээ, нөхцөл;
  • нэр томъёоны хамаарлын асуудал;
  • цаг хугацааны туршид өгөгдлийн бүлгүүдийн статистикийн шинжилгээ өөр байж болно.

Өнгөрсөн зууны сүүлчээр хиймэл оюун ухааны санааны өөр нэг эвдрэл нь энгийн хүмүүст төдийгүй нарийн мэргэжилтний хувьд тодорхой болоход "хувь хүнийг дахин бүтээх" санаа гарч ирэв.

Жишээлбэл, Пушкин, Гоголь, Чехов нарын бүтээлийн дагуу тодорхой дүрмийн тогтолцоо, зан үйлийн логик бүрдэж, тодорхой асуултуудад хариулж чадах мэдээллийн системийг бий болгодог: Пушкин, Гоголь эсвэл Чехов. Онолын хувьд ийм даалгавар нь сонирхолтой боловч практик дээр хэрэгжүүлэхэд туйлын хэцүү байдаг.

Гэсэн хэдий ч ийм ажлын санаа нь "ухаалаг мэдээллийн хайлтыг хэрхэн бий болгох вэ" гэсэн маш практик санааг санал болгож байна. Интернет бол маш их хөгжиж буй нөөц, асар том мэдээллийн сан бөгөөд энэ нь дата олборлолтыг хүнтэй хослуулан ашиглах сайхан боломж юм.хамтын хөгжлийн формат дахь логик.

Машин ба хүн хамтдаа
Машин ба хүн хамтдаа

Машин ба хүн хосолсон ажил бол "мэдээллийн археологийн" салбарт маш сайн ажил бөгөөд эргэлзээгүй амжилт, өндөр чанартай малтлага, өгөгдөл, үр дүн нь эргэлзээ төрүүлэх боловч эргэлзээ төрүүлэхгүй байх боломжийг танд олгоно. шинэ мэдлэг олж авах, нийгэмд эрэлт хэрэгцээтэй байх болно.

Зөвлөмж болгож буй: