Статистик мэдээлэл: цуглуулах, боловсруулах, дүн шинжилгээ хийх

Агуулгын хүснэгт:

Статистик мэдээлэл: цуглуулах, боловсруулах, дүн шинжилгээ хийх
Статистик мэдээлэл: цуглуулах, боловсруулах, дүн шинжилгээ хийх
Anonim

Статистикийн түүхийн туршид хэмжилтийн түвшний ангилал зүй зохиох гэж янз бүрийн оролдлого хийж ирсэн. Психофизикч Стэнли Смит Стивенс нэрлэсэн, дараалал, интервал, пропорциональ хэмжигдэхүүнийг тодорхойлсон.

Нэрлэсэн хэмжигдэхүүнүүд утгуудын хооронд эрэмбэлэх чухал дараалалгүй бөгөөд нэг нэгээр нь хөрвүүлэхийг зөвшөөрдөг.

Тогтмол хэмжигдэхүүнүүд нь дараалсан утгуудын хооронд тодорхой бус зөрүүтэй боловч тэдгээр утгуудын тодорхой дараалал байдаг бөгөөд дарааллыг хадгалах аливаа өөрчлөлтийг зөвшөөрдөг.

Интервалын хэмжилтүүд нь цэгүүдийн хоорондох утга учиртай зайтай боловч тэг утга нь дур зоргоороо (Цельсийн болон Фаренгейтийн уртрагийн болон температурын хэмжилтийн хувьд) бөгөөд ямар ч шугаман хувиргалтыг зөвшөөрдөг.

Харьцааны хэмжигдэхүүнүүд нь утга учиртай тэг утгатай ба өөр хэмжигдэхүүнүүдийн хоорондох зайтай бөгөөд аливаа масштабын өөрчлөлтийг зөвшөөрдөг.

Image
Image

Хувьсагч ба мэдээллийн ангилал

Учир нь хувьсагчЗөвхөн нэрлэсэн эсвэл дарааллын хэмжилтэд тохирсон хэмжигдэхүүнийг тоогоор хэмжих боломжгүй бөгөөд заримдаа категорийн хувьсагчид гэж бүлэглэгддэг. Харьцаа ба интервалын хэмжилтийг тоон шинж чанараараа салангид эсвэл тасралтгүй байж болох тоон хувьсагч гэж бүлэглэдэг. Ийм ялгаа нь компьютерийн шинжлэх ухаанд өгөгдлийн төрөлтэй ихэвчлэн сул холбоотой байдаг, учир нь дихотом категорийн хувьсагчдыг логикийн утгууд, интеграл өгөгдлийн төрөлд дурын бүхэл тоо бүхий политом категори хувьсагч, хөвөгч цэгийн тооцоолол бүхий бодит бүрэлдэхүүн хэсэг бүхий тасралтгүй хувьсагчаар төлөөлж болно. Гэхдээ статистик мэдээллийн өгөгдлийн төрлийг харуулах нь ямар ангиллыг ашиглахаас хамаарна.

Ажилчдын статистик мэдээлэл
Ажилчдын статистик мэдээлэл

Бусад ангилал

Статистикийн мэдээллийн (мэдээлэл) бусад ангиллыг мөн бий болгосон. Жишээлбэл, Мостеллер, Тукей нар зэрэглэл, зэрэглэл, тоологдсон хувьцаа, тоолол, дүн, үлдэгдэл зэргийг ялгаж салгасан. Нелдер нэг удаад тасралтгүй тоолол, тасралтгүй харьцаа, тооллын хамаарал, өгөгдөл дамжуулах категориаль аргуудыг тодорхойлсон. Эдгээр бүх ангиллын аргыг статистик мэдээлэл цуглуулахад ашигладаг.

Асуудал

Янз бүрийн хэмжилт (цуглуулах) журмаар олж авсан өгөгдөлд янз бүрийн төрлийн статистикийн аргыг хэрэглэх нь тохиромжтой эсэх асуудал нь хувьсагчдыг хөрвүүлэх, асуултуудыг нарийн тайлбарлахтай холбоотой асуудлаас болж төвөгтэй байдаг.судалгаа. Өгөгдөл болон түүний тайлбарлаж буй зүйлсийн хоорондын хамаарал нь тодорхой төрлийн статистик мэдэгдэл нь тодорхой өөрчлөлтийн үед өөрчлөгддөггүй үнэний утгатай байж болохыг харуулж байна. Өөрчлөлтийг анхаарч үзэх нь зүйтэй эсэх нь таны хариулах гэж буй асуултаас хамаарна.

Статистик мэдээллийн жишээ
Статистик мэдээллийн жишээ

Өгөгдлийн төрөл гэж юу вэ

Өгөгдлийн төрөл нь хувьсагчийн семантик агуулгын үндсэн бүрэлдэхүүн хэсэг бөгөөд хувьсагчийг тайлбарлахад ямар төрлийн магадлалын тархалт, түүн дээр зөвшөөрөгдсөн үйлдлүүд, түүнийг урьдчилан таамаглахад ашигласан регрессийн шинжилгээний төрлийг хянадаг., гэх мэт. Өгөгдлийн төрлийн тухай ойлголт нь хэмжилтийн түвшний ойлголттой төстэй боловч илүү тодорхой байдаг - жишээлбэл, өгөгдлийн тооллого нь сөрөг бус бодит утгуудаас өөр хуваарилалт (Пуассон эсвэл бином) шаарддаг боловч хоёулаа ижил утгатай байдаг. хэмжилтийн түвшин (коэффицентийн хуваарь).

Шүүгчдийн талаарх статистик мэдээлэл
Шүүгчдийн талаарх статистик мэдээлэл

Жинлүүр

Статистикийн мэдээллийг боловсруулах хэмжилтийн түвшний ангилал зүйг бий болгох янз бүрийн оролдлого хийсэн. Психофизикч Стэнли Смит Стивенс нэрлэсэн, дараалал, интервал, пропорциональ хэмжигдэхүүнийг тодорхойлсон. Нэрлэсэн хэмжилтүүд нь утгуудын дунд эрэмбийн чухал дарааллаар байдаггүй бөгөөд аливаа нэгийг нэгээр нь хөрвүүлэх боломжийг олгодог. Энгийн хэмжилтүүд нь дараалсан утгуудын хооронд тодорхой бус ялгаатай боловч тэдгээр утгуудын чухал дарааллаар ялгаатай бөгөөддэг журмыг хадгалах аливаа өөрчлөлт. Интервалын хэмжилтүүд нь хэмжилтүүдийн хооронд утга учиртай зайтай байдаг боловч тэг утга нь дур зоргоороо (Цельсийн болон Фаренгейтийн уртрагийн болон температурын хэмжилтийн хувьд) бөгөөд ямар ч шугаман хувиргалтыг зөвшөөрдөг. Харьцааны хэмжигдэхүүн нь утга учиртай тэг утгатай бөгөөд өөр өөр тодорхойлсон хэмжигдэхүүнүүдийн хоорондох зайтай бөгөөд аливаа масштабын өөрчлөлтийг зөвшөөрдөг.

Диаграммын загвар
Диаграммын загвар

Ганц тоогоор тайлбарлах боломжгүй өгөгдлийг ихэвчлэн бодит санамсаргүй хэмжигдэхүүнүүдийн санамсаргүй векторуудад оруулдаг ч тэдгээрийг өөрөө боловсруулах хандлага нэмэгдэж байна. Ийм жишээнүүдийг доор авч үзэх болно.

Санамсаргүй векторууд

Хувийн элементүүд хоорондоо уялдаатай эсвэл хамааралгүй байж болно. Корреляцитай санамсаргүй векторуудыг тодорхойлоход хэрэглэгддэг тархалтын жишээ нь олон хувьсагчийн хэвийн тархалт ба олон хувьсагчийн t тархалт юм. Ерөнхийдөө аливаа элементийн хооронд дур зоргоороо хамаарал байж болох ч энэ нь ихэвчлэн тодорхой хэмжээнээс давсан тохиолдолд зохицуулах боломжгүй болж, харилцан хамааралтай бүрэлдэхүүн хэсгүүдэд нэмэлт хязгаарлалт шаардагдана.

статистик шинж чанарууд
статистик шинж чанарууд

Санамсаргүй матрицууд

Санамсаргүй матрицуудыг шугаман байдлаар байрлуулж, санамсаргүй вектор гэж үзэж болох боловч энэ нь өөр элементүүдийн хоорондын хамаарлыг илэрхийлэх үр дүнтэй арга биш байж магадгүй. Зарим магадлалын тархалт нь ердийн матриц гэх мэт санамсаргүй матрицуудад тусгайлан зориулагдсан байдагтүгээлт болон Wishart түгээлт.

Санамсаргүй дараалал

Заримдаа тэдгээрийг санамсаргүй вектортой адил гэж үздэг боловч бусад тохиолдолд санамсаргүй хэмжигдэхүүн бүр зөвхөн ойролцоох хувьсагчтай (Марковын загварт байдаг шиг) хамааралтай тохиолдолд энэ нэр томъёог тусгайлан хэрэглэдэг. Энэ нь Bayesian сүлжээний онцгой тохиолдол бөгөөд генийн хэлхээ эсвэл урт текст баримт бичиг гэх мэт маш урт дараалалд ашиглагддаг. Хэд хэдэн загваруудыг Марковын далд дараалал гэх мэт дарааллаар тусгайлан бүтээсэн.

Ердийн график
Ердийн график

Санамсаргүй процесс

Тэдгээр нь санамсаргүй дараалалтай төстэй боловч дарааллын урт нь тодорхойгүй эсвэл хязгааргүй байх ба дарааллын элементүүдийг нэг нэгээр нь боловсруулдаг. Үүнийг цаг хугацааны цуваа гэж тодорхойлж болох өгөгдөлд ихэвчлэн ашигладаг. Жишээ нь, дараагийн өдрийн хувьцааны ханшийн хувьд энэ нь үнэн юм.

Дүгнэлт

Статистикийн мэдээлэлд дүн шинжилгээ хийх нь түүний цуглуулгын чанараас бүрэн хамаардаг. Сүүлийнх нь эргээд түүний ангиллын боломжуудтай хүчтэй холбоотой юм. Мэдээжийн хэрэг, статистикийн мэдээллийн олон төрлийн ангилал байдаг бөгөөд энэ нийтлэлийг уншиж байхдаа уншигч өөрөө харж болно. Гэсэн хэдий ч үр дүнтэй хэрэгсэл, математикийн сайн мэдлэг, социологийн чиглэлээр мэдлэгтэй байх нь тэдний ажлыг гүйцэтгэх бөгөөд алдааг мэдэгдэхүйц засварлахгүйгээр аливаа судалгаа, судалгаа хийх боломжийг танд олгоно. Маягт дахь статистик мэдээллийн эх сурвалжАз болоход хүмүүс, байгууллага болон социологийн бусад субъектууд маш их төлөөлөлтэй байдаг. Жинхэнэ судлаачийн замд ямар ч бэрхшээл саад болохгүй.

Зөвлөмж болгож буй: