5.1.7 Зв'язку між перемінними. Незалежно від типу, дві чи більш перемінних зв'язані (залежні) між собою, якщо значення цих перемінних, що спостерігаються, розподілені погодженим образом. Іншими словами, ми говоримо, що перемінні залежно, якщо їхнього значення систематичним образом погоджені один з одним у наявних у нас спостереженнях. Наприклад, перемінні Стать і WCC (число лейкоцитів) могли б розглядатися як залежні, якби більшість чоловіків мало високий рівень WCC, а більшість жінок - низький WCC, чи навпаки. Ріст зв'язаний з Вагою, тому що звичайно високі індивіди важче низьких; IQ (коефіцієнт інтелекту) зв'язаний з Кількістю помилок у тесті, тому що люди високим значенням IQ роблять менше помилок і т. д.

5.1.8 Чому залежності між перемінними є важливими. Узагалі говорячи, кінцева мета всякого чи дослідження наукового аналізу складається в перебування зв'язків (залежностей) між перемінними. Філософія науки учить, що не існує іншого способу представлення знання, крім як у термінах залежностей між чи кількостями якостями, вираженими якими-небудь перемінними. Таким чином, розвиток науки завжди полягає в перебуванні нових зв'язків між перемінними. Дослідження кореляцій власне кажучи складається у вимірі таких залежностей безпосереднім образом. Проте, експериментальне дослідження не є в цьому змісті чимось відмінним. Наприклад, відзначене вище експериментальне порівняння WCC у чоловіків і жінок може бути описане як пошук зв'язку між перемінними: Стать і WCC. Призначення статистики полягає в тому, щоб допомогти об'єктивно оцінити залежності між перемінними.

НЕ нашли? Не то? Что вы ищете?

5.2 Величина, надійність, значимість

5.2.1 Дві основні риси всякої залежності між перемінними. Можна відзначити дві найпростіші властивості залежності між перемінними: (a) величина залежності і (b) надійність залежності.

5.2.2 Величина. Величину залежності легше зрозуміти і вимірити, чим надійність. Наприклад, якщо будь-який чоловік у вашій вибірці мав значення WCC вище чим будь-яка жінка, то ви можете сказати, що залежність між двома перемінними (Стать і WCC) дуже висока. Іншими словами, ви могли б пророчити значення однієї перемінної за значеннями іншої.

5.2.3 Надійність ("істинність"). Надійність взаємозалежності - менш наочне поняття, чим величина залежності, однак надзвичайно важливе. Надійність залежності безпосередньо зв'язана з репрезентативністю визначеної вибірки, на основі якої будуються висновки. Іншими словами, надійність говорить нам про тім, наскільки імовірно, що залежність, подібна знайдений вами, буде знову виявлена (іншими словами, підтвердиться) на даних іншої вибірки, витягнутої з тієї ж самої популяції. Варто пам'ятати, що кінцевою метою майже ніколи не є вивчення даної конкретної вибірки; вибірка становить інтерес лише остільки, оскільки вона подає інформацію про всю популяцію. Якщо ваше дослідження задовольняє деяким спеціальним критеріям (про це буде сказано пізніше), то надійність знайдених залежностей між перемінними вашої вибірки можна кількісно оцінити і представити за допомогою стандартної статистичної міри (називаної чи p-рівень статистичний рівень значимості, докладніше див. у наступному розділі).

5.2.4 Що таке статистична значимість (p-рівень)? Статистична значимість результату являє собою оцінену міру впевненості в його "істинності" (у змісті "репрезентативності вибірки"). Виражаючи більш технічно, p-рівень - це показник, що знаходиться в убутній залежності від надійності результату. Більш високий p - рівень відповідає більш низькому рівню довіри до знайденого у вибірці залежності між перемінними. Саме, p-рівень являє собою імовірність помилки, зв'язаної з поширенням результату, що спостерігається, на всю популяцію. Наприклад, p - рівень = .05 (тобто 1/20) показує, що мається 5% імовірність, що знайдена у вибірці зв'язок між перемінними є лише випадковою особливістю даної вибірки. Іншими словами, якщо дана залежність у популяції відсутня, а ви багаторазово проводили б подібні експерименти, те приблизно в одному з двадцяти повторень експерименту можна було б очікувати такий же чи більш сильної залежності між перемінними. (Відзначимо, що цю не ту ж саме, що затверджувати про відому наявність залежності між перемінними, котра в середньому може бути відтворена в 5% чи 95% випадків; коли між перемінними популяції існує залежність, імовірність повторення результатів дослідження, що показують наявність цієї залежності називається статистичною потужністю плану. Докладніше про це див. у розділі Анализ мощности). У багатьох дослідженнях p-рівень 0.05 розглядається як "прийнятна границя" рівня помилки.

5.2.5 Як визначити, чи є результат дійсно значимим. Не існує ніякого способу уникнути сваволі при ухваленні рішення про те, який рівень значимості варто дійсно вважати "значимим". Вибір визначеного рівня значимості, вище якого результати відкидаються як помилкові, є досить довільним. На практиці остаточне рішення звичайне залежить від того, чи був результат передвіщений апріорі (тобто до проведення досвіду) чи виявлений апостериорно в результаті багатьох аналізів і порівнянь, виконаних з безліччю даних, а також на традиції, що мається в даній області досліджень. Звичайно в багатьох областях результат p 0.05 є прийнятною границею статистичної значимості, однак варто пам'ятати, що цей рівень усе ще включає досить велику імовірність помилки (5%). Результати, значимі на рівні p  0.01 звичайно розглядаються як статистично значимі, а результати з рівнем p  0.005 чи p 0.001 як високо значимі. Однак варто розуміти, що дана класифікація рівнів значимості досить довільна і є усього лише неформальною угодою, прийнятим на основі практичного досвіду в тій чи іншій області дослідження.

5.2.6 Статистична значимість і кількість виконаних аналізів. Зрозуміло, що чим більше число аналізів ви проведете із сукупністю зібраних даних, тим більше число значимих (на обраному рівні) результатів буде виявлено чисто випадково. Наприклад, якщо ви обчислюєте кореляції між 10 перемінними (маєте 45 різних коефіцієнтів кореляції), те можна екати, що приблизно два коефіцієнти кореляції (один на кожні 20) чисто випадково виявляться значимими на рівні p  0.05, навіть якщо перемінні зовсім випадкові і некорельовані в популяції. Деякі статистичні методи, що включають багато порівнянь, і, таким чином, що мають гарний шанс повторити такого роду помилки, роблять спеціальне чи коректування виправлення на загальне число порівнянь. Проте, багато статистичних методів (особливо прості методи розвідницького аналізу даних) не пропонують якого-небудь способу рішення даної проблеми. Тому дослідник повинний з обережністю оцінювати надійність несподіваних результатів.

Величина залежності між перемінними в порівнянні з надійністю залежності. Як було вже сказане, величина залежності і надійність представляють дві різні характеристики залежностей між перемінними. Проте, не можна сказати, що вони зовсім незалежні. Говорячи загальною мовою, чим більше величина залежності (зв'язку) між перемінними у вибірці звичайного обсягу, тим більше вона надійна (див. наступний розділ).

5.2.7 Чому більш сильні залежності між перемінними є більш значимими. Якщо припускати відсутність залежності між відповідними перемінними в популяції, то найбільше ймовірно очікувати, що в досліджуваній вибірці зв'язок між цими перемінними також буде відсутній. Таким чином, чим більш сильна залежність виявлена у вибірці, тим менш імовірно, що цієї залежності немає в популяції, з якої вона витягнута. Як ви бачите, величина залежності і значимість тісно зв'язані між собою, і можна було б спробувати вивести значимість з величини залежності і навпаки. Однак зазначений зв'язок між залежністю і значимістю має місце тільки при фіксованому обсязі вибірки, оскільки при різних обсягах вибірки та сама залежність може виявитися як високо значимої, так і незначущої зовсім (див. наступний розділ)

5.2.8 Чому обсяг вибірки впливає на значимість залежності. Якщо спостережень мало, то відповідно мається мало можливих комбінацій значень цих перемінних і таким чином, імовірність випадкового виявлення комбінації значень, що показують сильну залежність, відносно велика. Розглянемо наступний приклад. Якщо ви досліджуєте залежність двох перемінних (Стать: чоловік/жінка і WCC: високий/низький) і маєте тільки 4 суб'єкта у вибірці (2 чоловіка і 2 жінки), то імовірність того, що чисто випадково ви знайдете 100% залежність між двома перемінними дорівнює 1/8. Більш точно, імовірність того, що обоє чоловіка мають високий WCC, а обидві жінки - низький WCC, чи навпаки, - дорівнює 1/8. Тепер розглянемо імовірність подібного збігу для 100 суб'єктів; легко бачити, що ця імовірність дорівнює практично нулю. Розглянемо більш загальний приклад. Представимо популяцію, у якій середнє значення WCC чоловіків і жінок одне і теж. Якщо ви будете повторювати експеримент, що складається у витягу пари випадкових вибірок (одна вибірка - чоловіка, інша вибірка - жінки), а потім обчислите різниці вибіркових середніх WCC для кожної пари вибірок, то в більшості експериментів результат буде близький до 0. Однак час від часу, будуть зустрічатися пари вибірок, у яких розходження між середньою кількістю лейкоцитів у чоловіків і жінок буде істотно відрізнятися від 0. Як часто це буде відбуватися? Очевидно, чим менше обсяг вибірки в кожнім експерименті, тим більше ймовірна поява таких помилкових результатів, що показують існування залежності між підлогою і WCC у даних, отриманих з популяції, де така залежність насправді відсутня.

Приклад: "відношення числа новонароджених хлопчиків до числа новонароджених дівчинок" Розглянемо наступний приклад. Маються 2 лікарні. Припустимо, що в першій з них щодня народжується 120 дітей, у другий тільки 12. У середньому відношення числа хлопчиків, що народжуються в кожній лікарні, до числа дівчинок 50/50. Один раз дівчинок народилося вдвічі більше, ніж хлопчиків. Запитується, для якої лікарні дана подія більш ймовірна? Відповідь очевидна для статистика, однак, він не настільки очевидний недосвідченому. Звичайно, така подія набагато більш ймовірна для маленької лікарні. Пояснення цього факту полягає в тому, що імовірність випадкового відхилення (від середнього) зростає зі зменшенням обсягу вибірки.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6