середа, 12 січня 2011 р.

Ten Fatal Flaws in Data Analysis (переклад)

Оригінал http://statswithcats.wordpress.com/2010/11/07/ten-fatal-flaws-in-data-analysis/


Десять фатальних помилок в аналізі даних

1. Де яловичина?

Власне кажучи, найгірша помилка аналізу даних - відсутність власне аналізу. Замість нього ви отримуєте набір списків, сортованих даних та запитів, і можливо, просту описову статистику, але ніяких конкретних цілей, відповідей на питання або розказаної історії. Якщо це все, що вам потрібно - добре. Але звіт - не аналіз даних. Звіт дає інформацію, в той час як аналіз дає знання. Це як банківський рахунок. Іноді достатньо лише стислої інформації про баланс. Ця інформація повинна бути доступною в будь-який час, і ви і банк маєте працювати з однаковими даними. Якщо ж ви хочете скласти модель ваших витрат - потрібно провести аналіз. Припустимо, ви хочете з”ясувати на скільки зросли ваші транспортні витрати за останніх 5 років. Для того, щоб сформулювати модель потрібно співставити дані та виключати аномалії, на кшталт водіння по бездоріжжю під час відпустки. Аналіз - це значно більше ніж побіжний погляд. (http://statswithcats.wordpress.com/2010/08/22/the-five-pursuits-you-meet-in-statistics/). Він вимагає часу, іноді багато часу.
Щоб впевнитись, що ви отримали саме той результат, якого прагли, дивіться на таблиці даних для моделей, результати, висновки та рекомендації. Якщо вони відсутні - це не аналіз.


2. Фантомні популяції

Ще одна фатальна помилка  аналізу - вибірка неточно характеризує популяцію. Іноді аналітики не приділяють достатньої уваги сукупності, яку вони досліджують. І на основі спостережень роблять висновки про неіснуючу популяцію. Популяція - це спільнота, яка, в значній мірі формується певними характерними особливостями. Група винятків не може бути популяцією. Громадські опитування іноді страждають від проблеми фантомного населення. Скажімо, ви опитували людей у червоних сорочках. Чи зможете ви узагальнити результати для всіх, хто носить червоні сорочки? Канадські дослідники знайшли фантомне населення коли намагались створити контрольну групу чоловіків, які не переглядають порнографічні матеріали. (http://www.telegraph.co.uk/relationships/6709646/All-men-watch-porn-scientists-find.html). Переконайтеся, що ви досліджуєте не ілюзорну популяцію.


3.Несправжні приклади

Буває що популяція реальна і добре вивчена, але некоректно визначені приклади. Це загальна критика громадських опитувань, особливо опитувань на виборах. Це одна з причин, чому екзитполи на виборах 2004 говорили, що в округах, в яких насправді переміг Джордж Буш, більшість людей проголосували за Джона Керрі. У медичних та соціологічних дослідженнях несправжні приклади можуть з’явитись тому, що, зазвичай, важко обрати об’єкти цільового дослідження. Крім того, екологічні дослідження можуть постраждати від невідповідності між типами грунтів і водоносних горизонтів. Для того, щоб виявити несправжні приклади, зверніть увагу на три речі: (1) чітке визначення реальної популяції, (2) опис того, як зразки були підібрані, щоб репрезентувати популяцію і (3) інформацію про будь-які зміни, які відбулись при відборі прикладів (відкинуті або змінені).


4. Достатньо значить достатньо

Кількість прикладів завжди є проблемою в статистичних дослідженнях (http://statswithcats.wordpress.com/2010/07/17/purrfect-resolution/). При надто малій кількості прикладів постає питання впевненості у висновку; при надто великій - питання осмисленості(http://statswithcats.wordpress.com/2010/07/26/samples-and-potato-chips/). Зазвичай аналітики готові до цього питання але остерігайтесь, якщо вони наводять стару байку з більше як 30 прикладами.(http://statswithcats.wordpress.com/2010/07/11/30-samples-standard-suggestion-or-superstition/). Це свідчить про те, що їхнє розуміння статистики не таке вже й грунтовне, як ви могли подумати. Також, якщо використовується достатня кількість прикладів для аналізу і з’являються нові категорії дослідження, потрібно переконатись, що для кожної категорії прикладів достатньо.


5. Потурання відхиленню

Більшість людей не усвідомлюють відхилення. Вони навіть не знають що це(http://statswithcats.wordpress.com/2010/08/01/there%E2%80%99s-something-about-variance/). Якщо рейтинг їхнього кандидата виріс на 2 пункти при опитуванні, вони вважають,  що вибори у них в кишені. Навіть професіонали (вчені, інженери, лікарі) не готові працювати з відхиленнями. Вони уникають їх як тільки можна і просто рахують середнє або найбільш повторюване значення. Ділові люди постійно говорять про відхилення, але вони мають на увазі більше різницю ніж статистичну дисперсію. Бейсболісти багаті на відхилення. Де ще можна зазнати двох невдач у кожних 3-ох спробах і залишитись зіркою? Аналітики мають розуміти відхилення і звертатись до нього на кожному кроці проекту.
Погляньте як відхилення дозволяють контролювати навчальні плани (http://statswithcats.wordpress.com/2010/09/05/the-heart-and-soul-of-variance-control/
http://statswithcats.wordpress.com/2010/09/19/it%E2%80%99s-all-in-the-technique/). Шукайте у звітах результати відхилення. І, найголовніше, шукайте якусь оцінку невизначеності впливу на результати дослідження.


6. Божевільність методів

NASA використовує чекліст щоб бути впевненими, що кожен космонавт виконує дії правильно, повністю і послідовно. Аналіз вимагає того ж. Якщо дані зібрані з різних джерел або в різний час, впевніться, що використовувався стандартний сценарій отримання даних. Будьте особливо уважні з даними зібраними за кілька років. Постійно з’являються кращі та дешевші методи та обладнання, слідкуйте за їхньою сумісністю (http://statswithcats.wordpress.com/2010/09/12/the-measure-of-a-measure/). Впевніться що дані очищені від помилок, повторів, невідомих та викидів (http://statswithcats.wordpress.com/2010/10/17/the-data-scrub-3/). І, нарешті,  впевніться, що обраний метод аналізу підходить для ваших даних (http://statswithcats.wordpress.com/2010/08/27/the-right-tool-for-the-job/).


7. Злива тестів

Якщо статистичний тест проводиться в дослідженні, то фальш-позитиви/негативи можна контролювати або принаймі оцінити. Але, якщо тестів буде дуже багато, ви обов’язково отримаєте фальшрезультати лише завдяки гумору матінки природи. Наприклад, при дослідженні грунтових вод треба зробити не менше сотні тестів.
Для таких випадків можна використовувати ієрархічні тести або інші види спеціальних тестів (шукайте корекція Бонферроні). Будьте обережні, можна зробити неправильний висновок, якщо використовувати невелику частку значущих тестів.


8. Значущі незначущості і незначущі значущості

Тут ви повинні використовувати свою інтуїцію. Якщо тест є статистично значущим, а ви не вірите, що так може бути - перевірте рівень довіри та значущість різниці. Як кореляція не обов’язково означає причинність, так і значущість не обов’язково означає осмисленість. Якщо ж результат не є статистично значущим, а ви вважаєте що мав би бути, перевірте силу(потужність) тесту та розмір різниці. Впевніться, що дослідили порушення припущень (http://statswithcats.wordpress.com/2010/10/03/assuming-the-worst/). Також постарайтесь знайти упущення. Деякі дослідження не звітують про незначущі результати (похибки). Але саме ці результати можуть бути тим, що ви шукали.


9. Інтоксикація екстраполяцією

Впевніться, що інтервали даних знаходяться в тих же масштабах, в яких ви робите припущення. Якщо досліження використовує дані досліджень отримані при кімнатній температурі - остерігайтесь прогнозу в умовах заморозків. Аналогічно будьте обережні з екстраполяцією досліджень кроликів на людей; екстраполяції карт, які демонструють інформацію, за межі спостереження, екстраполяції одного демографічного дослідження на інше, і т д. Мабуть, єдиним прикладом екстраполяції, який, зі скрипом, але все ж прийнятий в статистиці є аналіз часових рядів. (http://statswithcats.wordpress.com/2010/08/15/time-is-on-my-side/). Для того, щоб зробити прогноз, таки потрібно провести екстраполяцію. Як далеко в майбутнє можна зробити правильний прогноз залежить від ступеню автокореляції, стабільності даних та моделі.

10. Хибні моделі

Модель - хороший інструмент для того, щоб зрозуміти ваші дані (http://statswithcats.wordpress.com/2010/08/08/the-zen-of-modeling/). Статистичні моделі базуються на даних. Детерміновані теорії, тим не менше, грунтуються на теоріях, в основному тих, у які вірить дослідник, який використовує модель. Але детерміновані моделі не кращі, ніж теорії, які лежать в їх основі. Неправильні моделі заглиблюють дослідників у створення моделей на основі упереджених або помилкових теорій, а потім використання моделі для пояснення даних або спостережуваних явищ у спосіб, який відповідає упередженій думці дослідників. Цей недолік найбільш розповсюджений у сферах, які більше тяжіють до спостережень, ніж до експериментів.

Немає коментарів:

Дописати коментар