Статистика оценки

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Статистика оценки (оценочная статистика, англ. Estimation statistics) — подход к анализу данных, который включает в себя комбинацию из методов: размера эффекта, доверительных интервалов, планирования точности и метаанализа для планирования экспериментов, анализа данных и интерпретации результатов.[1] Этот подход отличается от проверки значимости нулевой гипотезы (NHST), который считается менее информативным.[2][3] Статистика оценки, или просто оценка, также известная как новая статистика,[3] используется в области психологии, медицинских исследований, наук о жизни и в широком спектре других экспериментальных наук, где проверка значимости нулевой гипотезы всё ещё остается распространённым подходом,[4] несмотря на то, что в течение последних нескольких десятилетий статистика оценки рекомендуется в качестве предпочтительного подхода.[5][6]

Основная цель статистики оценки — сообщить размер эффекта (точечную оценку) вместе с его доверительным интервалом, который связан с точностью оценки.[7] Доверительный интервал суммирует диапазон вероятных значений основного эффекта популяции. Сторонники статистики оценки предпочитают сообщать о размере эффекта с его доверительными интервалами вместо p-уровня значимости[8] и считают, что статистика оценки должна заменить метод проверки значимости для анализа данных.[9]

История[править | править код]

В физике давно используется метод средневзвешенных значений, аналогичный метаанализу.[10]

История статистики оценки началась с разработки Якобом Коэном стандартизированной величины эффекта в 1960-х годах. Первые исследования с использованием оценочной статистики были впервые проведены Джином В. Глассом вместе с разработкой метода метаанализа в 1970-х годах.[11] С тех пор методы статистики оценки были усовершенствованы Ларри Хеджесом, Майклом Боренштейном, Дугом Альтманом, Мартином Гарднером, Джеффом Каммингом и другими. Систематический обзор в сочетании с метаанализом — это смежный метод, который широко используется в медицинских исследованиях. Несмотря на широкое распространение метаанализа, подход статистики оценки до сих пор не используется на постоянной основе в главенствующих биомедицинских исследованиях.[4]

В 1990-х редактор Кеннет Ротман запретил использование p-значений в журнале Epidemiology; авторы поддержали инициативу, но это не повлияло на их аналитическое мышление при проведении исследований.[12]

В последнее время методы статистики оценки применяются в таких областях, как нейробиология, психология образования и психология.[13]

В руководстве по публикациям Американской психологической ассоциации рекомендуется оценка (estimation), а не проверка (testing) гипотез.[14] В документе «Единые требования к рукописям, представляемым в биомедицинские журналы» содержится аналогичная рекомендация: «Избегайте полагаться исключительно на статистическую проверку гипотез, такую как p-значения, которая не может передать важную информацию о величине эффекта».[15]

В 2019 году журнал Общества нейробиологии eNeuro ввел политику, рекомендующую использовать графики статистики оценки в качестве предпочтительного метода для представления данных.[16]

Методология[править | править код]

У многих тестов значимости есть аналог в статистике оценки.[17] Почти в каждом случае результат теста (или его p-значение) можно просто заменить размером эффекта и оценкой точности. Например, вместо использования t-критерия Стьюдента аналитик может сравнить две независимые группы, вычислив среднюю разницу и ее 95 % доверительный интервал. Соответствующие методы могут использоваться для парного t-критерия и множественных сравнений. Точно так же для регрессионного анализа аналитик должен сообщить коэффициент детерминации (R2) и уравнение модели вместо p-значения модели.

Однако сторонники оценочной статистики рекомендуют анализировать и представлять данные с помощью визуализации данных в дополнение к цифровым расчетам.[2][6][7] Примерами подходящей визуализации являются точечный график для регрессии и графики Гарднера-Альтмана для двух независимых групп.[18] В то время как классические графики (например, гистограммы, ящики с усами и скрипичные графики) не отображают сравнение, графики статистики оценки добавляют вторую ось для четкой визуализации размера эффекта.[19]

График Гарднера — Альтмана. Слева: обычная столбиковая диаграмма со звездочками, чтобы показать, что разница «статистически значима». Справа: график Гарднера — Альтмана, на котором показаны все точки данных, а также средняя разница и ее доверительные интервалы.

График Гарднера — Альтмана[править | править код]

График разности средних Гарднера — Альтмана был впервые описан Мартином Гарднером и Дугом Альтманом в 1986 г.[18] Этот статистический график отображает данные из двух независимых групп.[6] Также есть версия графика, подходящая для связанных выборок. Ключевые инструкции по составлению этой диаграммы следующие: (1) отобразить все наблюдаемые значения для обеих групп рядом; (2) поместить вторую ось справа, сместив её, чтобы показать шкалу разности средних; и (3) построить на графике разность средних с ее доверительным интервалом в виде маркера со значением погрешности.[3] Графики Гарднера-Альтмана могут быть созданы с помощью специального кода с использованием пакетов Ggplot2, seaborn или DABEST; в качестве альтернативы аналитик может использовать удобное программное обеспечение, такое как приложение Estimation Stats.

График Камминга[править | править код]

Для нескольких групп Джефф Камминг ввел дополнительную панель для построения двух или более разностей средних и их доверительных интервалов, помещенных под первой панелью наблюдаемых значений[3]: такое расположение позволяет легко сравнивать различия средних («дельты») по нескольким группам данных. Графики Камминга могут быть созданы с помощью пакетов ESCI, DABEST, или приложения Estimation Stats.

Другие методологии[править | править код]

Помимо разницы средних, существует множество других типов размера эффекта, со своими преимуществами относительно друг друга. Основные типы включают размеры эффекта типа Cohen’s d и коэффициент детерминации (R2) для регрессионного анализа. Для ненормальных распределений существует ряд более надежных способов расчета размеров эффекта, включая дельту Клиффа и статистику Колмогорова-Смирнова.

Недостатки в проверке гипотез[править | править код]

При проверке гипотез основной целью статистических вычислений является получение p-значения — вероятности увидеть полученный результат или более экстремальный результат, если предполагается, что нулевая гипотеза верна. Если значение p низкое (обычно <0,05), практикующему специалисту в области статистики рекомендуется отвергнуть нулевую гипотезу. Сторонники статистики оценки отвергают валидность подхода проверки гипотез[3][7] по следующим причинам:

Преимущества статистики оценки[править | править код]

Преимущества доверительных интервалов[править | править код]

Доверительные интервалы ведут себя предсказуемо. По определению, 95 % доверительные интервалы имеют 95 % шанс уловить среднее значение популяции (μ). Эта функция остается неизменной с увеличением размера выборки; что меняется, так это то, что интервал становится меньше (точнее). Кроме того, 95 % доверительные интервалы также являются 83 % интервалами прогноза: доверительный интервал одного эксперимента имеет 83 % вероятность захвата среднего значения любого будущего эксперимента.[3] Таким образом, знание 95 % доверительных интервалов отдельного эксперимента дает аналитику правдоподобный диапазон для среднего значения совокупности и правдоподобные результаты любых последующих экспериментов по репликации.

Доказательная статистика[править | править код]

Психологические исследования восприятия статистики показывают, что интервалы оценки позволяют получить более точное восприятие данных, чем отчеты p-значений.[25]

Планирование точности (Precision planning)[править | править код]

Точность оценки формально определяется как 1/дисперсия, и, как и мощность, которая увеличивается с увеличением размера выборки. Как и мощность, высокая точность трудозатратны. Заявки на грант на исследования в идеале должны включать анализ точности/затрат. Сторонники статистики оценки считают, что планирование точности должно заменить мощность, поскольку сама статистическая мощность концептуально связана с проверкой значимости.[3]

Примечания[править | править код]

  1. Ellis, Paul Effect size FAQ. Дата обращения: 20 января 2021. Архивировано 26 января 2021 года.
  2. 1 2 Cohen, Jacob The earth is round (p<.05). Дата обращения: 20 января 2021. Архивировано 11 октября 2017 года.
  3. 1 2 3 4 5 6 7 Cumming, Geoff. Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. — New York : Routledge, 2012.
  4. 1 2 Button, Katherine; John P. A. Ioannidis; Claire Mokrysz; Brian A. Nosek; Jonathan Flint; Emma S. J. Robinson; Marcus R. Munafò (2013). "Power failure: why small sample size undermines the reliability of neuroscience". Nature Reviews Neuroscience. 14 (5): 365—76. doi:10.1038/nrn3475. PMID 23571845.
  5. Altman, Douglas. Practical Statistics For Medical Research. — London : Chapman and Hall, 1991.
  6. 1 2 3 Statistics with Confidence / Douglas Altman. — London : Wiley-Blackwell, 2000.
  7. 1 2 3 Cohen, Jacob (1990). "What I have Learned (So Far)". American Psychologist. 45 (12): 1304. doi:10.1037/0003-066x.45.12.1304. Архивировано 21 января 2021. Дата обращения: 20 января 2021.
  8. Ellis, Paul Why can't I just judge my result by looking at the p value? (31 мая 2010). Дата обращения: 5 июня 2013. Архивировано 28 января 2021 года.
  9. Claridge-Chang, Adam; Assam, Pryseley N (2016). "Estimation statistics should replace significance testing". Nature Methods. 13 (2): 108—109. doi:10.1038/nmeth.3729. PMID 26820542. S2CID 205424566. Архивировано 22 января 2021. Дата обращения: 20 января 2021.
  10. Hedges, Larry (1987). "How hard is hard science, how soft is soft science". American Psychologist. 42 (5): 443. CiteSeerX 10.1.1.408.2317. doi:10.1037/0003-066x.42.5.443.
  11. Hunt, Morton. How science takes stock: the story of meta-analysis. — New York : The Russell Sage Foundation, 1997. — ISBN 978-0-87154-398-1.
  12. Fidler, Fiona (2004). "Editors Can Lead Researchers to Confidence Intervals, but Can't Make Them Think". Psychological Science. 15 (2): 119—126. doi:10.1111/j.0963-7214.2004.01502008.x. PMID 14738519. S2CID 21199094.
  13. Cumming, Geoff ESCI (Exploratory Software for Confidence Intervals). Дата обращения: 20 января 2021. Архивировано 29 декабря 2013 года.
  14. Publication Manual of the American Psychological Association, Sixth Edition. Дата обращения: 17 мая 2013. Архивировано 5 марта 2013 года.
  15. Uniform Requirements for Manuscripts Submitted to Biomedical Journals. Дата обращения: 17 мая 2013. Архивировано из оригинала 15 мая 2013 года.
  16. Changing the Way We Report, Interpret, and Discuss Our Results to Rebuild Trust in Our Research. Дата обращения: 20 января 2021. Архивировано 22 января 2021 года.
  17. Cumming, Geoff. Introduction to the New Statistics: Estimation, Open Science, and Beyond / Geoff Cumming, Robert Calin-Jageman. — Routledge, 2016. — ISBN 978-1138825529.
  18. 1 2 Gardner, M. J.; Altman, D. G. (1986-03-15). "Confidence intervals rather than P values: estimation rather than hypothesis testing". British Medical Journal (Clinical Research Ed.). 292 (6522): 746—750. doi:10.1136/bmj.292.6522.746. ISSN 0267-0623. PMC 1339793. PMID 3082422.
  19. Ho, Joses; Tumkaya; Aryal; Choi; Claridge-Chang (2018). "Moving beyond P values: Everyday data analysis with estimation plots". bioRxiv: 377978. doi:10.1101/377978. Архивировано 28 июля 2018. Дата обращения: 20 января 2021.
  20. Baril G. L., Cannon J. T. What is the probability that null hypothesis testing is meaningless? (англ.). — 1995.
  21. Cohen, Jacob (1994). "The earth is round (p < .05)". American Psychologist. 49 (12): 997—1003. doi:10.1037/0003-066X.49.12.997.
  22. Ellis, Paul. The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. — Cambridge : Cambridge University Press, 2010.
  23. The Significance Test Controversy: A Reader / Denton E. Morrison, Ramon E. Henkel. — Aldine Transaction, 2006. — ISBN 978-0202308791.
  24. Cumming, Geoff Dance of the p values. Дата обращения: 20 января 2021. Архивировано 13 февраля 2021 года.
  25. Beyth-Marom, R; Fidler, F.; Cumming, G. (2008). "Statistical cognition: Towards evidence-based practice in statistics and statistics education". Statistics Education Research Journal. 7: 20—39.