По статистике

Тема статистики обширная, ещё более необъятная, чем работа в Excel, поэтому опять же, у меня не стоит сейчас задачи рассказать всё В статистике. Зато я расскажу всё, что знаю О статистике.
То есть дам дорожную карту того, что делать сейчас и как учиться дальше, если очень хочется.

Кому вообще нужна статистика?

Все участники марафона так или иначе сталкиваются с данными по работе или в университете, поэтому статистика там совершенно точно нужна. В основном её применение сводится к тому, что просто так данные научный журнал/компания не принимает, им подавай статистическую достоверность, а поэтому надо открыть статистический пакет и посчитать.

Но какой тест применить?

Я нашла совершенно замечательную штуку, которая сводит все знания (человечества) на эту тему в удобную таблицу.

Там можно выбрать, по каким критериям будете сравнивать, для какого размера выборки, какие данные (качественные, количественные и зависимые/независимые), и наконец, перейти на вариант реализации анализа одним из четырех способов: R, SAS, Stata, SPSS.

И какой инструмент использовать?

На самом деле, без разницы. Всё зависит от ваших предпочтений. В бакалавриате я использовала Statistica (которая с задачей справляется, но очень громоздкая и платная), сейчас использую SigmaPlot и очень хочу нормально освоить статистику на Python и познакомиться с R (впрочем, может, достигнув дзена на Python, с R передумаю).

В целом, про все пакеты люди уже сняли неплохие «туториалы»:

Statistica

Spss

Excel

Что касается R, Python или Matlab, так как это уже программирование, то, как говорил мой учитель, «просто так, с кондачка, не разберешься», поэтому тут рекомендую пройти курсы (рекомендую, в первую очередь, и себе тоже). Что приводит нас к следующему пункту.

Какие онлайн-курсы пройти?

Когда я задумывала марафон по работе с информацией, я как раз и решала для себя этот вопрос, плюс ко мне поступали подобные запросы от знакомых.

Я рекомендую такие курсы:

Intro to statistics — Udacity

Intro to descriptive statistics — Udacity

Основы статистики — Stepik

Статистика и анализ данных в R— Stepik

Параллельно нужно проходить математику:
начать можно с Calculus One — Coursera

Программирование — на Stepik опять же есть введение в Python, а для хороших практик написания кода мне рекомендовали How to code (EdX).

Но математика и программирование — это уже хардкор, и если вам это не надо, рекомендую просто прочитать хороший научпоп по статистике.

Например, книгу «Голая статистика», которую я пришлю пяти лучшим участникам или блог «Статистика и котики».

Существуют также статистические консультанты в университете или даже фрилансеры, которые готовы помочь советом, а также проанализировать данные за вас (не бесплатно, разумеется). Кстати, отличный карьерный путь, если самому освоить вышеперечисленное.

Как определиться с величиной выборки, если вы планируете сами ставить эксперимент?

Это принципиальный вопрос, особенно для тех, кто работает с животными (этический комитет не дремлет), поэтому я прилагаю простой документ от нашего animal facility (его выложили на сайте, поэтому это не закрытая информация), а если у вас более сложный случай, можно выбрать один из калькуляторов выборки. На него даже можно ссылаться в публикации, если что. Так что перестаем брать выборки «на глаз», делаем по уму.

Ну и наконец, почему всё это важно?

Как мы знаем сами (по тем же выборкам), статистика — мощный инструмент как для обмана, так и его разоблачения. Это вообще единственный способ более-менее объективно описать реальность. Ибо всё в нашем мире относительно и даже, скорее, вероятностно.

Однако, даже не прибегая к подтасовке специально — а, понимая статистику, это будет проще сделать)) — люди могут допустить ошибки. Часто довольно грубые.

Есть целая книга на эту тему.

И cтатья.

А есть ещё нашумевшая история про то, как многим биологическим статьям подпортила репутацию ошибка (не баг, а фича?) в Excel — форматирование названия гена в дату.

Так что изучаем свои инструменты и разбираемся, что делаем.

One comment

Добавить комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.