Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер

Дэвид Шпигельхалтер
0
0
(0)
0 0

Аннотация: Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер бестселлер бесплатно
0
0

Внимание! Аудиокнига может содержать контент только для совершеннолетних. Для несовершеннолетних прослушивание данного контента СТРОГО ЗАПРЕЩЕНО! Если в аудиокниге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту pbn.book@gmail.com для удаления материала

Читать книгу "Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер"


Ситуация усугубляется еще больше, когда дело доходит до предвыборных опросов, поскольку политические взгляды по стране распределяются неравномерно и заявления об общей картине на национальном уровне нужно делать на основе объединения результатов по многим различным штатам или избирательным округам. В идеале выводы следует делать на местном уровне, однако люди в онлайн-панели сильно неслучайным образом разбросаны по этим локальным областям, а значит, для такого локального анализа имеется весьма ограниченный объем данных.

Байесовский ответ на эту проблему – многоуровневая регрессия и постстратификация (MRP). Основная идея – разбить всех потенциальных избирателей на маленькие «ячейки», состоящие из однородной группы людей, например жителей одной области, людей одного возраста, пола, сходных политических взглядов и прочих измеримых характеристик. Для оценки числа людей в каждой ячейке можно использовать имеющиеся демографические данные; предполагается, что все ее члены голосуют за определенную партию с равной вероятностью. Проблема в том, чтобы выяснить, какова эта вероятность, когда наши неслучайные данные могут означать, что у нас в конкретной ячейке всего несколько человек, а возможно, и ни одного.

Первый шаг – построение регрессионной модели для вероятности голосования определенным образом при данных характеристиках ячейки, поэтому наша задача сводится к оцениванию коэффициентов уравнения регрессии. Но их по-прежнему слишком много для надежной оценки с помощью стандартных методов, вот тут и приходят на помощь байесовские идеи. Коэффициенты для различных областей предполагаются сходными – своего рода промежуточная точка между предположением, что они в точности одинаковы, и предположением, что они совершенно не связаны.

Можно показать, что это предположение эквивалентно тому, что все эти неизвестные величины извлечены из одного и того же априорного распределения, и это позволяет нам смещать многие отдельные, довольно неточные оценки ближе друг к другу, что в итоге приводит к более уверенным выводам, на которые не так сильно влияет несколько странных наблюдений. Сделав такие более надежные оценки поведения при голосовании внутри каждой из тысяч ячеек, можно объединить все результаты и спрогнозировать, как проголосует вся страна.

На президентских выборах в США в 2016 году опросы, основанные на многоуровневой регрессии и постстратификации, правильно определили победителя в 50 случаях из 51 (50 штатов и округ Колумбия), исходя из ответов всего 9485 человек за несколько недель до выборов, и ошиблись только для Мичигана. Аналогичные хорошие прогнозы были сделаны и для выборов 2017 года в Соединенном Королевстве, где компания YouGov опросила 50 тысяч человек, не заботясь о репрезентативности выборки, а затем с помощью метода MRP предсказала подвешенный парламент[231], где консерваторы получат 42 % голосов, что в действительности и произошло. А вот опросы, использовавшие более традиционные методы, с треском провалились[232].

Так можем ли мы сделать пресловутый шелковый кошелек из подходящего неслучайного свиного уха? MRP не панацея – если большое количество респондентов систематически дают недостоверные ответы и тем самым не представляют свою «ячейку», то никакой сложный статистический анализ не компенсирует этой ошибки. Однако, по-видимому, байесовское моделирование полезно использовать для каждого отдельного участка голосования и, как мы увидим позже, это на удивление эффективно в экзитполах, проводимых в день голосования.

Байесовское «сглаживание» может добавить точность очень скудным данным, и такие методы все чаще применяются, например, для моделирования распространения болезней во времени и пространстве. Байесовское обучение сейчас рассматривается как фундаментальный процесс осознания человеком окружающей обстановки, когда у нас есть априорные ожидания того, что мы увидим в каком-то контексте, а далее нужно обращать внимание только на неожиданные изменения в нашем видении, которые затем используются для обновления наших текущих представлений. Эта идея лежит в основе так называемого байесовского мозга[233]. Те же самые процедуры обучения были реализованы в самоуправляемых автомобилях, которые имеют вероятностную «ментальную карту» окружающей местности, постоянно обновляющуюся по мере распознавания светофоров, людей, других машин и так далее. «По сути, робот-автомобиль “думает” о себе как о вероятностном пузырьке, путешествующем по байесовской дороге»[234].

Эти проблемы касаются оценки величин, описывающих мир, однако использование байесовских методов для оценки научных гипотез более спорно. Как и при проверке гипотез методом Неймана – Пирсона, нам сначала нужно сформулировать две конкурирующие гипотезы. Нулевая гипотеза H0 обычно означает отсутствие чего-либо, например отсутствие бозона Хиггса или эффекта от какого-то метода лечения. Альтернативная гипотеза H1 утверждает, что нечто важное существует.

Идеи, лежащие в основе проверки байесовских гипотез, по сути, те же, что и в судебных разбирательствах, когда нулевая гипотеза обычно означает невиновность, а альтернативная – вину, и мы каждым фактом-доказательством выражаем поддержку той или иной гипотезы в виде отношения правдоподобия. Для проверки научных гипотез точным эквивалентом отношения правдоподобия служит коэффициент Байеса, с той лишь разницей, что научные гипотезы обычно содержат неизвестные параметры, например реальный эффект при альтернативной гипотезе. Коэффициент Байеса можно получить только посредством усреднения по отношению к априорному распределению неизвестных параметров, что делает именно априорное распределение критически важным. Это самая спорная часть байесовского анализа. Поэтому попытки заменить стандартные проверки значимости байесовскими коэффициентами (в частности, в психологии) стали источником серьезных споров; при этом критики указывают, что за любым байесовским коэффициентом скрываются предположительные априорные распределения для любых неизвестных параметров в обеих – нулевой и альтернативной – гипотезах.

Роберт Касс и Адриан Рафтери – два известных байесовских статистика – предложили широко используемую шкалу для байесовских коэффициентов (табл. 11.3). Обратите внимание на ее контраст со шкалой из табл. 11.2 для словесных интерпретаций отношения правдоподобия, применяемых в юриспруденции, где для объявления какого-то факта «очень сильным подтверждением» отношение правдоподобия должно быть 10 000, в отличие от научных гипотез, для которых нужен байесовский коэффициент больше 150. Возможно, это отражает необходимость установить вину на уровне «вне разумных сомнений», в то время как о научных открытиях заявляют на основании более слабых доказательств, многие из которых опровергаются в ходе дальнейших исследований.

Читать книгу "Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер" - Дэвид Шпигельхалтер бесплатно


0
0
Оцени книгу:
0 0
Комментарии
Минимальная длина комментария - 7 знаков.


LoveRead » Домашняя » Искусство статистики. Как находить ответы в данных - Дэвид Шпигельхалтер
Внимание