Думай «почему?». Причина и следствие как ключ к мышлению - Джудиа Перл
Удостоенный премии Алана Тьюринга 2011 года по информатике, ученый и статистик показывает, как понимание причинно-следственных связей произвело революцию в науке и совершило прорыв в работе над искусственным интеллектом. «Корреляция не является причинно-следственной связью» — эта мантра, скандируемая учеными более века, привела к условному запрету на разговоры о причинно-следственных связях. Сегодня это табу отменено. Причинная революция, открытая Джудией Перлом и его коллегами, пережила столетие путаницы и поставила каузальность — изучение причин и следствий — на твердую научную основу. Работа Перла позволяет нам не только узнать, является ли одно причиной другого, она позволяет исследовать реальность, которая уже существует, и реальности, которые могли бы существовать. Она демонстрирует суть человеческой мысли и дает ключ к искусственному интеллекту. В формате PDF A4 сохранен издательский макет книги.
- Автор: Джудиа Перл
- Жанр: Разная литература
- Страниц: 116
- Добавлено: 17.03.2024
Внимание! Аудиокнига может содержать контент только для совершеннолетних. Для несовершеннолетних прослушивание данного контента СТРОГО ЗАПРЕЩЕНО! Если в аудиокниге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту pbn.book@gmail.com для удаления материала
Читать книгу "Думай «почему?». Причина и следствие как ключ к мышлению - Джудиа Перл"
Как обычно, диаграмма причинности все прояснит и позволит нам вывести результат механически, даже не думая о данных и о том, понижает или повышает это лекарство наше кровяное давление. В этом случае скрытая третья переменная — артериальное давление, и диаграмма выглядит, как показано на рис. 43. Здесь артериальное давление — скорее посредник, чем вмешивающийся фактор. Один взгляд на диаграмму показывает, что на взаимосвязь лекарства и сердечного приступа не действует конфаундер (т. е. нет черного хода), поэтому стратификация данных не требуется. Более того, если учитывать только артериальное давление, мы исключим один из каузальных путей (возможно, основной) для действия лекарства. По обеим этим причинам наш вывод прямо противоположен выводу для препарата D: препарат B работает и совокупные данные подтверждают этот факт.
С исторической точки зрения примечательно, что Симпсон в статье 1951 года, которая вызвала всю эту шумиху, сделал то же самое, что и я. Он представил две истории с абсолютно одинаковыми данными. В одном примере было интуитивно понятно, что агрегирование данных оказалось, как он выразился, «разумной интерпретацией»; в другом более разумным стало разделение данных. Итак, Симпсон понял, что это парадокс, а не просто инверсия. Однако он не предложил никакого решения, кроме как использовать здравый смысл. И самое важное: он не предположил, что, если история содержит дополнительную информацию, которая позволяет различить «разумное» и «неразумное», возможно, статистикам стоит учесть ее при анализе.
Рис. 43. Диаграмма причинности для примера с парадоксом Симпсона (второй вариант)
Деннис Линдли и Мелвин Новик рассмотрели это предположение в 1981 году, но не смогли примириться с гипотезой, что правильное решение зависит от причинной истории, а не от данных. Они признали: «Мы могли бы использовать язык причинно-следственных связей… Мы решили этого не делать и вообще не обсуждать причинность, потому что, хотя это понятие широко используется, у него как будто нет четкого определения». Так они обобщили фрустрацию пяти поколений статистиков, которые понимали, что информация о причинно-следственных связях чрезвычайно необходима, но язык для ее выражения безнадежно отсутствует. В 2009 году, за четыре года до смерти в возрасте 90 лет, Линдли признался мне, что он не написал бы приведенные выше слова, если бы моя книга была доступна в 1981 году.
Некоторые читатели моих книг и статей предположили, что правило, регулирующее агрегирование и разделение данных, основывается на временном приоритете в обработке и скрытой третьей переменной. Они утверждают, что в случае с артериальным давлением данные необходимо агрегировать, потому что измерение давления происходит после того, как пациент принимает лекарство, но в случае с полом данные нужно стратифицировать, потому что пол пациента определен заранее. Хотя это правило работает во многих случаях, его нельзя считать универсальным. Простой случай — M-тип (игра 4 в главе 4). Здесь B может предшествовать A; тем не менее мы все равно не должны ставить условие на B, потому что это нарушит критерий черного хода. Мы должны обратиться к причинно-следственной структуре рассказа, а не к временной информации.
Наконец, вы можете задаться вопросом, возможен ли парадокс Симпсона в реальном мире. Ответ будет положительным. Конечно, он встречается недостаточно часто, чтобы статистики наблюдали его ежедневно, однако он не совсем неизвестен и, вероятно, происходит чаще, чем об этом сообщают статьи в научных журналах. Вот два задокументированных случая.
Наблюдательное исследование, опубликованное в 1996 году, показало, что открытая операция по удалению камней в почках чаще завершалась успехом, чем эндоскопическая операция, которую, делали при небольших камнях. Кроме того, оно продемонстрировало, что, если камни в почках были больше, повышался и процент успеха. Но в целом для открытой операции он был ниже. Как и в нашем первом примере, выбор метода лечения зависел от состояния пациента: если камни были крупнее, открытая хирургическая операция была вероятнее, но прогноз оказывался хуже.
В исследовании заболеваний щитовидной железы, опубликованном в 1995 году, курильщики продемонстрировали более высокий коэффициент выживания (76 %) в течение 20 лет, чем некурящие участники (69 %). Но у некурящих этот показатель был выше в шести из семи возрастных групп, а в седьмой разница оказалось минимальной. Фактор возраста явно повлиял и на курение, и на выживание: средний курильщик был моложе среднего некурящего (возможно, потому что курильщики старшего возраста уже умерли). Разделив данные по возрастным группам, мы пришли к выводу, что курение отрицательно влияет на выживание.
Поскольку парадокс Симпсона настолько плохо поняли, некоторые статистики специально стараются его избежать. Слишком часто они пытаются бороться с симптомом, инверсией Симпсона, ничего не делая с болезнью — конфаундерами. Вместо того чтобы подавлять симптомы, необходимо обращать на них внимание. Парадокс Симпсона предупреждает нас о случаях, когда по крайней мере один из статистических трендов (в агрегированных данных, разделенных или в тех и других) не может отражать причинно-следственное влияние. Есть, конечно, и другие тревожные знаки. Если оценить причинно-следственный эффект в совокупности, получившаяся величина, к примеру, может оказаться выше, чем каждая аналогичная величина в каждой страте. И снова приходится повторять: этого не должно произойти, если мы должным образом учли вмешивающиеся факторы. Однако по сравнению с такими признаками инверсию Симпсона труднее игнорировать именно потому, что это разворот, качественное изменение знака. Идея вредного / вредного / полезного препарата вызовет недоверие даже у трехлетнего ребенка — и совершенно справедливо.
Парадокс Симпсона в картинках
До сего момента большая наши примеры инверсии и парадокса Симпсона в основном включали двоичные переменные: пациент либо принимал Лекарство D, либо нет, и либо переживал сердечный приступ, либо нет. Однако инверсия может возникнуть и с непрерывными переменными, и, возможно, в этом случае она будет понятнее за счет возможности ее проиллюстрировать.
Представьте исследование, в котором измеряют еженедельную физическую активность и уровень холестерина у людей разных возрастных групп. Если нанести количество часов, потраченных на физкультуру, на ось х и уровень холестерина на ось Y, как показано на рис. 44 (a), то для каждой возрастной группе наблюдается наклон вниз, и это, вероятно, означает, что физическая активность понижает уровень холестерина. С другой стороны, если использовать ту же диаграмму рассеяния, но не делить данные по возрастам, как на рисунке 44 (b), то мы увидим выраженную направленность вверх, которая говорит: чем больше люди занимаются физкультурой, тем выше их уровень холестерина. Ситуация с плохим-плохим-хорошим лекарством повторяется, только в его роли выступает Физическая активность. Кажется, что она положительно влияет на каждую возрастную группу, но вредит населению