«Голая статистика»: главы из книги
Книга: «Голая статистика: самая интересная книга о самой скучной науке»
Оригинальное название Naked Statistics: Stripping the Dread from the Data
Автор: Чарльз Уилан
Вышла: 2016
Издательство: Манн, Иванов и Фербер
Мы публикуем несколько глав из книги Чарльза Уилана «Голая статистика». Она рассказывает о том, как статистика помогает принимать важные решения, находить скрытые взаимосвязи между событиями и явлениями, понимать ситуацию, складывающуюся в обществе и в бизнесе.
Дезориентирущее описание
Рассмотрим вопрос качества школ, которое очень важно уметь измерять, поскольку, с одной стороны, это позволило бы поощрять и ставить в пример хорошие школы, а с другой — наказывать плохие и исправлять ситуацию в них. (А в рамках каждой школы перед нами стоит аналогичная цель — измерить качество преподавания.) Ключевым показателем качества школ и работы преподавателей являются результаты экзаменов. если по итогам хорошо продуманного стандартизованного теста учащиеся демонстрируют впечатляющие баллы, то у нас есть все основания полагать, что учителя и школа отлично справляются со своей задачей. И наоборот, плохие результаты теста — это четкий сигнал о том, что многих преподавателей соответствующей школы нужно уволить, причем чем раньше, тем лучше. Такие статистические данные способны помочь улучшить государственную систему образования, не так ли?
Нет, не так. любое оценивание школ и учителеи?, которое базируется исключительно на результатах экзаменов, представит очень неточную картину. У каждого учащегося свои? жизненныи? опыт и способности, и они могут сильно разниться между собои?. Нам известно, например, что уровень образования и величина дохода родителеи? ученика существенно влияют на его успеваемость, в какои? бы школе он ни учился. Оказывается, только статистика, которои? мы в данном случае не располагаем, а именно в какои? мере успеваемость ученика (какои? бы она ни была — хорошеи? или плохои?) обусловливается происходящим в его школе (или классе, где он учится), имеет для нас значение.
Ученики из обеспеченных семей с высоким образовательным уровнем, как правило, демонстрируют хорошие результаты тестов буквально с первых и до последних дней учебы. Обратное также верно. есть немало школ, где учатся исключительно дети из бедных семей и где преподаватели буквально творят чудеса, стремясь передать ученикам максимум знаний, но даже в этом случае трудно рассчитывать на хорошие баллы при сдаче тестов (хотя если бы в таких школах работали посредственные учителя, итоги экзаменов были бы еще плачевнее). Итак, нам необходим некий показатель «добавленной стоимости» на школьном уровне, или даже уровне класса. Нам не нужно знать абсолютный уровень успеваемости ученика — мы лишь хотим знать, в какой мере его успеваемость определяется образовательными факторами, которые мы пытаемся оценить.
На первый взгляд это кажется довольно легкой задачей, поскольку мы можем просто предложить ученику сдать сначала предварительный тест, а затем — заключительный. если нам известен результат предварительного теста, который сдается при поступлении в определенную школу или класс, то мы можем оценить успеваемость ученика в момент окончания учебы в этой школе или классе, а разницу результатов «до» и «после» объяснить полученными им знаниями.
Каждую осень несколько чикагских газет и журналов публикуют рейтинги лучших школ региона, основанные на результатах сдачи стандартизованного теста штата Иллинойс. Вот один из выводов, совершенно смехотворных с точки зрения статистики: поступление в несколько школ, постоянно занимающих высокие места в рейтинге, возможно лишь на конкурсной основе; для этого нужно предварительно подать соответствующие документы, причем в школу будет зачислена лишь малая часть из тех, кто их подал. Одним из важнейших критериев для поступления в такие школы являются результаты сдачи стандартизованных тестов. Итак, подведем итоги: 1) эти школы считаются «лучшими», потому что их ученики имеют высокие баллы на экзаменах; 2) чтобы попасть в такую школу, нужно иметь высокие баллы стандартизованных тестов. Это, по сути, то же самое, как если бы вы наградили баскетбольную команду за то, что в ее составе выступают очень рослые ребята.
Даже при наличии надежного индикатора того, что вы пытаетесь измерить и чем пытаетесь управлять, проблемы не заканчиваются. Хорошей новостью будет то, что «управление посредством статистики» способно изменить к лучшему поведение соответствующего человека или учреждения. если вы можете определить долю бракованных изделий, сходящих с производственного конвейера, и эти дефекты обусловлены ситуацией на заводе, то выплата работникам премии за сокращение количества бракованных изделии? должна, по-видимому, надлежащим образом изменить их поведение. Каждый из нас реагирует на стимулы, даже если это просто похвала или предоставление более удобного места для парковки автомобиля. Статистика измеряет важные для нас результаты; стимулы подталкивают нас к их улучшению. Или, в отдельных случаях, к приукрашиванию статистики. А вот это — плохо. Если работа школьной администрации оценивается (и, возможно, даже оплачивается) исходя из процента учеников в определенном учебном округе, получивших аттестат об окончании школы, то ей следует сосредоточить усилия на увеличении количества выпускников. Разумеется, наряду с этим можно заняться и вопросом повышения доли учеников, окончивших школу (это не то же самое, что количество выпускников). Например, ученики, досрочно бросившие школу и не получившие аттестата, могут быть классифицированы как «сменившие место жительства», а не как бросившие учебу. Это вовсе не гипотетический пример; обвинение именно в таких манипуляциях было предъявлено бывшему министру образования Роду Пейджу во время его пребывания в должности школьного инспектора Хьюстона. Президент Джордж Буш назначил Рода Пейджа министром образования США под впечатлением его выдающихся успехов в Хьюстоне, суть которых заключалась в снижении доли учеников, досрочно бросивших школу, и резком улучшении результатов тестов. Если вы коллекционируете афоризмы, могу поделиться собственным: «если сегодня к вам в офис заглянули люди из программы 60 Minutes («60 минут»), то это определенно не лучший день в вашей жизни». Дэн Разер и команда создателей программы 60 Minutes II побывали в Хьюстоне и пришли к выводу, что манипулирование статистикой в этом учебном округе производит гораздо большее впечатление, чем повышение уровня образования. Учеников, бросающих учебу в школе, обычно включали в число тех, кто пере- водится в какую-то другую школу, возвращается к себе на родину (в другую страну) или желает получить General Equivalency Diploma (GED) — диплом об общем образовании, который выдается сдавшим тесты по программе средней школы. Ни один из этих вариантов не трактовался в официальной статистике как отказ от учебы в школе. В тот год администрация хьюстонского учебного округа рапортовала о снижении доли учеников, бросивших учебу в школе, до 1,5%. Хотя, согласно подсчетам 60 Minutes, этот показатель на самом деле находился между 25% и 50%.
Статистические манипуляции с тестовыми баллами были не менее впечатляющими. Один из способов добиться улучшения результатов тестов (в Хьюстоне или где-либо еще) — повысить качество образования, чтобы учащиеся углубляли свои знания и лучше сдавали экзамены. Это самый честный способ. Другой (менее честный) способ заключается в отстранении от их сдачи самых слабых учеников, поскольку в этом случае средний балл соответствующей школы или учебного округа повысится, даже если остальные ученики не продемонстрируют никакого прогресса. В Техасе единый тест штата проводится для десятиклассников. есть свидетельства того, что руководство хьюстонских школ пыталось избавиться от отстающих учащихся еще до их перехода в десятый класс. В одном из особенно вопиющих случаев ученик провел три года в девятом классе, а затем его сразу перевели в одиннадцатый класс — такой вот хитроумный способ отстранения ученика от сдачи экзамена в десятом классе, не принуждая его бросить учебу (что плохо сказалось бы на другом статистическом показателе).
Был ли замешан Род Пеи? дж в этих статистических махинациях во время пребывания в должности школьного инспектора Хьюстона, выяснить не удалось, однако именно он добился внедрения программы строгои? отчетности, которая предусматривала выплату денежных премии? директорам школ, выполнявшим плановые показатели по результатам экзаменов и досрочному прекращению учебы в школе, и наказание вплоть до увольнения или понижения в должности директорам школ, не обеспечившим выполнение этих плановых показателеи?. Директора школ хорошо уяснили, что от них требуется, — и это должно послужить для нас еще одним важным уроком. Однако нужно понимать, что те, чью деятельность пытаются оценивать подобными способами, не могут ослушаться начальства, поскольку в противном случае рискуют предстать перед ним не в самом лучшем (со статистическои? точки зрения) виде.
Усвоение этой истины обошлось штату Нью-Йорк слишком дорого. Власти штата внедрили «оценочные таблицы», с помощью которых намеревались оценивать уровень смертности среди пациентов кардиохирургов, занимающихся коронарной ангиопластикой (восстановлением сосудов) — типичным способом лечения заболевании? сердца. На первый взгляд такое использование описательной статистики кажется весьма разумным и полезным. Нам важно знать, какой процент пациентов кардиохирурга умирает в результате хирургической операции; государство должно иметь и обнародовать эту информацию, поскольку в противном случае у потенциальных пациентов не будет к ней доступа. Можно ли считать такую политику правильной Да, если не принимать во внимание тот факт, что она способна убивать людей. Кардиологи, конечно же, будут заботиться о состоянии своих «оценочных таблиц». Однако простейший способ, с помощью которого кардиохирург может сократить смертность, состоит вовсе не в стремлении сохранить жизнь как можно большему числу людей (у нас есть все основания полагать, что большинство врачей и без того делают в этом плане все от них зависящее), а в отказе оперировать самых тяжелых больных. Согласно результатам опроса, проведенного факультетом медицины и стоматологии Рочестерского университета, «оценочные таблицы», которые якобы служат благу пациентов, могут также приносить им вред: 83% опрошенных кардиохирургов сказали, что из-за оглашения данных о смертности часть пациентов, которые могли бы поправить здоровье с помощью ангиопластики, просто откажутся от такой операции; 79% кардиохирургов признались, что на некоторые их профессиональные решения повлияло знание того, что данные о смертности предаются огласке. Печальный парадокс этой, на первый взгляд полезной, описательной статистики заключается в том, что кардиохирурги реагировали на нее вполне рационально, отказываясь делать операции пациентам, которые больше всего в них нуждались.
Любои? статистическии? индекс обладает всеми потенциальными подводными камнями, характерными практически для каждои? описательнои? статистики, — плюс искажения, вносимые вследствие объединения нескольких индикаторов в единое обобщающее число. любои? индекс по определению зависит от того, как именно он сконструирован; на него оказывает влияние и то, какие показатели в него входят, и то, какои? весовои? коэффициент присвоен каждому из этих показателеи?. Почему, например, реи? тинг пасующего, которым принято оценивать эффективность пасующих в NFL, не включает какои?-либо показатель «завершении? с третьеи? попытки»? Если же мы говорим об индексе развития человеческого потенциала (Human Development Index), то каким должен быть вес уровня грамотности населения в этом индексе по сравнению с уровнем дохода на душу населения? И наконец, еще один немаловажныи? вопрос: должны ли простота и легкость применения, обеспечиваемые объединением многих показателеи? в одно число (индекс), иметь для нас большее значение, чем неточность, внутренне присущая та- кому объединению? Подчас приходится давать отрицательныи? ответ на этот вопрос, что возвращает нас (как и было обещано выше) к реи? тингам высших учебных заведении?, приведенным в журнале U.S. News & World Report (USNWR).
Для определения рейтингов USNWR используются шестнадцать показателей, с помощью которых оцениваются и распределяются в рейтинге по местам американские колледжи, университеты и профессиональные учебные заведения. Например, в реийтинге национальных университетов и гуманитарных колледжей за 2010 год на долю такого показателя, как «избирательный подход к приему в учебное заведение», приходилось 15% этого индекса; данный показатель, в свою очередь, вычислялся на основе нормы приема для той или иной школы, доли поступивших студентов, которые в выпускном классе своей школы входили в «лучшие 10%», а также средних баллов SAT* и ACT** поступивших студентов. Преимущество рейтингов USNWR заключается в том, что они позволяют простым и доступным способом получить исчерпывающую информацию о тысячах учебных заведении?. Даже критики вынуждены согласиться с тем, что большой объем информации об американских колледжах и университетах представляет немалую ценность. Потенциальные студенты должны знать о месте того или иного учебного заведения в рейтинге и средней величине учебной группы.
* SAT (Scholastic Aptitude Test) — тест на умение грамотно излагать свои мысли в устной форме и тест математических способностей, используемые при поступлении в американские колледжи. Прим. перев. ** ACT (American College Testing) — стандартизированный тест для поступления в колледжи и университеты США. Прим. перев. Разумеется, предоставление значимой информации имеет мало общего с ее объединением в общий индекс, который претендует на авторитетность. По мнению критиков, такие рейтинги неуклюже сконструированы, способны вводить в заблуждение и вредить долгосрочным интересам студентов. «Проблема в том, что это — не более чем перечень, в котором каждому учебному заведению присвоен определенный порядковый номер. Данные, на основе которых он определяется, не обеспечивают требуемой точности», — говорит Майкл Макферсон, бывший президент Макалистерского колледжа в Миннесоте. Почему на долю пожертвовании? выпускников в пользу своего бывшего учебного заведения приходится 5% его рейтинга? И если этот показатель так важен, то почему на его долю не приходится, например, 10%?
Согласно U.S. News & World Report, «каждому показателю на основе наших собственных представлении? о его важности присваивается определенныи? весовои? коэффициент (выраженныи? в процентах)». Представления — это что-то одно, а произвол и субъективизм — нечто другое. Показателем, имеющим в реи? тинге национальных университетов и гуманитарных колледжеи? самыи? большои? вес, является «научная репутация». Она определяется исходя из «опроса представителеи? научного сообщества» (анкету заполняют администраторы других колледжеи? и университетов) и опроса консультантов-психологов, работающих в школах. Критикуя реи? тинги, публикуемые U.S. News & World Report, Малкольм Гладуэлл в пух и прах разносит (правда, с изряднои? долеи? юмора) методологию «опроса представителеи? научного сообщества». Он цитирует опросник, разосланныи? бывшим председателем Верховного суда штата Мичиган примерно сотне юристов, в сопроводительном письме к которому тот просит юристов расположить десять юридических учебных заведении? в порядке убывания их качества. Одним из таких вузов в списке был указан Пенсильванскии? университет: юристы поместили его примерно в середину перечня. Фишка в том, что на тот момент Пенсильванскии? университет не имел юридического факультета.
Какими бы обширными ни были собранные данные, вовсе не факт, что рейтинги USNWR измеряют именно то, что должно интересовать потенциальных студентов: какой объем знаний можно получить в том или ином учебном заведении. Футбольные болельщики могут спорить по поводу показателей, входящих в состав индекса распасовщика, но никто из них не станет отрицать того, что составные части этого индекса — коэффициент удачного завершения, среднее число ярдов на каждую попытку паса, процент тачдаун-пасов на каждую попытку паса и коэффициент перехватов мяча — важная составляющая эффективности действий куортербека. Это вовсе не обязательно относится к критериям USNWR, большинство из которых фокусируется на исходных данных (например, какого рода учащихся принимают в учебное заведение, каков уровень оплаты преподавателей, какой процент штатных преподавателей), а не образовательных результатах. Двумя важными исключениями являются процент студентов первого курса, продолживших обучение, и процент выпускников, но даже они не позволяют оценить объем знании?, полученных студентом за время учебы. Как указывает Майкл Макферсон: «В действительности из рейтингов U.S. News & World Report невозможно понять, насколько за четыре года учебы в колледже или университете студенты фактически увеличили свои знания или развили способности». Все это было бы довольно безобидным занятием, если бы его инициаторы не поощряли действия, не всегда направленные на благо учащихся и учебных заведении?. Например, одним из статистических показателей, используемых для вычисления рейтингов, является величина финансовых ресурсов, выделяемых на обучение одного студента; проблема в данном случае — в отсутствии показателя, позволяющего оценить эффективность использования этих финансов. Учебное заведение, меньше расходующее средств в расчете на одного студента, автоматически ухудшает свои? рейтинг даже в случае, если эти средства распределяются гораздо эффективнее, чем в других колледжах или университетах. Кроме того, колледжи и университеты заинтересованы в подаче документов как можно большим количеством абитуриентов — в том числе и теми, у кого практически нет шансов пройти по конкурсу, — поскольку высокий конкурс при поступлении также свидетельствует о престижности учебного заведения. Это оборачивается напрасной тратой ресурсов учебными заведениями и бесполезными затратами времени теми абитуриентами, которые изначально не имели никаких шансов на поступление. Поскольку мы уже почти добрались до главы о вероятности, я готов бить- ся об заклад, что с высокой вероятностью в обозримом будущем рейтинги, публикуемые U.S. News & World Report, по-прежнему будут пользоваться популярностью. Как сказал Леон Ботстейн, президент колледжа Bard College: «люди предпочитают получать простые и легкие ответы. Какое место самое лучшее? Конечно же, первое».
Вывод, который можно сделать по прочтении этой главы, что «статистические преступления» не являются следствием математических ошибок. Скорее, наоборот: заумные математические расчеты подчас способны скрыть неблаговидные намерения. То, что вы правильно подсчитали среднее значение, не отменяет тот факт, что медиана представляет собой более точный индикатор. Здравое суждение и честный подход к делу оказываются более важными условиями для выяснения истины. Глубокое знание стати- стики не мешает нечистым на руку людям манипулировать данными точно так же, как хорошее знание уголовного кодекса не мешает преступникам заниматься своими темными делишками. И в том и в другом случаях «плохие парни» зачастую очень хорошо понимают, что они делают!