Голубой вагон – 2, или рейтинг оценщиков

Количественная

Как-то раз крокодил Гена, Чебурашка и старуха Шапокляк решили провести онлайн-олимпиаду. Они опубликовали задания на сайте, школьники к определённому сроку загрузили свои решения, и настало время проверять работы. Старуха Шапокляк забеспокоилась:

– Работ так много, а нас всего трое; мы закончим проверку только через месяц. Но наверняка среди школьников есть те, кому не терпится увидеть какие-нибудь результаты, хотя бы предварительные. Идея: пусть они сами всё проверят! Давайте опубликуем все работы, выложим критерии оценивания и разрешим школьникам оценивать друг друга. На основе этих оценок будет формироваться предварительный рейтинг, ну а через месяц мы объявим окончательные, истинные баллы.

– Неплохая идея, – сказал Чебурашка. – Однако проверка работ – общественное благо; нужно дополнительно стимулировать оценщиков, а иначе объём производства этого блага будет меньше общественно оптимального. Но раздавать бонусы нужно не просто за факт проверки, а только если проверка выполнена качественно, и от неё есть толк. Как измерить качество? А очень просто: ведь через месяц будут известны оценки жюри; чем ближе окажется оценка проверяющего к оценке жюри, тем, значит, она качественнее. А толк от выставления данной оценки будет лишь в том случае, если до неё средний балл (среди всех проверявших) данной задачи был хуже (дальше от истины), чем она сама (и, следовательно, чем средний балл с учётом её). Давайте за каждую оцененную задачу давать оценщику вот столько условных баллов:

Здесь – n-я по счёту оценка данной задачи (одну и ту же задачу могут оценивать несколько человек), предполагаем равным 0;

– средняя арифметическая из первых n оценок данной задачи, – истинная оценка (оценка жюри). Пусть я – проверяющий. Когда я оцениваю какую-то задачу, мой "счёт" увеличивается на разность двух модулей: первый модуль – насколько средняя оценка до меня далека от истинной; второй модуль – насколько моя оценка далека от истинной. Если моя оценка более точная, мой счёт увеличивается; если менее точная – уменьшается. В конце олимпиады все оценщики будут упорядочены по этому счёту, и победители будут награждены.

Первым отреагировал крокодил Гена:

– Чебурашка, твоя формула кое-что не учитывает. Представь, что передо мной есть две задачи, оцененных неправильно (их текущий средний балл далёк от истины), но одну оценили два человека, а другую – двадцать два. Тогда, если моё время ограничено, и я не успею оценить обе задачи, то разумнее мне взяться за первую, т.к. там моя оценка может довольно сильно изменить средний балл (и тем самым принести пользу для составления предварительного рейтинга), в то время как на средний балл по второй задаче моя оценка практически не повлияет, и я лишь напрасно потрачу время. Если же проверяющие будут награждаться в соответствии с твоей формулой, то в этих двух случаях они получат одинаковое вознаграждение; это создаст неправильные стимулы.

Смотри, как можно модифицировать твою формулу:

Это и есть нужный нам показатель – насколько более точным стал средний балл этой задачи после вмешательства данного оценщика. Давайте столько баллов и начислять на его счёт!

– Нет, крокодил, твоя формула ещё хуже, – возразил Чебурашка. – Посмотри, какие стимулы она создаёт: оценщик будет стремиться подогнать средний балл как можно ближе к тому значению, которое он считает истинным, но для этого свою оценку ему нужно будет поставить не на предполагаемом истинном уровне, а значительно выше (или ниже)! Но если каждый в качестве оценки ставит не то, что он считает истинной оценкой, то считать средний балл из поставленных оценок и составлять на его основе предварительный рейтинг уже не имеет смысла, получится какая-то белиберда. Каждый следующий оценщик может считать себя умнее предыдущих, но у нас нет оснований верить этому, и мы хотели бы, чтобы мнения всех оценщиков при подсчёте среднего балла данной задачи учитывались с одинаковым весом.

Наконец вмешалась старуха Шапокляк:

– Мне кажется, я знаю, как нужно правильно модифицировать формулу Чебурашки:

Если ровно столько баллов мы будет добавлять на счёт оценщика за данную задачу, то получим следующее:

если уж он взялся оценивать эту задачу, то в качестве оценки ему будет выгодно поставить ровно ту, которую он считает истинной;
если его мнение об истинной оценке соответствует нашему (то есть ), то при одинаковых затратах на проверку двух задач он в первую очередь возьмётся за ту, проверка которой даст большее увеличение точности среднего балла (то есть у которой будет больше величина, посчитанная по формуле крокодила Гены).

а) убедитесь, что всё написанное выше верно;

б) при чём здесь голубой вагон?