Опрос
Вася, начинающий экономист и большой любитель сладостей, получил от одной кондитерской фабрики заказ: исследовать, сколько средств жители его родного города N -ска тратят на пирожные. В N -ске есть три района: Центр, застроенный малоэтажными домами ещё в царское время, Спальный район, застроенный типовыми многоэтажками, и Частный сектор, застроенный частными домами. В Центре проживает 10 тысяч человек, в Спальном районе — 100 тысяч, в Частном секторе — 2 тысячи. Вася должен опросить 500 жителей N -ска. Определиться с тем, кого конкретно нужно опрашивать, Вася не может. Он рассматривает несколько альтернатив:
1) воспользоваться имеющейся у него базой данных со списком адресов и домашних телефонов всех жителей города: случайным образом выбирать людей и звонить им, пока не наберется 500 ответивших человек;
2) опросить по телефону отдельно 300 жителей Спального района, 150 жителей Центра и 50 жителей Частного сектора, выбрав их случайным образом из имеющейся у Васи базы данных со списком адресов и домашних телефонов всех жителей города;
3) нанять 10 студентов, отправить их в 10 самых населенных домов N -ска и дать задание каждому студенту опросить по 50 жителей своего дома.
Вася должен провести высококачественное исследование — это первый приоритет Васи (халтуру заказчики не примут). С другой стороны, Вася хотел бы сэкономить на проведении опроса (при условии, что он будет высококачественным), потому что его гонорар не зависит от того, сколько денег он потратил в процессе работы.
а) Предположим, Васе нужно узнать средние расходы на пирожные в N -ске в целом. Какой метод вы бы посоветовали ему выбрать?
б) Предположим, Васе нужно узнать средние расходы на пирожные жителей каждого района N -ска по отдельности. Какой метод вы бы посоветовали ему выбрать?
a) Если выбирать только из предложенных методов, то первый (опросить по телефону 500 случайно выбранных жителей города) представляется наиболее удачным для определения средних расходов по городу. Благодаря закону больших чисел, средний результат по случайной выборке с большой вероятностью будет близок к искомому среднему результату по всему городу.
Во втором варианте (опросить 300 жителей Спального района, 150 жителей Центра и 50 жителей Частного сектора) используется смещённая выборка: доля опрошенных по каждому из районов (от числа всех опрошенных) не соответствует доле жителей, проживающих в этом районе (от числа всех жителей в городе). Например, в Частном секторе проживает \frac{2}{(100 + 10 + 2)} \approx 1,7\% от всех жителей города, но среди опрошенных их будет 50/(300+150+50)=10\% (от всех опрошенных). Если в разных районах расходы на пирожные существенно различаются (а этого разумно ожидать, поскольку в указанных районах скорее всего живут люди с разным социально-экономическим статусом), это приведёт к тому, что среднее по такой выборке не будет равняться среднему по всему городу. Например, если предположить, что в Центре расходы на пирожные на одного человека в среднем составляют 5 тыс. рублей в месяц, в Спальном районе 2 тыс. рублей в месяц и в Частном секторе 10 тыс. рублей в месяц, то средние расходы по городу составят
5 \cdot \frac{10000}{112000} + 2 \cdot \frac{100000}{112000} + 10 \cdot \frac{2000}{112000} \approx 2{,}41 тыс. руб./мес.,
а средние расходы по нашей выборке:
5 \cdot \frac{300}{500} + 2 \cdot \frac{150}{500} + 10 \cdot \frac{50}{500} = 4{,}6 руб./мес.
Такое расхождение в результатах свидетельствует о некачественности опроса при использовании второго метода. В силу того, что качество является первым приоритетом, мы не можем использовать этот метод.
Наконец, в третьем варианте (отправить студентов в 10 самых населённых домов) выборка также будет смещена: 10 самых населённых домов скорее всего находятся в Спальном районе (именно там находятся многоэтажки) и результат вообще не будет учитывать потребление пирожных в других районах (которое может существенно отличаться от потребления в Спальном районе). Таким образом, этот метод также нельзя рекомендовать.
Если выйти за рамки предложенных методов, то можно предложить модификацию второго: либо скорректировать квоту по каждому району так, чтобы она соответствовала доле жителей этого района во всём городе (то есть опросить 446 человек из Спального района, 45 человек из Центра и 9 человек из Частного сектора), либо использовать исходную выборку, но скорректировать результат, посчитав отдельно средние по каждому из районов, а затем сложив их с весами, равными доле населения соответствующего района во всём городе: то есть результат по Спальному району умножить на 100/112\approx0,89, результат по Частному сектору умножить на 2/112\approx 0,02 и результат по Центру умножить на 10/112\approx 0,09, и всё сложить. Такой подход может дать даже лучший результат (имеющий меньшую дисперсию, то есть менее зависящий от случайности), чем первый из предложенных методов, при условии, что в разных районах расходы на пирожные различаются сильно.
Ответ: первый метод (или модифицированный второй).
б) Если нас интересует среднее по каждому из районов, то оптимальным является второй подход. Как обсуждалось выше, третий подход скорее всего даст информацию только по одному району и поэтому заведомо не подходит. Первый подход в этом случае не оптимален: он больше подвержен случайности — например, может так случиться, что в результате случайного выбора наберётся совсем мало респондентов из Частно сектора и в этом случае данные по этому району будут очень ненадежны (вдруг нам случайно попадётся один человек и он окажется большим сладкоежкой?).
Ответ: второй метод.
Ответ:
1) Первый метод
2) Второй метод