Page 1


Çàíèìàòåëüíàÿ ñòàòèñòèêà ÐÅÃÐÅÑÑÈÎÍÍÛÉ ÀÍÀËÈÇ Ìàíãà


О Б Р А З О В АТ Е Л Ь Н А Я М А Н Г А

ÇÀÍÈÌÀÒÅËÜÍÀß ÑÒÀÒÈÑÒÈÊÀ

РЕГРЕССИОННЫЙ АНАЛИЗ Ñèí Òàêàõàñè Èíîóý Èðîõà

Москва Додэка, ДМК Пресс, 2014


УДК 519.233.5 ББК 22.172 Т15 Такахаси, Син. Т15 Занимательная статистика. Регрессионный анализ. Манга. / Син Такахаси (автор), Иноуэ Ироха (худож.); пер. с яп. Клионского А. Б. — М. : ДМК Пресс, 2014. — 214 с. : ил. — (Серия «Образовательная манга»). — Доп. тит. л. яп. — ISBN 978-5-97060-115-0. Риса и Миу учатся в институте и подрабатывают в кафе Norns. Миу очень нравится один из посетителей кафе, но она не знает, как с ним познакомиться. Однажды он забывает на столе книгу, которая оказывается учебником по регрессионному анализу. Теперь есть повод заговорить с ним, но Миу почти не знакома с регрессионным анализом. И тогда Риса берётся помочь своей подруге разобраться в этой науке, осваивая которую Миу узнает, зачем и когда нужен регрессионный анализ, как его проводить, как оценивать его достоверность. В ходе обучения Миу познакомится с такими разновидностями регрессионного анализа, как множественная и логистическая регрессия и на примере кафе Norns научится практически их использовать. Если у вас появилась необходимость на основе некоторых данных предсказать другие данные, например, зная расположение и площадь нового магазина предсказать, какая у него будет выручка, то эта книга для вас.

УДК 519.233.5 ББК 22.172 Original Japanese edition Manga de Wakaru Toukeigaku — Kaiki Bunseki-hen (Manga Guide: Statistics-Regression Analysis) By Shin Takahashi (Author), Iroha Inoue (Illustrator) and Trend-Pro Co., Ltd. (Producer) Published by Ohmsha, Ltd. 3-1 Kanda Nishikicho, Chiyodaku, Tokyo, Japan Russian language edition copyright © 2014 by DMK Press Translation rights arranged with Ohmsha, Ltd.

Все права защищены. Никакая часть этого издания не может быть воспроизведена в любой форме или любыми средствами, электронными или механическими, включая фотографирование, ксерокопирование или иные средства копирования или сохранения информации, без письменного разрешения издательства.

ISBN 978-4-274-06614-6 (яп.) Copyright © 2005 by Shin Takahashi and Trend-Pro Co., Ltd. ISBN 978-5-94120-264-5 (Додэка) © Перевод, Издательский дом «Додэка-XXI», 2013 ISBN 978-5-97060-115-0 (ДМК Пресс) © Оформление, издание, ДМК Пресс, 2014


ПРЕДИСЛОВИЕ Данная книга посвящена описанию регрессионного анализа, множественной регрессии и логистической регрессии. Регрессионный анализ и множественная регрессия — это методы анализа, которые позволяют предсказывать числовые значения. Они позволяют предсказать, например, число заказов чая со льдом на основе максимальной температуры воздуха или месячную выручку нового магазина на основе его площади и расстояния до ближайшей ж/д станции. Логистическая регрессия — это метод анализа, предназначенный для прогноза вероятности. Он позволяет предсказать, например, вероятность заболевания раком на основе числа выкуренных сигарет или выпитого спиртного. Для лучшего понимания книги желательно, чтобы читатели уже ознакомились с предыдущим произведением данной серии — «Занимательная статистика. Манга»*, или же их знания в этой области не уступали разъяснённым в предыдущей манге. Книга будет полезна людам, которым нужно прогнозировать числовые значения или вероятности. Скажу прямо: математический уровень данной книги выше, чем у «Занимательная статистика. Манга». Книга имеет следующую структуру: • Глава 1. Базовые знания; • Глава 2. Регрессионный анализ; • Глава 3. Множественная регрессия; • Глава 4. Логистическая регрессия. Каждая из глав, в свою очередь, состоит из собственно манги и текстового дополнения. В первой главе рассказывается про то, что многие читатели, вероятно, изучали в курсе старшей школы, например, про производные и матрицы. Эти знания будут необходимы для понимания глав, начиная со второй. Но читателю не нужно бояться, что без понимания первой главы он не сможет прочитать последующие главы. Данную книгу можно читать легко, думая при этом: «Вроде бы, смысл логарифмов такой», или «Производная, вроде бы, находится вот так. Ура, вспомнил!» Однако читателям, которые скажут: «Я слишком забывчив, поэтому знания не всплывают в моей голове при чтении», или «У меня гуманитарное образование, и мы это вообще не изучали», нужно будет приложить некоторые усилия, чтобы понять содержание первой главы. В противном случае, чтение начиная со второй главы будет для них мучением. * Син Такахаси. Занимательная статистика. Манга. М.: Додэка. 2010. 224 с.

V


Читателю, сведущему в математике, будет полезно внимательно изучить подробные описания процесса расчётов, которые есть в данной книге. Тому, кто не особо силён в математике, можно просто бегло прочитать их. Другими словами, читателю вполне достаточно думать: «Да, смысл этого метода мне не понятен, вычисления выглядят сложно, но, тем не менее, это вроде бы позволяет найти решение». Не нужно пытаться понять всё сразу. Давайте заниматься спокойно, без спешки. Однако автор просит читателя обязательно пробежаться взглядом даже по непонятным объяснениям! В связи с округлением, некоторые результаты вычислений, приведённые в книге, не совсем совпадут с результатами, которые читатели получат самостоятельно. В заключение я хотел бы здесь выразить благодарность коллективу Отдела разработок издательства Ohmsha, которые дали мне шанс взяться за перо. Я благодарю также сотрудников компании Trend-Pro, благодаря усилиям которых моя рукопись смогла стать мангой, господина re_akino, отвечавшего за написание сценария, а также господина Иноуэ Ироха, художника этой манги. Кроме того, я глубоко благодарен господину Сакаори Фумитакэ, преподавателю факультета социологии университета Риккё, от которого я на этот раз получил даже больше ценных советов, чем при написании предыдущей книги. Син Такахаси

VI


СОДЕРЖАНИЕ Пролог.

ДОБРО ПОЖАЛОВАТЬ В NORNS! ....................... 1 Глава 1.

БАЗОВЫЕ ЗНАНИЯ ....................................... 11 1. 2. 3. 4. 5. 6. 7. 8. 9.

Правила записи.............................................................12 Обратные функции ......................................................... 14 Показательные функции и функция натурального логарифма .......19 Свойства показательных и логарифмических функций ...............20 Производная.................................................................24 Матрицы .....................................................................37 Количественные и качественные данные ................................46 Сумма квадратов отклонений, рассеяние, стандартное отклонение..48 Функция плотности вероятности ..........................................50

Глава 2.

РЕГРЕССИОННЫЙ АНАЛИЗ .............................. 55 1. 2. 3. 4. 5. 6. 7.

Что такое регрессионный анализ .........................................56 Конкретный пример регрессионного анализа ...........................62 Замечание по поводу проведения регрессионного анализа ..........94 Нормированный остаток ...................................................95 Интерполяция и экстраполяция ...........................................96 Автокорреляция .............................................................97 Нелинейные уравнения регрессии ........................................98

Глава 3.

МНОЖЕСТВЕННАЯ РЕГРЕССИЯ ........................ 101 1. 2. 3. 4. 5.

Что такое множественная регрессия .................................... Конкретный пример множественной регрессии ....................... Замечание по поводу проведения множественной регрессии ...... Нормированный остаток ................................................. Обобщённое расстояние Махаланобиса, доверительный интервал и прогнозируемый интервал ............................................ 6. Множественная регрессия при наличии неизмеряемых данных среди объясняющих переменных .......................................

102 106 136 137 138 141 VII


7. Мультиколлинеарность ................................................... 145 8. Степень влияния каждой из объясняющих переменных на отклик и множественная регрессия ................................. 146

Глава 4.

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ .......................... 149 1. 2. 3. 4. 5. 6. 7.

Что такое логистическая регрессия..................................... Метод максимального правдоподобия ................................. Трактовка отклика ........................................................ Конкретный пример логистической регрессии ........................ Замечание по поводу проведения логистической регрессии ....... Отношение перевесов .................................................... Пузырьковая диаграмма .................................................

150 156 160 164 186 186 192

Приложение.

ПРОБУЕМ ВЫЧИСЛЯТЬ В EXCEL! ..................... 193 1. 2. 3. 4. 5. 6.

Основание натурального логарифма ................................... 194 Значение показательной функции ...................................... 195 Значение функции натурального логарифма ......................... 196 Произведение матриц .................................................... 197 Обратная матрица ........................................................ 199 Нахождение на оси x графика распределения хи-квадрат значения, соответствующего заданной вероятности .................. 200 7. Вероятность распределения хи-квадрат ................................ 201 8. Нахождение на оси x графика F-распределения значения, соответствующего заданной вероятности .............................. 202 9. Вероятность F-распределения ........................................... 204 10. (Частные) коэффициенты (можественной) регрессии ................ 205 11. Коэффициенты уравнения логистической регрессии ................ 208

Предметный указатель ...................................... 212

VIII


ПРОЛОГ

ДОБРО ПОЖАЛОВАТЬ В NORNS!


ДА, В ВАШЕМ КАФЕ...

УМЕЮТ ПЕЧЬ ТОРТЫ...

СПАСИБО!

Ýòî íàø íîâûé èçûñê...

ЧТО, СЕГОДНЯ ОПЯТЬ БУДЕШЬ ЗАНИМАТЬСЯ?

ДА...

НУ...

2

ПРОЛОГ. ДОБРО ПОЖАЛОВАТЬ В NORNS!


è

...ЧТО-ТО ВРОДЕ ТОГО...

ЯСНО...

ЛАДНО, ТОГДА НЕ БУДУ ТЕБЕ МЕШАТЬ...

В ЧЁМ ДЕЛО?

Пролог. ДОБРО ПОЖАЛОВАТЬ В NORNS!

3


НЕТ, НИЧЕГО ПОДОБНОГО!

Äà? Äà?

РИСА, КАК ТЫ С НИМ МИЛО РАЗГОВАРИВАЛА.

МИУ, ТЫ ЧТО, РЕВНУЕШЬ?

Ñìîòðè!

ВСЁ ВРЕМЯ ЧИТАЕТ СЛОЖНЫЕ КНИГИ ПО МАТЕМАТИКЕ.

Соверш енное пониман анализ ие а

КАК ОН СТАРАТЕЛЬНО ЗАНИМАЕТСЯ.

4

ПРОЛОГ. ДОБРО ПОЖАЛОВАТЬ В NORNS!

ПОСТОЙ!. ВЕДЬ МЫ ТОЖЕ ВРОДЕ С ЭКОНОМИЧЕСКОГО ФАКУЛЬТЕТА.


ЭТО ТЫ, РИСА, ХОРОШАЯ СТУДЕНТКА, А Я ВООБЩЕ Ни БЕЛЬМЕСА.

А может тебе с ним позаниматься?

ЧТО?! МЫ ВЕДЬ ДАЖЕ НЕ ЗНАЕМ, КАК ЕГО ЗОВУТ!

Ё ШЛ

СТУК

П

Äà è â Norns îí çàõîäèò ðåäêî

НУ И ХОРОШО. КАК РАЗ БУДЕТ ПОВОД ПОГОВОРИТЬ С НИМ...

ÿ ññíà Ê ë à ø êà! å êà ô

Êàêàÿ çäåñü ïðèÿòíàÿ îáñòàíîâêà! ОЙ, К НАМ ПРИШЛИ!

ДОБРО ПОЖАЛОВАТЬ!

Äîáð î ïîæà ëîâàò ëîâà òü! ü!

Ïîæ àëó éñò à, âûá èðà éò å ñòî ëèê ...

МЫ РАДЫ ВИДЕТЬ ВАС В КАФЕ NORNS!

СЕГОДНЯ Я СМОГЛА УВИДЕТЬ ЕГО ЛИЦО!

ОХ...

îå ë ü øè á î , î Á àñ â û ñï òî ëè ÷ ø ! çà àì í ê

Пролог. ДОБРО ПОЖАЛОВАТЬ В NORNS!

5


ОЙ! ОН ЗАБЫЛ СВОЮ КНИЖКУ.

ТОПТОП

, èë å îí íî Óð âåð íà

Êà

ПОКАЖИ, ПОЖАЛУЙСТА.

ê? !

НА, СМОТРИ.

вер ше нн ое

СОВЕР Ш ПОНИ ЕННОЕ М АНИЕ РЕГРЕС

ЭТО ТАКОЙ МЕТОД СТАТИСТИЧЕСКОГО АНАЛИЗА.

М ТУ ТУ

Со

ТАК...

ЧТО? ПРОСТИ, Я В ЭТОМ ничего НЕ ПОНИМАЮ.

СИОНН АНАЛИ ОГО ЗА МИУ, ТЫ ВЕДЬ КАЖДЫЙ ДЕНЬ СМОТРИШЬ ПРОГНОЗ ПОГОДЫ?

РЕГРЕССИОННЫЙ АНАЛИЗ?

6

ПРОЛОГ. ДОБРО ПОЖАЛОВАТЬ В NORNS!

ДА.... НУ И ЧТО?


31

ПРЕДСТАВЬ, ЧТО МЫ В NORNS КАЖДЫЙ ДЕНЬ ЗАПИСЫВАЕМ МАКСИМАЛЬНУЮ ТЕМПЕРАТУРУ ВОЗДУХА И ЧИСЛО ЗАКАЗОВ ЧАЯ СО ЛЬДОМ.

°C

Ñåãîäíÿ âîçäóõ ïðîãðååòñÿ äî 31°C

Регрессионный

Òàê, çàïèøåì 3 +4+ +1+1+3+2+3 2 + 3 3+ 1+1+1 ... +2+ +2+3+

ñî × àé ëüä î ì!

Âó

Ñåãîäíÿ âîçäóõ ïðîãðååòñÿ äî 27 °C

анализ

àë

ÿ!

Ñåãîäíÿ áóäåò 65 ñòàêàíîâ ÷ àÿ ñî ëüäîì!

× àé ì! ñ î ë üä î РЕГРЕССИОННЫЙ АНАЛИЗ ПОЗВОЛЯЕТ ПО МАКСИМАЛЬНОЙ ТЕМПЕРАТУРЕ ПРЕДСКАЗАТЬ ЧИСЛО ЗАКАЗОВ ЧАЯ СО ЛЬДОМ!

КРОМЕ ТОГО, СУЩЕСТВУЕТ ЕЩЁ ПОХОЖИЙ МЕТОД

ПРАВДА? ВОТ ЗДОРОВО!

МНОЖЕСТВЕННОЙ РЕГРЕССИИ. РЕГРЕССИИ

Èãðà ñëîâ...

МНОЖЕСТВЕННАЯ?

РЕГРЕССИОННЫЙ АНАЛИЗ - ЭТО ПРОГНОЗ ПО ОДНОМУ ФАКТОРУ, А МНОЖЕСТВЕННАЯ РЕГРЕССИЯ - ЭТО ПРОГНОЗ ПО МНОЖЕСТВУ ФАКТОРОВ.

Èãðà ñëîâ...

ТОЛЬКО ЧТО МЫ ПРЕДСКАЗАЛИ ЧИСЛО ЗАКАЗОВ ПО ОДНОМУ ФАКТОРУ «МАКСИМАЛЬНОЙ ТЕМПЕРАТУРЕ».

Факторы Прогн оз

Фактор

Регрессионный анализ

Прог ноз

Множественный регрессионный анализ

Пролог. ДОБРО ПОЖАЛОВАТЬ В NORNS!

7


домов Расходы Удаление от Число в радиусе 500 на рекламу, конкурента,м йены м

ДАВАЙ Я ПРИВЕДУ ПРИМЕР. ПУСТЬ ДИРЕКТОР ОДНОЙ СЕТИ РЕСТОРАНОВ ИМЕЕТ СЛЕДУЮЩИЕ ДАННЫЕ

Выручка, йены

О КАЖДОМ ИЗ СВОИХ ЗАВЕДЕНИЙ:

• •

УДАЛЕНИЕ ОТ РЕСТОРАНА КОНКУРИРУЮЩЕЙ СЕТИ ЧИСЛО ЖИЛЫХ ДОМОВ

В РАДИУСЕ 500 МЕТРОВ РАСХОДЫ НА РЕКЛАМУ

Директор

...ТО МНОЖЕСТВЕННАЯ РЕГРЕССИЯ НА ОСНОВЕ:

ЕСЛИ ОН ЗАХОЧЕТ ОТКРЫТЬ НОВЫЙ РЕСТОРАН,...

• • •

УДАЛЕНИЯ ОТ РЕСТОРАНА КОНКУРЕНТА ЧИСЛА ЖИЛЫХ ДОМОВ В РАДИУСЕ 500 МЕТРОВ РАЗМЕРА РАСХОДОВ НА РЕКЛАМУ ПОЗВОЛИТ ЕМУ ПРЕДСКАЗАТЬ ВЫРУЧКУ НОВОГО МАГАЗИНА!

Рестора конк у-н рента КРОМЕ ЭТОГО, ЕСТЬ ЕЩЁ ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ. РЕГРЕССИЯ

ДА, КАК МНОГО ВСЕГО ЕСТЬ!

СПРАВЛЮСЬ ЛИ Я...?

е но ен и е го рш ан о ве м нн со ониссио иза п ре а л г н ре а

8

Àãà! Ëó ÷ øå îòêðûòü åãî çäåñü!

ДА, УДОБНАЯ ШТУКА!

Òàê êàêîé æå âàðèàíò ëó ÷ øå?

т иа н я Ва р е щ ен и м ра з

Í à ø à ñå ò ì à ë îâ à ò ü à .. .

ПРОЛОГ. ДОБРО ПОЖАЛОВАТЬ В NORNS!

МОЖЕТ БЫТЬ, ЭТА КНИГА…

…ПОМОЖЕТ МНЕ СБЛИЗИТЬСЯ С НИМ!


И ЕЩЁ, ПОЖАЛУЙСТА...

Я ХОТЕЛА БЫ ВЗЯТЬ ЭТУ КНИГУ НА ХРАНЕНИЕ.

ХМ... ...НАУЧИ МЕНЯ РЕГРЕССИОННОМУ АНАЛИЗУ!

УМОЛЯЮ ТЕБЯ!

ХОРОШО!

ПРАВДА?!

Пролог. ДОБРО ПОЖАЛОВАТЬ В NORNS!

9


ЛАДНО, Я ПОЙДУ ТЕБЕ НАВСТРЕЧУ В ЭТОМ.

ТЫ, НАВЕРНО, ХОТЕЛА ВЕРНУТЬ ЭТУ КНИГУ САМА, НЕ ТАК ЛИ?

ДА.... НО ВЕДЬ НУЖНО, ЧТОБЫ ОНА ЛЕЖАЛА У НАС В КАФЕ?

МНЕ МОЖНО ЕЁ ВЗЯТЬ?!

ПРАВДА?!

ХЛОП

БЕЗ ПРОБЛЕМ!

СТАРАЙСЯ!

ЯСНО...

О ХЛ

ОН НЕПРЕМЕННО ПОЧУВСТВУЕТ ТВОЁ УСЕРДИЕ!

П

10

ПРОЛОГ. ДОБРО ПОЖАЛОВАТЬ В NORNS!

Я буду стараться!


ГЛАВА 1

БАЗОВЫЕ ЗНАНИЯ


Ну, что? НАШ НАЧАЛЬНИК УШЁЛ ДОМОЙ... В ОБЩЕМ, РАБОЧИЙ ДЕНЬ ОКОНЧЕН!

1. ПРАВИЛА ЗАПИСИ

УФФ...

РИСА! ВЕДЬ ТЫ ОБЕЩАЛА МЕНЯ УЧИТЬ! ПРОШУ ТЕБЯ!

ЧТО?!

ПРЯМО СЕГОДНЯ?!

ø û äà ¸ Í ó, ò

ü!

И ВООБЩЕ... ЛУЧШЕ БЫ ТЫ С НИМ ВЕЛА СЕБЯ ПОСМЕЛЕЕ.

КОНЕЧНО, ТЫ ПРАВА.

12

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ

ОЙ, ПРОСТИ! ЛИШНЕе сказаЛА


ДЛЯ НАЧАЛА О ПРАВИЛАХ ЗАПИСИ, ПРИНЯТЫХ В МАТЕМАТИКЕ...

Ну, хорошо, ПРИСТУПИМ! СЕГОДНЯ Я ДАМ ТЕБЕ БАЗОВЫЕ ЗНАНИЯ, БЕЗ КОТОРЫХ разобраться в РЕГРЕССИОННом АНАЛИЗе БУДЕТ СЛОЖНОВАТО.

Ñåãîäí â ìåíþÿ: ХОРОШО, я готова!

ЧИРКЧИРК Ïðàâèëà çàïèñè

ДОСКА ДЛЯ МЕНЮ....

МИУ, ПОТОМ ВЫТРЕШЬ ДОСКУ!

КОНЕЧНО, КОНЕЧНО!

ТАК КАК ЭТО ПРАВИЛА, ТЫ ДОЛЖНА ПРИНЯТЬ ИХ БЕЗ МАЛЕЙШИХ СОМНЕНИЙ. ЯСНО!

1. ПРАВИЛА ЗАПИСИ

13


2. ОБРАТНЫЕ ФУНКЦИИ

ТЕПЕРЬ Я РАССКАЖУ ПРО ОБРАТНЫЕ ФУНКЦИИ НА ПРИМЕРЕ ЛИНЕЙНОЙ ФУНКЦИИ = 2 + 1.

y

СКАЖИ, НАПРИМЕР, ЧЕМУ БУДЕТ РАВЕН ПРИ = 0?

x

x

А ПРИ = 3?

x

y

СЕМИ.

ЕДИНИЦЕ.

КОНЕЧНО, ЭТО ЗВУЧИТ БАНАЛЬНО, НО ЗАМЕТИЛА ЛИ ТЫ,...

...ЧТО В МОМЕНТ, КОГДА принимает КАКОе-ТО ЗНАЧЕНИе, ЗНАЧЕНИЕ ОПРЕДЕЛЯЕТСЯ АВТОМАТИЧЕСКИ?

x

y

ТО ЕСТЬ МОЖНО СКАЗАТЬ, - ЭТО «ХОЗЯИН», ЧТО А - «СЛУГА».

x

y

Õî ÷ ó ïèòü!

Хозяин

×åìó ðàâíî 23 ?

Èçâîëüòå, ñîê! Âîñåìü!

С лу га

ДА.

14

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ


ДРУГИМИ СЛОВАМИ, ЯВЛЯЕТСЯ

ЧЕМУ РАВНО 3 2 ?

x

ВОСЬМИ.

КАК БЫ «ГОСПОДИНОМ», А

y

-

«ГОРНИЧНОЙ», КОТОРАЯ ЕМУ СЛУЖИТ.

è, Êñ ò à ò ò êè àí è ö è îô îæ å NS ò N O R û, êà ê îäå ò íûå. ÷ ãîðíè

Ò íà àêè å âåð , í ó â êó î å, ç à õ îç ÿ ñ û âåä è åí íà èÿ .

ТЕПЕРЬ,…

…ВОЗВРАЩАЯСЬ К ТЕМЕ ОБРАТНОЙ ФУНКЦИИ,...

СВЕРК …ПРЕДСТАВЬ, ЧТО «ГОСПОДИН» И «ГОРНИЧНАЯ» ПОМЕНЯЛИСЬ МЕСТАМИ.

ПРЯМО КАК РЕВОЛЮЦИЯ. СЕГОДНЯ - ДЕНЬ БЛАГОДАРЕНИЯ ГОРНИЧНЫХ!

Âîñåìü ýòî äâà â ñòåïåíè ...?

Òðè!

ПРАВДА, НИКОГО НЕ СВЕРгАЮТ!

2. ОБРАТНЫЕ ФУНКЦИИ

15


ВЕРНЁМСЯ К НАШЕЙ БЕСЕДЕ. ОБРАТНАЯ ФУНКЦИЯ ОТ = 2 + 1 ...

y

x

...ПОЛУЧИТСЯ, ЕСЛИ МЫ ПОМЕНЯЕМ МЕСТАМИ И В ФУНКЦИИ.

x

П

ТУК

РИ СК

ТУК y

ОДНАКО ТАКАЯ ФОРМА ЗАПИСИ...

...НЕУДОБНА ДЛЯ ВОСПРИЯТИЯ.

Ïåðåíîñ ÷ëåíîâ

ПОЭТОМУ УРАВНЕНИЕ ПРИВОДЯТ ВОТ К ТАКОМУ ВИДУ.

16

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ

ДА, ВОТ УЖ ПОИСТИНЕ «ДЕНЬ БЛАГОДАРЕНИЯ ГОРНИЧНЫХ»!

ИТАК, ТЕПЕРЬ Я изображу ОБРАТНУЮ ФУНКЦИЮ ВИЗУАЛЬНО.

íà ô å ñ àëòê å?


МИУ, ПРИНЕСИ, пожалуйста, МАРКЕР!

Одну секунду…

ïåðåíîñ ÷ëåíîâ

Êàê òðóäíî ÷ åðòèòü...

ДЛЯ НАЧАЛА НАЧЕРТИ МНЕ ГРАФИК = 2 + 1.

y

x

ТАК...

ВОТ.

ПОПРОБУЙ НА ЭТОМ ГРАФИКЕ ПОМЕНЯТЬ МЕСТАМИ ОСИ И .

x

y

ЯСНО.

КАК?!

ВОТ И ВСЁ.

Áë àã îä àð þ çà òð óä !

А ТЕПЕРЬ ОБЪЯВЛЯЕТСЯ «ДЕНЬ БЛАГОДАРЕНИЯ ГОРНИЧНЫХ»!

И ЭТО ВСЁ?!

2. ОБРАТНЫЕ ФУНКЦИИ

17


Что-то не так…

ПОПРОБУЙ РАЗВЕРНУТЬ ГРАФИК В ПРИ ВЫЧНОМ ДЛЯ НАС НАПРАВЛЕНИИ.

…НО ТЕПЕРЬ ОСЬ СМОТРИТ НЕ В ТУ СТОРОНУ.

x

È ââïðàâäó. ïðàâäó.

y

ТАК...

Я знаю! Надо ПЕРЕВЕРНУТЬ САЛФЕТКУ ОБРАТНОЙ СТОРОНОЙ.

ОСЬ НАПРАВЛЕНА ПО ВЕРТИКАЛИ,...

ВОТ ИМЕННО!

ТЫ БЫЛА ПРАВА! У НАС ПОЛУЧИЛСЯ ГРАФИК ФУНКЦИИ

y = 1x − 1 2

18

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ

2

!


3. ПОКАЗАТЕЛЬНЫЕ ФУНКЦИИ И ФУНКЦИЯ НАТУРАЛЬНОГО ЛОГАРИФМА

ИТАК, ИДЁМ ДАЛЬШЕ. ЛЮБЫЕ ФУНКЦИИ ПОДОБНОГО ВИДА НАЗЫВАЮТ ПОКАЗАТЕЛЬНЫМИ ФУНКЦИЯМИ. ФУНКЦИЯМИ

ОЙ, А ЧТО ОЗНАЧАЕТ ЭТА БУКОВКА « » в последнем примере?

е

Îíè âñå ïðîõîäÿò ÷ åðåç òî ÷ êó (0, 1) ïîòîìó, ÷ òî âîçâåäåíèå â íóëåâóþ ñòåïåíü äภò 1?

ЕЁ НАЗЫВАЮТ ОСНОВАНИЕМ НАТУРАЛЬНОГО ЛОГАРИФМА, ЛОГАРИФМА ИЛИ ЧИСЛОМ ЭйлЕРА. ЭйлЕРА ЭТО ЧИСЛО, РАВНОЕ 2,7182 . В ОБЩЕМ, ЧТО-ТО ВРОДЕ ЧИСЛА «π». А, ВСПОМНИЛА!

ДАЛЕЕ, ЕСТЬ ЛОГАРИФМИЧЕСКИЕ ФУНКЦИИ. ФУНКЦИИ ЭТО ВООБЩЕ-ТО ФУНКЦИИ, ОБРАТНЫЕ ПОКАЗАТЕЛЬНЫМ.

òü ïÿ ã îî à À , ü á ë ÿ? í åíè å ä àð ä

ШУР Х 3. ПОКАЗАТЕЛЬНЫЕ ФУНКЦИИ И ФУНКЦИЯ НАТУРАЛЬНОГО ЛОГАРИФМА

19


Ñíîâà ïîìåíÿåì îñè è ðàçâåðí ¸ ì ãðàôèê.

x

ey

А ДЛЯ ФУНКЦИИ = , КОТОРАЯ ОБРАТНА ФУНКЦИИ x = , ПРИДУМАЛИ ДАЖЕ ОСОБОЕ НАЗВАНИЕ ФУНКЦИЯ НАТУРАЛЬНОГО ЛОГАРИФМА. ЛОГАРИФМА

y

e

ЯСНО.

ТАК КАК ФОРМА ЗАПИСИ обратной функции y = НЕУДОБНА ДЛЯ ВОСПРИЯТИЯ, ДЛЯ ЭТОЙ функции ПРИДУМАЛИ ВОТ ТАКИЕ ОБОЗНАЧЕНИЯ: = loge ИЛИ = ln . Читается это так: « равен логарифму по основанию ».

x e

y

y

x

y

x

x

e

Обратная функция

4. СВОЙСТВА ПОКАЗАТЕЛЬНЫХ И ЛОГАРИФМИЧЕСКИХ ФУНКЦИЙ ПОКАЗАТЕЛЬНЫЕ И ЛОГАРИФМИЧЕСКИЕ ФУНКЦИИ ОБЛАДАЮТ РАЗЛИЧНЫМИ СВОЙСТВАМИ.

СЕЙЧАС Я РАССКАЖУ тебе О НИХ, А ТЫ ХОРОШЕНЬКО их ЗАПОМНИ.

Õîðîøî.

20

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ


(ea)b = e(a · b)

Свойство 1:

Для простоты примем a = 3, b = 5 и покажем, что (e3)5 и e(3 · 5) равны. Проверим сами! (e3)5 = e3 · … · e3 = (e · e · e) · … · (e · e · e) = e · … · e = e · … · e = e3 · 5.     5 5 15 3·5

Свойство 2:

ea = ea−b eb

Для простоты примем a = 3, b = 5 и покажем, что

e3 и e3−5 равны. e5

Давайте проверим! e3 = e · e · e = \e · \e · \e = 1 = e−2 = e3−5. e5 e · e · e · e · e e · e · \e · \e · \e e·e

4. СВОЙСТВА ПОКАЗАТЕЛЬНЫХ И ЛОГАРИФМИЧЕСКИХ ФУНКЦИЙ

21


Свойство 3:

a = ln(ea)

Для простоты примем a = 3 и покажем, что 3 и ln(e3) равны. Проверим сами! Как было отмечено на стр. 20, зависимости y = lnx и x = ey определяют одну и ту же функцию. Значит, если принять L = ln (e3), то это равенство можно переписать как e3 = eL . e3 = eL; 3 = L. Мы приняли L = ln(e3), следовательно, выполняется равенство 3 = ln (e3).

Свойство 4:

ln (ab) = b · lna

Для простоты примем a = 3, b = 5 и покажем, что ln(35) и 5 · ln3 равны. Давайте проверим! Если принять L = ln 3, и это равенство переписать как 3 = eL , то его можно преобразовать следующим образом. 3 = eL; 35 = (eL)5; ← Возведём левую и правую части в степень 35 = eL · 5; ← По свойству 1 35 = e5 · L; ln (35) = ln (e5 · L); ← Прологарифмируем по основанию «е» ln (35) = 5 · L. ← По свойству 3 Мы приняли L = ln 3, следовательно выполняется равенство ln (35) = 5 · ln 3.

22

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ


Свойство 5:

ln a + ln b = ln (a · b)

Для простоты примем {a = 3, b = 5} и покажем, что ln 3 + ln 5 и ln (3 · 5) равны. Давайте проверим!

 L = ln 3; Имеем  M = ln 5;  N = ln (3 · 5)

L

Зная определение логарифма (стр. 20),  3 = eM;  5 = e ;N перепишем эти равенства в виде  3·5 = e .

Перемножив, соответственно, левые и правые части первых двух равенств, получим eL · eM = 3 · 5, что можно переписать как: eL · eM = e · … · e · e · … · e = e · … · e = eL + M = 3 · 5    L раз

M раз L+M

Следовательно, выполняется e L + M = N, или ln 3 + ln 5 = ln (3 · 5).

(L+M) раз

= 3 · 5 = eN , откуда следует:

Запишем эти свойства в виде таблицы: Свойство 1

(ea)b = e(a · b)

Свойство 2

ea = ea−b eb

Свойство 3

a = ln (ea)

Свойство 4

ln (ab) = b · ln a

Свойство 5

ln a + ln b = ln (a · b)

Кстати, эти свойства выполняются не только для числа e, но и, например, для 2, или для 3/7.

4. СВОЙСТВА ПОКАЗАТЕЛЬНЫХ И ЛОГАРИФМИЧЕСКИХ ФУНКЦИЙ

23


5. ПРОИЗВОДНАЯ

П Р О И З В О Д Н А Я

НО, Риса, ЭТО ДЛЯ МЕНЯ СЛИШКОМ СЛОЖНО...

Íå áîéñÿ!

Àõ.

..

Теперь ПЕРЕйдём К ПРОИЗВОДНОЙ!

НИЧЕГО СЛОЖНОГО. ТОЛЬКО РАСЧЁТЫ БУДУТ НЕМНОГО ГРОМОЗДКИМИ. Я БУДУ ОБЪЯСНЯТЬ БЕЗ СПЕШКИ, И ТЫ СМОЖЕШЬ ВСЁ УСВОИТЬ!

ЛЬНЫЙ П Р И С ТА Я Д В З ГЛ

Âñò

àâ

Õ î ð î ø î!

à é!

СТУ К 156 СМ...

155,7 СМ, ТАК?

ДА. ТОЧНЕЕ,

155,7 СМ...

ТЫРК

24

туК

Âîò ýòî ä à!


Âîçðàñò è ðîñò Ìèó Âîçðàñò Ðîñò

ЭТО - ДАННЫЕ О РОСТЕ МИУ С ДЕТСКОГО САДА И ПО НАСТОЯЩЕЕ ВРЕМЯ!

КАК ТЫ СМОГЛА ИХ УЗНАТЬ?!

А ЭТО СЕКРЕТ ФИРМЫ! л рна Жу иу М

ТЕПЕРЬ ПОПРОБУЙ ПО ЭТОЙ ТАБЛИЦЕ ПОСТРОИТЬ точечный ГРАФИК.

ß èõ ñàìà ïðèäóìàëà.

ДА, ВРОДЕ ТОГО...

ЧТО-ТО ВРОДЕ ЭТОГО?

Рост

Точечный график роста Миу от возраста

Õîðîøî

Возраст

5. ПРОИЗВОДНАЯ

25


ТЕПЕРЬ ДАВАЙ РАССМОТРИМ ТВОЙ РОСТ В 6 ЛЕТ И В 7 ЛЕТ.

Ìèó, êàê òû âûðîñëà! Äà!

121,7 см

114,1 см

ЗНАЧИТ, ЗА 1 ГОД С 6 ДО 7 ЛЕТ я ВЫРОСЛА НА 121,7 - 114,1 = 7,6 см, НЕ ТАК ЛИ?

6 лет

7 лет

ТЕПЕРЬ ПЕРЕХОДИМ К ГЛАВНОМУ. Я ОПУСКАЮ ПОДРОБНОСТИ, НО «ВОЗРАСТ» И «РОСТ» С 4 ДО 19 ЛЕТ СВЯЗАНЫ МЕЖДУ СОБОЙ...

Ðîñò

Âîçðàñò …ВОТ ТАКИМ СООТНОШЕНИЕМ.

Точечный график возраста и роста Миу

326,6 + 173,3). x

Рост

(добавлен график y = −

Возраст

26

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ

ВОТ ТАКИМ БУДЕТ ГРАФИК.


ОЙ, ЧТО ЭТО? ОТКУДА ВЗЯЛОСЬ ЭТО

y=−

326,6

x

+ 173,3 ?

ЭТО УРАВНЕНИЕ РЕГРЕССИИ, РЕГРЕССИИ ПОЛУЧЕННОЕ С ПОМОЩЬЮ РЕГРЕССИОННОГО АНАЛИЗА!

ПРО УРАВНЕНИЕ РЕГРЕССИИ Я РАССКАЖУ ПОТОМ, ЧТОБЫ ТЫ НЕ ЗАПУТАЛАСЬ.

è ! Í ó ó ë êà ðì

ôî

Õèõ è - .. õè.

ЛАДНО, ДЛЯ НАЧАЛА я ПОВЕРЮ, ЧТО МОИ ВОЗРАСТ И РОСТ СВЯЗАНЫ МЕЖДУ СОБОЙ СООТНОШЕНИЕМ

ХОРОШО!

y = − 326,6 x + 173,3

ò à ê ...

. СПАСИБО!

ТЕПЕРЬ, «7 ЛЕТ» МОЖНО ПЕРЕПИСАТЬ В ВИДЕ "(6 + 1) ЛЕТ»,

ЗНАЧИТ, ЗА 1 ГОД С «6 ЛЕТ» ДО "(6 + 1) ЛЕТ» ТЫ ВЫРОСЛА, СОГЛАСНО моей ФОРМУЛЕ, НА:

НЕ ТАК ЛИ?

Ðîñò â (6+1) ëåò

Ðîñò â 6 ëåò

í î, êî í å ÷ .. ê à ò . НЕ ТАК ЛИ? ДА.

5. ПРОИЗВОДНАЯ

27


А ЗНАЧИТ, СКОРОСТЬ РОСТА, РОСТА ВЫРАЖЕННАЯ В СМ/ГОД, ДЛЯ ПЕРИОДА С 6 ДО (6 + 1) ЛЕТ БУДЕТ ВЫГЛЯДЕТЬ ВОТ ТАК:

ñì/ãîä ТЫ ПОДЕЛИЛА ВЫРАЖЕНИЕ НА 1, ПОТОМУ ЧТО ПЕРИОД РАВЕН 1 ГОДУ, ДА?

ТЕПЕРЬ ДАВАЙ ПОСМОТРИМ, НА СКОЛЬКО ТЫ ВЫРОСЛА ЗА ПОЛГОДА.

6 лет

6 + 0,5 лет

КАК БЫ НАМ ЗАПИСАТЬ «6 С ПОЛОВИНОЙ ЛЕТ»?

ТАК: «6

+ 0,5 ЛЕТ», ДА?

7 лет ПРАВИЛЬНО!

ЗА ПОЛГОДА С

6 ДО (6 + 0,5) ЛЕТ

ТЫ ВЫРОСЛА НА:

Ðîñò â 6 ëåò

ЗНАЧИТ, СКОРОСТЬ РОСТА, РОСТА ВЫРАЖЕННАЯ В СМ/ГОД, ДЛЯ ПЕРИОДА С 6 ДО (6 + 0,5) ЛЕТ БУДЕТ ВЫГЛЯДЕТЬ ВОТ ТАК:

Ðîñò â 6+0,5 ëåò

ñì/ãîä Ìèó!

НЕ ТАК ЛИ?

ТЫ ПОДЕЛИЛА ВЫРАЖЕНИЕ НА 0,5, ПОТОМУ ЧТО ПЕРИОД РАВЕН 0,5 ГОДА, ДА?

ДА, ТАК.

28

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ


И НАКОНЕЦ...

...ПОСМОТРИМ, НА СКОЛЬКО ТЫ ВЫРОСЛА ЗА «ОЧЕНЬ КОРОТКИЙ интервал ВРЕМЕНИ».

Ìèó ! Ïàïà !

ТА ЛЬ ДЕ

ЗА «ОЧЕНЬ КОРОТКИЙ интервал ВРЕМЕНИ»?

ДА! В МАТЕМАТИКЕ ЕГО ОБОЗНАЧАЮТ греческой буквой Δ (ДЕЛЬТА)!

РОСТА ЗНАЧИТ, СКОРОСТЬ РОСТА, ВЫРАЖЕННАЯ В СМ/ГОД ДЛЯ ПЕРИОДА от «РОВНО 6 ЛЕТ» ДО «СРАЗУ ПОСЛЕ 6 ЛЕТ»

ЕСЛИ ВЫРАЗИТЬ УВЕЛИЧЕНИЕ РОСТА ЗА ОЧЕНЬ КОРОТКИЙ ПЕРИОД от «РОВНО 6 ЛЕТ» ДО «СРАЗУ ПОСЛЕ 6 ЛЕТ» С ПОМОЩЬЮ Δ, ТО ПОЛУЧИТСЯ СЛЕДУЮЩЕЕ:

НЕ ТАК ЛИ?

ПОНЯТНО.

УГУ.

ТЕПЕРЬ ПОПРОБУЮ УПРОСТИТЬ ЭТУ ФОРМУЛУ ОДНИМ МАХОМ!

БУДЕТ ВЫГЛЯДЕТЬ ТАК:

ñì/ãîä

29


ÑÌ/ ÃÎÄ

Я ПРИНЯЛА Δ РАВНЫМ 0, ТАК КАК ЭТО «ОЧЕНЬ, очень КОРОТКИЙ интервал ВРЕМЕНИ».

НУ КАК? КОНЕЧНО, ТУТ НУЖНО ТЕРПЕНИЕ, НО РАСЧЁТ БЫЛ НЕ ТАКИМ УЖ И СЛОЖНЫМ, ПРАВДА?

ДА! МНЕ КАЖЕТСЯ, ЧТО ДАЖЕ Я СМОГУ ЭТО ОСИЛИТЬ!

30

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ


ХОРОШО, ТОГДА У МЕНЯ ЕСТЬ ДЛЯ ТЕБЯ ЗАДАЧКА.

КАК БУДЕТ ВЫГЛЯДЕТЬ ФОРМУЛА СКОРОСТИ РОСТА, ВЫРАЖЕННая В СМ/ГОД, ЛЕТ» ДЛЯ ПЕРИОДА от «РОВНО ЛЕТ»? ДО «СРАЗУ ПОСЛЕ

x

x

ТАК...

ТЕПЕРЬ ПОПРОБУЙ УПРОСТИТЬ ЭТО.

ВОТ ТАК?

ñì/ãîä

ДА, ВЕРНО!

ПОНЯЛА.

ТАК...

5. ПРОИЗВОДНАЯ

31


ПОЛУЧИЛОСЬ 1

326,6 .

x2

.

ИТАК, РАСЧЁТ, КОТОРЫЙ ТЫ СЕЙЧАС ПРОВЕЛА,...

...НАЙДЯ

326,6 .

1

x2

ДЛЯ ФУНКЦИИ

y = − 326,6 x + 173,3,

НАЗЫВАЕТСЯ НАХОЖДЕНИЕМ ПРОИЗВОДНОЙ или ДИФФЕРЕНЦИРОВАНИЕМ ФУНКЦИИ

y = − 326,6 x + 173,3

ПРАВИЛЬНО!

ПО

x!

ПРАВДА?!

КСТАТИ, ЭТО ВЫРАЖЕНИЕ

326,6 .

ДАВАЙ ТЕПЕРЬ ПОПРОБУЕМ ПРИВЫКНУТЬ К ПРОИЗВОДНЫМ, НАЙДЯ ИХ ДЛЯ ФУНКЦИЙ, ОТЛИЧНЫХ ОТ

1

x2

ОБОЗНАЧАЕТСЯ ВОТ ТАК!

èëè

y = − 326,6 x + 173,3.

ЯСНО!

Я ПОПЫТАЮСЬ!

32

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ


Продифференцируй мне функцию y = x по x!

(x + Δ) − x = Δ = 1, значит, dy = 1! Δ Δ dx

Найди мне производную от функции y = x2 по x!

(x + Δ)2 − x2 = {(x + Δ) + x}{(x + Δ) − x} = (2x + Δ) · Δ = Δ Δ Δ = 2x + Δ ≈ 2x + 0 = 2x, значит, dy = 2x! dx

Продифференцируй мне функцию y = 1 по x! x

1 − 1 x+Δ x Δ

x − (x + Δ) −Δ (x + Δ)x (x + Δ)x −Δ 1 = = = · Δ Δ (x + Δ) x Δ

= =

−1 −1 ≈ = −12 = −x−2, значит, dy = −x−2! (x + 0)x x dx (x + Δ) x

5. ПРОИЗВОДНАЯ

!

33


Найди мне производную от функции y =

1 по x! x2

1 1 1 2− 1 2 2 − 2 (x + Δ) x x+Δ x = = Δ Δ 1 + 1 1 − 1 x + (x + Δ) · x − (x + Δ) x+Δ x x+Δ x (x + Δ)x (x + Δ)x = = = Δ Δ 2x + Δ · −Δ (x + Δ)x (x + Δ)x = = Δ = 2x + Δ · −Δ · 1 = (x + Δ)x (x + Δ)x Δ = −(2x + Δ)2 ≈ −(2x + 0)2 = {(x + Δ)x} {(x + 0)x} −2x −2 = 4 = 3 = −2x−3. x x Значит, dy = −2x−3! dx

(

(

)(

) ( ) )

Сопоставив все эти примеры, можно сделать вывод, dy = nxn−1. что производная от функции y = xn по x: dx

34

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ


А теперь продифференцируй (5x − 7)2 по x!

{5(x + Δ) − 7}2 − (5x − 7)2 = Δ = [{5(x + Δ) − 7} + (5x − 7)][{5(x + Δ) − 7} − (5x − 7)] = Δ [2(5x − 7) + 5 Δ]5Δ = = Δ = [2(5x − 7) + 5Δ] · 5 = = [2(5x − 7) + 5 · 0] · 5 = = 2(5x − 7) · 5 dy = 2(5x − 7) · 5! Значит, dx

Таким образом, обобщая, можно сказать, что произвоdy = n (ax + b)n−1· a. дная от функции y = (ax + b)n по x равна dx

5. ПРОИЗВОДНАЯ

35


Довольно сложные вычисления производных от следующих функций я опущу, но запомни, что: • производная от y = ex по x : dy = ex; dx • производная от y = lnx по x : dy = 1 ; dx x • производная от y = ln (ax + b) по x : dy = 1 · a; dx ax + b • производная от y = ln (1 + eax+b ) по x : dy = 1 · aeax + b . dx 1 + eax + b

НУ КАК?!

ДА НИЧЕГО, ВРОДЕ...

МОЛОДЕЦ!

36

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ


ТАДАМ 6.МАТРИЦЫ

ы ц и р т а м Ой, что это

А НАПОСЛЕДОК У НАС МАТРИЦЫ!!!

ЭТО ЧТО-ТО ВРОДЕ МНОГОЭТАЖЕК, В КОТОРЫХ ЖИВУТ ЧИСЛА, ДА? ДА, ВИДНО В МАТРИЦАХ ТЫ ТОЖЕ НЕ ОЧЕНЬ СИЛЬНА...

• • • •

Я БУДУ ОБЪЯСНЯТЬ В СЛЕДУЮЩЕМ ПОРЯДКЕ: ПРАВИЛА ЗАПИСИ МАТРИЦ; сумма МАТРИЦ; ПроизведЕНИЕ МАТРИЦ; ОБРАТНЫЕ МАТРИЦЫ.

ПОСТАРАЙСЯ ВСЁ УСВОИТЬ!

ХО…, ХОРОШО!

6.МАТРИЦЫ

37


Начнём с правил записи матриц. Например, система x1 + 2x2=−1 записывается как 1 2   ·   x1 = −1 , x2 3x1 + 4x2= 5 3 4 5 а  x1 + 2x2 её левая часть — как 1 2 · x1 . 3x1 + 4x2 3 4 x2

( ) ( ) ( ) ( )( )

{

{

Пример

 k1 + 2k2 + 3k3 = −3  4k1 + 5k2 + 6k3 = 8  7k1 + 8k2 + 9k3 = 6 1 + 11k2 + 12k3 = 2  10k 13k + 14k2 + 15k3 = 7  1  k1 + 2k2 + 3k3  4k1 + 5k2 + 6k3  7k1 + 8k2 + 9k3 1 + 11k2 + 12k3  10k 13k1 + 14k2 + 15k3 

 1  4 записывается как  7 10  13 

 1  4 записывается как  7 10  13 

2 5 8 11 14

2 5 8 11 14

3 6 9 12  15

3 6 9 12  15

   

   

 k1 k2  k3  

 −3   8 = 6  27   

k1 k2   k3 

Общий случай

 a11x1 + a12x2 + … + a1qxq = b1  a21x1 + a22x2 + … + a2qxq = b2  ………………………………  ap1x1 + ap2x2 + … + apqxq = bp  a11x1 + a12x2 + … + a1qxq  a21x1 + a22x2 + … + a2qxq  ……………………………  ap1x1 + ap2x2 + … + apqxq

38

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ

 a11  a21  ⋮  ap1

a12 ⋯ a1q  a22 ⋯ a2q 

 a11  a21  ⋮  ap1

a12 ⋯ a1q  a22 ⋯ a2q 

ap2

ap2

  ⋱ ⋮   ⋯ apq    ⋱ ⋮   ⋯ apq 

x1  x2 

 = ⋮   xq  

x1  x2 

 xq  ⋮

.

b1  b2 

 bp  ⋮

.


Теперь я расскажу о сумме матриц. Например, сумма матриц 1 2 3 4 1+ 4 2+5 записывается как . 3 + (−2) 4 + 4

( ) )

(

и

(−24 54 )

Пример 1

(65 −91) + (−3−1 103) означает следующее: (−1) 1 + 3 = 4 4 (65 −91) + (−3−1 103) = (65++(−3) (−9) + 10 ) (3 1 ) Пример 2

 1  4  7 10  13 

2 5 8 11 14

3 6 9 + 12  15

 7  −1  −7  87  

2 7 −3 2 1

3 −4  10  означает следующее: −1  −9

 1  4  7 10  13 

2 5 8 11 14

3 6 9 + 12  15

2 7 −3 2 1

3  −4   10  =  −1   −9

 7  −1  −7  87  

 

1+ 7 2+ 2 3+ 3  8 4 6 4 + −1 5 + 7 6 + −4   3 12 2  7 + −7 8 + −3 9 + 10  =  0 5 19  . 10 + 8 11 + 2 12 + −1 18 13 11   20  13 + 7 14 + 1 15 + −9 15 6

 

6.МАТРИЦЫ

39


Общий случай

Сумма матриц

 a11  a21  ⋮  ap1

40

 a11  a21  ⋮  ap1

a12 ⋯ a1q  a22 ⋯ a2q  ⋮

ap2

 … apq  ⋱ ⋮

a12 ⋯ a1q  a22 ⋯ a2q  ⋮

ap2

 b11 b12 b b +  21 22 ⋱ ⋮   ⋮ ⋮ ⋯ apq   bp1 bp2

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ

и

⋯ b1q ⋯ b2q ⋱ ⋮ ⋯ bpq

   

 b11 b12 ⋯ b1q   b21 b22 ⋯ b2q   ⋮ ⋮ ⋱ ⋮   bp1 bp2 … bpq  =

   

записывается как

a11 + b11 a12 + b12 ⋯ a1q + b1q  a21 + b21 a22 + b22 ⋯ a2q + b2q  ⋮

ap1 + bp1 ap2 + bp2

⋮ ⋱  ⋯ apq + bpq

.


Теперь поговорим о произведении матриц. x y Например, произведение матриц 1 2 и  1 1 , 3 4 x2 y2 x1 y1 , хотя и  называзаписываемое в  виде 1 2 3 4 x2 y2 ется «произведением», на самом деле является всего лишь сокращённой записью двух выражений x1 и  1 2 y1 , т.е. это сокращённая за1 2 3 4 x2 3 4 y2 пись двух систем уравнений – x1 + 2x2 и  y1 + 2y2 . 3x1 + 4x2 3y1 + 4y2

( ) ( ( )( )

)

( )( ) ( )( )

{

{

Пример 1 4 5 Произведение 1 2 3 4 −2 4 во-первых 1 2 4 = 1 · 4 + 2 · (−2) 3 4 −2 3 · 4 + 4 · (−2) и во-вторых 1 2 5 = 1·5 + 2·4 = 3 4 4 3·5 + 4·4 Поэтому 1 2 4 5 = 0 13 . 3 4 −2 4 4 31

( )(

) является сокращённой формой записи двух выражений:

( )( ) (

) = (40)

( )() (

) (3113) .

( )(

) ( )

Пример 2

( )(

1 2 3 4 5 6 Произведение двух матриц 7 8 9 10 11 12 13 14 15 формой записи четырёх выражений:

k1 l1 m1 n1 k 2 l 2 m2 n2 k 3 l 3 m3 n3

)

является сокращённой

6.МАТРИЦЫ

41


( ( ( (

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

)( ) ( ) )( ) ( ) )( ) ( ) )( ) ( ) k1 k2 k3

k1 + 2k2 + 3k3 4k1 + 5k2 + 6k3 = 7k1 + 8k2 + 9k3 10k1 + 11k2 + 12k3 13k1 + 14k2 + 15k3

l1 l2 l3

l1 + 2l2 + 3l3 4l1 + 5l2 + 6l3 = 7l1 + 8l2 + 9l3 10l1 + 11l2 + 12l3 13l1 + 14l2 + 15l3

m1 m2 m3

m1 + 2m2 + 3m3 4m1 + 5m2 + 6m3 = 7m1 + 8m2 + 9m3 10m1 + 11m2 + 12m3 13m1 + 14m2 + 15m3

n1 + 2n2 + 3n3 4n1 + 5n2 + 6n3 n1 n2 = 7n1 + 8n2 + 9n3 . 10n1 + 11n2 + 12n3 n3 13n1 + 14n2 + 15n3

Поэтому произведение двух первоначальных матриц соответствует матрице

(

k1 + 2k2 + 3k3 4k1 + 5k2 + 6k3 7k1 + 8k2 + 9k3 10k1 + 11k2 + 12k3 13k1 + 14k2 + 15k3

42

l1 + 2l2 + 3l3 4l1 + 5l2 + 6l3 7l1 + 8l2 + 9l3 10l1 + 11l2 + 12l3 13l1 + 14l2 + 15l3

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ

m1 + 2m2 + 3m3 4m1 + 5m2 + 6m3 7m1 + 8m2 + 9m3 10m1 + 11m2 + 12m3 13m1 + 14m2 + 15m3

)

n1 + 2n2 + 3n3 4n1 + 5n2 + 6n3 7n1 + 8n2 + 9n3 . 10n1 + 11n2 + 12n3 13n1 + 14n2 + 15n3


Общий случай Произведение матриц

(

)(

)

a11 a12 ⋯ a1q x11 x12 ⋯ x1r a21 a22 ⋯ a2q и x21 x22 ⋯ x2r , ⋮

⋮ ⋱

ap1 ap2 ⋯ apq

⋮ ⋱

xq1 xq2 ⋯ xqr

записываемое в виде

(

a11 a12 ⋯ a1q a21 a22 ⋯ a2q ⋮

⋮ ⋱

ap1 ap2 ⋯ apq

)(

)

x11 x12 ⋯ x1r x21 x22 ⋯ x2r , ⋮

⋮ ⋱

xq1 xq2 ⋯ xqr

хотя и называется «произведением», в  действительности является всего лишь сокращённой формой записи выражений:

(

a11 a12 ⋯ a1q a21 a22 ⋯ a2q ⋮

⋮ ⋱

ap1 ap2 ⋯ apq

)( ) (

x11 a11 a12 ⋯ a1q x21 , a21 a22 ⋯ a2q ⋮

xq1

⋮ ⋱

ap1 ap2 ⋯ apq

)( ) (

x12 a11 a12 ⋯ a1q x22 , …, a21 a22 ⋯ a2q ⋮

xq2

⋮ ⋱

ap1 ap2 ⋯ apq

)( )

x1r x2r , ⋮

xqr

то есть,

{ {

{

a11x11 + a12x21 + ⋯ + a1q xq1 a11x12 + a12x22 + ⋯ + a1q xq2 a21x11 + a22x21 + ⋯ + a2q xq1 , a21x12 + a22x22 + ⋯ + a2q xq2 , ……… , ⋮

ap1x11 + ap2x21 + ⋯ + apq xq1 a11x1r + a12x2r + ⋯ + a1q xqr a21x1r + a22x2r + ⋯ + a2q xqr ⋮

⋱ ⋮ ap1x1r + ap2x2r + ⋯ + apq xqr

ap1x12 + ap2x22 + ⋯ + apq xq2

.

6.МАТРИЦЫ

43


И напоследок я расскажу об обратных матрицах. −1 1 2 , — Например, матрица 1 2 , обратная к 3 4 3 4 это такая матрица, которая при умножении 1 0 . на 1 2 даёт в результате 3 4 0 1

( )

( )

( )

( )

Пример

( 13 24 ) ( −21,5 −0,51 ) следовательно −2 1 = 1 2 1,5 −0,5 3 4

(

) ( )

+ 2 · 1,5 ( 13 ·· (−2) (−2) + 4 · 1,5

=

1 · 1 + 2 · (−0,5) 3 · 1 + 4 · (−0,5)

)

=

( 10 01 ) ,

−1

.

Общий случай

(

−1

) ( ) ( )

a11 a12 ⋯ a1p Матрицей a21 a22 ⋯ a2p ⋮ ⋱ ⋮

⋮ ⋱ ⋮

ap1 ap2 ⋯ app ap1 ap2 ⋯ app называется такая матрица, результат умножения которой

(

)

a11 a12 ⋯ a1p , обратной к матрице a21 a22 ⋯ a2p ,

a11 a12 ⋯ a1p 1 0 ⋯ 0 a a a 0 1 ⋯ 0 . ⋯ 21 22 2p на равен ⋮

⋮ ⋱ ⋮

ap1 ap2 ⋯ app

⋮ ⋮ ⋱ ⋮

0 0 ⋯ 1

МОЛОДЕЦ, ТЫ ХОРОШО ПОРАБОТАЛА!

НА СЕГОДНЯ ХВАТИТ.

44


И НЕ ЗАБУДЬ КАК СЛЕДУЕТ ПОВТОРИТЬ ПРОЙДЕННЫЙ МАТЕРИАЛ! ВЕДЬ В СЛЕДУЮЩИЙ РАЗ МЫ БУДЕМ ГОВОРИТЬ О ТВОЁМ ДОЛГОЖДАННОМ РЕГРЕССИОННОМ АНАЛИЗЕ!

Àõ, ÷ òî òû äåëàåøü?! Âåäü ýòî ìîÿ ðàáîòà!

РИСА, ДОРОГАЯ…

М БА …СПАСИБО ТЕБЕ БОЛЬШОЕ!

Àõ...

СТАРАЙСЯ!

6.МАТРИЦЫ

45


7. Количественные и качественные данные Все данные можно разделить на измеряемые и неизмеряемые. Измеряемые данные называют количественными данными, а неизмеряемые — качественными данными. Ниже в таблице приведён конкретный пример количественных и качественных данных. ◆ Таблица 1.1. Респондент A B C D :

Прочитано книг Возраст Основное место Пол в месяц (шт.) (лет) чтения 4 20 Электричка Женский 2 19 Дом Мужской 10 18 Кафе Мужской 14 22 Библиотека Женский : : : :   Количественные данные Качественные данные

Существуют приёмы, позволяющие преобразовать количественные данные в качественные, или наоборот, качественные — в количественные. Ниже в табл. 1.2 приведён пример преобразования количественных данных в качественные. ◆ Таблица 1.2. Пример преобразования количественных данных в качественные Респондент A B C D E

Прочитано книг в месяц (шт.) 4 2 10 14 7

Прочитано книг в месяц Мало Мало Много Много Средне

Необходимо помнить, что в процессе преобразования данных исследователь должен сам установить границы категорий «мало», «средне» и «много».

46

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ


Ниже в табл. 1.3 приведён пример преобразования качественных данных в количественные. ◆ Таблица 1.3. Преобразование в 4 колонки Респондент A B C D

Любимое время года Весна Лето Осень Зима

Весна

Лето

Осень

Зима

1 0 0 0

0 1 0 0

0 0 1 0

0 0 0 1

Рассмотрим пример преобразования качественных данных в количественные немного подробнее. На самом деле, преобразование приведённой выше таблицы принято делать так, как показано ниже. ◆ Таблица 1.4. Преобразование в 3 колонки Респондент A B C D

Любимое время года Весна Лето Осень Зима

Весна

Лето

Осень

1 0 0 0

0 1 0 0

0 0 1 0

Точно также, например, колонку «день недели» преобразуют в 6 колонок, колонку «месяц» — в 11 колонок, а «пол» — в 1 колонку. Табл. 1.4 получена исключением из табл. 1.3 колонки «Зима», но на самом деле можно вместо «Зимы» исключить «Весну», или «Лето», или «Осень». Для чего же нужно исключать одну колонку? На это имеются следующие причины: • из математики известно, что, не исключив одну колонку, мы не сможем получить решение, даже проведя, например, регрессионный анализ; • исключение одной колонки не ведёт к потере смысла (например, в табл. 1.4. «Зиме» соответствует комбинация «0–0–0»), и, если говорить откровенно, эта колонка совершенно бесполезна, поэтому рациональнее будет её исключить.

7. Количественные и качественные данные

47


8. Сумма квадратов отклонений, рассеяние, стандартное отклонение Миу и Риса вместе с коллегами по работе пошли в караоке, где они разделились на 2 команды по 5 человек в каждой и стали состязаться в пении. Оценки, полученные каждым участником, приведены в двух следующих таблицах. ◆ Таблица 1.5. Результаты состязания в караоке Команда Миу Участник Баллы Миу 48 Юко 32 Айко 88 Мая 61 Мариэ 71 Средн. балл 60

Команда Рисы Участник Баллы Риса 67 Асука 55 Нана 61 Юки 63 Рэйка 54 Средн. балл 60

Ниже приведены диаграммы, построенные на основе приведённых выше таблиц. Команда Миу

Мариэ Юко

0

10

20

30

Миу

40

50

Мая

60

Айко

70

80

90

100

90

100

Команда Рисы Нана Асука

Юки

Рэйка

0

10

20

30

40

Риса

50

60

70

■ Рис. 1.1. Результаты состязания в караоке

48

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ

80


Средний балл как в команде Миу, так и  в  команде Рисы, оказался одинаковым  — 60  баллов. Однако общие картины существенно отличались. Команда Миу отличалась, так сказать, большей неравномерностью баллов, или, другими словами, «степень разброса» данных была выше. В качестве показателя «степени разброса» данных приняты такие понятия, как сумма квадратов отклонений, дисперсия и среднеквадратичное отклонение (квадратичное отклонение). Все эти показатели характеризуются следующими свойствами: • минимальное значение равно 0; • значение тем больше, чем выше «степень разброса» данных. Сумма квадратов отклонений часто используется для различных методов анализа, в том числе регрессионного, и находится как сумма квадратов разностей каждого из значений данных и среднего арифметического значения. Этот показатель имеет один роковой недостаток — чем больше данных, тем больше его значение, поэтому в качестве показателя разброса данных он используется довольно редко. Дисперсия — это показатель, который исправляет недостаток показателя сумма квадратов отклонений. Он вычисляется как: Сумма квадратов отклонений Количество данных* Среднеквадратичное отклонение (квадратичное отклонение, СКО), имеющее аналогичный дисперсии смысл, вычисляется по формуле: СКО = √ Дисперсия Давайте попробуем найти сумму квадратов отклонений, дисперсию и  среднеквадратичное отклонение для команд Миу и Рисы. ◆ Таблица 1.6. Сумма квадратов отклонений, дисперсия и среднеквадратичное отклонение для команд Миу и Рисы. Команда Миу

Команда Рисы

(48−60)2+(32−60)2+(88−60)2+(61−60)2+ (71−60)2 = (67−60)2+(55−60)2+(61−60)2+(63−60)2+ (54−60)2 = Сумма 2 2 2 2 2 = 72+ (−5)2 + 12 + 32 + (−6)2 = квадратов = (−12) + (−28) + 28 + 1 + 11 = отклонений = 1834 = 120 Дисперсия

1834 = 336,8 5

Квадратичное √ 366,8 = 19,2 отклонение

120 = 24 5 √ 24 = 4,9

* Существует также несмещённая дисперсия, у которой в знаменателе находится не «число данных», а «число данных − 1». Чтобы не перегружать материал данной книги, здесь не рассматривается различие этих двух типов дисперсий.

8. Сумма квадратов отклонений, рассеяние, стандартное отклонение

49


9. Функция плотности вероятности ■ 9.1. Распределение хи-квадрат В статистике часто используется следующая функция плотности вероятности: n x 1 x 2 − 1 e− 2 n ∞ n x > 0, − 1 −x f(x) = 2 2 ∫0 x 2 e dx 0 x ≤ 0, где n - число степеней свободы Если функция плотности вероятности для x соответствует приведённой выше, то в  статистике говорят, что «x подчиняется распределению хи-квадрат с  числом степеней свободы n». Возможно, вы покачаете головой: «А что такое число степеней свободы»? Однако это то же самое, что спрашивать, что такое a в линейной функции f(x)=ax+b. Число степеней свободы — это значение, которое влияет на форму графика и не более того.

{

0,5 0,4 0,3 0,2 0,1 0 0

5

10

15

20

■ График для числа степеней свободы n=2 0,1

0,05

0 0

5

10

15

20

25

30

■ График для числа степеней свободы n=10

50

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ

35

40


Для распределения хи-квадрат в статистике используется таблица распределения хи-квадрат. В этой таблице приведены значения χ2 (горизонтальная ось на рисунке), соответствующие заданным значениям вероятности P (т.е. площади заштрихованной области на приведённом ниже рисунке). Обозначение χ2 читается как «хи-квадрат».

P

χ 2 = f (n, P) Ниже приведена часть таблицы распределения хи-квадрат. ◆ Таблица 1.7. Таблица распределения хи-квадрат P n 1 2 3 4 5 6 7 8 9 10 :

0,995

0,99

0,975

0,95

0,05

0,025

0,01

0,005

0,000039 0,0100 0,0717 0,2070 0,4118 0,6757 0,9893 1,3444 1,7349 2,1558 :

0,0002 0,0201 0,1148 0,2971 0,5543 0,8721 1,2390 1,6465 2,0879 2,5582 :

0,0010 0,0506 0,2158 0,4844 0,8312 1,2373 1,6899 2,1797 2,7004 3,2470 :

0,0039 0,1026 0,3518 0,7107 1,1455 1,6354 2,1673 2,7326 3,3251 3,9403 :

3,8415 5,9915 7,8147 9,4877 11,0705 12,5916 14,0671 15,5073 16,9190 18,3070 :

5,0239 7,3778 9,3484 11,1433 12,8325 14,4494 16,0128 17,5345 19,0228 20,4832 :

6,6349 9,2104 11,3449 13,2767 15,0863 16,8119 18,4753 20,0902 21,6660 23,2093 :

7,8794 10,5965 12,8381 14,8602 16,7496 18,5475 20,2777 21,9549 23,5893 25,1881 :

где n — число степеней свободы Пример Пусть P = 0,05 и число степеней свободы n = 2, тогда χ2 = 5,9915

9. Функция плотности вероятности

51


■ 9.2. F-распределение В статистике также часто упоминается и такая функция плотности вероятности: m n m ∞ m (∫0 x 2 − 1 e−xdx) · m 2 · n 2 x 2 −1 · x > 0, f(x)= (∫∞x m2 − 1 e−xdx) · (∫∞x n2 − 1 e−xdx) (m · x + n) m+n 2 0 0 0 x ≤ 0, где m — первое число степеней свободы, n — второе число степеней свободы Если функция плотности вероятности для x соответствует вышеприведённой, то в статистике говорят, что «x подчиняется F-распределению с первым числом степеней свободы m и вторым числом степеней свободы n».

{

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0

2

4

6

8

10

6

8

10

■ График для m = 5, n = 10 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0

2

4

■ График для m = 10, n = 5

52

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ


Аналогично распределению хи-квадрат, существует таблица F-распределения. В этой таблице приведены значения F (по горизонтальной оси), соответствующие вероятности P (т.е. площади заштрихованной области приведённого ниже графика).

P

F = f (m, n; P)

9. Функция плотности вероятности

53


Ниже приведена часть таблицы F-распределения. ◆ Таблица 1.8. Таблица F-распределения для P = 0,05 m 1 2 3 4 5 6 7 8 9 10 n 1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 2 18,5 19,0 19,2 19,2 19,3 19,3 19,4 19,4 19,4 19,4 3 10,1 9,6 9,3 9,1 9,0 8,9 8,9 8,8 8,8 8,8 4 7,7 6,9 6,6 6,4 6,3 6,2 6,1 6,0 6,0 6,0 5 6,6 5,8 5,4 5,2 5,1 5,0 4,9 4,8 4,8 4,7 6 6,0 5,1 4,8 4,5 4,4 4,3 4,2 4,1 4,1 4,1 7 5,6 4,7 4,3 4,1 4,0 3,9 3,8 3,7 3,7 3,6 8 5,3 4,5 4,1 3,8 3,7 3,6 3,5 3,4 3,4 3,3 9 5,1 4,3 3,9 3,6 3,5 3,4 3,3 3,2 3,2 3,1 10 5,0 4,1 3,7 3,5 3,3 3,2 3,1 3,1 3,0 3,0 11 4,8 4,0 3,6 3,4 3,2 3,1 3,0 2,9 2,9 2,9 12 4,7 3,9 3,5 3,3 3,1 3,0 2,9 2,8 2,8 2,8 : : : : : : : : : : :

.. ‥ ‥ ‥ ‥ ‥ ‥ ‥ ‥ ‥ ‥ ‥ ‥ :

◆ Таблица 1.9. Таблица F-распределения для P = 0,01 m n

1 2 3 4 5 6 7 8 9 10 11 12 :

1 2 3 4 5 6 7 8 9 10 .. 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 ‥ 98,5 99,0 99,2 99,3 99,3 99,3 99,4 99,4 99,4 99,4 ‥ 34,1 30,8 29,5 28,7 28,2 27,9 27,7 27,5 27,3 27,2 ‥ 21,2 18,0 16,7 16,0 15,5 15,2 15,0 14,8 14,7 14,5 ‥ 16,3 13,3 12,1 11,4 11,0 10,7 10,5 10,3 10,2 10,1 ‥ 13,7 10,9 9,8 9,1 8,7 8,5 8,3 8,1 8,0 7,9 ‥ 12,2 9,5 8,5 7,8 7,5 7,2 7,0 6,8 6,7 6,6 ‥ 11,3 8,6 7,6 7,0 6,6 6,4 6,2 6,0 5,9 5,8 ‥ 10,6 8,0 7,0 6,4 6,1 5,8 5,6 5,5 5,4 5,3 ‥ 10,0 7,6 6,6 6,0 5,6 5,4 5,2 5,1 4,9 4,8 ‥ 9,6 7,2 6,2 5,7 5,3 5,1 4,9 4,7 4,6 4,5 ‥ 9,3 6,9 6,0 5,4 5,1 4,8 4,6 4,5 4,4 4,3 ‥ : : : : : : : : : : :

где m — первое число степеней свободы, n — второе число степеней свободы Пример Пусть P = 0,05, первое число степеней свободы m = 2 и второе число степеней свободы n = 12, тогда F(m, n; P) = F (2, 12; 0,05) = 4,7

54

ГЛАВА 1. БАЗОВЫЕ ЗНАНИЯ


ГЛАВА 2

РЕГРЕССИОННЫЙ АНАЛИЗ


1. Что такое регрессионный анализ

ДА, ВЕРНО! РЕ..., РЕГРЕССИОННЫЙ АНАЛИЗ? КАКАЯ ТЫ УМНИЦА!

ОХ ..

.

ЕГО ДЕЛАЮТ ВОТ ТАК?

МИУ!

À õ!

ЧТО С ТОБОЙ?

56


ЧТО ТЫ УСТАВИЛАСЬ НА ЧУЖУЮ ПАРОЧКУ?!

Îòâ

å ÷ àé

!

ИЗ..., ИЗВИНИ...

ОНИ, ПОХОЖЕ, УЧАТСЯ ВМЕСТЕ.

ПУ М

ВЕДЬ И ТЫ ТОЖЕ СТРЕМИШЬСЯ К ЭТОМУ!

Èç

âè

íè

!

ТРАМ ТА РА РАМ СМОТРИ! ХОРОШО ИМ.

СЕГОДНЯ У НАС ТВОЙ ДОЛГОЖДАННЫЙ

ПОЖАЛУЙСТА, НАУЧИ МЕНЯ использовать его.

РЕГРЕССИОННЫЙ АНАЛИЗ! АНАЛИЗ

К ПО

ЛО

Н

1. Что такое регрессионный анализ

57


В ЭТОЙ ТАБЛИЦЕ СВЕДЕНЫ ДАННЫЕ О «МАКСИМАЛЬНОЙ ТЕМПЕРАТУРЕ» И О «числЕ ЗАКАЗОВ ЧАЯ СО ЛЬДОМ».

Число заказов чая со льдом, стаканы

29

77

22-08 (пн.)

ÿèí ä àë õ îç Ìíå èõ àôå. ê

ДАЛеЕ,...

Максимальная температура, °C 23-08 (вт.)

28

62

24-08 (ср.)

34

93 84

25-08 (чт.)

31

26-08 (пт.)

25

59

27-08 (сб.)

29

64

28-08 (вс.)

32

80

29-08 (пн.)

31

75

30-08 (вт.)

24

58

31-08 (ср.)

33

91

01-09 (чт.)

25

51

02-09 (пт.)

31

73

03-09 (сб.)

26

65

04-09 (вс.)

30

84

ЩЁ ЛК

95

Число заказов чая со льдом

ЩЁ ЛК РАСЧЁТЫ Я ОПУЩУ, НО ЗНАЧЕНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ДЛЯ ЭТИХ значений «МАКСИМАЛЬНОЙ ТЕМПЕРАТУРЫ» И «ЧИСЛА ЗАКАЗОВ ЧАЯ СО ЛЬДОМ» СОСТАВЛЯЕТ 0,9069.

100

90 85 80 75 70

Êîýôôèöèåíò êîðåëëÿöèè

65 60 55 50 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Максимальная температура

...ТО ПОЛУЧИТСЯ ВОТ ЧТО.

58

...ЕСЛИ ИЗОБРАЗИТЬ ЭТО НА ГРАФИКЕ,...

Глава 2. Регрессионный анализ

ЯСНО.

ЧЕМ СИЛЬНЕЕ СВЯЗь между ПЕРЕМЕННЫми, ТЕМ БЛИЖЕ К ±1 ЗНАЧЕНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ. ЗНАЧИТ МОЖНО СКАЗАТЬ, ЧТО МЕЖДУ нашИМИ ДАННЫМИ ЕСТЬ ДОВОЛЬНО СИЛЬНАЯ СВЯЗЬ.


ХОтя МНЕ КАЖЕТСЯ, ЧТО ЭТО НАСТОЛЬКО очевидНО...

Короче говоря, ЧЕМ ЖАРЧЕ, ТЕМ ЛУЧШЕ ПРОДАЁТСЯ чай, ПОНЯТНО?

Ðàçóìååòñÿ, ÷ åì æàð ÷ å, òåì ëó ÷ øå áóäåò ïðîäàâàòüñÿ...

АХ ВОТ ОНО ЧТО!

ДА, ТЫ ПРАВА. ЕСЛИ МЫ НАЙДЁМ только ЗНАЧЕНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ЭТИХ ДАННЫХ, ТО ЭТО НАМ МАЛО ЧТО ДАСТ.

А что, МОЖНО СДЕЛАТЬ ЕЩЁ ЧТО-ТО?

КАК Я УЖЕ ГОВОРИЛА, РЕГРЕССИОННЫЙ АНАЛИЗ ПОЗВОЛЯЕТ ПО МАКСИМАЛЬНОЙ ТЕМПЕРАТУРЕ ПРЕДСКАЗАТЬ ЧИСЛО ЗАКАЗОВ ЧАЯ СО ЛЬДОМ. ТЫ МОЖЕШЬ ПРЕДСТАВИТЬ СЕБЕ ТАКОЕ?!

А ЗДЕСЬ как раз ПРИХОДИТ ЧЕРЁД РЕГРЕССИОННОГО АНАЛИЗА!

× àé ñî ëü äî ì !

×à ëüä é ñî îì !

анализ Регрес сионны-й

2+1 1+1++2+ +3

òàê, 31°C

Òà ê, çà íî ñè ì æó ðí àë â

Ñåãîäíÿ âîçäóõ ïðîãðååòñÿ äî 31°C

Ñåãîäíÿ âîçäóõ ïðîãðååòñÿ äî 2 7°C

Д И Д НЬ ОН -

Ñåãîäíÿ çàêàæóò 65 ñòàêàíîâ ÷ àÿ ñî ëüäîì!

ВОТ ЭТО ДА! НО КАК ЖЕ ЭТО ДЕЛАЕТСЯ?

1. Что такое регрессионный анализ

59


Êî í å÷í

Ì îæ òåòð íî à ä ü?

В ОБЩЕМ, В РЕГРЕССИОННОМ АНАЛИЗЕ...

î! …И ВЫГЛЯДИТ она ВОТ ТАК: = + .

y ax b

×èñëî çàêàçîâ ÷àÿ ñî ëüäîì

×èñëî çàêàçîâ ÷àÿ ñî ëüäîì

…ИЩУТ ФОРМУЛУ, КОТОРАЯ НАЗЫВАЕТСЯ УРАВНЕНИЕМ РЕГРЕССИИ РЕГРЕССИИ...

Ìàêñèìàëüíàÿ òåìïåðàòóðà

ПОДСТАВЛЯЯ РАЗЛИЧНЫЕ ЗНАЧЕНИЯ ,...

x

. П.. РИ СК

×èñëî çàêàçîâ ÷àÿ ñî ëüäîì

Äà?!

Ìàêñèìàëüíàÿ òåìïåðàòóðà

60

Глава 2. Регрессионный анализ

...МОЖНО ПРЕДСКАЗЫВАТЬ, ПРИ КАКОЙ ТЕМПЕРАТУРЕ СКОЛЬКО СТАКАНОВ ПРОДАСТСЯ, НЕ ТАК ЛИ?


ДА, ЭТОТ РЕГРЕССИОННЫЙ АНАЛИЗ НЕ ВЫГЛЯДИТ ТАКИМ УЖ СЛОЖНЫМ.

y

КСТАТИ, НАЗЫВАЮТ ЗАВИСИМОЙ ПЕРЕМЕННОЙ или переменной отклика и даже просто ОТКЛИКОМ

Õè-

Îòêëèê

õ è-

x

õè НАКОНЕЦ, букву

Îáúÿñíÿþùàÿ ïåðåìåííàÿ - ОБЪЯСНЯЮЩЕЙ ИЛИ …А, НЕЗАВИСИМОЙ ПЕРЕМЕННОЙ. ПЕРЕМЕННОЙ

a

в уравнении НАЗЫВАЮТ КОЭФФИЦИЕНТОМ РЕГРЕССИИ! РЕГРЕССИИ

ПОНЯТНО. Тогда…

…РАССКАЖИ МНЕ ПОСКОРЕЕ, КАК НАЙТИ УРАВНЕНИЕ РЕГРЕССИИ!

ПОСТОЙ!

РЕГРЕССИОННЫЙ АНАЛИЗ СОСТОИТ НЕ ТОЛЬКО В НАХОЖДЕНИИ УРАВНЕНИЯ РЕГРЕССИИ.

НУЖНО СДЕЛАТЬ ЕЩЁ МНОГО ДРУГОГО: ПРОВЕРИТЬ ТОЧНОСТЬ УРАВНЕНИЯ, ОЦЕНИТЬ ГЕНЕРАЛЬНУЮ СОВОКУПНОСТЬ И ТАК ДАЛЕЕ.

1. Что такое регрессионный анализ

61


2. Конкретный пример регрессионного анализа

ПРОЦЕСС РЕГРЕССИОННОГО АНАЛИЗА СОСТОИТ В СЛЕДУЮЩЕМ...

1. Проверка целесообразности вывода уравнения регрессии с помощью точечных графиков всех объясняющих переменных и отклика

2. Вывод уравнения регрессии

4. Проведение «проверки значимости коэффициента регрессии»

5. Оценка регрессии генеральной совокупности

6. Построение прогноза

62

Глава 2. Регрессионный анализ

Ax + B

Предсказываем

3. Проверка точности уравнения регрессии

Строим предположение о состоянии генеральной совокупности

Коэффициент детерминации


И ЭТО ВСЁ?

ДА, НЕОБХОДИМО ВЫПОЛНИТЬ ШЕСТЬ ЭТАПОВ.

Êîíå ÷ íî, ýòî åñëè ýòàï 6 äåéñòâèòåëüíî íåîáõîäèì.

Я НЕ СОВСЕМ ПОНИМАЮ ЭТАПЫ 1 И 5.

×òî òàêîå ãåíåðàëüíàÿ ñîâîêóïíîñòü?

à âåðê Ïðî ìîñòè ÷è ç í à ý ô ô èêî í ò à öèå å ñèè ðåãð Ðå ã ð ã å í å ññèÿ ñ î â î å ðàë üí î êó ï íîñòé è

А ТЕПЕРЬ ДАВАЙ ПОПРОБУЕМ ПРОВЕСТИ НАСТОЯЩИЙ РЕГРЕССИОННЫЙ АНАЛИЗ ДАННЫХ КАФЕ NORNS.

Я ПОТОМ ВСЁ ПОДРОБНО ОБЪЯСНЮ.

ДАВАЙ!

Откли

Объясняющая переменная

к

1. Проверка целесообразности вывода уравнения регрессии с помощью точечных графиков всех объясняющих переменных и отклика

ПЕРЕМЕННОЙ И ОТКЛИКА!

Число заказов чая со льдом, стаканы 77 62 93 84 59 64 80 75 58 91 51 73 65 84

100 95

ЧИСЛО ЗАКАЗОВ ЧАЯ СО ЛЬДОМ

Максимальная температура, °C 22-08 (пн.) 29 23-08 (вт.) 28 24-08 (ср.) 34 25-08 (чт.) 31 26-08 (пт.) 25 27-08 (сб.) 29 28-08 (вс.) 32 29-08 (пн.) 31 30-08 (вт.) 24 31-08 (ср.) 33 ДЛЯ НАЧАЛА 01-08 (чт.) НАДО 25 02-08 (пт.) 31 ПОСТРОИТЬ ТОЧЕЧНЫЙ 03-08 (суб.) 26 04-08 (вс.) 30 ГРАФИК ОБЪЯСНЯЮЩЕЙ

90 85 80 75 70 65 60 55 50 20 21 22 23 24 25 26 27 28 29 30 31 32 T, °C

ПОНЯТНО. ЭТО ГРАФИК, КОТОРЫЙ ТЫ 33ТОЛЬКО 34 35 ЧТО ПОСТРОИЛА, ДА?

2. Конкретный пример регрессионного анализа

63


ЭТОТ ГРАФИК ПОЗВОЛЯЕТ ПРЕдПОЛОЖИТЬ, ЧТО «МАКСИМАЛЬНАЯ ТЕМПЕРАТУРА» И «ЧИСЛО ЗАКАЗОВ ЧАЯ СО ЛЬДОМ» СИЛЬНО ВЗАИМОСВЯЗАНЫ. ДА И ЗНАЧЕНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ НЕМАЛОЕ ЦЕЛЫХ 0,9069...

ПОЭТОМУ, НЕСОМНЕННО, В ПОИСКЕ УРАВНЕНИЯ РЕГРЕССИИ ЕСТЬ СМЫСЛ!

ОДНАКО... ЗАЧЕМ ВООБЩЕ НУЖЕН ЭТОТ ТОЧЕЧНЫЙ ГРАФИК?

Число заказов чая со льдом

95 90 85 80 75 70 65

ОЧЕНЬ ДАЖЕ НУЖЕН!

60 55

100

100

95

95

Число заказов чая со льдом

Число заказов чая со льдом

50

90 85 80 75 70 65 60 55

ПОЭТОМУ ТОЧЕЧНЫЙ ГРАФИК ИГРАЕТ ВАЖНУЮ РОЛЬ.

90 85 80

y = 0,2õ + 64,5

75 70 65 60 55

50

50 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Максимальная температура

И ЭТО ПОТОМУ, ЧТО ДАЖЕ когда СВЯЗЬ МЕЖДУ ДВУМЯ ПЕРЕМЕННЫМИ ОЧЕВИДНО ОТСУТСТВУЕТ,...

64

Максимальная температура

…МАТЕМАТИКА ВСЁ РАВНО ПОЗВОЛиТ НАМ ВЫВЕСТИ ДЛЯ НИХ УРАВНЕНИЕ РЕГРЕССИИ!

Глава 2. Регрессионный анализ

АХ, ВОТ ОНО ЧТО!


2. Вывод уравнения регрессии

ИТАК, ТЕПЕРЬ МЫ ВЫВЕДЕМ УРАВНЕНИЕ РЕГРЕССИИ!

ОТЛИЧНО!

Íàõîäèì a è b!

МЫ ИЩЕМ ТАКИЕ И , ПРИ КОТОРЫХ сумма квадратов длин этих отрезков (другими словами ОСТАТКов) БУДеТ МИНИМАЛЬНа.

×èñëî çàêàçîâ ÷àÿ ñî ëüäîì

a

b

ЭТО НАЗЫВАЕТСЯ

Ìàêñèìàëüíàÿ òåìïåðàòóðà

ИДЕЯ МЕТОДА СОСТОИТ В СЛЕДУЮЩЕМ.

для этого НАМ НУЖНО ВЫПОЛНИТЬ следующие ШЕСТЬ ШАГОВ.

МЕТОДОМ НАИМЕНЬШИХ КВАДРАТОВ. КВАДРАТОВ

Cумма Cумма Cумма произведений квадратов квадратов отклонений отклоненийx отклоненийy xиy

Шаг 1

Находим

Шаг 2

Находим сумму квадратов остатков Se .

Шаг 3

Находим производные от Se по приравниваем их к 0.

Шаг 4

Упорядочиваем результаты Шага 3.

Шаг 5

Упорядочиваем результаты Шага 4.

Шаг 6

Находим уравнение регрессии.

Sxx ,

Syy

и

Sxy .

МНЕ ВСЁ ЯСНО, но как это сделать!

a и по b,

2. Конкретный пример регрессионного анализа

65


Давай ПОЙДЁМ ПО ПОРЯДКУ, НАЧИНАЯ С ШАГА 1.

Õîðîøî!

Шаг 1 Ищем: • Sxx — сумму квадратов отклонений x; • Syy — сумму квадратов отклонений y; • Sxy — сумму произведений отклонений x и y. Максимальная Число заказов температура чая со льдом x y

66

x−x

y−y

(x − x)2

(y − y)2

(x − x) (y − y)

22-08 (пн.)

29

77

−0,1

4,4

0,0

19,6

−0,6

23-08 (вт.)

28

62

−1,1

−10,6

1,3

111,8

12,1

24-08 (сд.)

34

93

4,9

20,4

23,6

417,3

99,2

25-08 (чт.)

31

84

1,9

11,4

3,4

130,6

21,2

26-08 (пт.)

25

59

−4,1

−13,6

17,2

184,2

56,2

27-08 (сб.)

29

64

−0,1

−8,6

0,0

73,5

1,2

28-08 (вс.)

32

80

2,9

7,4

8,2

55,2

21,2

29-08 (пн.)

31

75

1,9

2,4

3,4

5,9

4,5

30-08 (вт.)

24

58

−5,1

−14,6

26,4

212,3

74,9

31-08 (ср.)

33

91

3,9

18,4

14,9

339,6

71,1

01-09 (чт.)

25

51

−4,1

−21,6

17,2

465,3

89,4

02-09 (пт.)

31

73

1,9

0,4

3,4

0,2

0,8

03-09 (сб.)

26

65

−3,1

−7,6

9,9

57,3

23,8

04-09 (вс.)

30

84

0,9

11,4

0,7

130,6

9,8

Всего

408

1016

0

0

129,7

2203,4

484,9

Средн. арифм.

29,1

72,6

Sxx

Syy

Sxy

x

y

Глава 2. Регрессионный анализ


Шаг 2 Выполняем вычисления по нижеприведённой таблице. Значения y в этой таблице называются фактическими значениями (или измеренными значениями). Значения ŷ = ax + b в этой таблице называются ожидаемыми значениями (или прогнозируемыми значениями). Разность (y − ŷ) называется остатком и обычно обозначается буквой «e»

x

Число заказов чая со льдом y

22-08 (пн.)

29

77

a · 29 + b

77 − (a · 29 + b)

{77 − (a · 29 + b)}2

23-08 (вт.)

28

62

a · 28 + b

62 − (a · 28 + b)

{62 − (a · 28 + b)}2

24-08 (ср.)

34

93

a · 34 + b

93 − (a · 34 + b)

{93 − (a · 34 + b)}2

25-08 (чт.)

31

84

a · 31 + b

84 − (a · 31 + b)

{84 − (a · 31 + b)}2

26-08 (пт.)

25

59

a · 25 + b

59 − (a · 25 + b)

{59 − (a · 25 + b)}2

27-08 (сб.)

29

64

a · 29 + b

64 − (a · 29 + b)

{64 − (a · 29 + b)}2

28-08 (вс.)

32

80

a · 32 + b

80 − (a · 32 + b)

{80 − (a · 32 + b)}2

29-08 (пн.)

31

75

a · 31 + b

75 − (a · 31 + b)

{75 − (a · 31 + b)}2

30-08 (вт.)

24

58

a · 24 + b

58 − (a · 24 + b)

{58 − (a · 24 + b)}2

31-08 (ср.)

33

91

a · 33 + b

91 − (a · 33 + b)

{91 − (a · 33 + b)}2

01-09 (чт.)

25

51

a · 25 + b

51 − (a · 25 + b)

{51 − (a · 25 + b)}2

02-09 (пт.)

31

73

a · 31 + b

73 − (a · 31 + b)

{73 − (a · 31 + b)}2

03-09 (сб.)

26

65

a · 26 + b

65 − (a · 26 + b)

{65 − (a · 26 + b)}2

04-09 (вс.)

30

84

a · 30 + b

84 − (a · 30 + b)

{84 − (a · 30 + b)}2

Сумма

408

1016

408a + 14b

1016 − (408a + 14b)

Se

29,1

72,6

29,1a + b = = xa + b

72,6 − (29,1a + b) = = y − (xa + b)

Se /14

x

y

Максимальная температура

Среднее арифме тическое

Ожидаемое число заказов чая со льдом

y−ŷ

(y − ŷ)2

ŷ = ax+b

Se = {77 − (a · 29 + b)}2 + … + {84 − (a · 30 + b)}2

Cумма всех значений (y − ŷ)2 , т.е. сумма всех e2, называется суммой квадратов остатков и обычно обозначается Se.

2. Конкретный пример регрессионного анализа

67


Шаг 3 Дифференцируем Se по a и по b, приравниваем результат к 0. ■ Дифференцируем по a. dSe = 2 {77 − (29a + b)} · (−29) + … + 2 {84 − (30a + b)} · (−30) = 0 da ■ Дифференцируем по b. dSe = 2 {77 − (29a + b)} · (−1) + … + 2 {84 − (30a + b)} · (−1) = 0 db

(1)

(2)

Шаг 4 Упорядочиваем результаты (1) и (2) шага 3. ■ Упорядочиваем (1). 2{77 − (29a + b)} · (−29) + … + 2{84 − (30a + b)} · (−30) = 0 Домножаем левую и правую части на 1/2 {77 − (29a + b)} · (−29) + … + {84 − (30a + b)} · (−30) = 0 Избавляемся от минусов 29{(29a + b) − 77} + … + 30{(30a + b) − 84} = 0 (29 · 29a + 29 · b − 29 · 77) + … + (30 · 30a + 30 · b − 30 · 84) = 0 (292 + … + 302)a + (29 + … + 30)b − (29 · 77 + … + 30 · 84) = 0

(3)

■ Упорядочиваем (2). 2{77 − (29a + b)} · (−1) + … + 2{84 − (30a + b)} · (−1) = 0 Домножаем левую и правую части на 1/2 {77 − (29a + b)} · (−1) + … + {84 − (30a + b)} · (−1) = 0 Избавляемся от минусов {(29a + b) − 77} + … + {(30a + b) − 84} = 0 (29 + … + 30)a + b + … + b − (77 + … + 84) = 0  14

(29 + … + 30)a + 14b − (77 + … + 84) = 0 Переносим члены: 14b = (77 + … + 84) − (29 + … + 30)a Оставляем слева только b : 77 + … + 84 − 29 + … + 30 a b= 14 14 Мы получили справа средние значения x и y (см. таблицу шага 2): b = y − xa.

68

Глава 2. Регрессионный анализ

(4) (5)


Шаг 5 Подставляем выражение (4)шага 4 (будьте внимательны — выражение (4), а не (5)!) в выражение (3) шага 4. (292 + … + 302)a +(29 + … + 30)

( 77 + …14 + 84 − 29 + …14 + 30 a) − (29 · 77 + … + 30 · 84) = 0

(29 + … + 30)(77 + … + 84) (29 + … + 30)2 − a − (29 · 77 + … + 30 · 84) = 0 14 14 (29 + … + 30)2 (29 + … + 30)(77 + … + 84) (292 + … + 302) − a+ − (29 · 77 + … + 30 · 84) = 0 14 14

(292 + … + 302)a +

{ } {(29 + … + 30 ) − (29 + …14 + 30) } a = (29 · 77 + … + 30 · 84) − 2

2

2

 Вынесли a за скобки

(29 + … + 30)(77 + … + 84) 14

 Перенесли члены

Упорядочение левой части

(29 + … + 30)2 14 (29 + … + 30)2 (29 + … + 30)2 2 2 = (29 + … + 30 ) − 2 · + ← Сравните со строкой выше 14 14 29 + … + 30 29 + … + 30 2 = (292 + … + 302) − 2 · (29 + … +30) · + · 14 14 14 2

(29 + … + 302) −

(

)

= (292 + … + 302) − 2 · (29 + … +30) · x + (x)2 · 14 ← x = (29 + … + 30)/14 = (292 + … + 302) − 2 · (29 + … +30) · x + (x)2 + … + (x)2

 14

= {292 − 2 · 29 · x + (x)2} + … + {302 − 2 · 30 · x + (x)2} = (29 − x )2 + … + (30 − x)2 = Sxx

Упорядочение правой части

(29 + … + 30)(77 + … + 84) 14 29 + … + 30 77 + … + 84 = (29 · 77 + … + 30 · 84) − · · 14 14 14 = (29 · 77 + … + 30 · 84) − x · y · 14 = (29 · 77 + … + 30 · 84) − x · y · 14 − x · y · 14 + x · y · 14 ← Сравните со строкой выше 29 + … + 30 77 + … + 84 = (29 · 77 + … + 30 · 84) − · y · 14 − x · · 14 + x · y · 14 14 14 = (29 · 77 + … + 30 · 84) − (29 + … + 30)y − x(77 + … + 84) + x · y · 14 = (29 · 77 + … + 30 · 84) − (29 + … + 30)y − (77 + … + 84)x + x · y + … + x · y (29 · 77 + … + 30 · 84) −

 14

= (29 · 77 − 29y − 77x + x · y) + … + (30 · 84 − 30y − 84x + x · y) = (29 − x)(77 − y) + … + (30 − x)(84 − y) = Sxy

Sxx a = Sxy a = Sxy ← Оставили в левой части только a Sxx

2. Конкретный пример регрессионного анализа

(6)

69


Шаг 6 Находим уравнение регрессии. Sxy . Sxx b = y − x a.

Согласно формуле (6)

a=

Согласно формуле (5)

Используя значения из шага 1 получаем:

{

a = Sxy = 484,9 = 3,7 , Sxx 129,7 b = y − xa = 72,6 − 29,1 · 3,7 = −36,4 .

Таким образом, уравнение регрессии будет иметь вид: y = 3,7x − 36,4 .

a

×èñëî çàêàçîâ ÷àÿ ñî ëüäîì

{

a = Sxy Sxx b = y − xa

НЕ ТОЛЬКО В НАШЕМ ПРИМЕРЕ, А ВООБЩЕ ВСЕГДА!

Ìàêñèìàëüíàÿ òåìïåðàòóðà ЗНАЧИТ, УРАВНЕНИЕ РЕГРЕССИИ БУДЕТ = 3,7 − 36,4 !

y

x

ТЫ СЛАВНО ПОТРУДИЛАСЬ!

70

b

В общем случае ЗНАЧЕНИЯ И для УРАВНЕНИЯ РЕГРЕССИИ МОГУТ БЫТЬ НАЙДЕНЫ ПО ФОРМУЛАМ:

Глава 2. Регрессионный анализ

è îìí Ç à ï å í ü êî! ø õîðî


÷àÿ ñî ëüäîì

ТО, О ЧЁМ Я СЕЙЧАС СКАЖУ, ПРЯМОГО ОТНОШЕНИЯ К РАСЧЁТАМ НЕ ИМЕЕТ, НО ОЧЕНЬ ВАЖНО.

×èñëî çàêàçîâ

Скажи-ка МИУ, ЧЕМУ РАВНЫ СРЕДНИЕ АРИФМЕТИЧЕСКИЕ ЗНАЧЕНИЯ МАКСИМАЛЬНОЙ ТЕМПЕРАТУРЫ И ЧИСЛА ЗАКАЗОВ ЧАЯ СО ЛЬДОМ?

Ìàêñèìàëüíàÿ .

òåìïåðàòóðà

Êõ

Òà ê . .

Ï ðà

âäà ?

å УРАВНЕНИЕ РЕГРЕССИИ ВСЕГДА ПРОХОДИТ ЧЕРЕЗ ТОЧКУ ( , ).

x y

29,1 И 72,6.

УРАВНЕНИЕ РЕГРЕССИИ ...

…МОЖНО ПРЕОБРАЗОВАТЬ ТАК, ВЕРНО?

 ñï îì íè ô îð ì óë ó (5) ø àã à 4.

ДА.

Ïîäñòàâëÿåì x âìåñòî x

УРХ Х-Ш ШУР

ЕСЛИ В КАЧЕСТВЕ в ЭТОм ВЫРАЖЕНИи ПОДСТАВИТЬ ...

x

x

Я ПОНЯЛА. ЯСНО?

2. Конкретный пример регрессионного анализа

71


3. Проверка точности уравнения регрессии

Коэффициент детерминации?

ИТАК, СЕЙЧАС МЫ БУДЕМ ПРОВЕРЯТЬ, НАСКОЛЬКО ТОЧНЫМ ЯВЛЯЕТСЯ УРАВНЕНИЕ РЕГРЕССИИ, КОТОРОЕ МЫ ТОЛЬКО ЧТО НАШЛИ.

А ЧТО ТАКОЕ ТОЧНОСТЬ УРАВНЕНИЕЯ РЕГРЕССИИ?

Вымышленные данные и найденное для них уравнение регрессии

100

100

95

95

Число заказов чая со льдом

Число заказов чая со льдом

Наши данные и уравнение регрессии

90 85 80

y = 3,7x - 36,4

75 70 65 60

90 85 80 75 70 65 60 55

55

50

50 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Максимальная температура

Максимальная температура

ПОПРОБУЙ СРАВНИТЬ ЭТИ ДВА ГРАФИКА.

ТАК... НАПРИМЕР, НАКЛОН ЛЕВОГО ГРАФИКА БОЛЬШЕ, ДА?

ТАК...

ÿ í ýòî å îá ì .. .

НУ, ЕЩЁ МОЖНО СКАЗАТЬ, ЧТО НА ЛЕВОМ ГРАФИКЕ УРАВНЕНИЕ РЕГРЕССИИ ЛУЧШЕ СОВПАДАЕТ С ТОЧКАМИ.

А БОЛЬШЕ ТЫ НИЧЕГО НЕ ЗАМЕТИЛА?

72

Глава 2. Регрессионный анализ

ДА, ИМЕННО!


НО ВЕДЬ ПРОВЕРКА ТОЧНОСТИ ТОЛЬКО ЛИШЬ ПО ГРАФИКУ -

ГОВОРЯТ ТАК: ЧЕМ ЛУЧШЕ УРАВНЕНИЕ РЕГРЕССИИ СОВПАДАЕТ С ТОЧКАМИ, ТЕМ ВЫШЕ ТОЧНОСТЬ УРАВНЕНИЯ РЕГРЕССИИ.

ЭТО СЛИШКОМ СУБЪЕКТИВНО И НЕНАДЁЖНО, НЕ ТАК ЛИ?

À çäåñü íåìíîãî ðûõëî.

Çäåñü äîâîëüíî ïëîòíî.

ВОТ КАК?

ДА, ТЫ ПРАВА.

И ЗДЕСЬ ПРИШЛО ВРЕМЯ РАССКАЗАТЬ О КОЭФФИЦИЕНТЕ МНОЖЕСТВЕННОЙ КОРРЕЛЯЦИИ! КОРРЕЛЯЦИИ

÷ íî Åãî îáû þò à ÷ à í ç î îá R! áóêâîé

О КОЭФФИЦИЕНТЕ

ОДНАКО НА САМОМ ДЕЛЕ ЭТО ПРОСТО КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ МЕЖДУ ФАКТИЧЕСКИМИ ( )

МНОЖЕСТВЕННОЙ КОРРЕЛЯЦИИ?

y ŷ

И ОЖИДАЕМЫМИ ( ) ЗНАЧЕНИЯМИ.

ЭТО ПОКАЗАТЕЛЬ, ОПИСЫВАЮЩИЙ ТОЧНОСТЬ УРАВНЕНИЯ РЕГРЕСИИ, ТО ЕСТЬ НАСКОЛЬКО ХОРОШО УРАВНЕНИЕ РЕГРЕССИИ СОВПАДАЕТ С исходными ТОЧКАМИ.

ДА?!

2. Конкретный пример регрессионного анализа

73


ФОРМУЛА ВЫГЛЯДИТ ТАК.

ñóììà ïðîèçâåäåíèé îòêëîíåíèé y è ŷ ñóììà êâ. îòêë. y × ñóììà êâ. îòêë. ŷ ß ïîíÿëà!

Это процесс расчёта, да?

Фактичес- Ожидаемые кие зназначения чения y ŷ = 3,7x − 36,4 22-08 (пн.)

y−y

ŷ−ŷ

(y − y) 2

(ŷ − ŷ)2 0,3

77

72,0

4,4

−0,5

19,6

23-08 (вт.)

62

68,3

−10,6

−4,3

111,8

24-08 (ср.)

93

90,7

20,4

18,2

417,3

25-08 (чт.)

84

79,5

11,4

6,9

130,6

(y − y) · · (ŷ − ŷ) −2,4

24,6

18,2

45,2

39,7

329,6

370,9

5,2

48,2

79,3

20,1

26-08 (пт.)

59

57,1

−13,6

−15,5

184,2

239,8

210,2

3,7

27-08 (сб.)

64

72,0

−8,6

−0,5

73,5

0,3

4,6

64,6

28-08 (вс.)

80

83,3

7,4

10,7

55,2

114,1

79,3

10,6

29-08 (пн.)

75

79,5

2,4

6,9

5,9

48,2

16,9

20,4

30-08 (вт.)

58

53,3

−14,6

−19,2

212,3

369,5

280,1

21,6

31-08 (ср.)

91

87,0

18,4

14,4

339,6

207,9

265,7

16,1

01-09 (чт.)

51

57,1

−21,6

−15,5

465,3

239,8

334,0

37,0

02-09 (пт.)

73

79,5

0,4

6,9

0,2

48,2

3,0

42,4

03-09 (сб.)

65

60,8

−7,6

−11,7

57,3

138,0

88,9

17,4

04-09 (вс.)

84

75,8

11,4

3,2

130,6

10,3

36,6

67,6

Всего

1016

1016

0

0

2203,4

1812,3

1812,3

391,1

Средн. арифм.

72,6

72,6

Syy

Sŷŷ

Syŷ

Se

y

ŷ

Этот столбец не используется для вычисления R, но понадобится нам в дальнейшем.

74

(y − ŷ) 2

Глава 2. Регрессионный анализ


ДАЛЕЕ, КОЭФФИЦИЕНТ МНОЖЕСТВЕННОЙ КОРЕЛЛЯЦИИ В КВАДРАТЕ НАЗЫВАЮТ КОЭФФИЦИЕНТОМ Ìåíÿ òîæå ДЕТЕРМИНАЦИИ, ИЛИ ДЕТЕРМИНАЦИИ çîâóò КОЭФФИЦИЕНТОМ Ìåíÿ çîâóò êîýôôè öèåíò ìíîæåñêîýôôè öèåíò СМЕШАННОЙ òâåííîé ìíîæåñ òâåííîé КОРРЕЛЯЦИИ. КОРРЕЛЯЦИИ êîððåëÿöèè. êîððåëÿöèè. ЕГО ПРИНЯТО ОБОЗНАЧАТЬ

УДИВИТЕЛЬНО ИМЯ МЕНЯЕТСЯ ПРИ ВОЗВЕДЕНИИ В КВАДРАТ.

À ìåíÿ çîâóò êîýôôèöèåíò äåòåðìèíàöèè.

R2 .

КОЭФФИЦИЕНТ 2 ДЕТЕРМИНАЦИИ МОЖЕТ ПРИНИМАТЬ ЗНАЧЕНИЯ ОТ 0 ДО 1.

А ПРИ КАКИХ ЗНАЧЕНИЯХ МОЖНО СКАЗАТЬ, ЧТО ТОЧНОСТЬ ВЫСОКА?

R

ЧЕМ ВЫШЕ ТОЧНОСТЬ УРАВНЕНИЯ РЕГРЕССИИ, ТЕМ Коэффициент детерминации БЛИЖЕ К 1, А ЧЕМ НИЖЕ, ТЕМ БЛИЖЕ К 0.

А ТЕПЕРЬ ПОПРОБУЙ САМА ВЫЧИСЛИТЬ КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ.

Çà çà ïèñà ïè ò ñà ü, òü !

…НО В КАЧЕСТВЕ ОРИЕНТИРА МОЖНО ПРИНЯТЬ ЗНАЧЕНИЕ «БОЛЬШЕ 0,5».

К СОЖАЛЕНИЮ, В СТАТИСТИКЕ ТАКОГО КРИТЕРИЯ НЕ СУЩЕСТВУЕТ,…

0,8225. ПРАВИЛЬНО? ЯСНО.

ХОРОШО.

2. Конкретный пример регрессионного анализа

75


к оэ де те ф фи ци е рмин нт а ци и

×èñëî çàêàçîâ ÷àÿ ñî ëüäîì

ОН НЕ ПРОСТО «БОЛЬШЕ 0,5», а ДОВОЛЬНО БЛИЗОК К 1. ЗНАЧИТ МОЖНО СКАЗАТЬ, ЧТО ТОЧНОСТЬ НАЙДЕННОГО УРАВНЕНИЯ РЕГРЕССИИ ВЕСЬМА ВЫСОКА.

Óð

à!

Ìàêñèìàëüíàÿ òåìïåðàòóðà

Êîýôôèöèåíò äåòåðìèíàöèè

Êîýôôèöèåíò ìíîæåñòâåííîé êîððåëÿöèè ЗНАЧИТ, МЫ УЖЕ ПРОШЛИ ПЕРВЫЕ ТРИ ЭТАПА РЕГРЕССИОННОГО АНАЛИЗА!

КРОМЕ ТОГО, ВЫПОЛНЯЮТСЯ ВОТ ТАКИЕ СООТНОШЕНИЯ. ДЛЯ ЭКОНОМИИ ВРЕМЕНИ Я НЕ БУДУ ПОКАЗЫВАТЬ, КАК ОНИ ВЫВОДЯТСЯ.

ХОРОШО!

Ь СТ У ХР ДА, но Я ВЕДЬ ТОГДА НЕ СМОГЛА ПОНЯТЬ, ЧТО ТАКОЕ ЭТА ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ.

А ТЕПЕРЬ МЫ БУДЕМ СТРОИТЬ ПРЕДПОЛОЖЕНИЕ О СОСТОЯНИИ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ!

ПОНЯТНО. ТОГДА ДАВАЙ Я НАЧНУ ОБЪЯСНЕНИЕ С НЕЁ.

АХ...

76

Глава 2. Регрессионный анализ


ВЗГЛЯНИ ЕЩЁ РАЗ НА ДАННЫЕ!

Максималь- Число заказов ная темпе- чая со льдом, ратура, °C стаканы 22-08 (пн.) 29 77 23-08 (вт.) 28 62 24-08 (ср.) 34 93 25-08 (чт.) 31 84 26-08 (пт.) 25 59 27-08 (сб.) 29 64 28-08 (вс.) 32 80 29-08 (пн.) 31 75 30-08 (вт.) 24 58 31-08 (ср.) 33 91 01-09 (чт.) 25 51 02-09 (пт.) 31 73 03-09 (сб.) 26 65 04-09 (вс.) 30 84

Число заказов чая со льдом

ВЕРНО.

25-08 29-08 02-09

СКОЛЬКО ВСЕГО БЫЛО ДНЕЙ С МАКСИМАЛЬНОЙ ТЕМПЕРАТУРОЙ, НАПРИМЕР,

31°С?

ТАК...

25-08, 29-08 И 02- 09. ТРИ ДНЯ.

НА ГРАФИКЕ ЭТО ВЫГЛЯДИТ ТАК.

Максима льная температура

А ТЕПЕРЬ ПОРАЗМЫСЛИ.

ДНЕЙ С МАКСИМАЛЬНОЙ ТЕМПЕРАТУРОЙ 31°С НА САМОМ ДЕЛЕ ГОРАЗДО БОЛЬШЕ.

ТАКИХ ДНЕЙ БЫЛО МНОГО В ПРОШЛОМ, МНОГО БУДЕТ И в БУДУЩЕМ.

29 авг.

25 авг.

ДА, РАЗУМЕЕТСЯ.

2 сен.

77


Генеральная совокупность 29 Авг. ДРУГИМИ СЛОВАМИ...

Извлекаем значения

Дни с максимальной температурой 31°С 25 Авг.

25 Авг.

2 Сен

чая зов акадом з о ь л Чис со л

çî â çàêüàäîì î ë ñ ë × è à ÿ ñî ÷

Выборка

Ма темкси п е ма л р а ьн ту ая ра

Òî ÷ êè äëÿ äíåé ñ îäèíàêîâûì ÷ èñëîì çàêàçîâ ÿ íàãðîìîçäèëà äðóã íà äðóãà.

8 -0 25 08 29 -09 02

àÿ ëüí ìà ò ó ð à êñ è ð à Ìàòåìïå

25-08, 29-08 И 02-09 - ЭТО ДНИ, КОТОРЫЕ МЫ ПРОСТО, ПО СТЕЧЕНИЮ ОБСТОЯТЕЛЬСТВ, ВЫБРАЛИ ИЗ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ «ДНИ С МАКСИМАЛЬНОЙ ТЕМПЕРАТУРОЙ 31°С».

29 Авг. 2 Сен

в а зо закьдом о л л Чисая со ч 25 -08 29 Ма -08 0 2 - 09 темкси п е ма л р а ьн ту ая ра

ОГО!

Генеральная совокупность Выборка Дни с максиГенеральная мальной темпе8 Выборка 22-0 7-08 совокупность ратурой 29°C 2 Выборка Генеральная 23-08 Дни с максисовокупность мальной темпеом д ь 04-09 л ратурой 30°C Выборка Дни с максисо мальной темпеГенеральная совокупность чая в 03-09 ратурой 26°C зо Выборка Дни с максиа ка Генеральная оз мальной темпел с совокупность 28-08 ратурой 32°C Чи 3 0-0 04 26 0 Генеральная Выборка Дни с макси- 09 22 8 -08 3-09 3 1 08 совокупность мальной темпе-08 08 25 ратурой 25°C 26- 01-09 Выборка 01 -08 Дни с макси24 - 09 23 Генеральная 2 08 -08 мальной темпе27 9-0 28совокупность 0 0 31-08 0 8 2 8 ратурой 33°C Ма 8 - 09 Генеральная кс и Выборка Дни с максима совокупность л ьн мальной темпеая 30-08 Выборка ратурой 24°C Дни с максите м п ер мальной темпеат у 24-08 ратурой 34°C ра Генеральная совокупность Дни с максимальной температурой 28°C

ТО ЖЕ САМОЕ МОЖНО СКАЗАТЬ И ПРО ДРУГИЕ ДНИ!

МНЕ КАЖЕТСЯ, ЧТО Я ПОНЯЛА, ЧТО ТАКОЕ ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ.

78

Глава 2. Регрессионный анализ

ПРАВДА?

ОТЛИЧНО! ТОГДА ИДЁМ ДАЛЬШЕ!


ДЛЯ ПРОВЕДЕНИЯ РЕГРЕССИОННОГО АНАЛИЗА ТРЕБУЕТСЯ, СТРОГО ГОВОРЯ, ПОСТРОЕНИЕ ГИПОТЕЗЫ.

НАПРИМЕР, ВОТ ТАКОЙ!

Гипотеза Среднее арифметическое числа заказов чая со льдом в день с максимальной температурой x°C составляет Ax + B, а их распределение подчиняется закону нормального распределения со среднеквадратичным отклонением σ (сигма).

СМЫСЛ ОБОЗНАЧЕНИЙ Я РАЗЪЯСНЮ ПОТОМ, А ДЛЯ НАЧАЛА ОБРАТИ ВНИМАНИЕ НА САМУ ЭТУ ГИПОТЕЗУ!

ñëî ×è

ì üäî ë ñî àÿ ÷ çîâ à ê çà Îäèíà ê ôîðìîàâàÿ

КОРОЧЕ ГОВОРЯ, ФОРМА НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ЧИСЛА ЗАКАЗОВ ЧАЯ СО ЛЬДОМ В ДЕНЬ С МАКСИМАЛЬНОЙ ТЕМПЕРАТУРОЙ °C

Ìàêñè òåìïå ìàëüíàÿ ðàò ó ðà

x

АБСОЛЮТНО ОДИНАКОВА ДЛЯ ЛЮБЫХ ЗНАЧЕНИЙ .

x

79


ДА... ТЫ СОВЕРШЕННО ПРАВА...

АБСОЛЮТНО ОДИНАКОВА...?

å íû ä î ë è Õî äí

å êè à ð íè Æ ä

À ìíå êàæåòñÿ, ÷ òî ýòà ôîðìà âñ¸-òàêè çàâèñèò îò ìàêñèìàëüíîé òåìïåðàòóðû...

А ТАКОЕ ВООБЩЕ ВОЗМОЖНО?

Äà, òåáÿ íå ïðî âåä ¸ øü...

УГУ.

Х У …

НО В РЕГРЕССИОННОМ АНАЛИЗЕ принято ТАКОЕ ПРАВИЛО: НАДО ПОВЕРИТЬ В ТО, ЧТО ФОРМА НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ОДИНАКОВА И В ЖАРУ, И В ХОЛОД!

. . . ШУ ПРИМИ ЭТО КАК неизбежность.

КСТАТИ, ХОРОШО!

Ax B

+ НАЗЫВАЮТ РЕГРЕССИЕЙ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ. СОВОКУПНОСТИ

Í àä î ïîâåðèòü

(р генеегрессия сово ра льн к уп н о й о с ти )

80

Глава 2. Регрессионный анализ

ßñ

íî

!


4. Проведение «проверки значимости коэффициента регрессии»

ПОДРОБНО ОБЪЯСНЯТЬ Я НЕ БУДУ, ПОТОМУ ЧТО ЭТО СЛИШКОМ СЛОЖНО.

ТЕПЕРЬ РАССКАЖУ ПРО И , А ТАКЖЕ ПРО .

A

B

σ

Åñëè íàéäåííîå óðàâíåíèå ðåãðåññèè èìååò âèä

В СТАТИСТИКЕ ПРО , И принято считать СЛЕДУЮЩЕЕ:

A B

σ

òî äëÿ ðåãðåññèè ãåíåðàëüíîé ñîâîêóïíîñòè ≈ Âåäü ý ò î -æ í àä î!

≈ ≈

ТЕПЕРЬ, ЧТО ТАМ НАСЧЁТ НАШИХ ДАННЫХ?

NÂÛÁ

Óðà ð å ã ð âíåíèå åññè è • A ≈ 3,7 • B ≈ −36,4 ТАК, УРАВНЕНИЕ РЕГРЕССИИ имеЛО вид = 3,7 − 36,4, ЗНАЧИТ...

y

•σ≈

391,1 = 14 − 2

x

правильно?

Óð ð å ã àâíåí ð å ñ èå ñèè Ð ãåíååãðåññè ñîâî ðàëüí ÿ ê ï óïí îé ãäå- ðîõîäè îñòè òî ç ò äåñü ?

391,1 = 5,7 12

.

ДА, ПРАВИЛЬНО, но…

2. Конкретный пример регрессионного анализа

81


…«ПРИМЕРНО РАВНО» ЗВУЧИТ КАК-ТО СЛИШКОМ РАСПЛЫВЧАТО.

ОДНАКО...

А ИНАЧЕ НЕЛЬЗЯ. ВЕДЬ В СТАТИСТИКЕ НЕТ ТАКИХ МЕТОДОВ, КОТОРЫЕ БЫ ПОЗВОЛИЛИ УЗНАТЬ ТОЧНЫЕ ЗНАЧЕНИЯ , И .

A B

σ

æí î, íå Âå äü ýò î íå âîç ìî ê ëè? òà

БО …МЫ МОЖЕМ УЗНАТЬ, РАВНО ИЛИ НЕТ ЗНАЧЕНИЕ ВООБЩЕ НУЛЮ!

A

ВЕДЬ ЕСЛИ = 0, ...

…………

A

ЭТО ОЧЕНЬ ВАЖНО, ПОЭТОМУ ЗАПОМНИ!

82

- оМ

Глава 2. Регрессионный анализ


…ТО ПОЛУЧИТСЯ ВОТ ЧТО!

Гипоте за

Средн ее ари з ф с макасказов чая метическо состав има льнойсо льдом ве числа распре ляет B (в температ день ме ур д нормеаление подсто Аx + Bой x°C ), льного чиняет со с с я з а их ра отклореднеквадрспределениакону н ен и е м σ («атичным я сигма »). АХ...

Чи

сл

ак оз

а зо

а вч

о яс

льд

ом

ax + b

Ч

о ис л

за к

а зо

с ая вч

ол

ьдо

м

Уравнение регрессии проходит здесь

Ма

кс и

ма л

ьна

я те мпе ра

Ax + B Регрессия генеральной совокупности проходит примерно здесь т ур

А КАК МЫ МОЖЕМ УЗНАТЬ, что ‡ 0,

A

A = 0?

кс и

ма л

ьн а

я те мп

ax + b Уравнение регрессии проходит здесь

ера т ур Регрес а сия гB ен ера с о в л ок упн прохо ьн о й о дит пр с имернти о здес ь

а

В ОБЩЕМ, КАКАЯ БЫ НИ БЫЛА МАКСИМАЛЬНАЯ ТЕМПЕРАТУРА, ЧИСЛО ЗАКАЗОВ БУДЕТ ВСЁ ВРЕМЯ ОДИНАКОВЫМ!

ИЛИ ЖЕ

Ма

î, í å âà æ í È ñî âñ å ì ï å ð à ò ó ð à ! åì êà êàÿ ò

ИТАК, ДАВАЙ ПОПРОБУЕМ ЕГО ПРОВЕСТИ, ПРИНЯВ УРОВЕНЬ ЗНАЧИМОСТИ РАВНЫМ 0,05.

ДАВАЙ!

ости проверка значим коэффициента регрессии В ЭТОМ НАМ ПОМОЖЕТ «проверка значимости коэффи циента регрессии»!

2. Конкретный пример регрессионного анализа

83


Шаг 1 Определение генеральной совокупности.

Определяем генеральную совокупность как «дни с максимальной температурой x°С.

Шаг 2 Построение нулевой гипотезы и альтернативной гипотезы.

Нулевая гипотеза: A = 0 Альтернативная гипотеза: A ≠ 0

Шаг 3 Выбор вида статистической проверки.

Будем проводить «проверку значимости коэффициента регрессии».

Шаг 4 Назначение уровня значимости.

Назначаем уровень значимости равным 0,05.

Шаг 5 Нахождение значения статистического критерия по данным выборки.

Мы проводим «проверку значимости коэффициента регрессии», в котором значение статистического критерия вычисляется по формуле: a2 1 Sxx

( )

÷

Se Размер выборки − 2

.

В нашем примере это значение равно:

(

3,72 1 129,7

)

÷ 391,1 = 55,6 . 14 − 2

Кроме того, в нашем примере, в случае верности нулевой гипотезы, статистической кретерий будет подчиняться F-распределению с первым числом степеней свободы равным 1 и со вторым числом степеней свободы равным 12 (размер выборки минус 2). Шаг 6 Сравнение значения P, которое соответствует значению статистического критерия, найденному в шаге 5, с уровнем значимости.

Уровень значимости равен 0,05. Значение P, которое соответствует значению статистического критерия 55,6, равно 0,000008. 0,000008 < 0,05, т.е. значение P ниже уровня значимости.

Шаг 7 Если сравнение на шаге 6 показало, Значение P оказалось ниже уровня значимости. что значение P ниже уровня значи- Следовательно верна альтернативная гипотеза, мости, то делается вывод «альтер- согласно которой A ≠ 0. нативная гипотеза правильна». В противном случае делается вывод «нулевая гипотеза не может быть признана ошибочной». Примечание. Методику нахождения значения P для F-распределения в Excel см. на стр. 204.

F

å

Глава 2. Регрессионный анализ

A

84

t

В ОБЩЕМ, У НАС ‡ 0.

Õå

В некоторых учебниках проверка статистической значимости коэффициента корреляции описывается на основе -распределения, а не -распределения. Я опущу сложные математические подробности, но на каком бы распределении мы не основывались, окончательный вывод будет одним и тем же.


5. Оценка регрессии генеральной совокупности

ТЕПЕРЬ МЫ, НЕ СБАВЛЯЯ ТЕМПА, поговорим о регрессии ГЕНЕРАЛЬНОЙ

Ax + B

ОТВЕТЬ НА ТАКОЙ ВОПРОС:…

СОВОКУПНОСТИ.

ñ ×è

ëî

çà

çî êà

â÷

ñ àÿ

îë

Ìàêñè ìàëüí àÿ

ü

ЧТО?! А РАЗВЕ ЭТО МОЖНО УЗНАТЬ?

äî ì

òåìïå ð

àò óðà

ЧЕМУ РАВНО ЗНАЧЕНИЕ РЕГРЕССИИ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ . 31 + ?

A

ХОРОШО.

НО ВОТ ЧТО ИНТЕРЕСНО. СТАТИСТИКА ПОЗВОЛЯЕТ НАМ УЗНАТЬ ИНТЕРВАЛ, В КОТОРОМ ДОЛЖНА НАХОДИТЬСЯ РЕГРЕССИЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ + !

…ЕСЛИ МАКСИМАЛЬНАЯ ТЕМПЕРАТУРА РАВНА, НАПРИМЕР, 31°C,

çà ëñ î ×è

B

ДА, ТЫ ПРАВА. ВЕДЬ ЗНАЧЕНИЙ И МЫ НЕ ЗНАЕМ.

A

ì üäî ë ñî à÷ ÿ çîâ êà

B

.. ÷å ì . , å å ë Íå áî Óðàâíåíèå ðåãðåññèè

Ax B

Íå ìå í

åå, ÷å

Ax + B äîëæíà

ì ...

íàõîäèòñÿ ãäå-òî â ýòîì èíòåðâàëå! Ìàêñ òåìï èìàëüíàÿ åð à ò ó ðà çàâ ð â àë à è í ò å ä à? à í è Øèð î ò x,

èñèò

85


ЭТА ОЦЕНКА «НЕ МЕНЕЕ, ЧЕМ...», НО «НЕ БОЛЕЕ, ЧЕМ...» НАЗЫВАЕТСЯ

...А ПОЛУЧЕННЫЙ В РЕЗУЛЬТАТЕ ИНТЕРВАЛ НАЗЫВАЕТСЯ

ИНТЕРВАЛЬНОЙ ОЦЕНКОЙ,... ОЦЕНКОЙ

ДОВЕРИТЕЛЬНЫМ ИНТЕРВАЛОМ. ИНТЕРВАЛОМ

ðè Äîâå

Íå

òåë

èí üíûé

å, ÷ ìåíå

åì ...

à òåðâ

НАДЁЖНОСТЬ ОЦЕНКИ НАЗЫВАЮТ

ë

åå , ÷ ë î á Íå

åì . . .

ДОВЕРИТЕЛЬНОЙ ВЕРОЯТНОСТЬЮ, ВЕРОЯТНОСТЬЮ ДОВЕРИТЕЛЬНЫМ УРОВНЕМ ИЛИ КОЭФФИЦИЕНТОМ ДОВЕРИЯ. ДОВЕРИЯ

ßñíî!

ТЕПЕРЬ...

ДОВЕРИТЕЛЬНАЯ ВЕРОЯТНОСТЬ ЭТО НЕ ВЕЛИЧИНА, КОТОРАЯ ВЫЯВЛЯЕТСЯ ПОСЛЕ НАХОЖДЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА. НА САМОМ ДЕЛЕ, ИССЛЕДОВАТЕЛЬ САМ «ВЫБИРАЕТ» ЕЁ ПЕРЕД НАХОЖДЕНИЕМ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА.

…ТЫ ДОЛЖНА ПОМНИТЬ ВОТ О ЧЁМ...

ВОЗВРАЩАЯСЬ К НАШЕМУ ПРИМЕРУ С «МАКСИМАЛЬНОЙ ТЕМПЕРАТУРОЙ 31°C », ОТВЕТ ДОЛЖЕН ЗВУЧАТЬ НЕ КАК . 31 + , «РЕГРЕССИЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ НЕСОМНЕННО, ЛЕЖИТ В ИНТЕРВАЛЕ ОТ ... ДО ...», А КАК . 31 + «РЕГРЕССИЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ С ДОВЕРИТЕЛЬНОЙ ВЕРОЯТНОСТЬЮ СТОЛЬКО-ТО % ЛЕЖИТ В ИНТЕРВАЛЕ ОТ ... ДО ...»

A

B

A

B

Ïóñòü îíà áóäåò ðàâíà 0%

АХ...

86

Глава 2. Регрессионный анализ


×òî æå ëó ÷ øå âûáðàòü?

ОБЫЧНО ДОВЕРИТЕЛЬНУЮ ВЕРОЯТНОСТЬ НАЗНАЧАЮТ РАВНОЙ, НАПРИМЕР, 95% ИЛИ 99%.

НО ВЕДЬ ЯСНО, ЧТО 99% ЛУЧШЕ. ЗАЧЕМ ЖЕ ВЫБИРАТЬ?

ЭТОТ ВЫБОР ЗАВИСИТ ОТ ИССЛЕДОВАТЕЛЯ.

ХМ... ВОВСЕ НЕ ОБЯЗАТЕЛЬНО.

ИТАК, ДАВАЙ-КА НАЙДЁМ ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ РЕГРЕССИИ ГЕНЕРАЛЬНОЙ . 31 + СОВОКУПНОСТИ ДЛЯ ВЕРОЯТНОСТИ 95%!

ДЕЙСТВИТЕЛЬНО, ВЫБОР 99% ОБЕСПЕЧИТ БОЛЬШУЮ НАДЁЖНОСТЬ,...

A

Íàì ñåãîäíÿ ãàðàíòèðîâàíî îò 0 äî 120 çàêàçîâ ÷ àÿ ñî ëüäîì!

B

ДА?

ДАВАЙ попробуем!

Хозяин кафе

Ýòî è òàê âñåì ïîíÿ òíî.

Íàì ñåãîäíÿ ïî ÷ òè ãàðàíòèðîâàíî îò 4 0 äî 80 çàêàçîâ ÷ àÿ ñî ëüäîì!

КРУТО!

Хозяин кафе

…ОДНАКО ВЗАМЕН МЫ ПОЛУЧИМ СЛИШКОМ БОЛЬШОЙ ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ, И НАШ ПРОГНОЗ ПОТЕРЯЕТ практическую ценНОСТЬ. ПОНЯТНО.

2. Конкретный пример регрессионного анализа

87


Доверительный интервал регрессии генеральной совокупности для вероятности 95% ищется ТАК.

Это доверительный интервал

79,5 − 3,9 = 75,6

a · 31 + b = 3,7 · 31 − 36,4 = 79,5

79,5 + 3,9 = 83,4

Число заказов чая со льдом

Длина каждого из этих двух отрезков вычисляется по одной и той же формуле: F(1, NВЫБ − 2; 0,05) ·

=

(

1 NВЫБ

F(1,14 − 2 ; 0,05) ·

(

+

(x0 − x)2 Sxx

)

·

1 (31 − 29,1)2 + 14 129,7

Se NВЫБ − 2

)

·

=

391,1 = 14 − 2

= 3,9

А чтобы вычислить доверительный интервал регрессии генеральной совокупности A · 31 + B с  доверительной вероятностью 99%, нужно при расчётах использовать F(1, Nвыб − 2; 0,01) = F(1, 14 − 2; 0,01) = 9,3 вместо F(1, Nвыб − 2; 0,05) = F(1, 14 − 2; 0,05) = 4,7. Примечание. Nвыб — размер выборки, процедуру определения F(1, 14 − 2; 0,05) = 4,7 см. на стр. 54

РЕГРЕССИЯ ГЕНЕРАЛЬНОЙ . 31 + СОВОКУПНОСТИ С ДОВЕРИТЕЛЬНОЙ ВЕРОЯТНОСТЬЮ 95% СОСТАВИТ БОЛЕЕ 76, НО МЕНЕЕ 83 СТАКАНОВ, ПРАВИЛЬНО?

A

88

B

Глава 2. Регрессионный анализ

ДА, ВЕРНО!


6. Построение прогноза

НУ ЧТО, ПОПРОБУЕМ рассчитаТЬ ПРОГНОЗ?

Ура! НАКОНЕЦ-ТО!

ра з а вт а на чн о д о г е По Солн альная си м ра : Макмперату е т 27°C ьная л и ма р а : М и н п ера т у м е т 20°C сть ятно Веросадков: о % 0

ИТАК, КАКОВО ЖЕ БУДЕТ ЗАВТРА ЧИСЛО ЗАКАЗОВ ЧАЯ СО ЛЬДОМ В КАФЕ NORNS?

ЗАВТРА МАКСИМАЛЬНАЯ ТЕМПЕРАТУРА... 27°C, ТАК?

ТАК... НАЙДЕННОЕ УРАВНЕНИЕ РЕГРЕССИИ:

ДА, МОЛОДЧИНА.

y = 3,7x − 36,4, ЗНАЧИТ...

64 ЗАКАЗА, ПРАВИЛЬНО?

2. Конкретный пример регрессионного анализа

Õåõåõå

89


НО НЕУЖЕЛИ ДЕЙСТВИТЕЛЬНО БУДЕТ 64 ЗАКАЗА?

ДА, ТЫ ВЕРНО ЗАМЕТИЛА!

МНЕ ПОЧЕМУ-ТО КАЖЕТСЯ, ЧТО ТАК ГЛАДКО ДЕЛО НЕ ПОЙДЁТ.

å... îëå å á Íå íåíè è â Óðà ãðåññè å ð ... åíåå ì å Í

ЕСТЬ ХОРОШИЙ СПОСОБ! СТАТИСТИКА В НАШЕМ СЛУЧАЕ ПОЗВОЛИТ СКАЗАТЬ: «ЧИСЛО ЗАКАЗОВ В ДЕНЬ С МАКСИМАЛЬНОЙ ТЕМПЕРАТУРОЙ 27°C С ДОВЕРИТЕЛЬНОЙ ВЕРОЯТНОСТЬЮ ... % СОСТАВИТ БОЛЕЕ ..., НО МЕНЕЕ ...»

НО ТАК КАК КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ СОСТАВИЛ 0,8225, Я ДУМАЮ, ЧТО БУДЕТ ГДЕ-ТО В РАЙОНЕ 64 ЗАКАЗОВ.

ЭТУ ФРАЗУ Я, КАЖЕТСЯ, ТОЛЬКО ЧТО СЛЫШАЛА...

НЕТ, ТОГДА РЕЧЬ ШЛА ОБ ОЦЕНКЕ регрессии ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ . 31 + , А СЕЙЧАС МЫ ПРОГНОЗИРУЕМ ЧИСЛО ЗАКАЗОВ ЧАЯ СО ЛЬДОМ В ДЕНЬ С ТЕМПЕРАТУРОЙ 27°C.

A

B

А КАКАЯ МЕЖДУ ЭТИМ РАЗНИЦА...

90

Глава 2. Регрессионный анализ


Êàê æå òóò îáñòîÿò äåëà? Ñêîëüêî ïðèìåðíî áóäåò çàêàçîâ?

«ОЦЕНКА» ЭТО РАЗМЫШЛЕНИЯ О ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ...

...А ПРОГНОЗ - ЭТО РАЗМЫШЛЕНИЯ О БУДУЩЕМ!

ПРЕДСКАЗАННЫЙ ИНТЕРВАЛ НАЗЫВАЮТ прогнозируемым иНТЕРВАЛОМ,… иНТЕРВАЛОМ

àë òåðâ í è é ó å ìû ð ëåå... è î á ç î å í Í Ïðîã .. åíåå. ì å Í

…А НАДЁЖНОСТЬ ПРОГНОЗА НАЗЫВАЮТ ДОВЕРИТЕЛЬНОЙ ВЕРОЯТНОСТЬЮ, ДОВЕРИТЕЛЬНЫМ УРОВНЕМ, ИЛИ УРОВНЕМ КОЭФФИЦИЕНТОМ ДОВЕРИЯ. ДОВЕРИЯ

Çàïèøó, ïîæàëóé

ДА, ЭТО ПОХОЖЕ НА ОЦЕНКУ регрессии ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ.

ПРИ ОДИНАКОВОЙ ДОВЕРИТЕЛЬНОЙ ВЕРОЯТНОСТИ И ДЛЯ ОДНИХ И ТЕХ ЖЕ ЗНАЧЕНИЙ

x

Äîâåðèòåëüíûé èíòåðâàë Ïðîãíîçèðóåìûé èå èíòåðâàë íåí è ð à â ñ ñè

Прогнозируемый интервал ОКАЗЫВАЕТСЯ НЕМНОГО ШИРЕ. МЕТОДЫ РАСЧЁТА ТОЖЕ ОЧЕНЬ ПОХОЖИ. ОДНАКО ЕСТЬ И НЕБОЛЬШОЕ ОТЛИЧИЕ.

Â í ¸ ì ó ÷ èòûâàåòñÿ îøèáêà, ñâÿçàííàÿ ñ íåïðåäâèäåííûìè ñèòóàöèÿìè

Ó ã ðå ðå

ИТАК, ДАВАЙ НАЙДЁМ Прогнозируемый интервал ДЛЯ МАКСИМАЛЬНОЙ ТЕМПЕРАТУРЫ 27°C.

ХОРОШО!

2. Конкретный пример регрессионного анализа

91


Прогнозируемый интервал числа заказов чая со льдом в день с максимальной температурой 27°C для вероятности 95% ищется следующим образом.

Это интервал прогнозирования

64,6 − 13,1 = 51,5

a × 27 + b

64,6 + 13,1 = 77,7

= 3,7 × 27 − 36,4 = 64,6

Число заказов чая со льдом

Длина каждого из этих двух отрезков вычисляется по одной и той же формуле:

(

F(1, NВЫБ − 2; 0,05) · 1 +

=

F(1, 14 − 2 ; 0,05) ·

(

1 NВЫБ

1+

+

(x0 - x)2 Sxx

)

1 (27 − 29,1)2 + 14 129,7

Se

·

NВЫБ − 2

)

·

=

391,1 = 14 − 2

= 13,1 Рассчитанное Число заказов чая со льдом в день с максимальной температурой 27°C на самом деле составит не 64, а 64,6 65. эта ошибка вызвана округлением.

Я пропущу сложные математические подробности, но на самом деле и прогнозируемый интервал, и оценка регрессии генералной совокупности, о которой я только что рассказывала, обычно рассматриваются на основе -распределения, а не -распределения.

t

F

ЗНАЧИТ, ЧИСЛО ЗАКАЗОВ ЧАЯ СО ЛЬДОМ В ДЕНЬ С МАКСИМАЛЬНОЙ ТЕМПЕРАТУРОЙ 27°С С ДОВЕРИТЕЛЬНОЙ ВЕРОЯТНОСТЬЮ 95% СОСТАВИТ БОЛЕЕ 52, НО МЕНЕЕ 78 СТАКАНОВ, ПРАВИЛЬНО?.

92

Глава 2. Регрессионный анализ

ДА, ИМЕННО!.


Ðå ã ðå àíà ññèîí ë èç í û é … Òå ï

åðü

присяДЬ.

Îé, èçâèíè!

НА ЭТОМ МОЁ ОБЪЯСНЕНИЕ ЗАВЕРШЕНО. НУ КАК ТЕБЕ РЕГРЕССИОННЫЙ АНАЛИЗ?

ДА... РАСЧЁТЫ, КОНЕЧНО, БЫЛИ НЕМНОЖКО СЛОЖНЫМИ,...

ТЕПЕРЬ ПОВТОРЯЙ ПРОЙДЕННЫЙ МАТЕРИАЛ, И ТАК ТЩАТЕЛЬНО, ЧТОБЫ...

БОЛЬШОЕ СПАСИБО, РИСА!

Õ î -õ

…ОДНАКО Я ПОНЯЛА, КАК МНОГО ИНФОРМАЦИИ МОЖНО ИЗВЛЕЧЬ ИЗ ДАННЫХ КАФЕ NORNS...

...ТЫ МОГЛА В ЛЮБОЙ МОМЕНТ СКАЗАТЬ: «ЧТО, ЧТО, РЕГРЕССИОННЫЙ АНАЛИЗ? ОН ДЕЛАЕТСЯ ВОТ ТАК!» ТАК!

î -õ î

НЕ ЗА ЧТО.

2. Конкретный пример регрессионного анализа

93


3. Замечание по поводу проведения регрессионного анализа Ниже повторно приводится «процесс регрессионного анализа» со стр. 62.

 Проверка целесообразности вывода уравнения регрессии с помощью точечных графиков всех объясняющих переменных и отклика.  Вывод уравнения регрессии.  Проверка точности уравнения регрессии.  Проведение «проверки значимости коэффициента регрессии».  Оценка регрессии генеральной совокупности Ax+B.  Построение прогноза. ■ Рис. 2.1. Процесс регрессионного анализа Ранее в этой книге говорилось, что этапы с   по  являются обязательными, но на самом деле это не совсем так. Как объяснялось в  предыдущей книге серии — «Занимательная статистика. Манга» — всю статистическую науку можно разделить на два больших раздела: • теорию оценивания; • описательную статистику. Попробуем вспомнить пример с  возрастом и  ростом Миу, приведённый на стр. 25. Очевидно, что следующие факты: • во всём мире Миу существует в единственном экземпляре, • рост Миу в 10 лет был равен 137,5 см, то есть «одному определённому значению», не дают нам возможности заявить: «Среднее арифметическое роста Миу в  10 лет составило Ax + B, а его распределение подчинялось закону нормального распределения со среднеквадратичном отклонением σ». Другими словами, тут нет места для анализа с  позиций теории оценивания, то есть нельзя найти доверительный интервал генеральной совокупности Ax + B, проверить гипотезу A ≠ 0 и  т.д. Значит, данный случай необходимо анализировать с позиций описательной статистики. Подведём итоги. В общем случае требуется проводить этапы с   по , однако в таких случаях, как «возраст и рост Миу», когда нужно анализировать с позиций описательной статистики, достаточно этапов с   по . При необходимости, конечно, можно выполнить также этап .

94

Глава 2. Регрессионный анализ


4. Нормированный остаток В статистике есть такое понятие, как нормированный остаток. Он вычисляется по следующей формуле:

Остаток Cумма квадратов остатков Размер выборки − 2

y − ŷ

=

Se Nвыб − 2

В таблице ниже приведены значения нормированных остатков для примера этой книги. Таблица 2.1. Нормированные остатки для примера в этой книге Максимальная Число заказов темпечая со льдом ратура y x 22-08 (пн.)

29

Число заказов чая со льдом ŷ = 3,7x − 36,4

Остаток y−ŷ

Нормированный остаток y − ŷ 391,1 14 − 2

77

72,0

5,0

0,9 −1,1

23-08 (вт.)

28

62

68,3

−6,3

24-08 (ср.)

34

93

90,7

2,3

0,4

25-08 (чт.)

31

84

79,5

4,5

0,8

26-08 (пт.)

25

59

57,1

1,9

0,3

27-08 (сб.)

29

64

72,0

−8,0

−1,4

28-08 (вс.)

32

80

83,3

−3,3

−0,6

29-08 (пн.)

31

75

79,5

−4,5

−0,8

30-08 (вт.)

24

58

53,3

4,7

0,8

31-08 (ср.)

33

91

87,0

4,0

0,7

01-09 (чт.)

25

51

57,1

−6,1

−1,1

02-09 (пт.)

31

73

79,5

−6,5

−1,1

03-09 (сб.)

26

65

60,8

4,2

0,7

04-09 (вс.)

30

84

75,8

8,2

1,4

 8,2

391,1 14 − 2

= 1,4

Можно сказать, что чем больше значение нормированного остатка имеет экземпляр выборки, тем сильнее этот экземпляр отличается от остальной выборки. При наличии в выборке экземпляров с абсолютным значением больше 3, рекомендуется исключить их из выборки и повторить регрессионный анализ.

4. Нормированный остаток

95


5. Интерполяция и экстраполяция Ниже повторно приводится пример из данной книги и выведенное из него уравнение регрессии. Таблица 2.2. Максимальная температура и число заказов чая со льдом МаксиЧисло мальная заказов чая температура, со льдом, °C стаканов 22-08 (пн.)

29

77

23-08 (вт.)

28

62

24-08 (ср.)

34

93

25-08 (чт.)

31

84

26-08 (пт.)

25

59

27-08 (сб.)

29

64

28-08 (вс.)

32

80

29-08 (пн.)

31

75

30-08 (вт.)

24

58

31-08 (ср.)

33

91

01-09 (чт.)

25

51

02-09 (пт.)

31

73

03-09 (сб.)

26

65

04-09 (вс.)

30

84

y = 3,7x − 36,4

 Число заказов чая со льдом

 Максимальная температура

Из приведённой выше таблицы видно, что минимальное значение «максимальной температуры» составляет 24°C, а максимальное — 34°C. В статистике есть такие понятия, как интерполяция и экстраполяция, и я объясню их на примере данных приведённой выше таблицы. Интерполяция — это предсказание числа заказов чая со льдом путём подстановки в  уравнение регрессии значений максимальной температуры от 24°C до 34°C. Экстраполяция — это предсказание числа заказов чая со льдом путём подстановки в  уравнение регрессии значений максимальной температуры менее 24°C или более 34°C. При проведении экстраполяции необходимо помнить о следующем. Например, число заказов чая со льдом при максимальной температуре 18°C тоже, разумеется, может быть найдено подстановкой числа 18 вместо x в уравнение регрессии. Прогнозируемый интервал тоже может быть расчитан, например, по формуле, приведённой на стр.  92. Однако математически невозможно гарантировать достоверность предсказанного значения и прогнозируемого интервала.

96

Глава 2. Регрессионный анализ


В практической деятельности очень часто возникает искушение провести экстраполяцию. Я тоже полагаю, что экстаполяцию можно проводить даже не очень рассчитывая на надёжность полученных результатов, если только область применения не связана с серьёзной научно-технической деятельностью. Однако для значений, которые слишком уж далеки от минимального или максимального значений объясняющей переменной экстаполяцию, по моему мнению, лучше не проводить.

6. Автокорреляция В примере, приведённом в данной книге, объясняющей переменной являлась «максимальная температура». Здесь я предлагаю вам поразмыслить вот над чем. Например, если в  один день максимальная темпратура была 30°C, то довольно трудно представить, что максимальная температура следующего дня резко опустится, составив всего 20°C: она изменяется постепенно, за несколько дней, и в соответствии с ней отклик, то есть «число заказов чая со льдом», тоже уменьшается или увеличивается постепенно. При анализе данных, для которых существует возможность влияния времени на отклик, в некоторых случаях бывает полезно проверить взаимосвязь соседствующих остатков — так называемую автокорреляцию. Для выражения степени автокорреляции используется критерий ДарбинаУотсона: Сумма квадратов разностей соседствующих остатков Cумма квадратов остатков Считается, что если значение критерия Дарбина-Уотсона близко к 2, то автокорреляция отсутствует, или, другими словами, у  нас всё в  порядке. Для примера из данной книги значение критерия Дарбина-Уотсона составляет: (−6,3 − 5,0)2 + (2,3 − (−6,3))2 + … + (8,2 − 4,2)2 = 1,7 5,02 + (−6,3)2 + … + 8,22 Так как значение близко к  2, можно утверждать, что автокорреляции в  нашем примере нет.

6. Автокорреляция

97


7. Нелинейные уравнения регрессии На стр. 60 присутствует следующее изложение: ...в регрессионном анализе ищут формулу, которая называется «уравнением регрессии» и выглядит вот так: y = ax + b. Однако в действительности искомое уравнение регрессии вовсе не обязательно должно быть уравнением прямой y = ax + b. Оно может быть, например, одного из следующих типов: • y = a + b; x • y = a √x + b ; • y = ax2 + bx + c ; • y = a log x + b . На самом деле, уравнение регрессии, описывающее связь возраста и роста Миу (стр. 26), не является линейным уравнением y = ax + b, а  относится к  типу a y = + b. x Уравнение регрессии какого типа нужно искать? Это целиком зависит от воли исследователя. В  большинстве случаев, наверное, может пригодиться следующий алгоритм: 1. Изображаем точечный график объясняющей переменной и отклика. 2. Находим все уравнения регрессии всех типов, форма которых близка к  форме a точечного графика. Если это, например, y = + b и y = a √ x + b , то находим два x уравнения регрессии соответствующих типов. 3. Из всех уравнений регрессии, найденных в  пункте , выбираем одно с  самым большим значением доли вклада и  принимаем его за «искомое уравнение регрессии».

98

Глава 2. Регрессионный анализ


Кстати, как же на самом деле было найдено уравнение регрессии, показывающее связь возраста и роста Миу (стр. 26) и имевшее следующий вид: y = − 326,6 + 173,3? x

■ Нахождение уравнения регрессии для возраста и роста Миу В уравнении y = a + b принимаем 1 = z. Это позволит нам переписать его в виде x x уравнения прямой: y = a + b = az + b x В соответствии с изложением на стр. 70, величины a и b уравнения регрессии y = aX + b вычисляются по формулам: a = Szy Szz b = y − za Следовательно, используя значения из табл. 2.3, мы можем вычислить:

{

a = Szy = −15,9563 = −326,6* Szz 0,0489 b = y − za = 138,2625 − 0,1072 · (−326,6) = 173,3 Следовательно, уравнение регрессии будет следующим: 326,6 + 173,3 y = −326,6z + 173,3  y = − x     Рост 1/Возраст Рост Возраст

{

_________________ * На самом деле приведённые в формуле числа дают −326,3, а не −326,6. Причина этого заключается в ошибке округления.

7. Нелинейные уравнения регрессии

99


◆ Таблица 2.3. Процесс вычисления a и b Возраст 1/Возраст x

100

1/ x = z

Рост y

z−z

y−y

(z − z) 2

(y − y)2

(z − z) · · (y − y)

4

0,2500

100,1

0,1428

−38,1625

0,0204

1456,3764

−5,4515

5

0,2000

107,2

0,0928

−31,0625

0,0086

964,8789

−2,8841

6

0,1667

114,1

0,0595

−24,1625

0,0035

583,8264

−1,4381

7

0,1429

121,7

0,0357

−16,5625

0,0013

274,3164

−0,5914

8

0,1250

126,8

0,0178

−11,4625

0,0003

131,3889

−0,2046

9

0,1111

130,9

0,0040

−7,3625

0,0000

54,2064

−0,0292

10

0,1000

137,5 −0,0072

−0,7625

0,0001

0,5814

0,0055

11

0,0909

143,2

−0,0162

4,9375

0,0003

24,3789

−0,0802

12

0,0833

149,4

−0,0238

11,1375

0,0006

124,0439

−0,2653

13

0,0769

151,6

−0,0302

13,3375

0,0009

177,8889

−0,4032

14

0,0714

154

−0,0357

15,7375

0,0013

247,6689

−0,5622

15

0,0667

154,6 −0,0405

16,3375

0,0016

266,9139

−0,6614

16

0,0625

155 −0,0447

16,7375

0,0020

280,1439

−0,7473

17

0,0588

155,1 −0,0483

16,8375

0,0023

283,5014

−0,8137

18

0,0556

155,3

−0,0516

17,0375

0,0027

290,2764

−0,8790

19

0,0526

155,7 −0,0545

17,4375

0,0030

304,0664

−0,9507

Сумма

184

1,7144

2212,2

0,0000

0,0489

5464,4575

−15,9563

Средн. арифм.

11,5

0,1072

138,3

Szz

Syy

Szy

z

y

Глава 2. Регрессионный анализ

0,0000


ГЛАВА 3

МНОЖЕСТВЕННАЯ РЕГРЕССИЯ


1. Что такое множественная регрессия НЕ ЗА ЧТО. ЗАТО ТЫ МОЛОДЕЦ ЗАНИМАЕШЬСЯ С ПОДОПЕЧНОЙ.

СПАСИБО ЗА ДАННЫЕ.

НУ...

...ЕСТЬ РАЗНЫЕ ОБСТОЯТЕЛЬСТВА.

РИСА! О, ТЫ ПРИШЛА!

Õõà... à È ä è ñþ ä

Õõ à. .

ИЗ... ИЗВИНИТЕ!.

.. . К У СТ

У МЕНЯ СОВЕЩАНИЕ ЗАТЯНУЛОСЬ. НИЧЕГО СТРАШНОГО.

Äà ìû òåáÿ è íå îñîáî æäàëè.

102

Глава 3. Множественная регрессия


Õì

А... КАК ВАС ЗОВУТ?

...

Ïðîøó ëþáèòü è æàëîâàòü!

ЭТО МОЙ СОКУРСНИК, ЕГО ЗОВУТ КАЗАМИ.

А, СЕЙЧАС Я ПРЕДСТАВЛЮ.

Áîëüøîå âàì ñïàñèáî.

СЕГОДНЯ Я РАССКАЖУ ПРО МНОЖЕСТВЕННУЮ РЕГРЕССИЮ, РЕГРЕССИЮ А КАЗАМИ-сан, КСТАТИ, ПРИНЁС НАМ ДАННЫЕ ДЛЯ АНАЛИЗА.

СКАЖИ мне, МИУ, ТЫ ВРОДЕ КАК ЛЮБИЛА КРУАССАНЫ, НЕ ТАК ЛИ?

ДА, ОЧЕНЬ... А почему ТЫ СПРАШИВАЕШЬ?

ПРИ... ПРИЯТНО ПОЗНАКОМИТЬСЯ.

Íå çà ÷ òî... âåäü ìíå ýòî òîæå ïðèãîäèòñÿ.

А ЧЬИ КРУАССАНЫ ТЫ ПРЕДПОЧИТАЕШЬ?

КАЗА...

НУ, САМЫЕ ВКУСНЫЕ - кОНЕЧНО У «КАЗАМИ-BAKERY»!

1. Что такое множественная регрессия

103


КАК?! ТВОЙ СОКУРСНИК КАЗАМИ...

ДА, ОН У НАС ОТПРЫСК БОГАЧЕЙ!

Õè-õè! Ну, ты скажешь тоже!

НА САМОМ ДЕЛЕ, НИЧЕГО ОСОБЕННОГО...

ЮмэноОка

СЕЙЧАС У НАС только 10 МАГАЗИНОВ.

Кикё

ЮБИН

Тераи

Сонэ

Суйд о

Рокудзё

Ха симото Ва ка ба

ОДНАКО ВАШИ МАГАЗИНЫ ЕСТЬ ПО ВСЕМУ ГОРОДУ!

Мисато

НО ВРОДЕ БЫ НАМЕЧАЕТСЯ ОТКРЫТИЕ 11-ГО...

У МЕНЯ ИДЕЯ!

ДАВАЙТЕ ПОПРОБУЕМ С ПОМОЩЬЮ МНОЖЕСТВЕННОЙ РЕГРЕССИИ ПРЕДСКАЗАТЬ ВЫРУЧКУ ЭТОГО НОВОГО МАГАЗИНА!

104

Исэбаси

Глава 3. Множественная регрессия

Îãî!


ТЫ ГОВОРИЛА, ЧТО МНОЖЕСТВЕННАЯ РЕГРЕССИЯ ПОЗВОЛЯЕТ ПОСТРОИТЬ ПРОГНОЗ НА ОСНОВЕ МНОЖЕСТВА ФАКТОРОВ, ТАК?

МНОЖЕСТВЕННУЮ РЕГРЕССИЮ МОЖНО СЧИТАТЬ РЕГРЕССИОННЫМ АНАЛИЗОМ, В КОТОРОМ НЕ МЕНЕЕ ДВУХ ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ.

А ВМЕСТО УРАВНЕНИЯ РЕГРЕССИИ НАХОДЯТ УРАВНЕНИЕ МНОЖЕСТВЕННОЙ РЕГРЕССИИ! РЕГРЕССИИ

Óðàâíåíèå ìíîæåñòâåííîé ðåãðåññèè

ДА, ВЕРНО.

Îòêëèê

Îáúÿñíÿþùèå ïåðåìåííûå

×àñòíûå êîýôôèöèåíòû ðåãðåññèè

Ой, уРАВНЕНИЕ МНОЖЕСТВЕННОЙ РЕГРЕССИИ НАПОМИНАЕТ УРАВНЕНИЕ РЕГРЕССИИ!

АгА, ты заметила?!

РАЗЛИЧИЕ МЕЖДУ РЕГРЕССИОННЫМ АНАЛИЗОМ И МНОЖЕСТВЕННОЙ РЕГРЕССИЕЙ СВОДИТСЯ К СЛЕДУЮЩЕМУ.

Здорово!!!

Множественная регрессия

Регрессионный анализ Описывающая переменная

Отклик

Описывающая переменная 1

Описывающая переменная 2

Описывающая переменная p

Отклик

1. Что такое множественная регрессия

105


2. Конкретный пример множественной регрессии

ЛК ЩЁ

ЕСЛИ ТАК, ТО, наверное, ПРОЦЕСС АНАЛИЗА ТОЖЕ ПОХОЖ НА РЕГРЕССИОННЫЙ АНАЛИЗ?

ДА, ПОХОЖ.

И НАСТОЛЬКО ПОХОЖ, ЧТО ЕГО МОЖНО СЧИТАТЬ ПОЧТИ ТЕМ ЖЕ САМЫМ.

■ ПРОЦЕСС ПРОВЕДЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ 1. Проверка целесообразности проведения множественной регрессии с по-

мощью точечных графиков всех объясняющих переменных и отклика.

2. Вывод уравнения множественной регрессии.

3. Проверка точности уравнения множественной регрессии.

4. Проведение «проверки значимости частных коэффициентов регрессии».

5. Оценка регрессии генеральной совокупности A1x1 + A2x2 + … + AP xP + B.

6. Построение прогноза.

ЁМ В Ч П РО В ОТ С ОЙ Т Я Н Е Н А Е Ч ЛЮ СТВ К Е А З НОЖ СИ И . С М РЕС Ц ЕС РЕГ

106

Глава 3. Множественная регрессия

ЯСНО!


1. Проверка целесообразности нахождения множественной регрессии на графиках всех объясняющих переменных и отклика

ДЛЯ НАЧАЛА, ПОСМОТРИМ ДАННЫЕ СУЩЕСТВУЮЩИХ МАГАЗИНОВ.

ПРОВЕДИ НАМ АНАЛИЗ ПРЯМО СЕЙЧАС...

ХОРОШО, ХОРОШО.

магазина, Удаление от ж/д станции, Название магазина x Площадь цубо* м ЮМЭНО-ОКА

10

Месячная выручка, ×104 йен

80

469

ТЕРАИ

8

0

366

СОНЭ

8

200

371

ХАСИМОТО

5

200

208

КИКЁ

7

300

246

ЮБИН

8

230

297

СУЙДО

7

40

363

РОКУДЗЁ

9

0

436

ВАКАБА

6

330

198

МИСАТО

9

180

364

*Цубо – японская мера площади, равная 3,3 м 2.

МЕСЯЧНАЯ ВЫРУЧКА ЭТО ОТКЛИК, А ОСТАЛЬНОЕ ОБЪЯСНЯЮЩИЕ ПЕРЕМЕННЫЕ, ДА?

ВЕРНО! ИТАК, НАЧЕРТИ-КА НАМ ГРАФИКИ!

2. Конкретный пример множественной регрессии

107


Òà ê .

..

Äà

...

ПОЛУЧАЕТСЯ?

ГОТОВО.

Удаление от ж/д станции и месячная выручка. Коэффициент корреляции равен −0,8924.

Юмэно-ока Рокудзё Суйдо

Сонэ Мисато Тераи Юбин

Хасимото

Кикё Вакаба

Площадь магазина Âî ò ýò î äà !

108

ПОХОЖЕ, ЧТО ЧЕМ БОЛЬШЕ ПЛОЩАДЬ МАГАЗИНА И МЕНЬШЕ УДАЛЕНИЕ ОТ БЛИЖАЙШЕЙ ж/д СТАНЦИИ, ТЕМ БОЛЬШЕ ВЫРУЧКА.

Глава 3. Множественная регрессия

Юмэно-ока

Месячная выручка

Месячная выручка

Площадь магазина и месячная выручка. Коэффициент корреляции равен 0,8924.

Рокудзё Тераи

Сонэ

Суйдо

Мисато Юбин Кикё Хасимото

Вакаба

Удаление от ж/д станции КАЖЕТСЯ, ЕСТЬ СМЫСЛ ВЫВЕСТИ УРАВНЕНИЕ МНОЖЕСТВЕННОЙ РЕГРЕССИИ!

Ye s!


2. Вывод уравнения множественной регрессии

МЕТОД ВЫВОДА УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ ПОЧТИ ТАКОЙ ЖЕ, КАК ДЛЯ УРАВНЕНИЯ РЕГРЕССИИ.

ЧАСТНЫЕ КОЭФФИЦИЕНТЫ регрессИИ НАХОДЯТСЯ МЕТОДОМ НАИМЕНЬШИХ КВАДРАТОВ.

ДА?

В ОБЩЕМ ЭТО ВЫГЛЯДИТ ВОТ ТАК...

СНАЧАЛА МЫ ЗАПИСЫВАЕМ ВЫРАЖЕНИЕ ДЛЯ СУММЫ КВАДРАТОВ ОСТАТКОВ e .

S

a a

ЗАТЕМ ДИФФЕРЕНЦИРУЕМ ЕГО ПО 1, 2 И , ПРИРАВНИВАЕМ ПРОИЗВОДНЫЕ К 0 И НАХОДИМ ТАКИЕ ЗНАЧЕНИЯ 1, 2 И , БУДЕТ МИНИМАЛЬНА. ПРИ КОТОРЫХ

b

Se

ВОТ КАКИМ БУДЕТ ПОРЯДОК НАШИХ ДЕЙСТВИЙ.

a a

b

ПО-МОЕМУ, НАМ БУДЕТ ОЧЕНЬ НЕЛЕГКО.

2. Конкретный пример множественной регрессии

109


êà é- ê ó! Äà ðàä ò òå

БА М

НО ТУТ НАМ ПРИДУТ НА ПОМОЩЬ МАТРИЧНЫЕ ВЫЧИСЛЕНИЯ.

ЧАСТНЫЕ КОЭФФИЦИЕНТЫ регрессИИ...

...ВЫЧИСЛЯЮТСЯ ВОТ ТАК!

110

Глава 3. Множественная регрессия

ДА? ЗДЕСЬ МОЖНО ИСПОЛЬЗОВАТЬ МАТРИЦЫ?

ШУ РХШУ РХ

ОЙ, ЧТО ЭТО!

× ì à ò ò î, ðèö û?


Удаление от ж/д станции Площадь магазина

ВОТ КАКОЙ СМЫСЛ У ЭТИХ ЗНАЧЕНИЙ.

Ну, хорошо, сМЫСЛ ЗНАЧЕНИЙ ЯСЕН, НО СМОГУ ЛИ Я РАССЧиТАТЬ ТАКОЕ?

Эти строки, заполненные единицами, нужны для удобства расчётов при выводе уравнения множественной регрессии

Жуть! ЕСЛИ РАССЧИТЫВАТЬ ВРУЧНУЮ, ТО МЫ ЗДЕСЬ БУДЕМ ДО НОЧИ СИДЕТЬ.

ОЙ

Месячная выручка

ДАВАЙ ЛУЧШЕ НА КОМПЬЮТЕРЕ ПОСЧИТАЕМ!

НУ И ЛЕНТЯИ ЖЕ ВЫ!

Щ Ё Щ ЛК ЁЛ К

2. Конкретный пример множественной регрессии

111


ЛАДНО, смотрите, что получилось!

Частные коэффициенты регрессии

Объясняющие переменные

Площадь магазина Удаление от ж/д станции

ЩЁЛК

(Постоянный член)

ОГО!

Примечание. Метод расчётов в программе Excel описан на стр. 205 ñàí í î - àì àÿ ÿ Ì è àñ ñ ÿ! à ó í óìí

КАК БЫ ТАМ НИ БЫЛО, В ИТОГЕ МЫ ПОЛУЧАЕМ...

ïîä è ò à ò ü! ò Õâ à àë û â ê

Ìåñÿ÷íàÿ âûðó÷êà

Ïëîùàäü ìàãàçèíà

Óäàëåíèå îò æ/ä ñòàíöèè

Êð

î óò

!

Í çà ï àä î èñàò ü!

ВОТ УРАВНЕНИЕ МНОЖЕСТВННОЙ РЕГРЕССИИ ДЛЯ «КАЗАМИ-BAKERY».

ДА, ЕСТЬ ещё ОДНА ВАЖНАЯ ДЕТАЛЬ. ХОТЯ ОНА И НЕ СВЯЗАНА НАПРЯМУЮ С ВЫВОДОМ УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ.

КАКАЯ?

112

Глава 3. Множественная регрессия


a a

a

a x

b

КАКИЕ БЫ ЗНАЧЕНИЯ 1, 2, …, P И НЕ БЫЛИ ПОЛУЧЕНЫ, УРАВНЕНИЕ МНОЖЕСТВЕННОЙ РЕГРЕССИИ 1 1+ 2 2+…+ P P+ ОБЯЗАТЕЛЬНО БУДЕТ ПРОХОДИТЬ ЧЕРЕЗ ТОЧКУ ( 1, 2, … , P, )

ax

ax

x x

ТАК.

b

Ïî ì îå ì ó, â ðå ãð åññè îí íî ì àí àë èç å å áû ëî ò î æ ñà ì îå .

x y

Òàê îå äàæ å ïðå äñò à âèò ü íåâ îçì îæí î.

x. x i - ýòî ñðåä íåå çíà ÷ åíè å i

ЭТО ОЗНАЧАЕТ, ЧТО УРАВНЕНИЕ = 41,5 1 − 0,3 2 + 65,3 ПРОХОДИТ ЧЕРЕЗ ТОЧКУ (СРЕДНЯЯ ПЛОЩАДЬ МАГАЗИНА, СРЕДНЕЕ УДАЛЕНИЕ ОТ Ж/д СТАНЦИИ, СРЕДНЯЯ МЕСЯЧНАЯ ВЫРУЧКА)!

y

x

x

Ä à?!

ПОНЯТНО!

3. Проверка точности уравнения множественной регрессии

ИТАК, НА СЛЕДУЮЩЕМ ЭТАПЕ МЫ ДОЛЖНЫ ПРОВЕРИТЬ ТОЧНОСТЬ УРАВНЕНИЯ МНОЖЕСТВЕНОЙ РЕГРЕССИИ, ТАК?

ЗНАЧИТ, КАК УЖЕ БЫЛО В РЕГРЕССИОННОМ АНАЛИЖЕ, МЫ БУДЕМ ИСКАТЬ КОЭФФИЦИЕНТ МНОЖЕСТВЕННОЙ КОРРЕЛЯЦИИ И КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ? ТЕРМИНАЦИИ

Молодцы! Вы на верном пути!

2. Конкретный пример множественной регрессии

113


R

КОЭФФИЦИЕНТ МНОЖЕСТВЕННОЙ КОРРЕЛЯЦИИ ЭТО КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ МЕЖДУ ФАКТИЧЕСКИМ ЗНАЧЕНИЕМ И ОЖИДАЕМЫМ ЗНАЧЕНИЕМ , А ЕГО КВАДРАТ - ЭТО 2 . КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ

y

ŷ

Название магазина

-

R

ФактиОжидаемое ческое значение ŷ значение (41,5x1 − 0,3x 2 + 65,3)

y−y

ŷ−ŷ

(y − y)2

(ŷ − ŷ)2

(y − y)· ·(ŷ − ŷ)

(y − ŷ)2

Юмэно-ока

469

453,2

137,2

121,4

18823,8

14735,1

16654,4

250,0

Тэраи

366

397,4

34,2

65,6

1169,6

4307,5

2244,6

988,0

Сонэ

371

329,3

39,2

−2,5

1536,6

6,5

−99,8

1742,6

Хасимото

208

204,7

−123,8

−127,1

15326,4

16150,7

15733,2

10,8

Кикё

246

253,7

−85,8

−78,1

7361,6

6106,9

6705,0

58,6

Юбин

297

319,0

−34,8

−12,8

1211,0

163,1

444,4

485,3

Суйдо

363

342,3

31,2

10,5

973,4

109,9

327,1

429,2

Рокузё

436

438,9

104,2

107,1

10857,6

11480,1

11164,5

8,7

Вакаба

198

201,9

−133,8

−129,9

17902,4

16870,5

17378,8

15,3

Мисато

364

377,6

32,2

45,8

1036,8

2096,4

1474,3

184,6

Сумма

3318

3318,0

0

0

76199,6 72026,6

72026,6

4173,0

Средн. арифм.

331,8

331,8

Syy

Sŷŷ

Syŷ

Se

y

ŷ

ЭТО НЕ ИСПОЛЬЗУЕТСЯ ДЛЯ ВЫЧИСЛЕНИЯ КОЭФФИЦИЕНТА МНОЖЕСТВЕННОЙ КОРЕЛЛЯЦИИ

R

, НО ПОНАДОБИТСЯ НАМ В ДАЛЬНЕЙШЕМ.

114

Глава 3. Множественная регрессия

î!

R2 = (0,9722)2 = 0,9452.

Çíà÷ èò, êîýôôèöèåíò äåòåðìèíàöèè ñîñòàâëÿåò öåëûõ 0,9452!

Коэффициент детерминации R2:

Õî

Коэффициент множественной корелляции R: Cумма произведений отклонений y и ŷ = R= √Cумма квадратов отклонений y · Cумма квадратов отклонений ŷ Syŷ 72026,6 = = = 0,9722. √Syy · Sŷŷ √76199,6 · 72026,6


КОЭФФИЦИЕНТ 2 ДЕТЕРМИНАЦИИ

R

МОЖЕТ ПРИНИМАТЬ ЗНАЧЕНИЯ ОТ 0 ДО 1, КАК ОБЫЧНО?

ДА, КОНЕЧНО. ЧЕМ ВЫШЕ ТОЧНОСТЬ УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ, ТЕМ ОН БЛИЖЕ К 1, А ЧЕМ НИЖЕ ТЕМ ОН БЛИЖЕ К

ЗНАЧИТ, ТОЧНОСТЬ У ЭТОГО УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ ВЫСОКАЯ!

ó! Ïð

åê

ðà

ñí

Ìè

КОНЕЧНО! ВЕДЬ ОН ТАК БЛИЗОК К 1!

î!

И ТАК ЖЕ, КАК В РЕГРЕССИОННОМ АНАЛИЗЕ, ЖЁСТКОГО КРИТЕРИЯ НЕ СУЩЕСТВУЕТ?

0.

ДА, ИМЕННО ТАК. ОДНАКО, ТЫ ДОЛЖНА ОРИЕНТИРОВАТЬСЯ НА «БОЛЕЕ 0,5».

КСТАТИ, ЗАМЕЧУ, ЧТО ВЫПОЛНЯЕТСЯ ВОТ ТАКОЕ СООТНОШЕНИЕ. ПРАВДА, ДОКАЗЫВАТЬ ЕГО ВАМ Я НЕ БУДУ.

Коэффициент = Коэффициент множедетерминации ственной корреляции = a1S1y + a2S2y + … + apSpy = 1 − Se . Syy Syy

(

)

2

=

Ну-ну!

Примечание: S1y, S2y,…,Spy описываются на стр. 138 2. Конкретный пример множественной регрессии

115


НА САМОМ ДЕЛЕ, КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ ИМЕЕТ ОДИН НЕДОСТАТОК.

ЗДЕСЬ НУЖНО ОБРАТИТЬ ВНИМАНИЕ ВОТ НА ЧТО.

0 ,9

4 52

ЭХ, А МЫ НАПРЯГАЛИСЬ, ВЫЧИСЛЯЛИ...

ВОТ КАК? В ЧЁМ ЖЕ ДЕЛО?

Ïðà âäà , ýòî äåë àë íå ÿ

?

îå Ä à, êë àñ ñí çí à ÷ åí è å!

А ВОТ В ЧЁМ...

ЧТО?!

ЧЕМ БОЛЬШЕ ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ,...

...ТЕМ выШЕ БУДЕТ ЕГО ЗНАЧЕНИЕ.

ДА?!

НАПРИМЕР, Я ПОПРОБУЮ ДОБАВИТЬ «ВОЗРАСТ ДИРЕКТОРА МАГАЗИНА» К НАШИМ ДАННЫМ.

Название магазина

Площадь Удаление от магазина, ж/д станции, цубо м

Месячная выручка, ×104 йен

Юмэно-ока

10

80

42

469

Тэраи

8

0

29

366

Сонэ

8

200

33

371

Хасимото

5

200

41

208

Кикё

7

300

33

246

Юбин

8

230

35

297

Суйдо

7

40

40

363 436

Рокузё

9

0

46

Вакаба

6

330

44

198

Мисато

9

180

34

364

×èñë î îáúÿñ íÿþù èõ ïåðå ìåíí ûõ âîçðî ñëî ñ 2 äî 3.

116

Возраст директора, лет

×ò î?! Âî çð àñ ò äè ðå ê òî ðà ì àã à çè íà?!

Глава 3. Множественная регрессия

КАК ВЫ ПОМНИТЕ, КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ БЕЗ «ВОЗРАСТА ДИРЕКТОРА МАГАЗИНА» СОСТАВЛЯЛ 0,9452 .

ТЕПЕРЬ ДОБАВЛЯЕМ «ВОЗРАСТ ДИРЕКТОРА МАГАЗИНА».


Площадьмагазина цубо

КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ СТАЛ РАВЕН 0,9495!

ДА, ОН И В ПРАВДУ УВЕЛИЧИЛСЯ.

Ìåñÿ÷íàÿ âûðó÷êà

Êîýôôèöèåíò êîððåëÿöèè ðàâåí 0,0368 И ОБРАТИТЕ ВНИМАНИЕ ВОТ НА ЧТО!

Удаление от ж/д станции

д и В оз р ре а с кт т ор а

цубо

Удаление от ж/д станции

д и В оз р ре а с кт т ор а

Площадьмагазина

Юмэно-ока Тераи

Рокузё

Сонэ Мисато

Суйдо Юбин

НО, НЕСМОТРЯ НА ЭТО, ЗНАЧЕНИЕ ДОЛИ ВКЛАДА УВЕЛИЧИЛОСЬ.

Кикё Хасимото Вакаба

Âîçðàñò äèðåêòîðà ìàãàçèíà

«ВОЗРАСТ ДИРЕКТОРА МАГАЗИНА» СОВСЕМ НЕ СВЯЗАН С «МЕСЯЧНОЙ ВЫРУЧКОЙ»!

НО НЕ ПЕРЕЖИВАЙТЕ!

Ä à, ÿ à ë , âîâ ÷ óâñò çäåñü ÷ òî òî ÷ ò î - ê! íå òà ЧТО ЖЕ НАМ С ЭТИМ ДЕЛАТЬ?

ЕСТЬ ТАКАЯ ВЕЩЬ, КАК КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ СО СКОРРЕКТИРОВАННЫМ ЧИСЛОМ СТЕПЕНЕЙ СВОБОДЫ* СВОБОДЫ или СКОРРЕКТИРОВАННЫЙ КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ! ДЕТЕРМИНАЦИИ

Íó è íàçâàíüåöå * В прямом переводе название звучит именно так, и с этим связан комментарий Миу. В российской практике он называется «скорректированный коэффициент детерминации» (прим. перев.)

117


ЗНАЧЕНИЕ СКОРЕКТИРОВАННОГО КОЭФФИЦИЕНТА ДЕТЕРМИНАЦИИ ВЫЧИСЛЯЕТСЯ ПО СЛЕДУЮЩЕЙ ФОРМУЛЕ:

R*2

Se выб − Nоб.пер − 1 Syy Nвыб − 1

(N =1−

(

ТЕПЕРЬ ТЫ, МИУ, НАЙДИ НАМ ЗНАЧЕНИЯ СКОРЕКТИРОВАННОГО КОЭФФИЦИЕНТА *2 ДЕТЕРМИНАЦИИ ДЛЯ СЛУЧАЕВ НАЛИЧИя И ОТСУТСТВИя переменной «ВОЗРАСТ ДИРЕКТОРА» СРЕДИ ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ.

)

R

)

где Nвыб — размер выборки, Nоб.пер — число объясняющих переменных. Íàçâàíèå, êîíå ÷ íî, êðóòîå!

Í î ô îð ì ó å ù ¸ êðó ë à ÷ å !.

à!

à é,

Ìè

ó!

ÿë ß ïîí

Äàâ

ТАК...

СНАЧАЛА - ДЛЯ СЛУЧАЯ, когда учитывается ТОЛЬКО «ПЛОЩАДь МАГАЗИНА» И «УДАЛЕНИе ОТ Ж/д СТАНЦИИ».

Ñëó÷àé òîëüêî «ïëîùàäü ìàãàçèíà» è «óäàëåíèå îò æ/ä ñòàíöèè» Êîýôôèöèåíò äåòåðìèíèðîâàíèÿ R2 ðàâåí Ñêîððåêòèðîâàííûé êîýôôèöèåíò äåòåðìèíàöèè R*2 ðàâåí:

NÂÛÁ

NÎÁ. ÏÅÐ NÂÛÁ àê Âîò ò

118

Глава 3. Множественная регрессия


ПОЛУЧИЛОСЬ 0,9296.

КОЭФФИЦИЕНТ 2 ДЕТЕРМИНАЦИИ

ИТАК, А ТЕПЕРЬ СЛУЧАЙ «ПЛОЩАДь МАГАЗИНА», «УДАЛЕНИе ОТ Ж/д СТАНЦИИ» И «ВОЗРАСТ ДИРЕКТОРА МАГАЗИНА».

цубо

Удаление от ж/д станц.

д и В оз р ре а с кт т ор а

Площадь магазина

R

ДЛЯ ЭТОГО СЛУЧАЯ ТОЛЬКО ЧТО РАССЧИТАЛА Миу.

ДА. ПОЛУЧИЛОСЬ 0,9495.

ВЕРНО!

ЗНАЧИТ Осталось РАСЧИТАТЬ ТОЛЬКО ЗНАЧЕНИЕ СКОРРЕКТИРОВАННОГОГО КОЭФФИЦИЕНТА *2 . ДЕТЕРМИНАЦИИ

ОЙ, А ЧЕМУ В ЭТОМ СЛУЧАЕ БУДУТ РАВНЫ yy И e?

S

R

S

NÂÛÁ

NÎÁ. ÏÅÐ S

yy БУДЕТ ТАКИМ ЖЕ, КАК В СЛУЧАЕ ТОЛЬКО «ПЛОЩАДь МАГАЗИНА» И «УДАЛЕНИе ОТ Ж/Д СТАНЦИИ».

S

А e Я РАССЧИТАЛА НА КОМПЬЮТЕРЕ, ПОТОМУ ЧТО ВЫЧИСЛЕНИЯ ДОВОЛЬНО ТРУДОЁМКИ.

Ñëó÷àé «ïëîùàäü ìàãàçèíà», «óäàëåíèå îò æ/ä ñòàíöèè» è «âîçðàñò äèðåêòîðà ìàãàçèíà» Êîýôôèöèåíò äåòåðìèíàöèè R2 ðàâåí Ñêîððåêòèðîâàííûé êîýôôèöèåíò äåòåðìèíàöèè R*2 ðàâåí:

NÂÛÁ Что ты хмуришься?

NÎÁ. ÏÅÐ NÂÛÁ

ГОТОВО!

Óóó… 2. Конкретный пример множественной регрессии

119


ОГО! ЗНАЧЕНИЕ СКОРРЕКТИРОВАННОГО КОЭФФИЦИЕНТА

Ïëîùàäü ìàãàçèíà Ïëîùàäü ìàãàçèíà îò æ/ä ñòàíöèè Óäàëåíèå îò æ/ä ñòàíöèè Óäàëåíèå Âîçðàñò äèðåêòîðà

R*2

ДЕТЕРМИНАЦИИ ОКАЗАЛОСЬ БОЛЬШЕ В СЛУЧАЕ , БЕЗ «ВОЗРАСТА ДИРЕКТОРА»!

Ведь это ж надо!

НУ КАК, ПОНЯЛИ, ЧТО *2 БОЛЕЕ ЗНАЧЕНИЕ 2 УБЕДИТЕЛЬНО, ЧЕМ ?

R

R

А ПОЧЕМУ В ОБОИХ случаях СКОРРЕКТИРОВАННЫЙ *2 КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ МЕНЬШЕ, ЧЕМ КОЭФФИЦИЕНТ 2 ДЕТЕРМИНАЦИИ ?

ЧТО?

R

R

Ïëîùàäü ìàãàçèíà Ïëîùàäü ìàãàçèíà Óäàëåíèå îò æ/ä ñòàíöèè Óäàëåíèå îò æ/ä ñòàíöèè Âîçðàñò äèðåêòîðà

ДА, ТЫ ПРАВА. *2 НА САМОМ ДЕЛЕ 2 ВСЕГДА МЕНЬШЕ , А НЕ ТОЛЬКО В НАШЕМ ПРИМЕРЕ.

ПОЭТОМУ ДЛЯ ПРОВЕРКИ ТОЧНОСТИ УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ НАДЁЖНЕЕ ИСПОЛЬЗОВАТЬ *2 .

R R

Í å óæ å

ë è?!

R

Î ðè åí ò èð 5». « íå ì åí åå 0,

ПОНЯТНО!

120

Глава 3. Множественная регрессия


ДАЛЕЕ...

ТО ЕСТЬ ПРОверять значимость коэффициентов регрессии И ОЦЕНИВАТЬ РЕГРЕССИЮ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ, ДА?

ДЛЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ ТОЖЕ НЕОБХОДИМО ОЦЕНИВАТЬ ГЕНЕРАЛЬНУЮ СОВОКУПНОСТЬ.

 ñë ó ÷ àå ì í îæ åñò âå í í îé ðå ãð åñ ñè è ýò î áó äå ò « ï ðî âå ðê à çí à ÷ è ì îñ òè ÷ àñ ò í û õ êî ýô ô èö è åí ò îâ ðå ãð åñ ñè èè» ».

А НУ-КА ВСПОМНИ ПРЕДПОСЫЛКУ ДЛЯ ПРОВЕДЕНИЯ РЕГРЕССИОННОГО АНАЛИЗА!

ДА! ТО ЖЕ САМОЕ И ДЛЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ.

ГИПОТЕЗА

ТАК... ТАМ НУЖНО БЫЛО ВЕРИТЬ В ПРАВИЛЬНОСТЬ ОДНОЙ ГИПОТЕЗЫ, ДА?

ХР УС ТЬ

ГИПОТЕЗА Среднее арифметическое месячной выручки магазина площадью x1 цубо и удалённого от ж/д станции на x2 метров равно A1x1 + A2x2 + B, а её распределение подчиняется закону нормального распределения со среднеквадратичным отклонением σ (сигма).

ПЕРЕД ПРОВЕДЕНИЕМ АНАЛИЗА НЕОБХОДИМО ПОВЕРИТЬ В СПРАВЕДЛИВОСТЬ ДАННОЙ ГИПОТЕЗЫ.

ßñíî

2. Конкретный пример множественной регрессии

121


4. Проведение «проверки значимости коэффициентов регрессии»

Åñëè íàéäåííîå óðàâíåíèå ðåãðåññèè èìååò âèä

ОБЪЯСНЯТЬ ПРИЧИНЫ Я НЕ БУДУ, НО В СТАТИСТИКЕ ПРО И 1 , 2, ИЗВЕСТНО ВОТ ЧТО:

A

A B

σ

òî ìîæíî ñêàçàòü ñëåäóþùåå:

À âîò çäåñü íå òàê, êàê áûëî â ðåãðå ññèîíí îì àíàë èçå

ТЕПЕРЬ ПОПРОБУЙ ПРИМЕНИТЬ ЭТО К СЛУЧАЮ С «КАЗАМИ-BAKERY».

NÂÛÁ

NÎÁ.ÏÅÐ.

ТАК..

УРАВНЕНИЕ МНОЖЕСТВЕННОЙ РЕГРЕССИИ ИМЕЕТ ВИД

41,5x1 − 0,3x2 + 65,3, ЗНАЧИТ...

ВОТ ТАК?

122

Глава 3. Множественная регрессия

ВЕРНО!


проверка значимости ЧАСТНЫХ КОЭФФИЦИЕНТОВ регрессИИ,...

...ИМЕЕТ, В ОТЛИЧИЕ ОТ РЕГРЕССИОННОГО АНАЛИЗА, ДВЕ РАЗНОВИДНОСТИ.

ПЕРВАЯ ИЗ НИХ - ЭТО СОВМЕСТНая проверка значимости ЧАСТНЫХ КОЭФФИЦИЕНТОВ РЕГРЕССИИ,....

Íóëåâàÿ ãèïîòåçà Àëüòåðíàòèâíàÿ ãèïîòåçà

íå âûïîëíÿåòñÿ. Äðóãèìè ñëîâàìè âåðíî îäíî èç ñëåäóþùèõ óñëîâèé:

ИТАК, ВЫБРАВ УРОВЕНЬ ЗНАЧИМОСТИ 0,05, ПОПРОБУЕМ ПРОВЕСТИ ОБЕ проверки значимости.

…А ВТОРАЯ - РАЗДЕЛЬНая проверка значимости ЧАСТНЫХ КОЭФФИЦИЕНТОВ РЕГРЕССИИ.

Íóëåâàÿ ãèïîòåçà Àëüòåðíàòèâíàÿ ãèïîòåçà

, ìàþ ß ä ó ñëó ÷ àå îì â ý ò ðÿ þ ò å ïðî â àñòí ûå û ò âñå ÷ ôèöèåí ê î ý ô ð å ñ ñ è è? ðåã

Ä à!

ХОРОШО!

2. Конкретный пример множественной регрессии

123


Сначала — совместная проверка значимости частных коэффициентов регрессии!

Шаг 1 Определение генеральной совокупности.

Определяем генеральную совокупность как «магазины площади x1 цубо, удалённые от железнодорожной станции на x 2 м».

Шаг 2 Построение нулевой гипотезы и альтернативной гипотезы.

Нулевая гипотеза: A1 = A2 = 0. Альтернативная гипотеза: A1 = A2 = 0 не выполняется.

Шаг 3 Выбор вида статистической проверки.

Будем проводить совместную проверку значимости частных коэффициентов регрессии.

Шаг 4 Назначение уровня значимости.

Назначаем уровень значимости равным 0,05.

Шаг 5 Нахождение значения статистического критерия по данным выборки.

Мы собираемся провести «совместную проверку значимости частных коэффициентов регрессии», в которой значение статистического критерия вычисляется по формуле:

Syy − Se ÷ Se , Nвыб − 1 Nвыб − Nоб.пер − 1 где Nвыб — размер выборки, Nоб.пер — число объясняющих переменных. В нашем примере это значение равно: 76199,6 − 4173,0 2

4173,0

÷ 10 − 2 − 1 = 60,4.

Кроме того, в нашем примере в случае верности нулевой гипотезы статистический критерий будет подчиняться F-распределению с первым числом степеней свободы, равным 2 (т.е. числу объясняющих переменных), и со вторым числом степеней свободы, равным 7 (т.е. значению выражения Nвыб − Nоб.пер − 1). Шаг 6 Сравнение значения P, которое соответствует значению статистического критерия, найденному в шаге 5, с уровнем значимости.

Уровень значимости равен 0,05. Значение P, которое соответствует значению статистического критерия 60,4, равно 0,00004. 0,00004 < 0,05, т.е. значение P ниже уровня значимости.

Шаг 7 Если сравнение на шаге 6 Значение P оказалось ниже уровня значимости. показало, что значение P ниже Следовательно верна альтернативная гипотеза, согласно уровня значимости, то делается которой A1 = A2 = 0 не выполняется. вывод: «альтернативная гипотеза правильна». В противном случае делается вывод: «нулевая гипотеза не может быть признана ошибочной».

124

Глава 3. Множественная регрессия


А теперь — раздельная проверка значимости частных коэффициентов регрессии! Попробуем провести его для a1!

Шаг 1 Определение генеральной совокупности.

Определяем генеральную совокупность как «магазины площади x1 цубо, удалённые от железнодорожной станции на x 2 м».

Шаг 2 Построение нулевой гипотезы и альтернативной гипотезы.

Нулевая гипотеза: A1=0 Альтернативная гипотеза: A1≠0

Шаг 3 Выбор вида статистической проверки.

Будем проводить раздельную проверку значимости частных коэффициентов регрессии.

Шаг 4 Назначение уровня значимости.

Назначаем уровень значимости равным 0,05.

Шаг 5 Нахождение значения Мы собираемся провести «раздельную проверку статистического критерия по данным значимости частных коэффициентов регрессии», выборки. в котором значение статистического критерия вычисляется по формуле: a12 Se . ÷ S11 Nвыб − Nоб.пер − 1 В нашем примере это значение равно: 41,52 4173,0 ÷ = 44,0. 0,0657 10 − 2 − 1 Кроме того, в нашем примере в случае верности нулевой гипотезы статистический критерий будет подчиняться F-распределению с первым числом степеней свободы, равным 1, и со вторым числом степеней свободы, равным 7, (т.е. значению выражения Nвыб − Nоб.пер − 1). Шаг 6 Сравнение значения P, которое соответствует значению статистического критерия, найденному в шаге 5, с уровнем значимости.

Уровень значимости равен 0,05. Значение P, которое соответствует значению статистического критерия 44,0, равно 0,0003. 0,0003<0,05, т.е. значение P ниже уровня значимости.

Шаг 7 Если сравнение на шаге 6 показало, Значение P оказалось ниже уровня значимости. что значение P ниже уровня значимо- Следовательно верна альтернативная гипотеза, сти, то делается вывод: «Альтернасогласно которой A1≠0. тивная гипотеза правильна». Иначе делается вывод: «Нулевая гипотеза не может быть признана ошибочной». Примечание: Метод вычисления S 11 описан на следующей странице

Каков бы ни был вывод шага 7, если значение статистического критерия a12 Se ÷ S11 Nвыб − Nоб.пер − 1

больше 2, то принято полагать, что объясняющая переменная, которая соответствует проверяемому коэффициенту корреляции, полезна для предсказания отклика.

2. Конкретный пример множественной регрессии

125


«S11», появившаяся на шаге 5, находится так −1 10 80

1

8

1

0

8 200 1 10

8

80

0

1

1

8

5

7

8

200 200 300 230 1

1

1

1

7

9

40

0

1

1

6

9

330 180 1

1

5 200 1 7 300 1 8 230 1 7

40

1

9

0

1

6 330 1 9 180 1 Площадь магазина

=

0,0657

0,00001

Это, кстати, «S22»

Удаление от ближайшей железнодорожной станции Эти строки, заполненные 1, нужны для удобства вычислений

В некоторой литературе проверка статистической значимости частных коэффициентов регрессии описывается на основе t-распределения, а не F-распределения. Я опущу довольно сложные математические подробности, но на каком бы распределении мы не основывались, окончательный вывод будет одним и тем же.

ЗНАЧИТ,

A1 ‡ 0! Ïû õ èáî Ñïàñ å, òåá ! Ìèó

126

Глава 3. Множественная регрессия


5. Оценка регрессии генеральной совокупности A1x1 + A2x2 + … + APxP + B

ДАЛЬШЕ У НАС БЫЛА ОЦЕНКА РЕГРЕССИИ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ, НЕ ТАК ЛИ?

БУДЕМ ИСКАТЬ ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ, ИНТЕРВАЛ КАК И В РЕГРЕССИОННОМ АНАЛИЗЕ, ДА?

…В СЛУЧАЕ МНОЖЕСТВННОЙ РЕГРЕССИИ РАСЧЁТЫ СЛИШКОМ УЖ ТРУДОЁМКИ!

ИМЕННО ТАК. ОДНАКО...

ВСЁ ПОЧТИ КАК В РЕГРЕССИОННОМ АНАЛИЗЕ, НО ПО ПУТИ ВЫЛЕЗЕТ ОБОБЩЁННОЕ РАССТОЯНИЕ МАХАЛАНОБИСА. МАХАЛАНОБИСА БУДЕТ ТАК СЛОЖНО...

îì Ý ò î, íà ñà ì ðà èï ïð « , äå ëå âë åí íî å» ðà ññ åÿ íè å äà íí ûõ .. .

НЕУЖЕЛИ ЭТО ТАК СЛОЖНО...?

ДА. МОЖЕТ БЫТЬ, ВОЗЬМЁМ ОТПУСК И УЕДЕМ В ДОМ ОТДЫХА, ЧТОБЫ СОСРЕДОТОЧИТСЯ НА РАСЧЁТАХ?

Ì àõ àë à

...

 äîì îòäûõà?!

2. Конкретный пример множественной регрессии

127


Íå

ñïà

ò ü!

ХОРОШО. НУ ТОГДА ДАВАЙТЕ СЧИТАТЬ ВСЮ НОЧЬ НАПРОЛЁТ!

, åò è î æ ê à ì ñ ÿ? Ì óø ì å ä ïî èäà ê î ï Я ЗА!

Á ðð

... ДА?!

ТОГДА ДАВАЙТЕ НА ЭТОТ РАЗ НАЙДЁМ ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ С ПОМОЩЬЮ КОМПЬЮТЕРНОЙ ПРОГРАММЫ ДЛЯ АНАЛИЗА.

НО ЕСЛИ ЧЕРЕСЧУР НА НЕГО ПОЛАГАТЬСЯ, ТО НИЧЕМУ НЕ НАУЧИШЬСЯ.

НЕ ХОЧУ!

СПАСИБО КОМПЬЮТЕРУ!

ИСПОЛЬЗУЙ КОМПЬЮТЕР ТОЛЬ КО ПРИ КРАЙНЕЙ НЕОБХОДИМОСТИ!

À é ...

è ò! Õâ à ò ë ñÿ ¸ í à ø í è ê! óì ìíå

128

Глава 3. Множественная регрессия

Õàõ àõà


НУ, ТОГДА ДЛЯ ПРОВЕРКИ ПОПРОБУЕМ НАЙТИ ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ, НАПРИМЕР, ДЛЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ

ЧТО, ОБРАДОВАЛАСЬ? СИДИ И НАБЛЮДАЙ ЗА ПРОЦЕССОМ!

A1 · 10 + A2 · 80 + B. ДАВАЙ. ДЛЯ ДОВЕРИТЕЛЬНОЙ ВЕРОЯТНОСТИ 95%.

Èçâèíè

ПОЛУЧИЛОСЬ 453,2 ± 34,9.

Примечание: Метод расчётов см. на стр. 138 ТО ЕСТЬ, КОНКРЕТНО ГОВОРЯ...

...ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ · · 1 10 + 2 80 + С ДОВЕРИТЕЛЬНОЙ ВЕРОЯТНОСТЬЮ ЛЕЖИТ МЕЖДУ 4 4 418,3 · 10 И 488,1 · 10 ЙЕН, ДА?

A

A

B

95%

ДА, ПРАВИЛЬНО!

4 53

è 4 , 2 +3 4 îç í à 53 , 2 −3 ,9 ÷ àþ ò 4 , ÷ ò ,9 î ..

.

2. Конкретный пример множественной регрессии

129


6. Построение прогноза

ВОТ ВАМ ДАННЫЕ ПО МАГАЗИНУ, КОТОРЫЙ ПЛАНИРУЕТСЯ ОТКРЫТЬ.

Название магазина

Площадь магазина, цубо

Удаление от ж/д станции, м

ИСЭБАСИ

10

110 ÿä îì ðÿ ìî ð Ó ð à! Ï ì ä î ì î ì ! ñ ìîè

МИУ, ПОПРОБУЙ-КА ПРЕДСКАЗАТЬ ВЫРУЧКУ.

СПАСИБО ТЕБЕ, МИУ!

ò î. Íå çà ÷ î üê ë î ò ü ä Âå ÿ á ë à ãî ä à ð Ðè ñ å .. . ТАК...

447,3, ВЕРНО?! ХОРОШО!

ДА, КСТАТИ. НУЖНО ЛИ ИСКАТЬ Прогнозируемый интервал В МНОЖЕСТВЕННОЙ РЕГРЕССИИ, КАК МЫ ДЕЛАЛИ ЭТО В РЕГРЕССИОННОМ АНАЛИЗЕ?

КОНЕЧНО!

В РЕГРЕССИОННОМ АНАЛИЗЕ МЕТОДЫ ПОИСКА Прогнозируемого интервала И ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА БЫЛИ ПОХОЖИ. А В МНОЖЕСТВЕННОЙ РЕГРЕССИИ ОНИ ТОЖЕ ПОХОЖИ?

ДА, ПОХОЖИ.

130

Глава 3. Множественная регрессия


ДА, КАКОЕ-ТО ТАМ РАССТОЯНИЕ.

ЗНАЧИТ, ТУТ ТОЖЕ БУДЕТ ЭТО, КАК ЕГО ТАМ, МАХАЛА...

Ï ô ô.

ДА! ДЛЯ ПОИСКА Прогнозируемого интервала ТОЖЕ ИСПОЛЬЗУЮТ ОБОБЩЁННОЕ РАССТОЯНИЕ МАХАЛАНОБИСА.

Ýé âû, äâîå, çàïîìíèòå èìÿ êàê ñëåäóåò

.. ТОГДА ЭТО ТОЖЕ РАССЧИТАЙ НА КОМПЬЮТЕРЕ. Конечно, я всё ещё хочу в дом отдыха

ТАК... ДОВЕРИТЕЛЬНАЯ ВЕРОЯТНОСТЬ РАВНА 95%, ЗНАЧИТ...

ЛАДНО, ЛАДНО.

...МЕЖДУ 375,1 И 510,9.

ЯСНО.

НУ КАК НАСЧЁТ НОВОГО МАГАЗИНА?

БЛАГОДАРЮ ВАС ОБЕИХ! Я УЗНАЛ МНОГО ПОЛЕЗНОГО.

Íåò, ýòî ÿ äîëæíà áûòü áëàãî äàðíà

НУ, В ОБЩЕМ-ТО, НЕПЛОХО...

ОЙ, ПОДОЖДИ, ЕСТЬ ЕЩЁ КОЕ-ЧТО.

2. Конкретный пример множественной регрессии

131


Ï ð à âä à?

И НАПОСЛЕДОК В КАЧЕСТВЕ ПОДАРКА Я ПОЗНАКОМЛЮ ВАС С МЕТОДОМ ПОЛУЧЕНИЯ ЛУЧШЕГО УРАВНЕНИЯ МНОЖЕСТВЕННОЙ РЕГРЕССИИ!

ПОЧЕМУ ЖЕ ТЫ НЕ РАССКАЗАЛА НАМ О НЁМ В САМОМ НАЧАЛЕ…? А ТЫ ДОСЛУШАЙ МОЁ ОБЪЯСНЕНИЕ ДО КОНЦА.

ДАЖЕ ЕСЛИ СРЕДИ ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ЕСТЬ НЕ СВЯЗАННЫЕ С ОТКЛИКОМ, КАК В НЕДАВНЕМ ПРИМЕРЕ С «ВОЗРАСТОМ ДИРЕКТОРА МАГАЗИНА», ДА?

Âûñîòà ï î ò î ë êà

à ä è ð å ê ò îð Â îç ð à ñò ç è í à ãà à ì В МНОЖЕСТВЕННОЙ РЕГРЕССИИ, ТАК ЖЕ КАК И В РЕГРЕССИОННОМ АНАЛИЗЕ, ЧИСТО МАТЕМАТИЧЕСКИ УРАВНЕНИЕ МНОЖЕСТВЕННОЙ РЕГРЕССИИ МОЖНО НАЙТИ ДЛЯ ЛЮБЫХ ДАННЫХ.

132

× èñëî â ê î ì í à ñ ò ó ë üå â òå îòäû õ à.

Глава 3. Множественная регрессия

× èñ

ëî ï îäí î

ñîâ

МОЛОДЕЦ, ХОРОШО ПОМНИШЬ.

К ТОМУ ЖЕ, ЧЕМ БОЛЬШЕ ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ, ТЕМ СлОЖНЕЕ МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, НЕ ТАК ЛИ?

×òî, è ýòî òîæå íàäî ó ÷ èòûâàòü? Ñîâñåì ãîëîâà ðàñïóõëà...

å ùè íÿþ í ûå ñ ÿ Î áú ð å ì å í ïå


Сложно

ТАКИМ ОБРАЗОМ, ДЛЯ ИССЛЕДОВАТЕЛЯ ЛУЧШИМ БУДЕТ УРАВНЕНИЕ МНОЖЕСТВЕННОЙ РЕГРЕССИИ, ИМЕЮЩЕЕ МАЛО ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ И ОБЕСПЕЧИВАЮЩЕЕ ВЫСОКУЮ ТОЧНОСТЬ.

Просто

Низкая точность

Высокая точность

ДА, КОНЕЧНО.

И МЕТОДАМИ, ПОЗВОЛЯЮЩИМИ НАЙТИ ТОЧНОЕ УРАВНЕНИЕ МНОЖЕСТВЕННОЙ РЕГРЕССИИ С МАЛЫМ ЧИСЛОМ ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ, ЯВЛЯЮТСЯ:

НО СЕГОДНЯ МЫ ВМЕСТО ВСЕХ ЭТИХ МЕТОДОВ ОБДУМАЕМ ГОРАЗДО БОЛЕЕ ПРИЯТНЫЙ ПЕРЕБОРА МЕТОД - МЕТОД ПЕРЕБОРА!

• Метод пошагового добавления переменных; переменных • Метод пошагового исключения переменных; переменных • Метод пошагового добавления и исключения переменных; переменных • Метод, основанный на информационном критерии критерии.

Метод

перебо

ра

Î ã î!

А ТАКЖЕ МНОГИЕ ДРУГИЕ.

...УРАВНЕНИЕ МНОЖЕСТВЕННОЙ РЕГРЕССИИ ИЩУТ, ПЕРЕБИРАЯ ВСЕВОЗМОЖНЫЕ КОМБИНАЦИИ ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ!

А ЧТО ЭТО ЗА МЕТОД?

è НУ, НАПРИМЕР, КОГДА КАНДИДАТАМИ В ОБЪЯСНЯЮЩИЕ ПЕРЕМЕННЫЕ ЯВЛЯЮТСЯ

x1, x2

И

x3

è è

è

è

Ä à óæ , ïîèñòèí å ìå òîä ïåðåáîð à!

,...

2. Конкретный пример множественной регрессии

133


ИТАК, ДАВАЙТЕ ИСПЫТАЕМ МЕТОД ПЕРЕБОРА НА ПРАКТИКЕ!

í à », ì à ã àç è î ùàä è àíöè è» ë ï « å ä ñò » ìåð Í à ï ð è ë å í è ÿ î ò æ / ð à ì à ã àç è í à å êò î «óäà ð è ä à ðàñò è « â îç

НАЙДЁМ КАЖДОЕ ИЗ УРАВНЕНИЙ МНОЖЕСТВЕННОЙ РЕГРЕССИИ...

ПОЛУЧИЛОСЬ ЧТО-ТО В ЭТОМ РОДЕ.

ОГО!

Объясняющие переменные

a1

1

54,9

2

b

Скорректированный коэффициент детериминации R*2

−91,3

0,7709

424,8

0,5508

309,1

0,0000

65,3

0,9296

2,0

−170,1

0,7563

−0,6

−0,4

438,9

0,4873

−0,3

1,1

17,7

0,9243

a2

−0,6

3

0,6

1и2

41,5

1и3

55,6

2и3 1и2и3

a3

42,2

−0,3

Уравнение множественной регрессии для объясняющих переменных 1 и 2, т.е. «площади магазина» и «удаления от ж/д станции», имеет вид

у = 41,5x1 − 0,3x2 + 65,3.

ЗНАЧИТ ДЛЯ ЭТИХ ТРЁХ ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ ОКАЗЫВАЕТСЯ, ЧТО ВСЁ ТАКИ...

…ЛУЧШИМ ЯВЛЯЕТСЯ УРАВНЕНИЕ МНОЖЕСТВЕННОЙ РЕГРЕССИИ НА ОСНОВЕ КОМБИНАЦИИ «ПЛОЩАДИ МАГАЗИНА» И «УДАЛЕНИЯ ОТ Ж/Д СТАНЦИИ», ПРАВИЛЬНО?

ДА, ПРАВИЛЬНО!

134

Глава 3. Множественная регрессия


НУ ЧТО, МИУ,...

...УСВОИЛА МНОЖЕСТВЕННУЮ РЕГРЕССИЮ?

ДА! БОЛЬШОЕ СПАСИБО!

...УГОСТИТ НАС КРУАССАНАМИ!

К. . . ЗЫ Р

И Я ТОЖЕ УЗНАЛ МНОГО ПОЛЕЗНОГО.

НУ, ТОГДА БУДУЩИЙ ДИРЕКТОР МАГАЗИНА, В КАЧЕСТВЕ ВОЗНАГРАЖДЕНИЯ ЗА УСЛУГИ АНАЛИЗА,...

Îé, ìîæíî?! Ëàäíî, ÷ òî ñ âàìè äåëàòü

Ä àâ àé , ïî ÷ àé êó ! è ïî äî ì àì

ДА, ОЧЕНЬ!

ПРАВДА, я ХОРОШИЙ ПАРЕНЬ?

ЭХ, МИУ, МИУ...

135


3. Замечание по поводу проведения множественной регрессии Ниже повторно приводится «процесс поиска множественной регрессии» со стр. 106.

 Проверка целесообразности нахождения множественной регрессии с помощью точечных графиков всех объясняющих переменных и отклика.

 Вывод уравнения множественной регрессии  Проверка точности уравнения множественной регрессии  Проведение «проверки значимости частных коэффициентов регрессии»  Оценка регрессии генеральной совокупности A1x1 + A2x2 + … + APxP + B  Построение прогноза ■ Рис. 3.1. Процесс нахождения множественной регрессии В начале этой главы говорилось, что этапы с  по  обязательны. На самом деле это не совсем так. Так же, как и в регрессионном анализе, иногда бывет достаточно пройти лишь этапы c  по . Сеть «КАЗАМИ-BAKERY», о которой шла речь в  данной главе, состояла всего лишь из 10 заведений. Например, магазин с  площадью 10 цубо ии  удалением от ближайшей ж/д станции 80 м, «Юмэно-ока», существует лишь в единственном экземпляре. Поэтому некоторые из читателей, наверно, спросят, зачем нужно, например, оценивать генеральную совокупность A1 · 10 + A2 · 80 + B и проводить «проверку значимости частных коэффициентов корреляции». Подобные сомнения вполне понятны. В действительности, Риса проводила анализ, имея ввиду следующую предпосылку: В будущем в сети «КАЗАМИ-BAKERY» появится много магазинов с площадью 10 цубо и удалением от ближайшей ж/д станции 80 м, а «Юмэно-ока» - лишь один магазин, извлечённый из этой группы. Можно сказать, что предложенная Рисой предпосылка содержит повод для обсуждения. Возможно, в  ней есть некоторая натяжка. Строго говоря, если учесть огромную популярность сети «КАЗАМИ-BAKERY», нельзя заявить, что это уж слишком невероятное предположение, однако можно также сказать, что необязательно было оценивать генеральную совокупность — хватило бы и анализа с точки зрения описательной статистики.

136

Глава 3. Множественная регрессия


4. Нормированный остаток В множественной регрессии так же, как в  регрессионном анализе, необходимо рассматривать нормированный остаток, который в  случае множественной регрессии вычисляется по формуле: Остаток y−ŷ = Cумма квадратов остатков Se Nвыб − Nоб.пер − 1 РазВыб − ЧислоОбъяснПер − 1 где Nвыб — размер выборки, Nоб.пер — число объясняющих переменных.

В таблице ниже приведены нормированные остатки из данной главы. ◆ Таблица 3.1. Нормированные остатки из данной главы Название магазина Юмэно-ока

Площадь Удаление от Месячная магазина, ближайшей выручка, станции, x1 x2 y 10

80

469

Месячная Остатки выручка ŷ = 41,5x1 − y−ŷ − 0,3x 2 + 65,3.

Нормированные остатки y−ŷ 4173,0 10 − 2 − 1

53,2

15,8

0,6

Тэраи

8

0

366

397,4

−31,4

−1,3

Сонэ

8

200

371

329,3

41,7

1,7

Хасимото

5

200

208

204,7

3,3

0,1

Кикё

7

300

246

253,7

−7,7

−0,3 −0,9

Юбин

8

230

297

319,0

−22,0

Суйдо

7

40

363

342,3

20,7

0,8

Рокузё

9

0

436

438,9

−2,9

−0,1

Вакаба

6

330

198

201,9

−3,9

−0,2

Мисато

9

180

364

377,6

−13,6

−0,6

 −13,6 = −0,6 4173,0 10 − 2 − 1

Можно сказать, что чем большее значение нормированного остатка имеет экземпляр выборки, тем сильнее этот экземпляр отличается от остальной выборки. При наличии в выборке экземпляров с абсолютным значением нормированного остатка больше 3 рекомендуется исключить их из выборки и  повторно найти множественную регрессию.

4. Нормированный остаток

137


5. Обобщённое расстояние Махаланобиса, доверительный и прогнозируемый интервалы Как уже было отмечено на стр. 127 и 131, в процессе вычисления доверительного интервала и  прогнозируемого интервала множественной регрессии появляется обобщённое расстояние Махаланобиса. Это расстояние представляет собой передовую идею, которая отличается от «обычного» евклидова расстояния, которое мы все изучали в средней и старшей школах. Наверное, некоторые читатели спросят: «Зачем нужно было специально придумывать подобное расстояние?». Однако здесь, к сожалению, нет возможости ответить на этот вопрос, так как это займёт не одну страницу и к тому же не будет соответствовать направленности данной книги. Правда, метод расчёта будет приведён ниже. Как бы там ни было, обобщённое расстояние Махаланобиса чрезвычайно ценится в  статистике, поэтому вам неплохо было бы запомнить хотя бы само это понятие. Кстати Махаланобис — это фамилия математика Прасанты Чандры Махаланобиса. Итак, вернёмся к теме данного параграфа. Ниже приведён порядок нахождения доверительного интервала множественной регрессии. Пользуясь случаем, я также опишу порядок нахождения доверительного интервала для ресторана «Юмэноока», о котором говорилось на стр. 129. Шаг 1 Находим матрицу

 S11 S12 … S1q  −1  S11 S12 … S1q  S S21 S22 … S2q  S..21 S..22 … . . ..2q  =  .. .. . . ..   . . . .   .p1 .p2 . .pq   Sp1 Sp2 … Spq   S S … S 

обратную к

 S11 S12 … S1q  S  S..21 S..22 … . . ..2q  . . . .   Sp1 Sp2 … Spq  

Здесь S22, например, означает сумму квадратов отклонений 2-ой объясняющей переменной,а S25 указывает на сумму произведений отклонений 2-ой и 5-ой объясняющих переменных, будучи равным, таким образом S52. Для нашей задачи с ресторанами получим следующее решение: S11 S12 −1 = S11 S12 = 20,1 −792 −1 = 0,0657 0,0004 21 22 S21 S22 S S −792 128 840 0,0004 0,0001

(

138

) (

) (

Глава 3. Множественная регрессия

) (

)


Найденные здесь значения S 11 и S Вообще, значения S ii и S ij матрицы:

22

совпадают со значениями на стр. 126.

 S11 S12 … S1p  −1 S  S..21 S..22 … . . ..2p  . . . .    Sp1 Sp2 … Spp 

обязательно равны значениям S ii и S ij, найденным при  «раздельной проверке значимости частных коэффициентов регрессии». Шаг 2 Находим значение D2 , которое является квадратом обобщённого расстояния Махаланобиса : D2 = {(x1 − x1)(x1 − x1)S11 + (x1 − x1)(x2 − x2)S12 + … + (x1 − x1)(xp − xp)S1p + + (x2 − x2)(x1 − x1)S21 + (x2 − x2)(x2 − x2)S22 + … + (x2 − x2)(xp − xp)S2p + …………………………………………………………………………………… + (xp − xp)(x1 − x1)Sp1 + (xp − xp)(x2 − x2)Sp2 + … + (xp − xp)(xp − xp)Spp} · · (Nвыб − 1) D2 = {(x1 − x1)(x1 − x1)S11 + (x1 − x1)(x2 − x2)S12 + + (x2 − x2)(x1 − x1)S21 + (x2 − x2)(x2 − x2)S22} · (Nвыб − 1) = = {(10 − 7,7)(10 − 7,7) · 0,0657 + (10 − 7,7)(80 − 156) · 0,0004 + (80 − 156)(10 − 7,7) · 0,0004 + (80 − 156)(80 − 156) · 0,00001}(10 − 1) = 2,4

5. Обобщённое расстояние Махаланобиса, доверительный и прогнозируемый интервалы

139


Шаг 3 Находим доверительный интервал. Это доверительный интервал

453,2 − 35

a1 · 10 + a2 · 80 + b = 41,5 · 10 − 0,3 · 80 + 65,3 = 453

= 418

ᇫ453 + 35 = 488

Месячная выручка

Длина каждого из этих двух отрезков вычисляется по одной и той же формуле: 1 + D2 Se F(1, Nвыб − p − 1; 0,05) · · = Nвыб − 1 Nвыб − p − 1 Nвыб

( ) 1 + 2,4 · 4173,0 = 35 = F(1, 10 − 2 − 1; 0,05) · ( √ 10 10 − 1 ) 10 − 2 − 1

где p — число объясняющих переменных (от англ. «predictor variable» — «объясняющая переменная». Прим. перев.) Для нахождения интервала прогнизирования, как и в  случае регрессионного анализа, используется не формула: D2 Se F(1, Nвыб − p − 1; 0,05) · 1 + · , Nвыб Nвыб − 1 Nвыб − p − 1 а немного изменённая формула: 2 Se F(1, Nвыб − p − 1; 0,05) · 1 + 1 + D · Nвыб Nвыб − 1 Nвыб − p − 1

(

(

)

)

В случае доверительной вероятности 99%, необходимо при расчётах просто заменить F(1, Nвыб − p − 1; 0,05)= F(1, 10; 0,05)=5,6 на F(1, Nвыб − p − 1; 0,01)= F(1, 10; 0,01) = 12,2.

140

Глава 3. Множественная регрессия


6. Множественная регрессия при наличии неизмеряемых данных среди объясняющих переменных Ниже повторно приводится таблица со стр. 107 ◆ Таблица 3.2. Таблица со стр. 107 Название магазина Юмэно-ока

Площадь магазина, цубо

Удаление от ж/д станции, м

Месячная выручка, ×104 йен

10

80

469

Тэраи

8

0

366

Сонэ

8

200

371

Хасимото

5

200

208

Кикё

7

300

246

Юбин

8

230

297

Суйдо

7

40

363 436

Рокузё

9

0

Вакаба

6

330

198

Мисато

9

180

364

Взгляд на эту таблицу позволяет понять, что и «площадь магазина», и «удаление от ж/д станции», и «месячная выручка» относятся к измеряемым данным. В множественной регрессии отклик обязательно должен представлять собой измеряемые данные. Однако среди объясняющих переменных могут быть: • только измеряемые данные; • комбинация измеряемых и неизмеряемых данных; • только неизмеряемые данные. Приведём два примера для случая комбинации измеряемых и  неизмеряемых данных и один пример для случая только неизмеряемых данных.

6. Множественная регрессия при наличии неизмеряемых данных

141


Пример 1. Случай комбинации измеряемых и неизмеряемых данных Название магазина

Площадь магазина, цубо

Удаление от ж/д станции, м

Юмэно-ока

Есть уголок Нет уголка дегустации дегустации

Месячная выручка, ×104 йен

10

80

1

0

469

Тэраи

8

0

0

1

366

Сонэ

8

200

1

0

371

Хасимото

5

200

0

1

208

Кикё

7

300

0

1

246

Юбин

8

230

0

1

297

Суйдо

7

40

0

1

363

Рокузё

9

0

1

0

436

Вакаба

6

330

0

1

198

Мисато

9

180

1

0

364

«1» — истина, «0» — ложь. Как рассказывалось на стр. 47, при проведении анализа необходимо удалить один из этих двух столбцов. В данном примере мы удалим столбец «Нет уголка дегустации».

Кстати, в результате анализа этих данных будет получено уравнение множественной регрессии следующего вида: y

142

=

30,6x1

0,4x2

+

39,5x3

Месячная выручка

Площадь магазина

Удаление от ж/д станции

Есть уголок дегустации

Глава 3. Множественная регрессия

+ 135,9


Пример 2. Случай комбинации измеряемых и неизмеряемых данных Площадь магазина, цубо

Название магазина Юмэно-ока

уголок Есть уголок Удаление от Есть дегустации дегустации Нет уголка ж/д станции, каждый только в дегустации м день выходные

10

Месячная выручка, ×104 йен

80

1

0

0

469

Тэраи

8

0

0

0

1

366

Сонэ

8

200

1

0

0

371

Хасимото

5

200

0

0

1

208

Кикё

7

300

0

0

1

246

Юбин

8

230

0

0

1

297

Суйдо

7

40

0

0

1

363

Рокузё

9

0

0

1

0

436

Вакаба

6

330

0

0

1

198

Мисато

9

180

0

1

0

364

«1» — истина, «0» — ложь. Как рассказывалось на стр. 47, при проведении анализа необходимо удалить один из этих трёх столбцов. В данном примере удалим столбец «Нет уголка дегустации».

Проведение анализа этих данных даёт уравнение множественной регрессии следующего вида: y

=

29,6x1

0,4x2

+

59,8x3

+

20,9x4

Месячная выручка

Площадь магазина

Удаление от ж/д станции

Есть уголок дегустации каждый день

Есть уголок дегустации только в выходные

+ 146,4

6. Множественная регрессия при наличии неизмеряемых данных

143


Пример 3. Случай только неизмеряемых данных Название магазина

Площадь магазина

Есть уголок Есть уголок Удаление от дегустации дегустации ж/д станции каждый только в день выходные

Месячная выручка, ×104 йен

Юмэно-ока

1

0

1

0

469

Тэраи

1

0

0

0

366

Сонэ

1

1

1

0

371

Хасимото

0

1

0

0

208

Кикё

0

1

0

0

246

Юбин

1

1

0

0

297

Суйдо

0

0

0

0

363

Рокузё

1

0

0

1

436

Вакаба

0

1

0

0

198

Мисато

1

0

0

1

364

 1: > 8 цубо 0: < 8 цубо

 1: > 200 м 0: < 200 м

1: истина 0: ложь

1: истина 0: ложь

Проведение анализа этих данных даёт уравнение множественной регрессии следующего вида: y

=

50,2x1

− 110,1x2 +

88,5x3

+

13,4x4

Месячная выручка

Площадь магазина

Удаление от ж/д станции

Есть уголок дегустации каждый день

Есть уголок дегустации только в выходные

+ 336,4

Множественную регрессию, объясняющие переменные которой относятся только к неизмеряемым данным, иногда называют специальным термином квантификация класса.

144

Глава 3. Множественная регрессия


7. Мультиколлинеарность В этом параграфе затрагивается довольно сложная тема, которую я постараюсь объяснить как можно более доступно. Дело в том, что если существовуют слишком сильно взаимосвязанные объясняющие переменные, то могут иметь место следующие явления: • частные коэффициенты регрессии не находятся; • частные коэффициенты регрессии находятся, но полученные значения вызывают сомнения (например, при ожидании положительных значений вдруг получаются отрицательные и т.п.). Математически это означает одно из следующих состояний:

• Определитель матрицы

 S11 S12 … S1p  S  S..21 S..22 … . . ..2p  равен 0. . . . .   Sp1 Sp2 … Spp  

• Определитель матрицы

 S11 S12 … S1p  S  S..21 S..22 … . . ..2p  близок к 0.  . . . .   Sp1 Sp2 … Spp 

Эти состояния называют проблемой мультиколлинеарности. Наличие или отсутствие проблемы мультиколлинеарности можно проверить с помощью значений таких показателей, как VIF* (Variance Inflation Factor — фактор инфляции вариации) или толерантность*. Можно также проверить значение определителя матрицы с помощью функции Excel, которая называется MDETERM (МОПРЕД в русской версии). Начинающим изучать статистику можно посоветовать наиболее простой выход: если существует слишком сильная взаимосвязь, то, может быть, стоит провести анализ, исключив одну из объясняющих переменных.

*В данной книге не рассматриваются

7. Мультиколлинеарность

145


8. Степень влияния каждой из объясняющих переменных на отклик и множественная регрессия Читателям, которые впервые узнали о множественной регрессии из этой книги, читать данную главу не обязательно. Итак, некоторые исследователи применяют множественную регрессию не для постороения прогнозов, а для проверки степени влияния каждой из объясняющих переменых на отклик. Я и не отрицаю полностью подобный подход, хотя и не одобряю его. По этому поводу расскажу вам одну историю. Господин Торикоси работает исследователем в Отделе разработок одной кондитерской фабрики. Он отвечает за разработку сладостей, которые в последнее время очень хорошо продаются. Чтобы понять причину, эти сладости были предложены для дегустации группе наблюдателей, сотрудничающих с предприятием. Наблюдатели должны были ответить на вопросы следующей анкеты.

Вопрос: Каково Ваше мнение о наших сладостях (выберите только один вариант ответа) 1. Вкус

1 — Плохо, 2 — Нормально, 3 — Хорошо

2. Размер

1 — Плохо, 2 — Нормально, 3 — Хорошо

3. Удобно ли есть

1 — Плохо, 2 — Нормально, 3 — Хорошо

4. Дизайн упаковки

1 — Плохо, 2 — Нормально, 3 — Хорошо

5. Общее впечатление

1 — Плохо, 2 — Нормально, 3 — Хорошо

Результаты этого анкетирования приведены в следующей таблице:

146

Глава 3. Множественная регрессия


Респондент

1. Вкус

2. Размер

3. Удобно ли есть

4. Дизайн упаковки

5. Общее впечатление

1

2

2

3

2

2

2

1

1

3

1

3

3

2

2

1

1

1

4

3

3

3

2

2

5

1

1

2

2

1

6

1

1

1

1

1

7

3

3

1

3

3

8

3

3

1

2

2

9

3

3

1

2

3

10

1

1

3

1

1

11

2

3

2

1

3

12

2

1

1

1

1

13

3

3

3

1

3

14

3

3

1

3

3

15

3

2

1

1

2

16

1

1

3

3

1

17

2

2

2

1

1

18

1

1

1

3

1

19

3

1

3

3

3

20

3

3

3

3

3

Выполнив нормирование по каждой из переменных*, наш исследователь провёл анализ данных приведённой выше таблицы. В результате получилось следующее уравнение: y

=

0,41x1

+

0,32x2

+

0,26x3

+

0,11x4

5. Общее впечатление

1. Вкус

2. Размер

3. Удобно ли есть

4. Дизайн упаковки

Из величины значений частных коэфициентов регрессии** видно, что самый большой вес имеет объясняющая переменная «1. Вкус», откуда Торикоси заключил, что вкус оказывает наибольшее влияние на общее впечатление.

*

Методика, используемая для исследования степени влияния каждой из объясняющих переменных на отклик. Частные коэффициенты регрессии, выведенные после нормирования по каждой из переменных, иногда называют стандартизированными частными коэфициентами регрессии.

**

8. Степень влияния каждой из объясняющих переменных на отклик

147


Торикоси пришёл к выводу, что вкус оказывает самое большое влияние на общее впечатление. Ход его мыслей, конечно, можно понять, однако здесь необходимо подумать о следующем. Торикоси был подсознательно убеждён, что все переменные приведённой выше таблицы взаимосвязаны следующим образом: Вкус

Размер

Удобно ли есть

Дизайн упаковки

Общее впечатление

Другими словами, он верил в применимость структуры множественной регрессии для данного случая. Но так поступать нельзя, ведь может оказаться, что в действительности переменные связаны между собой, например, вот так: Удобно ли есть

Вкус

Размер

Дизайн упаковки

Общее впечатление

Для проверки степени влияния каждой из объясняющих переменных на отклик лучше использовать не множественную регрессию, а другой метод анализа — моделирование структурными уравнениями*. Однако моделирование структурными уравнениями вовсе не является волшебной методикой, позволяющей определить степень влияния каждой из объясняющих переменных на отклик «автоматически». Для нахождения используемых в этом методе путевых коэффициентов** исследователь до начала анализа должен сделать субъективное предположение о связях между переменными.

*

Распространённое название этого метода — анализ ковариационной структуры. Соответствуют, например, частным коэффициентам корреляции множественной регрессии или стандартизированным частным коэффициентам корреляции. **

148

Глава 3. Множественная регрессия


ГЛАВА 4

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ


1. Что такое логистическая регрессия …КРУАССАН ТОЖЕ КУПИЛА,...

ТАК, ЗЕРНОВОЙ КОФЕ ДЛЯ ПАПЫ КУПИЛА,...

ОСТАЛОСЬ...

АХ, СОВСЕМ ЗАБЫЛА...

…УГОЩЕНИЕ ДЛЯ НАШЕГО ПИТОМЦА ДЖОНА!

ТАК...

Ýòî îí!

ТУ ТУ М 150

Глава 4. Логистическая регрессия


ТУТУМ

ТУТУМ ТУТУМ

ЧТО ЖЕ ДЕЛАТЬ...? ХОЧУ С НИМ ЗАГОВОРИТЬ,...

ТУТУМ

СТАРАЙСЯ!

Äà… íàäî ñòàðà òüñÿ.

СК ТИ

ТУТУМ

…НО БОЮСЬ!!

Я ЖЕ ДО ЭТОГО УСЕРДНО ЗАНИМАЛАСЬ, ЗНАЧИТ ВСЁ БУДЕТ В ПОРЯДКЕ!

ТУ ТУ М

ТУ ТУ М М ТУ ТУ

СПОКОЙСТВИЕ...

ЗАГОВОРЮ С НИМ О КНИГЕ, КОТОРУЮ ОН ЗАБЫЛ...

151


ОЙ...

ГДЕ ЖЕ ОН?

Ý Õ Õ!

МИУ!

А, ЧТО?

ЧЕГО СИДИШЬ с опущенным видом? СЕГОДНЯ МЫ ХОТЕЛИ ИЗУЧАТЬ ЛОГИСТИЧЕСКУЮ РЕГРЕССИЮ, РЕГРЕССИЮ НЕ ТАК ЛИ?

ДЛЯ КОГО Я ПРИХОЖУ СЮДА ЗАДОЛГО ДО ОТКРЫТИЯ!

ПРОСТИ МЕНЯ, ПОЖАЛУЙСТА.

152

Глава 4. Логистическая регрессия


ДАВАЙ ПОТРУДИСЬ! СЕГОДНЯ У НАС ПОСЛЕДНЯЯ ТЕМА!

НУ!

ДАВАЙ ЖЕ!

Ìîæåò áûòü, ÿ ïðîñòî îáîçíàëàñü?

АХ...

ОДНАКО ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ ОТЛИЧАЕТСЯ ОТ ЭТИХ МЕТОДОВ!

ИЗУЧЕННЫЕ НАМИ ДО ЭТОГО РЕГРЕССИОННЫЙ АНАЛИЗ, МНОЖЕСТВЕННАЯ РЕГРЕССИЯ БЫЛИ МЕТОДАМИ АНАЛИЗА ДЛЯ ПРОГНОЗА ЧИСЛОВЫХ ЗНАЧЕНИЙ: КОЛИЧЕСТВА ЗАКАЗОВ ЧАЯ СО ЛЬДОМ, ВЫРУЧКИ МАГАЗИНА И Т.П.

• Вероятность того, что господин a сможет поступить в университет • Вероятность того, что господин b болен раком

СПАСИБО.

ЧЕМ ОТЛИЧАЕТСЯ?

А ЧТО, разве ВЕРОЯТНОСТЬ НЕ ЧИСЛОВОЕ ЗНАЧЕНИЕ?

ДА. НО ВЕРОЯТНОСТЬ ЭТО ОСОБОЕ ЧИСЛОВОЕ ЗНАЧЕНИЕ, ПРИНИМАЮЩИЕ ЗНАЧЕНИЯ ТОЛЬКО ОТ 0 ДО 1, НЕ ТАК ЛИ?

ЭТО МЕТОД ПРОГНОЗА ВОТ ТАКИХ «ВЕРОЯТНОСТЕЙ».

1. Что такое логистическая регрессия

153


А, ПОНЯТНО...

ДЛЯ ЭТОГО В ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ.... НИ РЕГРЕССИОННЫЙ АНАЛИЗ, НИ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ НЕ ДАЮТ ВОЗМОЖНОСТИ ОГРАНИЧИТЬ ОЖИДАЕМЫЕ ЗНАЧЕНИЯ ИНТЕРВАЛОМ ОТ 0 ДО 1. ТУТ НЕ ОБОЙТИСЬ БЕЗ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ.

...ВЫВОДЯТ ВОТ ТАКОЕ УРАВНЕНИЕ!

Îòêëèê

Îáúÿñíÿþùèå ïåðåìåííûå

Êîýôôèöèåíòû ðåãðåññèè

НУ И ФОРМУЛКА!

ЭТУ ФОРМУЛУ иногда НАЗЫВАЮТ «МОДЕЛЬЮ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ», НО ЛИЧНО Я НАЗЫВАЮ ЕЁ «УРАВНЕНИЕМ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ».

154

Глава 4. Логистическая регрессия


ГРАФИК ЭТОГО УРАВНЕНИЯ ВЫГЛЯДИТ ВОТ ТАК.

ОГО! КАКАЯ ИНТЕРЕСНАЯ ФОРМА.

Äëÿ óïðîùåíèÿ çàïèñè ôîðìóëû ÿ ñäåëàëà ïîäñòàíîâêó

КАК ВИДИШЬ, НАХОДИТСЯ МЕЖДУ 0 И 1 при ЛЮБЫХ ЗНАЧЕНИях z, НЕ ТАК ЛИ?

y

ИТАК, ЧТОБЫ ПОНЯТЬ ЛОГИСТИЧЕСКУЮ РЕГРЕССИЮ, НУЖНО ЗНАТЬ МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ.

И ВПРАВДУ.

МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ -

НАЧНЁМ НАШ РАЗГОВОР С НЕГО.

ЭТО НАИБОЛЕЕ ПРАВДОПОДОБНЫЙ МЕТОД*.

МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ?

ХА-ХА

ПОЖАЛУЙСТА.

* Здесь была игра слов, поэтому Миу и смеётся (прим. перев.) 1. Что такое логистическая регрессия

155


2.Метод максимального правдоподобия ...НАПРИМЕР, ЧТО МЫ ПРИШЛИ В ИНСТИтУТ В ЭТОЙ ОДЕЖДЕ ГОРНИЧНЫХ...

ПРЕДСТАВЬ...

КАК?!

...И СПРОСИЛИ У СЛУЧАЙНО ВЫБРАННЫХ 10 ЧЕЛОВЕК, НРАВИТСЯ ЛИ ИМ ОДЕЖДА ОФИЦИАНТОК NORNS.

Êàê âàì ýòà îä ¸æêà?

Íó ... НУ, Я БЫ ПОСТЕСНЯЛАСЬ.

ПУСТЬ РЕЗУЛЬТАТЫ ОКАЗАЛИСЬ СЛЕДУЮЩИМИ.

156

ДА, УРОВЕНЬ ПОДДЕРЖКИ ОКАЗАЛСЯ ВЫСОКИМ!

Респондент

Одежда NORNS мне...

A

нравится

B

не нравится

C

нравится

D

не нравится

E

нравится

F

нравится

G

нравится

H

нравится

I

не нравится

J

нравится

Глава 4. Логистическая регрессия

Нрася вит

Не н витсрая

ЕСЛИ ПОЛОЖИТЬ, ЧТО УРОВЕНЬ ПОДДЕРЖКИ ОДЕЖДЫ NORNS В ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ, Т.е. СРЕДИ ВСЕХ СТУДЕНТОВ НАШЕГО ИНСТИТУТА, РАВЕН ,...

p


...ТО ВЕРОЯТНОСТЬ ПОЛУЧИТЬ ПРИВЕДЁННУЮ В ТАБЛИЦЕ КАРТИНУ ОКАЖЕТСЯ РАВНой:

Íðàâèòñÿ

Íå íðàâèòñÿ

Íðàâèòñÿ

Íå íðàâèòñÿ

Íðàâèòñÿ Íðàâèòñÿ Íðàâèòñÿ Íðàâèòñÿ

Íå íðàâèòñÿ

Íðàâèòñÿ

ВОТ КАК?

ДЛЯ ДАННОГО ПРИМЕРА МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ПОДРАЗУМЕВАЕТ...

ДА?

Значение p, равное уровню поддержки одежды NORNS в генеральной совокупности «всех студентов нашего института», соответствует максимуму функций:

èëè

ВОТ ТАКОЕ ПРЕДПОЛОЖЕНИЕ.

ЯСНО.

ВИЗУАЛЬНО ЭТО ОЗНАЧАЕТ НАЙТИ точку НА ОСИ , КОТОРОй СООТВЕТСТВУЕТ ВЕРШИНа ГОРКИ ЭТИХ ГРАФИКОВ.

x

КАЖЕТСЯ, Я НЕМНОГО ПОНИМАЮ...

2.Метод максимального правдоподобия

157


Функцию

p7(p − 1)3

НАЗЫВАЮТ

ФУНКЦИЕЙ ПРАВДОПОДОБИЯ А

log[p7(p − 1)3]

Ôóíêöè ïðàâäîïîäîÿáè

-

ЛОГАРИФМИЧЕСКОЙ ФУНКЦИЕЙ ПРАВДОПОДОБИЯ. ПРАВДОПОДОБИЯ

ÿ

Ëîãàðèôìè÷ ôóíêöèÿ ïðàâäîïîåñäîêàáèÿ ÿ ãî ëüíî à ì ñè ÿ ìàê ïîäîáè à ê î Îöåí ïðàâä

p

А ЗНАЧЕНИЕ , ПРИ КОТОРОМ И ФУНКЦИЯ ПРАВДОПОДОБИЯ, И ЛОГАРИФМИЧЕСКАЯ ФУНКЦИЯ ПРАВДОПОДОБИЯ ПРИНИМАЮТ МАКСИМАЛЬНЫЕ ЗНАЧЕНИЯ, НАЗЫВАЕТСЯ ОЦЕНКОЙ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ПРАВДОПОДОБИЯ.

ТО ЕСТЬ...

ИТАК, ПОПРОБУЕМ НАЙТИ ОЦЕНКУ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ДЛЯ НАШЕГО ПРИМЕРА С ОДЕЖДОЙ NORNS.

...МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ЭТО МЕТОД НАХОЖДЕНИЯ ОЦЕНКИ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ?

СОВЕРШЕННО ВЕРНО! ДА!

158

Глава 4. Логистическая регрессия


Шаг 1 Выводим функцию правдоподобия: p · (1 − p) · p · (1 − p) · p · p · p · p · (1 − p) · p = p7(1 − p)3 Шаг 2 Пишем логарифмическую функцию правдоподобия и упрощаем её: L = log{ p7 (1 − p)3} = log p7 + log(1 − p)3 = 7 log p + 3 log(1 − p) Ниже логарифимическую функцию правдоподобия я буду обозначать буквой « ».

L

Шаг 3 Дифференцируем логарифмическую функцию правдоподобия L по p и приравниваем производную к 0: dL = 7 · 1 + 3 · 1 · (−1) = 7 · 1 − 3 · 1 = 0 dp p 1−p p 1−p Шаг 4 Упрощаем выражение, полученное на шаге 3 , и находим оценку максимального правдоподобия: 1 1 =0 7· − 3· p 1−p Домножаем обе части на p(p−1): 7 · 1 − 3 · 1 · p(1 − p) = 0 · p(1 − p) p 1−p 7(1 − p) − 3p = 0 7 − 7p − 3p = 0 7 − 10p = 0 p= 7 10

(

)

ö å í êà íà - î Â î ò î àë í î ã î ì ì à êñ è î ä î á èÿ! ï ï ðà âä î

ß ñ í î!

2.Метод максимального правдоподобия

159


3. Трактовка отклика

СПЕЦМЕНЮ NORNS!

ИТАК, ТЕПЕРЬ МЫ ПЕРЕХОДИМ К ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ.

И КАКИЕ ЖЕ ДАННЫЕ МЫ БУДЕМ АНАЛИЗИРОВАТЬ? ХИ-ХИ-ХИ...

А...

ДА! ЭТОТ ТОРТ, КОТОРЫЙ ПЕКУТ В ОСНОВНОМ ПО ПРИХОТИ ХОЗЯИНА. НЕ БОЛЕЕ 1 РАЗА В ДЕНЬ, И СТОИТ ОН

ПОД СПЕЦМЕНЮ NORNS ТЫ ИМЕЕШЬ В ВИДУ ЭТО?

7000 ЙЕН.

7000 йен Спецменю NORNS Только 1 раз в день

160


ЭТО СПЕЦМЕНЮ ОЧЕНЬ ДОРОГО, ПОЭТОМУ ВРЯД ЛИ ОНО ПРОДАЁТСЯ КАЖДЫЙ ДЕНЬ, ТАК?

Не будет продано

Будет продано

ДА, ЭТО ТАК... И СЕЙЧАС МЫ СОБИРАЕМСЯ НАЙТИ ЛОГИСТИЧЕСКУЮ РЕГРЕССИЮ ДЛЯ ПРОГНОЗА ВЕРОЯТНОСТИ его ПРОДАЖ.

ОГО! ЭТО БУДЕТ ПОЛЕЗНО И ДЛЯ НАШЕГО КАФЕ.

ТОГДА ЧТО ЖЕ МЫ ПРИМЕМ ЗА ОБЪЯСНЯЮЩИЕ ПЕРЕМЕННЫЕ? А, НАСЧЁТ ЭТОГО...

Я ДУМАЛА НАД ЭТИМ РАНЬШЕ, И У МЕНЯ СЛОЖИЛОСЬ ВПЕЧАТЛЕНИЕ, ЧТО ТОРТ ПРОДАЁТСЯ: • В ТЁПЛЫЕ ДНИ • ПО СРЕДАМ, СУББОТАМ И ВОСКРЕСЕНЬЯМ

ПРАВДА?!

ДА, В ВЫХОДНЫЕ ВСЕГДА БОЛЬШЕ ПОСЕТИТЕЛЕЙ,...

ЭГЕГЕЙ!

…А ПО СРЕДАМ В NORNS ЧАСТО ЗАХОДЯТ УЧАСТНИКИ СТУДЕНЧЕСКИХ КРУЖКОВ ИЗ БЛИЗЛЕЖАЩИХ ИНСТИТУТОВ, КОТОРЫЕ ЧАСТО ЛЮБЯТ ТРЯХНУТЬ КОШЕЛЬКОМ.

3. Трактовка отклика

161


Среда, суббота Максимальная или воскресенье температура, °C

ТЕПЕРЬ ВЗГЛЯНИ НА ПОСЛЕДНИЕ ДАННЫЕ, КОТОРЫЕ Я СОБРАЛА НА ПРОБУ.

НУ ТЫ ДАЁШЬ, РИСА!

Число продаж спецменю NORNS

05-08 (пн.)

0

28

1

06-08 (вт.)

0

24

0

07-08 (ср.)

1

26

0

08-08 (чт.)

0

24

0

09-08 (пт.)

0

23

0

10-08 (сб.)

1

28

1

11-08 (вс.)

1

24

0

12-08 (пн.)

0

26

1

13-08 (вт.)

0

25

0

14-08 (ср.)

1

28

1 0

15-08 (чт.)

0

21

16-08 (пт.)

0

22

0

17-08 (сб.)

1

27

1

18-08 (вс.)

1

26

1

19-08 (пн.)

0

26

0

20-08 (вт.)

0

21

0

21-08 (ср.)

1

21

1

22-08 (чт.)

0

27

0

23-08 (пт.)

0

23

0

24-08 (сб.)

1

22

0

25-08 (вс.)

1

24

1

«1» означает среду, субботу или «1» означает, что торт воскресенье продался «0» — остальные дни недели «0» — что не продался

ОДНАКО... ЧИСЕЛ МНОГО, НО ОНИ МНЕ НИ О ЧЁМ НЕ ГОВОРЯТ.

АХ, ДА... ИМЕННО ПОЭТОМУ МЫ СЕЙЧАС БУДЕМ ИХ АНАЛИЗИРОВАТЬ!

ДО НАЧАЛА АНАЛИЗА НУЖНО ОБРАТИТЬ ВНИМАНИЕ ВОТ НА ЧТО.

162

Глава 4. Логистическая регрессия


«1» И «0», ВЫРАЖАЮЩИЕ КАРТИНУ ПРОДАЖ СПЕЦМЕНЮ NORNS,...

ïðîäàíî íå ïðîäàíî ...ЯВЛЯЮТСЯ НЕИЗМЕРЯЕМЫМИ ДАННЫМИ ВОТ В ТАКОМ СМЫСЛЕ.

В ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ считается так: «1» - ВЕРОЯТНОСТЬ ПРОДАЖИ СПЕЦМЕНЮ РАВНА 1, «0» - ВЕРОЯТНОСТЬ ПРОДАЖИ СПЕЦМЕНЮ РАВНА 0! ДА.

ТО ЕСТЬ НА САМОМ ДЕЛЕ ЭТО НЕИЗМЕРЯМЫЕ ДАННЫЕ, НО ИХ РАССМАТРИВАЮТ КАК ИЗМЕРЯЕМЫЕ, ДА?

ДА.

À «ñðåäà èëè ñóááîòà èëè âîñêðåñåíüå» ýòî òîæå íåèçìåðÿåìûå äàííûå?

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ ПОЗВОЛЯЕТ АНАЛИЗИРОВАТЬ ДАННЫЕ ЛЮБОГО ИЗ СЛЕДУЮЩИХ ТИПОВ: • ТОЛЬКО ИЗМЕРЯЕМЫЕ ДАННЫЕ, • ТОЛЬКО НЕИЗМЕРЯМЫЕ ДАННЫЕ, • КОМБИНАЦИЯ ИЗМЕРЯЕМЫХ И НЕИЗМЕРЯЕМЫХ ДАННЫХ.

ТАК ЖЕ, КАК МНОЖЕСТВЕННАЯ РЕГРЕССИЯ, ДА?

3. Трактовка отклика

163


4. Конкретный пример логистической регрессии ИТАК, ПО ТРАДИЦИИ, МЫ НАЧНЁМ С ПРОЦЕССА АНАЛИЗА.

МОЖЕТ БЫТЬ, ОН ТАКОЙ ЖЕ, КАК В РЕГРЕССИОННОМ АНАЛИЗЕ И МНОЖЕСТВЕННОЙ РЕГРЕССИИ?

ТЫ НАБЛЮДАТЕЛЬНА. ДА, ИМЕННО ТАК.

■ Процесс логистической регресии 1.

Проверка целесообразности проведения логистической регрессии с помощью точечных графиков всех объясняющих переменных и отклика.

2.

Вывод уравнения логистической регрессии

3.

Проверка точности уравнения логистической регрессии

4.

Проведение «проверки значимости коэффициентов регрессии»

5.

Построение прогноза

  

ВОТ ТАКОВ ПРОЦЕСС ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ.

164

ЯСНО!


1. Проверка целесообразности проведения логистической регрессии с помощью точечных графиков всех объясняющих переменных и отклика.

ЗНАЧИТ, В ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ ТОЖЕ НАЧИНАЮТ С ПОСТРОЕНИЯ ГРАФИКА?

В СЛУЧАЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ ГРАФИК БУДЕТ НАГЛЯДНЕЕ, ЕСЛИ ОТКАДЫВАТЬ ОТКЛИК ПО ГОРИЗОНТАЛЬНОЙ ОСИ.

ШУРХ ЯСНО....

ДА.

Продажа спецменю NORNS в зависимости от среды, субботы и воскресенья

Продажа спецменю NORNS в зависимости от максимальной температуры Коэффициент корреляции равен 0,4828 Макс. температура, °C

Среды, субботы или воскресенья

Коэффициент корреляции равен 0,5095

Картина продаж спецменю NORNS

ДА, ПОХОЖЕ, ЧТО СВЯЗЬ ЗДЕСЬ ПРИСУТСТВУЕТ.

Картина продаж спецменю NORNS

ДА, КАКАЯ-ТО СВЯЗЬ, ПОХОЖЕ, ЕСТЬ. ЗНАЧИТ, В ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ ЕСТЬ СМЫСЛ!

ß ðèñîâàëà, ñäâèãàÿ òî ÷ êè, ïîòîìó ÷ òî îíè íàêëàäûâàþòñÿ äðóã íà äðóãà

4. Конкретный пример логистической регрессии

165


2. Вывод уравнения множественной регрессии

ВЫВОДИТЬ УРАВНЕНИЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ ВРУЧНУЮ -

ИЛИ ЛУЧШЕ СКАЗАТЬ НЕВОЗМОЖНО!

УЖАСНО ТРУДНО.

Êàê?! Óôô

...

ЗНАЧИТ, ТЕПЕРЬ МЫ БУДЕМ ВЫВОДИТЬ УРАВНЕНИЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ!

ОЙ, ПОДОЖДИ...

ТОГДА ЧТО ЖЕ НАМ ДЕЛАТЬ?

ЭТО БУДЕТ НЕМНОЖКО ТРУДОЁМКО, НО С ПОМОЩЬЮ EXCEL ВЫЧИСЛИТЬ МОЖНО.

СМОТРИ, ВОТ ЧТО НАМ ПОМОЖЕТ!

ИТАК, ДАВАЙ ПОПРОБУЕМ.

ХОРОШО!

166

Глава 4. Логистическая регрессия


Шаг 1 Выполняем вычисления согласно приведённой ниже таблице. Среды, субботы или воскресенья x1

Максимальная температура

Картина продаж спецменю NORNS

x2

y

Картина продаж спецменю NORNS 1 ŷ= 1 + e −(a1x1 + a2 x2 + b)

05-08 (пон)

0

28

1

1 1 + e −(a1 · 0 + a2 · 28 + b)

06-08 (втр)

0

24

0

1 1 + e −(a1 · 0 + a2 · 24 + b)

:

:

:

:

:

25-08 (вск)

1

24

1

1 1 + e −(a1 · 1 + a2 · 24 + b)

Шаг 2 Записываем функцию правдоподобия: 1 1 · 1− 1 + e −(a1 · 0 + a2 · 28 + b) 1 + e −(a1 · 0 + a2 · 24 + b) продано не продано

(

)

·…·

1 1 + e −(a1 · 1 + a2 · 24 + b) продано

Шаг 3 Записываем логарифмическую функцию правдоподобия L: 1 1 1 L = log · 1− ·…· 1 + e −(a1 · 0 + a2 · 28 + b) 1 + e −(a1 · 0 + a2 · 24 + b) 1 + e −(a1 · 1 + a2 · 24 + b) 1 1 = log + log 1 − + … + 1 + e −(a1 · 0 + a2 · 28 + b) 1 + e −(a1 · 0 + a2 · 24 + b) 1 + log −(a1 · 1 + a2 · 24 + b) 1+e

{

(

)

(

(

)

(

}

)

)

4. Конкретный пример логистической регрессии

167


Шаг 4 Находим оценку максимального правдоподобия. Оценка максимального правдоподобия, т.е. значения a1, a2, b, при которых логарифмическая функция правдоподобия L имеет максимальное значение: a1 = 2,44 a2 = 0,54 b = −15,20

{

Методику вычислений смотрите на стр. 208. И  ещё одна вещь — это хотя и  не имеет прямого отношения к  шагу 4 — но очень важно: максимальное значение логарифмической функции правдоподобия L рассчитывается вот так: L = log + log

( 1+e

( 1+e

1 −(2,44 · 0 + 0,54 · 28 − 15,20)

1 −(2,44 · 1 + 0,54 · 24 − 15,20)

) + log (1 −

1 1 + e −(2,44 · 0 + 0,54 · 24 − 15,20)

) = −8,9

Шаг 5 Записываем уравнение логистической регрессии, которое, согласно шагу 4, будет иметь вид: 1 y= −(2,44x1 + 0,54x 2 − 15,20) 1+e

168

Глава 4. Логистическая регрессия

)+…+


ТАК ВОТ ТЫ КАКОЕ УРАВНЕНИЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ ПРОДАЖ СПЕЦМЕНЮ NORNS! ДА, ОНО ИМЕННО ТАКОЕ!

3. Проверка точности уравнения логистической регрессии

ТЕПЕРЬ ДАВАЙ ПРОВЕРИМ ТОЧНОСТЬ НАЙДЕННОГО НАМИ УРАВНЕНИЯ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ. В ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ МЫ ТОЖЕ БУДЕМ ИСПОЛЬЗОВАТЬ КОЭФФИЦИЕНТ МНОЖЕСТВЕННОЙ КОРРЕЛЯЦИИ И КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ, ДА? ДЕТЕРМИНАЦИИ

ВЕДЬ В ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ РАССМАТРИВАЕТСЯ НЕМНОГО ИНАЧЕ.

НУ..., В СЛУЧАЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ ТОЛЬКО КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ.

ДА?! А ПОЧЕМУ?

4. Конкретный пример логистической регрессии

169


ЗНАЧЕНИЕ КОЭФФИЦИЕНТА ДЕТЕРМИНАЦИИ УРАВНЕНИЯ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ ВЫЧИСЛЯЕТСЯ ВОТ ТАК!

Ìàêñ. çíà÷åíèå ëîãàðèôìè÷. ôóíêöèè ïðàâäîïîäîáèÿ L Íó è ô î ðì óë ê

à

ОГО!

ДА, ТУТ СОВСЕМ НЕ ТАК, КАК В РЕГРЕССИОННОМ АНАЛИЗЕ И В МНОЖЕСТВЕННОЙ РЕГРЕССИИ.

В ДАННОЙ ФОРМУЛЕ

n1

И

n2

...

×èñëî ýêçåìïëÿðîâ, äëÿ êîòîðûõ çíà÷åíèå îòêëèêà = 1

Äà, íå òàê.

×èñëî ýêçåìïëÿðîâ, äëÿ êîòîðûõ çíà÷åíèå îòêëèêà = 0

...ИМЕЮТ ВОТ ТАКОЙ СМЫСЛ.

ТЕПЕРЬ ДАВАЙ ПОПРОБУЕМ ПОСЧИТАТЬ...

Ìàêñ. çíà÷åíèå ëîãàðèôìè÷. ôóíêöèè ïðàâäîïîäîáèÿ L

ОЙ, ПОЛУЧИЛОСЬ МЕНЬШЕ, ЧЕМ Я ДУМАЛА...

170

Глава 4. Логистическая регрессия


ДИАПАЗОН ЕГО ЗНАЧЕНИЙ, КАК ОБЫЧНО, ОТ 0 ДО 1,

ДА.

И ТАК ЖЕ, КАК ДЛЯ УРАВНЕНИЯ РЕГРЕССИИ, ЗДЕСЬ НЕТ ФИКСИРОВАННОГО КРИТЕРИЯ?

ДА?

ЧЕМ БОЛЬШЕ ТОЧНОСТЬ УРАВНЕНИЯ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ, ТЕМ ОН БЛИЖЕ 1, В ПРОТИВНОМ СЛУЧАЕ - К 0.

ДА, НЕТ..

ВООБЩЕ СЧИТАЕТСЯ, ЧТО КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ УРАВНЕНИЯ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ НЕ СКЛОНЕН ПРИНИМАТЬ БОЛЬШИЕ ЗНАЧЕНИЯ, ПОЭТОМУ, МОЖЕТ БЫТЬ, ЕГО ПРОСТО СТОИТ ПРИНЯТЬ К СВЕДЕНИЮ.

ВОТ КАК?!

ВЗГЛЯНИ НА ЭТУ ТАБЛИЦУ.

Я НАУЧУ ТЕБЯ ДРУГОМУ МЕТОДУ ОПРЕДЕЛЕНИЯ ТОЧНОСТИ УРАВНЕНИЯ.

ЩЁ ЛК

ЁЛ К ДРУГОМУ МЕТОДУ?

4. Конкретный пример логистической регрессии

171


Среда, суббота или воскресенье

Макс. темп., °C

Число продаж спецменю

Число продаж спецменю NORNS

x1

x2

y

ŷ

0 0 1 0 0 1 1 0 0 1 0 0 1 1 0 0 1 0 0 1 1

28 24 26 24 23 28 24 26 25 28 21 22 27 26 26 21 21 27 23 22 24

1 0 0 0 0 1 0 1 0 1 0 0 1 1 0 0 1 0 0 0 1

0,51 (продано) 0,11 (непродано) 0,80 (продано) 0,11 (непродано) 0,06 (непродано) 0,92 (продано) 0,58 (продано) 0,26 (непродано) 0,17 (непродано) 0,92 (продано) 0,02 (непродано) 0,04 (непродано) 0,87 (продано) 0,80 (продано) 0,26 (непродано) 0,02 (непродано) 0,21 (непродано) 0,38 (непродано) 0,06 (непродано) 0,31 (непродано) 0,58 (продано)

05-08 (пон.) 06-08 (втр.) 07-08 (срд.) 08-08 (чтв.) 09-08 (птн.) 10-08 (суб.) 11-08 (вск.) 12-08 (пон.) 13-08 (втр.) 14-08 (срд.) 15-08 (чтв.) 16-08 (птн.) 17-08 (суб.) 18-08 (вск.) 19-08 (пон.) 20-08 (втр.) 21-08 (срд.) 22-08 (чтв.) 23-08 (птн.) 24-08 (суб.) 25-08 (вск.)



ЕСЛИ ОЖИДАЕМОЕ ЗНАЧЕНИЕ БОЛЬШЕ 0,5, ТО СЧИТАЮТ, ЧТО СПЕЦМЕНЮ «ПРОДАНО».

ŷ

ЭТА ТАБЛИЦА ТЕБЕ НИ О ЧЁМ НЕ ГОВОРИТ?

ЧТО? ТАК...

1 = 0,58 1 + e −(2,44 · 1 + 0,54 · 24 − 15,20)

А, ПОНЯЛА! 7-ГО И 11-ГО СПЕЦМЕНЮ НА САМОМ ДЕЛЕ НЕ ПРОДАЛОСЬ, ХОТЯ СОГЛАСНО ОНО ПРОДАЛОСЬ, ТАК?

ŷ

y

ŷ

07,08 (срд)

0

0,80 (продано)

11,08 (вск)

0

0,58 (продано)

12-ГО И 21-ГО СПЕЦМЕНЮ НА САМОМ ДЕЛЕ БЫЛО ПРОДАНО, А СОГЛАСНО ОЖИДАЕМОМУ ЗНАЧЕНИЮ ОНО «НЕ ПРОДАНО», ДА?

ДА, ВЕРНО. ЧТО-НИБУДЬ ЕЩЁ?

172

Глава 4. Логистическая регрессия

ДА, ИМЕННО!

МОЛОДЕЦ!


ДЛЯ ПРОВЕРКИ ТОЧНОСТИ УРАВНЕНИЯ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ СУЩЕСТВУЕТ ОТНОСИТЕЛЬНАЯ ОШИБКА ДИСКРИМИНАЦИИ,... ДИСКРИМИНАЦИИ

×èñëî ýêçåìïëÿðîâ ñ íåñîâïàäåíèåì ôàêòè÷åñêîãî è îæèäàåìîãî çíà÷åíèé Îáùåå ÷èñëî ýêçåìïëÿðîâ …КОТОРАЯ ВЫГЛЯДИТ ВОТ ТАК!

ТО ЕСТЬ, ЭТО «ПРОЦЕНТ ПРОМАХОВ»?

ТОГДА В НАШЕМ СЛУЧАЕ ОТНОСИТЕЛЬНАЯ ОШИБКА ДИСКРИМИНАЦИИ РАВНА...

ВЕРНО?

ДА.

ЧЕМ МЕНЬШЕ ЭТО ЗНАЧЕНИЕ, ТЕМ ТОЧНЕЕ УРАВНЕНИЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ!

ДА!

Коэффициент корреляции равен 0,6279 ОЙ, СОВСЕМ ЗАБЫЛА СКАЗАТЬ ПРО ЕЩЁ ОДИН СПОСОБ ПРОВЕРКИ ТОЧНОСТИ УРАВНЕНИЯ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ.

МОЖНО, НАЧЕРТИВ ТОЧЕЧНЫЙ ГРАФИК И , ОПРЕДЕЛИТЬ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ.

y

ŷ

ЯСНО!

4. Конкретный пример логистической регрессии

173


4. Проведение «проверки значимости коэффициентов регрессии»

РХ ШУ

РХ ШУ

ДАЛЕЕ, ДЛЯ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ ТОЖЕ ПРОВОДИТСЯ «проверка значимости КОЭФФИЦИЕНТОВ РЕГРЕССИИ».

«проверка значимости КОЭФФИЦИЕНТОВ РЕГРЕССИИ»... ТАК КАК ЗДЕСЬ БОЛЬШЕ ОДНОЙ ОБЪЯСНЯЮЩЕЙ ПЕРЕМЕННОЙ...

Ñîâìåñòíàÿ ïðîâåðêà çíà÷èìîñòè êîýôôèöèåíòîâ ðåãðåññèè Íóëåâàÿ ãèïîòåçà Àëüòåðíàòèâíàÿ ãèïîòåçà

íå âûïîëíÿåòñÿ.

Ðàçäåëüíàÿ ïðîâåðêà çíà÷èìîñòè êîýôôèöèåíòîâ ðåãðåññèè Íóëåâàÿ ãèïîòåçà Àëüòåðíàòèâíàÿ ãèïîòåçà

Äðóãèìè ñëîâàìè âåðíî îäíî èç ñëåäóþùèõ óñëîâèé: ПРАВИЛЬНО?

ИТАК, ДАВАЙ ПРОВЕДЁМ ЭТу проверку. УРОВЕНЬ ЗНАЧИМОСТИ ПРИНИМАЕМ РАВНЫМ 0,05, ТАК?

ХОРОШО!

174

Глава 4. Логистическая регрессия

Ýòî ÿ çàïè ñûâà ëà òâîè îáúÿñ íåíè ÿ ïðî ìíîæ åñòâ åííó þ ðåãð åññè þ

ДА.


Начинаем с «совместной проверки значимости коэффициентов регрессии»! Кстати, оценку путём нижеприведённых вычислений обычно называют тестом отношения правдоподобия.

Шаг 1 Определение генеральной совокупности.

Определяем генеральную совокупность как «дни с признаком среды, субботы или воскресенья x1 и с максимальной температурой x 2 °C».

Шаг 2 Построение нулевой гипотезы и альтернативной гипотезы.

Нулевая гипотеза: A1=A2=0 Альтернативная гипотеза: A1=A2=0 не выполняется

Шаг 3 Выбор вида статистической проверки.

Будем проводить «совместную проверку значимости коэффициентов регрессии».

Шаг 4 Назначение уровня значимости.

Выбираем уровень значимости равным 0,05.

Шаг 5 Нахождение значения статистического критерия по данным выборки.

Мы собираемся провести «совместную проверку значимости коэффициентов регрессии», в котором значение статистического критерия вычисляется по формуле: 2 · {Lmax − n1lnn1 − n0lnn0 + (n1 + n0) ln(n1 + n0)} где Lmax - максимальное значение логарифмической функции правдоподобия В нашем примере это значение равно: 2 · {−8,9010 − 8 ln8 −13 ln13 + (8 + 13) ln(8+13)} = 10,1. Кроме того, в нашем примере в случае верности нулевой гипотезы статистический критерий будет подчиняться распределению хи-квадрат с числом степеней свободы, равным 2 (т.е. числу объясняющих переменных).

Шаг 6 Сравнение значения P, которое соответствует значению статистического критерия, найденному в шаге 5, с уровнем значимости.

Уровень значимости равен 0,05. Значение P, которое соответствует значению статистического критерия 10,1, равно 0,006. 0,0006 < 0,05, т.е. значение P ниже уровня значимости.

Шаг 7 Если сравнение на шаге 6 показа- Значение P оказалось ниже уровня значимости. ло, что значение P ниже уровня Следовательно верна альтернативная гипотеза, значимости, то делается вывод согласно которой A1=A2=0 не выполняется. «альтернативная гипотеза правильна». В противном случае делается вывод «нулевая гипотеза не может быть признана ошибочной». Примечание: Нахождение значения P для распределения хи-квадрат см. на стр. 201

4. Конкретный пример логистической регрессии

175


А теперь — раздельную проверку значимости коэффициентов! Мы попробуем силы на a1! Кстати, проверка по приведённой ниже методике называется тестом Вальда.

Шаг 1 Определение генеральной совокупности.

Определяем генеральную совокупность как «дни с признаком среды, субботы или воскресенья x1, и с максимальной температурой x 2 °C».

Шаг 2 Построение нулевой гипотезы и альтернативной гипотезы.

Нулевая гипотеза: A1=0 Альтернативная гипотеза: A1≠0

Шаг 3 Выбор вида статистической проверки.

Будем проводить раздельную проверку значимости коэффициентов регрессии.

Шаг 4 Назначение уровня значимости.

Назначаем уровень значимости равным 0,05.

Шаг 5 Нахождение значения Мы собираемся провести «раздельную проверку значистатистического критерия по данным мости коэффициентов регрессии», в котором значение выборки. статистического критерия вычисляется по формуле: a12 S11 . В нашем примере это значение равно: 2,442 = 3,9 1,5388 Кроме того, в нашем примере в случае верности нулевой гипотезы статистический критерий будет подчиняться распределению хи-квадрат числом степеней свободы, равным 1. Шаг 6 Сравнение значения P, которое соответствует значению статистического критерия, найденному в шаге 5, с уровнем значимости.

Уровень значимости равен 0,05. Значение P, которое соответствует значению статистического критерия 3,9, равно 0,0489. 0,0489 < 0,05, т.е. значение P ниже уровня значимости.

Шаг 7 Если сравнение на шаге 6 показало, Значение P оказалось ниже уровня значимости. что значение P ниже уровня значимо- Следовательно верна альтернативная гипотеза, сти, то делается вывод: «Альтернасогласно которой A1≠ 0. тивная гипотеза правильна», иначе: «Нулевая гипотеза не может быть признана ошибочной». Примечание: Метод вычисления S 11 описан на следующей странице.

В некоторой литературе описание ведётся на основе стандартного нормального распределения, а  не распределения хи-квадрат. я опущу сложные математические подробности, но скажу,замечу, что вне зависимости от используемого распределения окончательный вывод будет одним и тем же.

176

Глава 4. Логистическая регрессия


«S 11», используемое на шаге 5, находится так: Признак среды, субботы или воскресенья

1

28

24

24

1

1

1

0

24

1

0

0

ŷn (1 − ŷn)

1

24

1

0,51 · 0,49

0

0

0

28

1

0

0,11 · 0,89

0

0

24

1

0

0

0,58 · 0,42

1

24

1

1,5388

0,0881

Искомое значение

0

0

0

ŷ 2 (1 − ŷ 2 )

1

0

1

1

28

1

0

24

0

24

0

28

ŷ1 (1 − ŷ1)

1

=

0

=

0

Максимальная температура

−1

−1

Эти строки, заполненные 1, нужны для удобства вычислений

А это, кстати, «S22»

ŷ1, … , ŷi, … , ŷn — значения ŷ для i-й выборки; i = 1, … , n.

...МЫ НАКОНЕЦ-ТО ПЕРЕХОДИМ К ПОСЛЕДНЕМУ ЭТАПУ.

ПОЛУЧАЕТСЯ, ЧТО 1 ‡ 0?

A

ДА!

ИТАК...

К У Т С

4. Конкретный пример логистической регрессии

177


5. Построение прогноза

КАК ТЫ ДУМАЕШЬ,...

СЕГОДНЯ ВОСКРЕСЕНЬЕ, МАКСИМАЛЬНАЯ ТЕМПЕРАТУРА 23°C, ЗНАЧИТ ПИШЕМ ВОТ ТАК.

...ПРОДАДИМ ЛИ МЫ СЕГОДНЯ СПЕЦМЕНЮ NORNS?

ДА, ДА.

ДАВАЙ ПОСЧИТАЕМ НА КОМПЬЮТЕРЕ.

ЩЁЛ ЩЁЛ

ДАВАЙ.

АХ...

0,44 Êà

178

Глава 4. Логистическая регрессия

К

ЗНАЧИТ, СЕГОДНЯ НЕ ПРОДАДИМ!

НЕ ВЫШЛО.

ЗНАЧЕНИЕ НЕ ДОСТИГАЕТ 0,5.

К

ê

æà

ëü

!

ДА, ПОХОЖЕ...


НА ЭТОМ НАШ КУРС «РЕГРЕССИОННЫЙ АНАЛИЗ», ВКЛЮЧАВШИЙ ИЗУЧЕНИЕ:

БЛАГОДАРЮ ТЕБЯ ЗА УСЕРДИЕ!

• • •

РЕГРЕССИОННОГО АНАЛИЗА; МНОЖЕСТВЕННОЙ РЕГРЕССИИ; ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ; ОБЪЯВЛЯЕТСЯ ЗАВЕРШЁННЫМ!

БОЛЬШОЕ СПАСИБО!

Я ВОСХИЩЕНА ТВОИМ УСЕРДИЕМ!

ТЕПЕРЬ, КОГДА БЫ ОН НИ ПРИШЁЛ, У ТЕБЯ БУДЕТ О ЧЁМ С НИМ ПОГОВОРИТЬ, НЕ ТАК ЛИ? ма н и е е п он и л из а шенонноного ана р е в о С г р е сси ре

??? 4. Конкретный пример логистической регрессии

179


МОЯ ДОРОГАЯ РИ... РИСА...

К ЧЕМУ ЭТО ТАКАЯ ЛЮБЕЗНОСТЬ?

ЕСЛИ БЫ ОН НА САМОМ ДЕЛЕ БЫЛ БЫ ТВОИМ ПАРНЕМ, ТО Я, НАВЕРНОЕ,...

×òî?!

...СМОГЛА БЫ О НЁМ ЗАБЫТЬ.

ЧТО СЛУЧИЛОСЬ, МИУ?!

Я ВИДЕЛА ТЕБЯ С НИМ В ГОРОДЕ.

ЗНАЕШЬ, НА САМОМ ДЕЛЕ...

Х Ю ПЛ

Ё ШЛ П

???

180

Глава 4. Логистическая регрессия


А...

ЕЩЁ, НАВЕРНОЕ, ЗАКРЫТО?

ХИРОТО...

ХИРОТО!

Óà óà óà

ЭТО...

БРАТ...

РИСА... ...ХИРОТО - МОЙ ДВОЮРОДНЫЙ БРАТ. ОН ЖИВЁТ В СОСЕДНЕМ КВАРТЕЛЕ.

НУ ЧЕГО?

181


ПОЧЕМУ ЖЕ ТЫ МОЛЧАЛА?

ПОТОМУ ЧТО Я ХОТЕЛА, ЧТОБЫ ТЫ, МИУ, ДОСТИГЛА ЦЕЛИ СВОИМИ СИЛАМИ...

ВЕДЬ ЛЮБОВЬ ЭТО ТО, ЧЕГО ДОБИВАЮТСЯ САМИ, НЕ ТАК ЛИ?

СМОТРИ!

ДАВАЙ!

ОН СПЕЦИАЛЬНО ПРИШЁЛ ИЗ СОСЕДНЕГО КВАРТАЛА, ЧТОБЫ ВСТРЕТИТЬСЯ С ТОБОЙ. Давай, ВЕРНИ ЕМУ КНИГУ, КАК хотела!

182

Глава 4. Логистическая регрессия

дА, ТАК...


АХ,…

…ЭТО...

ВОТ ЭТО...

регрессионного ана лиз а

СПАСИБО...

РХ ШУ

МНЕ СКАЗАЛА ОБ ЭТОМ РИСА, МОЯ ДВОЮРОДНАЯ СЕСТРА..

ЗНАЧИТ, ТЫ ЕЁ ХРАНИЛА.

Äà?

ЗНАЕТЕ...

ТАК...

4. Конкретный пример логистической регрессии

183


А МЕНЯ ЗОВУТ ФУКАСАВА ХИРОТО...

МЕНЯ ЗОВУТ ИГАРАСИ МИУ...

НЕ СОГЛАСИЛИСЬ БЫ ВЫ ЗАНЯТЬСЯ СО МНОЙ СТАТИСТИКОЙ?

ДА.

ПРОШУ ЛЮБИТЬ И ЖАЛОВАТЬ.

184

Глава 4. Логистическая регрессия


ИТАК!

ДОБРО ПОЖАЛОВАТЬ!

МЫ РАДЫ ВСТРЕТИТЬ ВАС В NORNS!

СКОРО НАМ НАДО ОТКРЫВАТЬ МАГАЗИН!

4. Конкретный пример логистической регрессии

185


5. Замечание по поводу проведения логистической регрессии Ниже повторно приведена схема процесса логистической регрессии со стр. 164.

 Проверка целесообразности проведения логистической регрессии с помощью точечных графиков всех объясняющих переменных и отклика.  Вывод уравнения логистической регрессии  Проверка точности уравнения логистической регрессии  Проведение «проверки значимости коэффициентов регрессии»  Построение прогноза ■ Рис. 4.1. Процесс логистической регрессии До этого говорилось, что этапы с   по  обязательны. В действительности это не всегда так. Аналогично регрессионному анализу и  множественной регрессии, в некоторых случаях достаточно выполнить только этапы с  по .

6. Отношение перевесов Содержание данной главы является абстрактным, поэтому те читатели, которые до прочтения этой книги ничего не знали о логистической регрессии, вполне могут её пропустить. Однако рекомендуется ознакомиться с ней читателям, область деятельности которых связана с медициной.

■ 6.1. Перевес и логит Уравнение y =

186

1 можно переписать в виде y = ez или ln y = z. 1 + e−z 1−y 1−y

Глава 4. Логистическая регрессия


1 = 1 ·ez = ez 1 + e−z 1 + e−z e z e z + 1 Домножаем левую и правую части на (ez +1): y=

y · (e z + 1) =

ez · (e z + 1) . e +1 z

y·ez + y = ez Переносим члены: y = ez − y·ez y = (1 − y)e z Домножаем левую и правую части на

1 : 1−y

y · 1 = (1 − y)e z · 1 1−y 1−y y = ez 1−y ln y = ln e z = z 1−y Следовательно, найденное на стр. 168 уравнение 1 1 + e −(2,44x1 + 0,54x2 − 15,20) можно переписать в виде: y=

y = e 2,44x1 + 0,54x2 − 15,20 1−y ln y = 2,44x1 + 0,54x2 − 15,20 1−y y y Выражение называют перевесом (или несогласием*), а ln — логитом**. 1−y 1−y Для примера данной главы получаем перевес, равный e 2,44x1 + 0,54x2 − 15,20, а логит — 2,44x1 + 0,54x2 − 15,20.

* англ. odds (прим. перев.) ** англ. logit (прим. перев.)

6. Отношение перевесов

187


■ 6.2. Отношение рисков и отношение перевесов Ниже повторно приводится таблица со стр. 162. ◆ Таблица 4.1. Повтор со стр. 162 Среда, суббота или воскресенье

Максимальная температура, °C

Число продаж спецменю NORNS

05-08 (пон.)

0

28

1

06-08 (втр.)

0

24

0 0

07-08 (срд.)

1

26

08-08 (чтв.)

0

24

0

09-08 (птн.)

0

23

0

10-08 (суб.)

1

28

1

11-08 (вск.)

1

24

0

12-08 (пон.)

0

26

1

13-08 (втр.)

0

25

0

14-08 (срд.)

1

28

1

15-08 (чтв.)

0

21

0

16-08 (птн.)

0

22

0

17-08 (суб.)

1

27

1

18-08 (вск.)

1

26

1

19-08 (пон.)

0

26

0

20-08 (втр.)

0

21

0

21-08 (срд.)

1

21

1

22-08 (чтв.)

0

27

0

23-08 (птн.)

0

23

0

24-08 (суб.)

1

22

0

25-08 (вск.)

1

24

1

Создадим на основе этой таблицы перекрёстную таблицу для столбцов «Среда, суббота или воскресенье» и «Продажа спецменю NORNS». ◆ Таблица 4.2. Перекрёстная таблица для переменных «Среда, суббота или воскресенье» и «Продажа спецменю NORNS» Продажа спецменю NORNS

Среда, суббота, воскресенье

Не продано

Да

6

3

9

Нет

2

10

12

8

13

21

Всего

188

Всего

Продано

Глава 4. Логистическая регрессия


Из этой перекрёстной таблицы видно, что доля продаж по средам, субботам 6 2 и воскресеньям равна , а по остальным дням составляет . 9 12 В  статистике существует понятие отношение рисков или относительный риск. Для табл. 4.2 его величина составляет:

( ) ( ) ( ) ( ) ( )( ) ( )

Доля продаж по средам, 6 субботам и пятницам 9 = = 6 ÷ 2 = 6 · 12 = 2 · 6 = 4 Доля продаж 2 9 12 9 2 3 в другие дни недели 12 Кроме этого вводится понятие отношение перевесов или коэффициент несогласия. Для табл. 4.2 значение коэффициента несогласия составляет: Доля продаж по средам, 6 6 субботам и пятницам 9 9 6 6 3 Доля продаж по средам, 1− 1 − субботам и пятницам 3 9 9 = = = = 6 ÷ 2 = 2 Доля продаж 2 2 3 10 в другие дни недели 10 12 12 Доля продаж 10 1− 2 1 − в другие дни недели 12 12

{ }{ } { }{ } ( ) ( ) ( ) ( )

( ( ( (

) ) ( ) ) ( ) ( ) ( ) )

= 6 · 10 = 2 · 5 = 10 3 2 Отношение перевесов и отношение рисков во многих случаях имеют близкие значения, хотя в нашем примере они довольно сильно отличаются. В связи с этим отношение перевесов часто используется вместо отношения рисков.

( )( )

■ 6.3. Нескорректированное и скорректированное отношение перевесов Проведём анализ данных табл. 4.1 методом перебора. ◆ Таблица 4.3. Результаты анализа данных табл. 4.1 методом перебора Объясняющие переменные «Среда, суббота или  Только воскресенье»

Уравнение логистической регрессии 1  y = 1 + e −(2,30x1 − 1,61)

1  Только «Максимальная температура»  y = 1 + e −(0,52x1 − 13,44) суббота или воскресенье»  «Среда и «Максимальная температура»

1  y = 1 + e −(2,44x1 + 0,54x2 − 15,20)

Перевес e 2,30x1 − 1,61 e 0,52x1 − 13,44 e 2,44x1 + 0,54x2 − 15,20

6. Отношение перевесов

189


Число e2,30, т.е. «e в степени коэфф-нта регрессии случая », вычисляемое как 2,30 · 1 − 1,61 = e 2,30 · 0 − 1,61 = e 2,30 · 1 − 1,61 − (2,30 · 0 − 1,61) = e 2,30, e называется нескорректированным отношением перевесов для переменной «Среда, суббота или воскресенье». Кстати, e2,30 = 10, то есть это значение совпадает с отношением перевесов, рассчитанным на предыдущей странице. Число e0,52, т.е. «e в степени коэфф-нта регрессии случая », вычисляемое как

Перевес в среды, субботы и воскресенья Перевес в остальные дней недели

Перевес при макс. температуре (k+1)°C Перевес при макс. температуре k°C

=e

0,52 · (k+1) − 13,44

= e0,52 · (k+1) − 13,44 − (0,52 · k − 13,44) = e0,52, e 0,52 · k − 13,44 называется нескорректированным отношением перевесов для переменной «Максимальная температура». Число e2,44, т.е. «e в степени коэфф-нта регрессии случая », вычисляемое как e 2,44 · 1 + 0,54 · k − 15,20 = e 2,44 · 1 + 0,54 · k − 15,20 − (2,44 · 0 + 0,54 · k − 15,20) = e 2,44, e 2,44 · 0 + 0,54 · k − 15,20 называется скорректированным отношением перевесов для переменной «Среда, суббота или воскресенье». Число e0,54, т.е. «e в степени коэфф-нта регрессии случая », вычисляемое как e 2,44 · 1 + 0,54 · (k+1) − 15,2 = e 2,44 · 0 + 0,54 · (k+1) − 15,2 = e 0,54 · (k+1) − 15,2 − (0,54 · k − 15,2) = e 2,44, e 2,44 · 1 + 0,54 · k − 15,2 e 2,44 · 0 + 0,54 · k − 15,2 называется скорректированным отношением перевесов для переменной «максимальная температура».

■ 6.4. Тест отношения перевесов генеральной совокупности В литературе, посвящённой логистической регрессии, иногда упоминается «тест отношения перевесов генеральной совокупности», который аналогичен объясняемому на стр.  176 «раздельной проверке значимости коэффициентов регрессии». Однако нулевая и альтернативная гипотезы в нём другие. В «раздельной проверке значимости коэффициентов регрессии» они выглядели следующим образом: Нулевая гипотеза

Ai = 0

Альтернативная гипотеза

Ai ≠ 0

тогда как в «тесте отношения перевесов в генеральной совокупности» они имеют следующий вид:

190

Нулевая гипотеза

e Ai = e 0 = 1

Альтернативная гипотеза

e Ai ≠ e 0 = 1

Глава 4. Логистическая регрессия


■ 6.5. Оценка отношения перевесов в генеральной совокупности В некоторых сферах деятельности, например в  медицине, похоже, существует тенденция смешивать результаты теста отношения перевесов в генеральной совокупности и доверительный интервал отношения перевесов в генеральной совокупности. В  связи с  этим ниже описан метод нахождения доверительного интервала отношения перевесов в генеральной совокупности. Для примера из данной главы доверительный интервал отношения перевесов в генеральной совокупности для переменной «Среда, суббота или воскресенье» eA1 при доверительной вероятности 95% вычисляется следующим образом: Это доверительный интервал

ea1 − 1,96

S11

= e2,44 − 1,96 = 1,0

1,5388

e2,44 = 11,5

ea1 + 1,96

S11

= e2,44 + 1,96

Отношение перевесов

1,5388

= 130,8

■ Рис. 4.2. Доверительный интервал отношения перевесов в генеральной совокупности для переменной «Среда, суббота или воскресенье» при доверительной вероятности 95% (по поводу значения a1 см. стр. 168, по поводу значения S11 см. стр. 177) При доверительной вероятности 99% нужно заменить «1,96» на «2,58».

6. Отношение перевесов

191


7. Пузырьковая диаграмма

Среда, суббота или воскресенье

Хотя тема данного параграфа не имеет никакого отношения к логистической регрессии, я всё же воспользуюсь шансом и объясню следующее. На стр. 165 Миу начертила точечный график так, чтобы совпадающие точки не накладывались друг на друга. Это была хорошая идея. Однако если бы количество точек было больше, например, не 21, а 210, то график оказался бы весь искраплён точками и стал бы труден для восприятия. Вместо этого используется график, который называется пузырьковой диаграммой. На нём число точек выражается размерами пузырков. Ниже приведена пузырьковая диаграмма для графика со стр. 165.

6

3 1

10

2

0

0

1 Картина продаж спецменю NORNS

■ Рис. 4.3. Пузырьковая диаграмма для графика со стр. 165 Не правда ли, один взгляд на эту диаграмму позволяет понять, что по средам, субботам и воскресеньям спецменю NORNS продаётся лучше, чем в другие дни недели?

192

Глава 4. Логистическая регрессия


ПРИЛОЖЕНИЕ

ПРОБУЕМ ВЫЧИСЛЯТЬ В Excel!


В данной главе объясняется методика вычислений: 1) основания натурального логарифма; 2) значения показательной функции; 3) значения функции натурального логарифма; 4) произведения матриц; 5) обратной матрицы; 6) значения на горизонтальной оси распределения хи-квадрат; 7) вероятности распределения хи-квадрат; 8) значения на горизонтальной оси F-распределения; 9) вероятности F-распределения; 10) (частных) коэффициентов (множественной) регрессии 11) коэффициентов уравнения логистической регрессии.

1. ОСНОВАНИЕ НАТУРАЛЬНОГО ЛОГАРИФМА Используются данные со стр. 19.  Шаг 1  Выберите ячейку «B1».

Шаг 2  Выберите подпункт «Функция...» пункта «Вставка» главного меню.

194

Приложение. Пробуем вычислять в Excel!


Шаг 3 В  выпадающем списке «Категория» выберите «Математические», в  списке «Выберите функцию» выберите «EXP».

Шаг 4  В текстовом поле введите «1», нажмите кнопку «ОК».

Шаг 5  Вычисления завершены!!

Приложение. Пробуем вычислять в Excel!

195


2. ЗНАЧЕНИЕ ПОКАЗАТЕЛЬНОЙ ФУНКЦИИ Используются данные со стр. 14.  Шаг 1  Выберите ячейку «B1», введите «=2^3» так же, как вы это делаете, например, в MS Word, нажмите «Enter» на клавиатуре.

Шаг 2  Вычисления завершены!!

3. ЗНАЧЕНИЕ ФУНКЦИИ НАТУРАЛЬНОГО ЛОГАРИФМА Используются данные со стр. 22.  Шаг 1  Выберите ячейку «B1».

Шаг 2  Выберите подпункт «Функция...» пункта «Вставка» главного меню.  Шаг 3  В  выпадающем списке «Категория» выберите «Математические», в  списке «Выберите функцию» выберите «LN».

196

Приложение. Пробуем вычислять в Excel!


Шаг4 В текстовом поле наберите «exp(3)», нажмите кнопку «OK».

Шаг 5  Вычисления завершены!!

4. ПРОИЗВЕДЕНИЕ МАТРИЦ Используются данные со стр. 41.  Шаг 1  Выберите ячейку «G1».

Шаг 2  Выберите подпункт «Функция...» пункта «Вставка» главного меню.  Шаг 3  В  выпадающем списке «Категория» выберите «Математические», в  списке «Выберите функцию» — «МУМНОЖ» (в английской версии Excel — «MMULT»).

Приложение. Пробуем вычислять в Excel!

197


Шаг 4 Укажите диапазоны как на рисунке ниже, нажмите кнопку «OK».

Шаг 5  Выделите, начиная с ячейки «G1», область ячеек «G1:H2», как на рисунке ниже.

Шаг 6  Щёлкните курсором мыши в этой части строки формул.

Шаг 7  Нажмите клавишу «Enter», одновременно удерживая клавиши «Shift» и «Ctrl».  Шаг 8  Вычисления завершены!!

198

Приложение. Пробуем вычислять в Excel!


5. ОБРАТНАЯ МАТРИЦА Используются данные со стр. 44.  Шаг 1  Выберите ячейку «D1».

Шаг 2  Выберите подпункт «Функция...» пункта «Вставка» главного меню.  Шаг 3  В  выпадающем списке «Категория» выберите «Математические», в  списке «Выберите функцию» выберите «МОБР» (в английской версии Excel - «MINVERSE»).  Шаг 4  Укажите диапазон как на рисунке ниже, нажмите кнопку «OK».

Шаг 5  Выделите, начиная с ячейки «D1», область ячеек «D1:E2», как на рисунке ниже.

Приложение. Пробуем вычислять в Excel!

199


Шаг 6 Щёлкните курсором мыши в этой части строки формул.

Шаг 7  Нажмите клавишу «Enter», одновременно удерживая клавиши «Shift» и «Ctrl».  Шаг 8  Вычисления завершены!!

6. НАХОЖДЕНИЕ НА ОСИ X ГРАФИКА РАСПРЕДЕЛЕНИЯ ХИ-КВАДРАТ ЗНАЧЕНИЯ, СООТВЕТСТВУЮЩЕГО ЗАДАННОЙ ВЕРОЯТНОСТИ Используются данные со стр. 51.  Шаг 1  Выберите ячейку «B3».

Шаг 2  Выберите подпункт «Функция...» пункта «Вставка» главного меню.  Шаг 3  В выпадающем списке «Категория» выберите «Cтатистические», в списке «Выберите функцию» выберите «ХИ2ОБР» (в английской версии Excel - «CHIINV»).

200

Приложение. Пробуем вычислять в Excel!


Шаг 4 Выберите ячейки «B1» и «B2», нажмите кнопку «OK».

Шаг 5  Вычисления завершены!!

7. ВЕРОЯТНОСТЬ РАСПРЕДЕЛЕНИЯ ХИ-КВАДРАТ Используются данные со стр. 175.  Шаг 1  Выберите ячейку «B3».

Шаг 2  Выберите подпункт «Функция...» пункта «Вставка» главного меню.

Приложение. Пробуем вычислять в Excel!

201


Шаг 3 В выпадающем списке «Категория» выберите «Cтатистические», в списке «Выберите функцию» выберите «ХИ2РАСП» (в английской версии Excel — «CHIDIST»).  Шаг 4  Выберите ячейки «B1» и «B2», нажмите кнопку «OK».

Шаг 5  Вычисления завершены!!

8. НАХОЖДЕНИЕ НА ОСИ X ГРАФИКА F-РАСПРЕДЕЛЕНИЯ ЗНАЧЕНИЯ, СООТВЕТСТВУЮЩЕГО ЗАДАННОЙ ВЕРОЯТНОСТИ Используются данные со стр. 54. Шаг 1  Выберите ячейку «B4».

202

Приложение. Пробуем вычислять в Excel!


Шаг 2 Выберите подпункт «Функция...» пункта «Вставка» главного меню.  Шаг 3  В выпадающем списке «Категория» выберите «Cтатистические», в списке «Выберите функцию» выберите «FРАСПОБР» (в английской версии Excel — «FINV»).  Шаг 4  Выберите ячейки «B1», «B2» и «B3», нажмите кнопку «OK».

Шаг 5  Вычисления завершены!!

Приложение. Пробуем вычислять в Excel!

203


9. ВЕРОЯТНОСТЬ F-РАСПРЕДЕЛЕНИЯ Используются данные со стр. 84. Шаг 1  Выберите ячейку «B4».

Шаг 2  Выберите подпункт «Функция...» пункта «Вставка» главного меню.  Шаг 3  В выпадающем списке «Категория» выберите «Cтатистические», в списке «Выберите функцию» выберите «FРАСП» (в английской версии Excel — «FDIST»).  Шаг 4  Выберите ячейки «B1», «B2» и «B3», нажмите кнопку «OK».

204

Приложение. Пробуем вычислять в Excel!


Шаг 5 Вычисления завершены!!

«7,67E-06» является отображением числа в формате Excel, в действительности значение равно 7,67 · 10−6.

10. (ЧАСТНЫЕ) КОЭФФИЦИЕНТЫ (МНОЖЕСТВЕННОЙ) РЕГРЕССИИ Используются данные со стр. 107. Шаг 1  Выберите ячейку «G2».

Шаг 2  Выберите подпункт «Функция...» пункта «Вставка» главного меню.  Шаг 3  В выпадающем списке «Категория» выберите «Cтатистические», в списке «Выберите функцию» выберите «ЛИНЕЙН» (в английской версии Excel — «LINEST»)

Приложение. Пробуем вычислять в Excel!

205


Шаг 4 Укажите диапазон как на рисунке ниже, нажмите кнопку «OK». В текстовые поля «Конст» и «Статистика» ничего вводить не нужно.

Шаг 5  Выделите, начиная с  ячейки «G2», область ячеек «G2:I2», как на рисунке ниже.

Шаг 6  Щёлкните курсором мыши в этой части строки формул.

206

Приложение. Пробуем вычислять в Excel!


Шаг 7 Нажмите клавишу «Enter», одновременно удерживая клавиши «Shift» и «Ctrl».  Шаг 8  Вычисления завершены!!

Функция «ЛИНЕЙН» вычисляет (частные) коэффициенты регрессии слева направо в следующем порядке: ap, ... , a2, a1, b.

Приложение. Пробуем вычислять в Excel!

207


11. КОЭФФИЦИЕНТЫ УРАВНЕНИЯ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ Используются данные со стр. 162. К сожалению, в Excel нет встроенной функции нахождения коэффициентов логистической регрессии. В этом параграфе описывается методика вычисления этих коэффициентов с помощью функции Excel «Поиск решения». Для использования функции «Поиск решения» необходимо выполнить следующие действия: 1. Выбрать подпункт «Надстройки...» пункта «Сервис» главного меню».

2. В появившемся окне «Надстройки» установить флажок «Поиск решения», нажать кнопку OK.

208

Приложение. Пробуем вычислять в Excel!


3. Если появится какое-нибудь сообщение, вроде «Вставьте установочный диск с Excel», выполнить его и следовать дальнейшим указаниям. Для нахождения коэффициентов уравнения логистической регрессии надо ввести в соответствующие ячейки необходимые функции Excel.  Шаг 1  Выберите ячейку «L3».

Приложение. Пробуем вычислять в Excel!

209


Шаг 2 Выберите подпункт «Поиск решения...» пункта «Сервис» главного меню.

Шаг 3  Произвести установки как на рисунке ниже, нажать кнопку «Выполнить»

210

Приложение. Пробуем вычислять в Excel!


Шаг 4 Нажать кнопку «OK»

Шаг 5  Вычисления выполнены!!

Как говорилось на стр. 109, частные коэффициенты множественной регрессии находятся методом наименьших квадратов. Попробуйте рассчитать частные коэффициенты регрессии для примера главы 3 с помощью «Поиска решения», чтобы привыкнуть к  функции «Поиск решения», а  также насладиться атмосферой метода наименьших квадратов.

Приложение. Пробуем вычислять в Excel!

211


ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ А Автокорреляция — 97 Анализ ковариационной структуры — 148

Д Дисперсия — 49 Доверительная вероятность — 86, 91 Доверительный интервал — 86, 127 Доверительный уровень — 86, 91

Е Евклидово расстояние — 138

З Зависимая переменная — 61

И Интервальная оценка — 86 Интерполяция — 96 Информационный критерий — 133

К Качественные данные — 46 Квантификация класса — 144 Количественные данные — 46 Коэффициент - детерминации — 75, 113, 169 - детерминации, скорректированный — 117 - доверия — 86, 91 - корреляции — 58 - множественной корреляции — 113, 169 - регрессии — 61 - смешанной корреляции — 75

212

- частные коэффициенты регрессии — 105 - частные коэффициенты регрессии, стандартизированные — 147 Критерий Дарбина-Уотсона — 97

Л Логистическая регрессия — 152 Логит — 187

М Матрица - определитель — 145 - произведение — 41 - сумма — 39 Метод - максимального правдоподобия — 155 - наименьших квадратов — 65 - перебора — 133 - пошагового добавления переменных — 133 - пошагового исключения переменных — 133 Множественная регрессия — 7, 103 Моделирование структурными уравнениями — 148 Модель логистической регрессии — 154 Мультиколлинеарность — 145

Н Независимая переменная — 61 Несмещённая дисперсия — 49 Нормированный остаток — 95, 137

О Обобщённое расстояние Махаланобиса — 127, 138, 139


Обратная матрица — 44 Обратная функция — 14 Объясняющая переменная — 61 Ожидаемые значения — 67 Основание натурального логарифма — 19 Остаток — 67 Отклик — 61 Относительная ошибка дискриминации — 173 Отношение перевесов — 189 Отношение рисков — 189 Оценка максимального правдоподобия — 158

С Среднеквадратичное отклонение — 49 Сумма квадратов остатков — 67 Сумма квадратов отклонений — 49 Сумма произведений отклонений — 66

Т Тест - Вальда — 176 - отношения перевесов генеральной совокупности — 190 - отношения правдоподобия — 175 Толерантность — 145

У

П Перевес — 187 Проверка значимости - коэффициентов регрессии — 83, 174 - коэффициентов регрессии, раздельная/совместная — 174 - частных коэффициентов регрессии — 121 - частных коэффициентов регрессии, раздельная/совместная — 123 Прогнозируемый интервал — 91, 130 Производная (дифференцирование) функции по x — 32 Пузырьковая диаграмма — 192 Путевые коэффициенты — 148

Р Распределение - хи-квадрат — 50–51 - F-распределение — 52–53 Регрессионный анализ — 7, 57 Регрессия генеральной совокупности — 80

Уравнение логистической регрессии — 154 Уравнение множественной регрессии — 105 Уравнение регрессии — 27, 60

Ф Фактические значения — 67 Фактор инфляции вариации (VIF) — 145 Функция - логарифмическая — 19 - натурального логарифма — 20 - показательная — 19 - правдоподобия — 158 - правдоподобия, логарифмическая — 158

Ч Число Непера — 19 Число степеней свободы — 50

Э Экстраполяция — 96

Приложение. Пробуем вычислять в Excel!

213


Об авторе Син Такахаси родился в 1972 году в  префектуре Ниигата, закончил аспирантуру Факультета исследований дизайна Университета дизайна Кюсю (в настоящее время — Университета Кюсю) по специализации «Передача информации». В  настоящее время, после работы в частных компаниях, где Шин занимался анализом данных и проведением семинаров, посвятил себя писательской деятельности.

ÕÈ

ХОЧУ ВОТ ЗАКАЗАТЬ СПЕЦМЕНЮ NORNS.

-Õ È

ЧТО?! ПРАВДА?!

Книги издательства «ДМК Пресс» можно заказать в торгово-издательском холдинге «Планета Альянс» наложенным платежом, выслав открытку или письмо по почтовому адресу: 115487, г. Москва, 2-й Нагатинский пр-д, д. 6А При оформлении заказа следует указать адрес (полностью), по которому должны быть высланы книги; фамилию, имя и отчество получателя. Желательно также указать свой телефон и электронный адрес. Эти книги вы можете заказать и в интернет-магазине: www.alians-kniga.ru. Оптовые закупки: тел. (499) 782-38-89 Электронный адрес: books@alians-kniga.ru.

Син Такахаси (автор), Иноуэ Ироха (художник)

Занимательная статистика. Регрессионный анализ. Манга Издательство выражает благодарность Панфилову В.О. Главный редактор Д. А. Мовчан dmkpress@gmail.com Перевод с японского А. Б. Клионский Научный редактор И. А. Сенников Верстальщик А. Ю. Анненков Корректор Г. Б. Абудеева Формат 70×90/16. Бумага офсетная. Печать офсетная. Объём 15 п. л. Усл. п. л. 17,5. Тираж 200 экз. Веб-сайт издательства ДМК Пресс: www.dmkpress.com

Profile for parallel

Занимательная статистика. Регрессионный анализ  

Син Такахаси, 2014 г.

Занимательная статистика. Регрессионный анализ  

Син Такахаси, 2014 г.

Profile for 06758
Advertisement