Анализ регрессионных остатков (пример)
Анализ регрессионных остатков
Анализ регрессионных остатков заключается в проверке нескольких гипотез:
где , , — регрессионные остатки конкретной модели. — отклики посчитанные по модели, а — эмпирические отклики.
Для проверки первой гипотезы воспользуемся критерием знаков. Проверка второй гипотезы, по сути, является проверкой на гомоскедастичность, то есть на постоянство дисперсии, случай гетероскедастичности будет рассмотрен ниже. Для этого воспользуемся двумя статистическими тестами: тестом Ансари-Брэдли и критерием Голдфелда-Кванта. Так как тест Ансари-Брэдли фактически осуществляет проверку гипотезы, что у двух предоставленных выборок дисперсии одинаковы, а мы фактически имеем только один вектор остатков, то произведем несколько тестов, сравнивая в каждом две случайные выборки из нашего вектора остатков. Проверку нормальности распределения осуществим с помощью критерия согласия хи-квадрат, модифицированного для проверки на нормальность, то есть сравнивая данное нам распределение в остатках с нормальным распределением, имеющим моментные характеристики, вычисленные из вектора остатков. Наконец, проверку последнего условия реализуем с помощью статистики Дарбина-Уотсона.
Оценка значимости признаков
Задача состоит в проверке для каждого из признаков, дает ли нам учет этого признака в модели более хорошие результаты, нежели его отсутствие. Оценивать результаты будем с помощью коэффициента детерминации:
где — эмпирический отклик, — отклик, посчитанный по модели, и — математическое ожидание .
Линейная регрессия в Excel
Линейная регрессия — это статистический метод / метод, используемый для изучения взаимосвязи между двумя непрерывными количественными переменными. В этом методе независимые переменные используются для прогнозирования значения зависимой переменной. Если существует только одна независимая переменная, то это простая линейная регрессия, а если число независимых переменных больше, чем одна, то это множественная линейная регрессия. Модели линейной регрессии имеют связь между зависимыми и независимыми переменными путем подгонки линейного уравнения к наблюдаемым данным. Линейный относится к тому факту, что мы используем линию, чтобы соответствовать нашим данным. Зависимые переменные, используемые в регрессионном анализе, также называют ответными или прогнозными переменными, а независимые переменные также называют объясняющими переменными или предикторами.
Линия линейной регрессии имеет уравнение вида: Y = a + bX;
- X — объясняющая переменная,
- Y является зависимой переменной,
- б — наклон линии,
- a является y-перехватом (то есть значением y, когда x = 0).
Метод наименьших квадратов обычно используется в линейной регрессии, которая рассчитывает линию наилучшего соответствия для наблюдаемых данных путем минимизации суммы квадратов отклонения точек данных от линии.
Методы использования линейной регрессии в Excel
В этом примере показано, как выполнить анализ линейной регрессии в Excel. Давайте посмотрим на несколько методов.
Вы можете скачать этот шаблон Excel с линейной регрессией здесь — Шаблон Excel с линейной регрессией
Метод № 1 — Точечная диаграмма с линией тренда
Допустим, у нас есть набор данных о некоторых людях с их возрастом, индексом биомассы (ИМТ) и суммой, потраченной ими на медицинские расходы за месяц. Теперь, имея представление о характеристиках людей, таких как возраст и ИМТ, мы хотим выяснить, как эти переменные влияют на медицинские расходы, и, следовательно, использовать их для проведения регрессии и оценки / прогнозирования средних медицинских расходов для некоторых конкретных людей. Давайте сначала посмотрим, как только возраст влияет на медицинские расходы. Давайте посмотрим на набор данных:
Сумма на медицинские расходы = б * возраст + а
- Выберите два столбца набора данных (x и y), включая заголовки.
- Нажмите «Вставить» и разверните раскрывающийся список «Диаграмма разброса» и выберите эскиз «Разброс» (первый)
- Теперь появится график рассеяния, и мы нарисуем на этом линию регрессии. Для этого щелкните правой кнопкой мыши любую точку данных и выберите «Добавить линию тренда».
- Теперь на панели «Format Trendline» справа выберите «Linear Trendline» и «Показать уравнение на графике».
- Выберите «Показать уравнение на графике».
Мы можем импровизировать диаграмму в соответствии с нашими требованиями, такими как добавление названий осей, изменение масштаба, цвета и типа линии.
После Импровизации диаграммы мы получаем вывод.
Примечание. В этом типе графика регрессии зависимая переменная всегда должна быть на оси y и не зависеть от оси x. Если график отображается в обратном порядке, либо переключите оси в диаграмме, либо поменяйте местами столбцы в наборе данных.
Метод № 2 — Анализ надстройки ToolPak Метод
Пакет инструментов анализа иногда не включен по умолчанию, и нам нужно сделать это вручную. Для этого:
- Нажмите на меню «Файл».
После этого нажмите «Опции».
- Выберите «Надстройки Excel» в поле «Управление» и нажмите «Перейти»
- Выберите «Пакет инструментов анализа» -> «ОК»
Это добавит инструменты «Анализ данных» на вкладку «Данные». Теперь запустим регрессионный анализ:
- Нажмите «Анализ данных» на вкладке «Данные»
- Выберите «Регрессия» -> «ОК».
- Откроется диалоговое окно регрессии. Выберите диапазон ввода Y и диапазон ввода X (медицинские расходы и возраст соответственно). В случае множественной линейной регрессии мы можем выбрать больше столбцов независимых переменных (например, если мы хотим увидеть влияние ИМТ также на медицинские расходы).
- Установите флажок «Метки», чтобы включить заголовки.
- Выберите желаемый вариант вывода.
- Установите флажок «Остатки» и нажмите «ОК».
Теперь результаты нашего регрессионного анализа будут созданы в новом рабочем листе с указанием статистики регрессии, ANOVA, остатков и коэффициентов.
Выходная интерпретация:
- Статистика регрессии показывает, насколько хорошо уравнение регрессии соответствует данным:
- Множество R — это коэффициент корреляции, который измеряет силу линейных отношений между двумя переменными. Он лежит в диапазоне от -1 до 1, и его абсолютное значение показывает силу отношения с большим значением, указывающим на более сильное отношение, низким значением, указывающим на отрицательное значение, и нулевым значением, указывающим на отсутствие отношения.
- Квадрат R — это коэффициент определения, используемый в качестве показателя качества соответствия. Он находится в диапазоне от 0 до 1, а значение, близкое к 1, указывает на то, что модель хорошо подходит. В этом случае 0, 57 = 57% значений y объясняются значениями x.
- Скорректированный квадрат R — это квадрат R, скорректированный на количество предикторов в случае множественной линейной регрессии.
- Стандартная ошибка отображает точность регрессионного анализа.
- Наблюдения отображают количество модельных наблюдений.
- Anova рассказывает об уровне изменчивости в рамках регрессионной модели.
Обычно это не используется для простой линейной регрессии. Однако «Значения F значимости» указывают на то, насколько надежны наши результаты, при этом значение больше 0, 05 предлагает выбрать другого предиктора.
- Коэффициенты являются наиболее важной частью, используемой для построения уравнения регрессии.
Итак, наше уравнение регрессии будет: у = 16, 891 х — 355, 32. Это то же самое, что сделано методом 1 (точечная диаграмма с линией тренда).
Теперь, если мы хотим предсказать средние медицинские расходы в возрасте 72 лет:
Итак, у = 16, 891 * 72 -355, 32 = 860, 832
Таким образом, мы можем предсказать значения y для любых других значений x.
- Остатки указывают на разницу между фактическими и прогнозируемыми значениями.
Последний метод регрессии используется не так часто и требует статистических функций, таких как slope (), intercept (), correl () и т. Д. Для проведения регрессионного анализа.
Что нужно помнить о линейной регрессии в Excel
- Регрессионный анализ обычно используется для определения статистически значимой взаимосвязи между двумя наборами переменных.
- Он используется для прогнозирования значения зависимой переменной на основе значений одной или нескольких независимых переменных.
- Всякий раз, когда мы хотим приспособить модель линейной регрессии к группе данных, следует тщательно соблюдать диапазон данных, как если бы мы использовали уравнение регрессии для прогнозирования любого значения за пределами этого диапазона (экстраполяция), тогда это может привести к неверным результатам.
Рекомендуемые статьи
Это руководство по линейной регрессии в Excel. Здесь мы обсудим, как сделать линейную регрессию в Excel вместе с практическими примерами и загружаемым шаблоном Excel. Вы также можете просмотреть наши другие предлагаемые статьи —
Этапы создания платежного календаря
При составлении платежного календаря опираются на методы финансового планирования и прогнозирования:
- экономический анализ помогает предсказать возможные сценарии развития событий;
- нормативный метод устанавливает лимиты на пользование средствами и размеры резервных фондов.
Первый шаг при планировании – сбор информации о предполагаемых затратах и сроках платежей со всех центров финансовой ответственности компании.
Второй – распределение данных в графике по затратам, проектам, статьям бюджета и плательщикам. Тут же необходимо проверить соответствует ли заявленная информация бюджету предприятия, ее возможные сроки оплат и экономическую обоснованность.
Третий шаг – рассчитываем остаток средств на начало и на конец периода.
Уже только эти простые шаги дадут вам представление о будущем финансовом состоянии бизнеса и подсветят кассовые разрывы.
Регрессионный анализ в Excel
Регрессия выполняется для определения взаимосвязей между двумя или более переменными в наборе данных, в статистике регрессия выполняется с помощью некоторых сложных формул, но Excel предоставил нам инструменты для регрессионного анализа, который в анализе занял первое место в Excel, нажмите на анализ данных и затем по регрессии, чтобы провести регрессионный анализ в Excel.
Объяснил
Инструмент регрессионного анализа выполняет линейную регрессию в экзамене Excel, используя метод «минимальных квадратов», чтобы подогнать линию к множеству наблюдений. Вы можете проверить, как на отдельную зависимую переменную влияют оценки хотя бы одной независимой переменной. Например, вы можете исследовать, как на результативность спортсмена влияют такие факторы, как возраст, рост и вес. Вы можете распределить доли в показателе исполнения на каждый из этих трех компонентов с учетом большого количества информации об исполнении, а после этого использовать результаты, чтобы предвидеть исполнение другого лица.
Инструмент регрессионного анализа в Excel помогает увидеть, как изменяется зависимая переменная, когда одна из независимых переменных колеблется, и позволяет численно определить, какая из этих переменных действительно оказывает влияние.
Примеры
- Продажа шампуня зависит от рекламы. Если расходы на рекламу увеличатся на один миллион, то ожидается, что объем продаж увеличится на 23 миллиона, а если бы не было рекламы, мы бы ожидали, что продажи будут без увеличения.
- Продажи дома (продажная цена, количество спален, местоположение, размер, дизайн) для прогнозирования продажной цены будущих продаж в том же районе.
- Продажа безалкогольных напитков резко увеличилась летом, когда погода слишком жаркая. Люди покупают все больше и больше безалкогольных напитков, чтобы охладиться; чем выше температура, тем выше будет продажа и наоборот.
- В марте, когда начался сезон экзаменов, количество продаж экзаменационных планшетов увеличилось за счет покупки студентами экзаменационных планшетов. Продажа экзаменационных планшетов зависит от сезона экзаменов.
Как запустить инструмент регрессионного анализа в Excel?
- Шаг 1: Вам необходимо включить надстройку Analysis ToolPak.
- Шаг 2: В Excel щелкните файл в крайнем левом углу, перейдите к Параметры в конце и щелкните.
- Шаг 3: После того, как вы нажали на параметры, выберите надстройки слева, надстройки Excel выбраны в поле просмотра и управления и нажмите кнопку Перейти.
- Шаг 4: В диалоговом окне надстройки нажмите Пакет аналитических инструментови щелкните Хорошо:
Это добавит Анализ данных инструменты в правой части вкладки «Данные» на нашей ленте Excel.
Как использовать инструмент регрессионного анализа в Excel?
Данные, которые будут использоваться для регрессионного анализа в Excel:
После того, как пакет Analysis Toolpak добавлен и включен в книгу Excel, выполните шаги, указанные ниже, чтобы попрактиковаться в анализе регрессии в Excel:
- Шаг 1: На вкладке «Данные» на ленте Excel щелкните значок Анализ данных
- Шаг 2: Щелкните регрессию и щелкните Хорошо чтобы включить функцию.
- Шаг 3: После того, как вы нажали Регресс диалоговое окно, необходимо настроить сопутствующие параметры:
- Для зависимой переменной выберите Вход Y, который обозначает данные, которые являются зависимыми. На приведенном ниже снимке экрана я выбрал диапазон от $ D $ 2 до $ D $ 13.
- Независимая переменная, Выберите Вход X, который обозначает данные, которые являются независимыми по своей природе. Здесь, на приведенном ниже снимке экрана, я выбрал диапазон от $ C $ 2 до $ C $ 13.
- Шаг 4: Нажмите ОК, проанализируйте данные соответствующим образом.
Когда вы запустите регрессионный анализ в Excel, вы получите следующий результат:
Вы также можете построить диаграмму рассеяния в отличии от этих остатков.
Корреляционный анализ в Excel
Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.
Если связь имеется, то влечет ли увеличение одного параметра повышение (положительная корреляция) либо уменьшение (отрицательная) другого. Корреляционный анализ помогает аналитику определиться, можно ли по величине одного показателя предсказать возможное значение другого.
Коэффициент корреляции обозначается r. Варьируется в пределах от +1 до -1. Классификация корреляционных связей для разных сфер будет отличаться. При значении коэффициента 0 линейной зависимости между выборками не существует.
Рассмотрим, как с помощью средств Excel найти коэффициент корреляции.
Для нахождения парных коэффициентов применяется функция КОРРЕЛ.
Задача: Определить, есть ли взаимосвязь между временем работы токарного станка и стоимостью его обслуживания.
Ставим курсор в любую ячейку и нажимаем кнопку fx.
- В категории «Статистические» выбираем функцию КОРРЕЛ.
- Аргумент «Массив 1» — первый диапазон значений – время работы станка: А2:А14.
- Аргумент «Массив 2» — второй диапазон значений – стоимость ремонта: В2:В14. Жмем ОК.
Чтобы определить тип связи, нужно посмотреть абсолютное число коэффициента (для каждой сферы деятельности есть своя шкала).
Для корреляционного анализа нескольких параметров (более 2) удобнее применять «Анализ данных» (надстройка «Пакет анализа»). В списке нужно выбрать корреляцию и обозначить массив. Все.
Полученные коэффициенты отобразятся в корреляционной матрице. Наподобие такой:
Использование Excel для определения линейной регрессии
Для того, чтобы воспользоваться инструментом регрессионного анализа встроенного в Excel, необходимо активировать надстройку Пакет анализа . Найти ее можно, перейдя по вкладке Файл –> Параметры (2007+), в появившемся диалоговом окне Параметры Excel переходим во вкладку Надстройки. В поле Управление выбираем Надстройки Excel и щелкаем Перейти. В появившемся окне ставим галочку напротив Пакет анализа, жмем ОК.
Во вкладке Данные в группе Анализ появится новая кнопка Анализ данных.
Чтобы продемонстрировать работу надстройки, воспользуемся данными , где парень и девушка делят столик в ванной. Введите данные нашего примера с ванной в столбцы А и В чистого листа.
Перейдите во вкладку Данные, в группе Анализ щелкните Анализ данных. В появившемся окне Анализ данных выберите Регрессия , как показано на рисунке, и щелкните ОК.
Установите необходимыe параметры регрессии в окне Регрессия , как показано на рисунке:
Щелкните ОК. На рисунке ниже показаны полученные результаты:
Эти результаты соответствуют тем, которые мы получили путем самостоятельных вычислений в .
Построение линейной регрессии, оценивание ее параметров и их значимости можно выполнить значительнее быстрей при использовании пакета анализа Excel (Регрессия). Рассмотрим интерпретацию полученных результатов в общем случае (k объясняющих переменных) по данным примера 3.6.
В таблице регрессионной статистики приводятся значения:
Множественный R – коэффициент множественной корреляции ;
R — квадрат – коэффициент детерминации R 2 ;
Нормированный R — квадрат – скорректированный R 2 с поправкой на число степеней свободы;
Стандартная ошибка – стандартная ошибка регрессии S ;
Наблюдения – число наблюдений n .
В таблице Дисперсионный анализ приведены:
1. Столбец df — число степеней свободы, равное
для строки Регрессия df = k ;
для строкиОстаток df = n – k – 1;
для строкиИтого df = n – 1.
2. Столбец SS – сумма квадратов отклонений, равная
для строки Регрессия ;
для строкиОстаток ;
для строкиИтого .
3. Столбец MS дисперсии, определяемые по формуле MS = SS /df :
для строки Регрессия – факторная дисперсия;
для строкиОстаток – остаточная дисперсия.
4. Столбец F – расчетное значение F -критерия, вычисляемое по формуле
F = MS (регрессия)/MS (остаток).
5. Столбец Значимость F –значение уровня значимости, соответствующее вычисленной F -статистике.
Значимость F = FРАСП(F- статистика, df (регрессия), df (остаток)).
Если значимость F Функции НАКЛОН и ОТРЕЗОК возвращают ошибку #ДЕЛ/0!. Алгоритм функций НАКЛОН и ОТРЕЗОК используется для поиска только одного ответа, а в данном случае их может быть несколько.
Помимо вычисления статистики для других типов регрессии функцию ЛИНЕЙН можно использовать при вычислении диапазонов для других типов регрессии, вводя функции переменных x и y как ряды переменных х и у для ЛИНЕЙН. Например, следующая формула:
работает при наличии одного столбца значений Y и одного столбца значений Х для вычисления аппроксимации куба (многочлен 3-й степени) следующей формы:
y=m 1 x+m 2 x 2 +m 3 x 3 +b
Формула может быть изменена для расчетов других типов регрессии, но в отдельных случаях требуется корректировка выходных значений и других статистических данных.
Известна тем, что она полезна в разных областях деятельности, включая и такую дисциплину, как эконометрика, где в работе используется данная программная утилита. В основном все действия практических и лабораторных занятий выполняют в Excel, которая существенно облегчает работу, давая подробные объяснения тех или иных действий. Так, один из инструментов анализа «Регрессия» применяется с целью подбора графика для набора наблюдений за счет метода наименьших квадратов. Рассмотрим, что представляет собой данный инструмент программы и в чем заключается его польза для пользователей. Ниже также предоставлена краткая, но понятная инструкция построения регрессионной модели.
Шаблон Excel при аналитике продаж
При учете продукта подобает подбирать удобный для вас стандарт, в который вы будете вносить какие-либо сведения.
Так, шаблон продаж может принять следующий вид.
- Наименование.
- Его артикул.
- Ед.изм.
- Количество.
- Стоимость.
- Цена.
Для гораздо большего удобства проведения аналитики следует создавать для каждого месяца новый лист. Ниже приведен пример таблицы учета склада в Excel.