Eurotehnik.ru

Бытовая Техника "Евротехник"
1 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Поиск и подсчет самых частых значений

Поиск и подсчет самых частых значений

Необходимость поиска наибольших и наименьших значений в любом бизнесе очевидна: самые прибыльные товары или ценные клиенты, самые крупные поставки или партии и т.д.

Но наравне с этим, иногда приходится искать в данных не топовые, а самые часто встречающиеся значения, что хоть и звучит похоже, но, по факту, совсем не то же самое. Применительно к магазину, например, это может быть поиск не самых прибыльных, а самых часто покупаемых товаров или самое часто встречающееся количество позиций в заказе, минут в разговоре и т.п.

В такой ситуации задачу придется решать немного по-разному, в зависимости от того, с чем мы имеем дело — с числами или с текстом.

Поиск самых часто встречающихся чисел

Предположим, перед нами стоит задача проанализировать имеющиеся данные по продажам в магазине, с целью определить наиболее часто встречающееся количество купленных товаров. Для определения самого часто встречающегося числа в диапазоне можно использовать функцию МОДА (MODE) :

Выявление самых часто встречающихся чисел в диапазоне

Т.е., согласно нашей статистике, чаще всего покупатели приобретают 3 шт. товара.

Если существует не одно, а сразу несколько значений, встречающихся одинаково максимальное количество раз (несколько мод), то для их выявления можно использовать функцию МОДА.НСК (MODE.MULT) . Ее нужно вводить как формулу массива, т.е. выделить сразу несколько пустых ячеек, чтобы хватило на все моды с запасом и ввести в строку формул =МОДА.НСК(B2:B16) и нажать сочетание клавиш Ctrl+Shift+Enter.

На выходе мы получим список всех мод из наших данных:

Выявление нескольких мод

Т.е., судя по нашим данным, часто берут не только по 3, но и по 16 шт. товаров. Обратите внимание, что в наших данных только две моды (3 и 16), поэтому остальные ячейки, выделенные «про запас», будут с ошибкой #Н/Д.

Частотный анализ по диапазонам функцией ЧАСТОТА

Если же нужно проанализировать не целые, а дробные числа, то правильнее будет оценивать не количество одинаковых значений, а попадание их в заданные диапазоны. Например, нам необходимо понять какой вес чаще всего бывает у покупаемых товаров, чтобы правильно выбрать для магазина тележки и упаковочные пакеты подходящего размера. Другими словами, нам нужно определить сколько чисел попадает в интервал 1..5 кг, сколько в интервал 5..10 кг и т.д.

Для решения подобной задачи можно воспользоваться функцией ЧАСТОТА (FREQUENCY) . Для нее нужно заранее подготовить ячейки с интересующими нас интервалами (карманами) и затем выделить пустой диапазон ячеек (G2:G5) по размеру на одну ячейку больший, чем диапазон карманов (F2:F4) и ввести ее как формулу массива, нажав в конце сочетание Ctrl+Shift+Enter:

Частотный анализ функцией ЧАСТОТА

Частотный анализ сводной таблицей с группировкой

Альтернативный вариант решения задачи: создать сводную таблицу, где поместить вес покупок в область строк, а количество покупателей в область значений, а потом применить группировку — щелкнуть правой кнопкой мыши по значениям весов и выбрать команду Группировать (Group) . В появившемся окне можно задать пределы и шаг группировки:

Читайте так же:
Знак больше либо равно в excel

Частотный анализ группировкой сводной таблицы

. и после нажатия на кнопку ОК получить таблицу с подсчетом количества попаданий покупателей в каждый диапазон группировки:

Готовая группировка в сводной таблице

Минусы такого способа:

  • шаг группировки может быть только постоянным, в отличие от функции ЧАСТОТА, где карманы можно задать абсолютно любые
  • сводную таблицу нужно обновлять при изменении исходных данных (щелчком правой кнопки мыши — Обновить), а функция пересчитывается автоматически «на лету»

Поиск самого часто встречающегося текста

Если мы имеем дело не с числами, а с текстом, то подход к решению будет принципиально другой. Предположим, что у нас есть таблица из 100 строк с данными о проданных в магазине товарах, и нам нужно определить, какие товары покупались наиболее часто?

Самым простым и очевидным решением будет добавить рядом столбец с функцией СЧЁТЕСЛИ (COUNTIF) , чтобы подсчитать количество вхождений каждого товара в столбце А:

Подсчет количества текстовых значений в списке

Затем, само-собой, отсортировать получившийся столбец по убыванию и посмотреть на первые строчки.

Или же добавить к исходному списку столбец с единичками и построить по получившейся таблице сводную, подсчитав суммарное количество единичек для каждого товара:

Сводная таблица для подсчета количества вхождений каждого товара

Если исходных данных не очень много и принципиально не хочется пользоваться сводными таблицами, то можно использовать формулу массива:

Примеры использования функций МОДА в Excel

Пример 1. В ходе лабораторной работы эмпирическим путем были получены несколько значений одной и той же физической величины. Для расчета ее приближенного значения было решено определить моду из диапазона полученных значений. Ниже рассмотрим, как найти моду в Excel.

Таблица.

Для определения наиболее часто встречаемого значения используем формулу:

определения наиболее часто встречаемого значения.

B3:B12 – массив значений, в котором необходимо определить наиболее повторяющееся значение.

как найти моду.

Какие способы вычисления среднего бывают?

Первым способом является вычисление уже упомянутого среднего арифметического, являющегося суммой всех значений, деленной на их количество.

  • x – среднее арифметическое;
  • xn – конкретное значение;
  • n – количество значений .
  • Хорошо работает при нормальном распределении значений в выборке;
  • Легко вычислить;
  • Интуитивно понятно.
  • Не дает реального представления о распределении значений;
  • Неустойчивая величина легко поддающаяся выбросам (как в случае с генеральным директором).

Вторым способом является вычисление моды, то есть наиболее часто встречающегося значения.

  • M – мода;
  • x – нижняя граница интервала, который содержит моду;
  • n – величина интервала;
  • fm– частота (сколько раз в ряду встречается то или иное значение);
  • fm-1 – частота интервала предшествующего модальному;
  • fm+1 – частота интервала следующего за модальным.
  • Прекрасно подходит для получения представления об общественном мнении;
  • Хорошо подходит для нечисловых данных (цвета сезона, хиты продаж, рейтинги);
  • Проста для понимания.
  • Моды может просто не быть (нет повторов);
  • Мод может быть несколько (многомодальное распределение).

Третий способ — это вычисление медианы, то есть значения, которое делит упорядоченную выборку на две половины и находится между ними. А если такого значения нет, то за медиану принимается среднее арифметическое между границами половин выборки.

Медиана формула

  • Me – медиана;
  • x – нижняя граница интервала, который содержит медиану;
  • h – величина интервала;
  • f i – частота (сколько раз в ряду встречается то или иное значение);
  • Sm-1 – сумма частот интервалов предшествующих медианному;
  • fm – число значений в медианном интервале (его частота).
  • Дает самую реалистичную и репрезентативную оценку;
  • Устойчива к выбросам.
  • Сложнее вычислить, так как перед вычислением выборку нужно упорядочить.
Читайте так же:
Как в проводнике отобразить скрытые файлы

Мы рассмотрели основные методы нахождения среднего значения, называющиеся мерами центральной тенденции (на самом деле их больше, но это наиболее популярные).

А теперь давайте вернемся к нашему примеру и посчитаем все три варианта среднего при помощи специальных функций Excel:

  • СРЗНАЧ(число1;[число2];…) — функция для определения среднего арифметического;
  • МОДА.ОДН(число1;[число2];. ) — функция моды (в более старых версиях Excel использовалась МОДА(число1;[число2];. ) );
  • МЕДИАНА(число1;[число2];. ) — функция для поиска медианы.

И вот какие значения у нас получились:

Расчет среднего арифметического, моды и медианы

В данном случае мода и медиана гораздо лучше характеризуют среднюю зарплату в компании.

Но что делать, когда в выборке не 10 значений, как в примере, а миллионы? В Excel это не посчитать, а вот в базе данных где хранятся ваши данные, без проблем.

Вычисляем среднее арифметическое на SQL

Тут все достаточно просто, так как в SQL предусмотрена специальная агрегатная функция AVG .

И чтобы ее использовать достаточно написать вот такой запрос:

Вычисляем моду на SQL

В SQL нет отдельной функции для нахождения моды, но ее легко и быстро можно написать самостоятельно. Для этого нам необходимо узнать, какая из зарплат чаще всего повторяется и выбрать наиболее популярную.

Вычисляем медиану на SQL

Как и в случае с модой, в SQL нет встроенной функции для вычисления медианы, зато есть универсальная функция для вычисления процентилей PERCENTILE_CONT .

Выглядит все это так:

Подробнее о работе функции PERCENTILE_CONT лучше почитать в справке Microsoft и Google BigQuery.

Статистические функции

Как и любые другие функции в Экселе, статистические функции оперируют аргументами, которые могут иметь вид постоянных чисел, ссылок на ячейки или массивы.

Выражения можно вводить вручную в определенную ячейку или в строку формул, если хорошо знать синтаксис конкретного из них. Но намного удобнее воспользоваться специальным окном аргументов, которое содержит подсказки и уже готовые поля для ввода данных. Перейти в окно аргумента статистических выражений можно через «Мастер функций» или с помощью кнопок «Библиотеки функций» на ленте.

Запустить Мастер функций можно тремя способами:

    Кликнуть по пиктограмме «Вставить функцию» слева от строки формул.

Вставить функцию в Microsoft Excel

Переход к вставке формулы в Microsoft Excel

При выполнении любого из вышеперечисленных вариантов откроется окно «Мастера функций».

Мастер функций в Microsoft Excel

Затем нужно кликнуть по полю «Категория» и выбрать значение «Статистические».

выбор статистической функции в Microsoft Excel

После этого откроется список статистических выражений. Всего их насчитывается более сотни. Чтобы перейти в окно аргументов любого из них, нужно просто выделить его и нажать на кнопку «OK».

Переход в окно аргументов в Microsoft Excel

Для того, чтобы перейти к нужным нам элементам через ленту, перемещаемся во вкладку «Формулы». В группе инструментов на ленте «Библиотека функций» кликаем по кнопке «Другие функции». В открывшемся списке выбираем категорию «Статистические». Откроется перечень доступных элементов нужной нам направленности. Для перехода в окно аргументов достаточно кликнуть по одному из них.

Читайте так же:
Группы функций в excel

Переход к статистическим функциям в Microsoft Excel

Оператор МАКС предназначен для определения максимального числа из выборки. Он имеет следующий синтаксис:

Аргументы функции МАКС в Microsoft Excel

В поля аргументов нужно ввести диапазоны ячеек, в которых находится числовой ряд. Наибольшее число из него эта формула выводит в ту ячейку, в которой находится сама.

По названию функции МИН понятно, что её задачи прямо противоположны предыдущей формуле – она ищет из множества чисел наименьшее и выводит его в заданную ячейку. Имеет такой синтаксис:

Аргументы функции МИН в Microsoft Excel

СРЗНАЧ

Функция СРЗНАЧ ищет число в указанном диапазоне, которое ближе всего находится к среднему арифметическому значению. Результат этого расчета выводится в отдельную ячейку, в которой и содержится формула. Шаблон у неё следующий:

Аргументы функции СРЗНАЧ в Microsoft Excel

СРЗНАЧЕСЛИ

Функция СРЗНАЧЕСЛИ имеет те же задачи, что и предыдущая, но в ней существует возможность задать дополнительное условие. Например, больше, меньше, не равно определенному числу. Оно задается в отдельном поле для аргумента. Кроме того, в качестве необязательного аргумента может быть добавлен диапазон усреднения. Синтаксис следующий:

Аргументы функции СРЗНАЧЕСЛИ в Microsoft Excel

МОДА.ОДН

Формула МОДА.ОДН выводит в ячейку то число из набора, которое встречается чаще всего. В старых версиях Эксель существовала функция МОДА, но в более поздних она была разбита на две: МОДА.ОДН (для отдельных чисел) и МОДА.НСК(для массивов). Впрочем, старый вариант тоже остался в отдельной группе, в которой собраны элементы из прошлых версий программы для обеспечения совместимости документов.

Аргументы функции МОДА.ОДН в Microsoft Excel

МЕДИАНА

Оператор МЕДИАНА определяет среднее значение в диапазоне чисел. То есть, устанавливает не среднее арифметическое, а просто среднюю величину между наибольшим и наименьшим числом области значений. Синтаксис выглядит так:

Аргументы функции МЕДИАНА в Microsoft Excel

СТАНДОТКЛОН

Формула СТАНДОТКЛОН так же, как и МОДА является пережитком старых версий программы. Сейчас используются современные её подвиды – СТАНДОТКЛОН.В и СТАНДОТКЛОН.Г. Первая из них предназначена для вычисления стандартного отклонения выборки, а вторая – генеральной совокупности. Данные функции используются также для расчета среднего квадратичного отклонения. Синтаксис их следующий:

Аргументы функции СТАНДОТКЛОН в Microsoft Excel

НАИБОЛЬШИЙ

Данный оператор показывает в выбранной ячейке указанное в порядке убывания число из совокупности. То есть, если мы имеем совокупность 12,97,89,65, а аргументом позиции укажем 3, то функция в ячейку вернет третье по величине число. В данном случае, это 65. Синтаксис оператора такой:

В данном случае, k — это порядковый номер величины.

Аргументы функции НАИБОЛЬШИЙ в Microsoft Excel

НАИМЕНЬШИЙ

Данная функция является зеркальным отражением предыдущего оператора. В ней также вторым аргументом является порядковый номер числа. Вот только в данном случае порядок считается от меньшего. Синтаксис такой:

Аргументы функции НАИМЕНЬШИЙ в Microsoft Excel

РАНГ.СР

Эта функция имеет действие, обратное предыдущим. В указанную ячейку она выдает порядковый номер конкретного числа в выборке по условию, которое указано в отдельном аргументе. Это может быть порядок по возрастанию или по убыванию. Последний установлен по умолчанию, если поле «Порядок» оставить пустым или поставить туда цифру 0. Синтаксис этого выражения выглядит следующим образом:

Аргументы функции РАНГ в Microsoft Excel

Выше были описаны только самые популярные и востребованные статистические функции в Экселе. На самом деле их в разы больше. Тем не менее, основной принцип действий у них похожий: обработка массива данных и возврат в указанную ячейку результата вычислительных действий.

Читайте так же:
Изучение excel для начинающих

ЗакрытьМы рады, что смогли помочь Вам в решении проблемы.

Помимо этой статьи, на сайте еще 12447 инструкций.
Добавьте сайт Lumpics.ru в закладки (CTRL+D) и мы точно еще пригодимся вам.

Отблагодарите автора, поделитесь статьей в социальных сетях.

ЗакрытьОпишите, что у вас не получилось. Наши специалисты постараются ответить максимально быстро.

док рассчитать сверхурочную оплату 4

Как правило, при расчете рабочего времени необходимо исключить перерыв. Здесь, в этом руководстве, представлена ​​формула, которая использует функцию MOD для расчета сетевого времени с перерывами в Excel.

Если вы хотите следовать этому руководству, загрузите пример электронной таблицы.
образец

Общая формула:

MOD(work_end-work_start,1)-MOD(break_end-break_start,1)

аргументы

Work_start: the time that starts work at.
Work_end: the time that ends work at.
Break_start: the time that starts break at.
Break_end: the time that ends break at.

Как работает эта формула

Вот таблица, содержащая рабочее время и время перерыва. Используйте приведенную ниже формулу для расчета сетевого времени.
док вычислить сетевое время 2

=MOD(C6-B6,1)-MOD(E6-D6,1)

Нажмите Enter ключ для получения сетевого времени.
док вычислить сетевое время 3

Затем перетащите дескриптор автозаполнения по ячейкам, чтобы рассчитать сетевое время.
док вычислить сетевое время 4

объяснение

Функция MOD возвращает остаток от деления двух чисел. Например, МОД (8,3) = 2 .

В этом случае значение времени должно быть десятичным значением, которое останется самим собой при делении 1 с помощью функции MOD.

Например, = MOD (C6-B6,1) = 10: 00 = 0.416666667, затем = MOD (E6-D6,1) = 1: 15 = 0.052083333. В настоящее время
= MOD (C6-B6,1) -MOD (E6-D6,1)
= 10: 00–1: 15
= 8: 45

замечание

1) Если вам нужно рассчитать общее время в сети, используйте формулу

Внимание: Результат суммы автоматически отображается в формате ч: мм. Чтобы легко понять результат суммы, вы можете изменить его на формат времени 37:30:55.
док вычислить сетевое время 5

2) Если в расписании записано два отдельных времени входа / выхода для одной смены, как показано ниже, вы можете использовать следующую формулу:

MOD (конец работы1-начало работы1,1) -MOD (конец работы2-начало работы2,1)
= MOD (C17-B17,1) + MOD (E17-D17,1)
док вычислить сетевое время 6

Относительные формулы


    В этом руководстве он показывает расписание, в котором указаны рабочие часы, и предоставляет формулу для расчета сверхурочной оплаты.
    Это руководство содержит четкое руководство о том, как использовать функцию ЕСЛИ для назначения баллов на позднем этапе в Excel.
    Здесь в этом руководстве представлена ​​формула для быстрого расчета оставшихся дней между двумя датами.
    Он вводит формулы для добавления месяцев к заданной дате в Excel и объясняет, как работают формулы.

Относительные функции


    Тест на указанные условия, затем возвращает соответствующие значения
    Преобразуйте текст в число.
    МЕСЯЦ используется для получения месяца в виде целого числа (от 1 до 12) от даты.
    Функция ДЕНЬ получает день в виде числа (от 1 до 31) от даты
    Функция ГОД возвращает год на основе заданной даты в формате 4-значного серийного номера.

Лучшие инструменты для работы в офисе

Kutools for Excel — поможет вам выделиться из толпы

Хотите быстро и безупречно выполнять свою повседневную работу? Kutools for Excel предлагает мощные расширенные функции 300 (объединение книг, сумма по цвету, разделение содержимого ячеек, дата преобразования и так далее . ) и экономия 80% времени для вас.

Читайте так же:
Как в excel найти повторяющиеся строки

Заключение

Статистический пакет Microsoft Excel содержит в себе еще огромное количество формул: проверку гипотез, принадлежность распределениям, доверительные интервалы, корреляцию и прочие инструменты, которые могут пригодиться при работе со статистикой даже на серьезном уровне.

Как мы и писали ранее, обозреть все в одной статье невозможно. Поэтому, если вы хотите узнать про менее известные, но не менее полезные статистические возможности Excel – пишите в комментариях, что вам было бы интересно и мы подготовим для вас новую статью из этого цикла.

Автор: Андрон Алексанян, СОО «Аптека-Центр», эксперт SF Education

Научитесь использовать все прикладные инструменты из функционала MS Excel.

Замечания

Ячейки в диапазоне, которые содержат значения ИСТИНА или ЛОЖЬ, игнорируются.

Если ячейка в "диапазоне_усреднения" пустая, функция СРЗНАЧЕСЛИ игнорирует ее.

Если диапазон является пустым или текстовым значением, СРЗНАЧЕСЛИ Возвращает #DIV0! значение ошибки #ЧИСЛО!.

Если ячейка в условии пустая, "СРЗНАЧЕСЛИ" обрабатывает ее как ячейки со значением 0.

Если ни одна из ячеек в диапазоне не удовлетворяет критерию, СРЗНАЧЕСЛИ Возвращает #DIV/0! значение ошибки #ДЕЛ/0!.

В этом аргументе можно использовать подстановочные знаки: вопросительный знак (?) и звездочку (*). Вопросительный знак соответствует любому одиночному символу; звездочка — любой последовательности символов. Если нужно найти сам вопросительный знак или звездочку, то перед ними следует поставить знак тильды (

Значение "диапазон_усреднения" не обязательно должно совпадать по размеру и форме с диапазоном. При определении фактических ячеек, для которых вычисляется среднее, в качестве начальной используется верхняя левая ячейка в "диапазоне_усреднения", а затем добавляются ячейки с совпадающим размером и формой. Например:

Если диапазон равен

Примечание: Функция СРЗНАЧЕСЛИ измеряет среднее значение, то есть центр набора чисел в статистическом распределении. Существует три наиболее распространенных способа определения среднего значения: :

Среднее значение — это среднее арифметическое, которое вычисляется путем сложения набора чисел с последующим делением полученной суммы на их количество. Например, средним значением для чисел 2, 3, 3, 5, 7 и 10 будет 5, которое является результатом деления их суммы, равной 30, на их количество, равное 6.

Медиана — это число, которое является серединой множества чисел, то есть половина чисел имеют значения большие, чем медиана, а половина чисел имеют значения меньшие, чем медиана. Например, медианой для чисел 2, 3, 3, 5, 7 и 10 будет 4.

Мода — это число, наиболее часто встречающееся в данном наборе чисел. Например, модой для чисел 2, 3, 3, 5, 7 и 10 будет 3.

При симметричном распределении множества чисел все три значения центральной тенденции будут совпадать. При смещенном распределении множества чисел значения могут быть разными.

голоса
Рейтинг статьи
Ссылка на основную публикацию
Adblock
detector