Кто мы?

Блог Профи.ру — сервиса, где специалисты и клиенты находят друг друга. Хотите попробовать?

Перейти на сайт Профи.ру
Как профи

Медиана в статистике и геометрии — интуитивное и точное объяснение

Разбираемся, как медиана показывает «честную середину» данных, чем отличается от среднего и моды и почему медиана треугольника — совсем другая история.
Схематичный ряд чисел с выделенной серединой и треугольник с проведенными медианами
Медиана: честная середина данных

Медиана показывает середину: в статистике это центральное значение упорядоченного набора данных, в геометрии отрезок в треугольнике от вершины к середине противоположной стороны. Ниже разберем, как понимать статистическую медиану в задачах и отчетах и как не путать ее с медианой треугольника.

Важно держать в голове рамку: статистическая медиана делит набор наблюдений по количеству на «нижнюю» и «верхнюю» часть, медиана в геометрии делит сторону треугольника и помогает найти его «центр тяжести». Корень у слов один — «середина», но объекты разные. Дальше по тексту акцент на практических числовых примерах, где медиана помогает не перепутать «типичный уровень» и крайности.

Как понять, что перед вами медиана в данных

Интерьер: на столе разложена полоска карточек с числами, выстроенных по возрастанию, но цифры не читаются. Человек наклонился над рядом, делит его ладонью ровно посередине, как бы

Медиану в задачах и отчетах легче всего узнать по смыслу «граница между нижней и верхней половинами». Часто это описывают так: «столько‑то процентов людей имеют значение не выше этой суммы, остальные — не ниже». Если в формулировке подчеркивают разделение на две равные по численности группы, но при этом ничего не говорят про складывание и деление, почти наверняка речь о медиане, даже если слово не названо.

В повседневной речи медиану любят прятать за формулировками «типичная зарплата», «типичный чек», «центральное значение». Характерный маркер: пояснение, что примерно у половины людей показатель ниже, а у половины — выше. Именно так статистические службы нередко подают данные о доходах и ценах, чтобы не ломать картину редкими экстремальными случаями.

В новостях медиану имеет смысл заподозрить там, где подчеркивают «картину для большинства» и явно хотят «отвязаться» от редких, но огромных значений. Например, вместо «средняя цена квартиры» дают значение, «выше которого заключено 50% сделок и столько же — ниже». Или пишут: «медианный срок продажи — 30 дней, половина объектов уходит быстрее, половина — медленнее».

В учебных задачах формулировки обычно еще прямее: «отсортируйте результаты и укажите число, которое окажется посередине» (для нечетного количества наблюдений) или «найдите два средних значения и их полусумму» (для четного количества). В обоих случаях проверяют умение увидеть медиану именно как границу между условной «нижней» и «верхней» частью выборки.

Бытовые сюжеты устроены так же. Например, записаны за месяц цены обычных обедов, и нужно понять, сколько тратится «обычно», не заостряя внимание на одном‑двух очень дорогих или, наоборот, совсем дешевых днях. Значение, вокруг которого по количеству делятся на «дешевле» и «дороже» все эти обеды, и будет медианой. То же самое с ежедневным количеством шагов или суммой по чекам за неделю.

Серединное значение без формул

Две группы людей стоят на длинной горизонтальной линии, выстроившись по росту или условным числам: слева более низкие/«малые» фигуры, справа более высокие/«крупные». В центре

Удобный образ: все значения выстроились в шеренгу по возрастанию. Медиана — это точка, на которой шеренга «ломается» на две части примерно одинакового размера.

Когда элементов нечетное количество, все прозрачно. Например, оценки за пять контрольных: 3, 4, 4, 5, 5. В отсортированном ряду третье число — 4 — и есть медиана. Слева от него два результата, справа — еще два. Точно посередине списка стоит конкретное значение из набора.

Вертикальная инфографика из двух блоков-рядов чисел: верхний с нечетным количеством значений, нижний — с четным. В каждом ряду числа представлены как аккуратные прямоугольные

При четном числе наблюдений отдельного «центрального» участника нет: между двумя серединами образуется промежуток. Допустим, есть шесть сумм трат за поездки на такси: 200, 300, 400, 600, 1000, 3000 рублей. После сортировки центральная пара — 400 и 600. Берут число из промежутка между ними, которое по позициям делит список пополам, — среднее этих двух значений, 500. В самом списке 500 нет, но три поездки дешевле этой суммы и три дороже, то есть 500 описывает середину по позициям.

Вертикальная карточка-чек-лист с заголовком и четырьмя отмеченными пунктами, каждый с короткой формулировкой. Справа небольшие минималистичные иконки: люди, распределённые по две
Набор Упорядоченный ряд Что считаем серединой Медиана
5 оценок 3, 4, 4, 5, 5 1 конкретное среднее число 4
6 трат 200, 300, 400, 600, 1000, 3000 промежуток между двумя центрами 500

Такой прием работает с небольшими наборами: списком баллов за несколько попыток экзамена, количеством шагов за неделю, суммами на продуктовых чеках. Один раз понять логику на простом примере достаточно, дальше в задачах можно просто вспоминать: в случае четного числа элементов медиану ищут как середину между двумя центральными позициями.

Формальное определение и где его ищут

Строгое определение звучит так: медиана — это такое значение m, что не менее половины наблюдений не больше m и не менее половины не меньше m. То есть относительно этой точки нельзя собрать больше половины данных лишь снизу или лишь сверху. Эта формулировка важна для аккуратных рассуждений: она одинаково работает и для таблиц, и для непрерывных моделей.

Когда говорят о «медиане выборки», имеют в виду медиану конкретного набора: зарплат в отделе, оценок в журнале, цен в выборке объявлений. Здесь все сводится к алгоритму из предыдущего блока: упорядочили, посмотрели серединные позиции, при необходимости усреднили пару центральных значений.

«Медиана распределения» — более общий случай. Вместо готового списка чисел есть модель, которая описывает, какие значения чаще, а какие реже. Удобный образ — плавная кривая вероятностей, например по росту взрослых людей. Медиана по оси X делит «площадь под кривой» на две равные части: вероятность оказаться ниже нее — около 50%, и примерно столько же — выше. В учебниках это описывают через функцию распределения: медиана — значение, где накопленная вероятность достигает половины.

Для непрерывных величин бывает и так, что целый отрезок значений дает ту же самую половину‑снизу и половину‑сверху. Тогда говорят о медианном интервале: любое число внутри него выполняет формальное условие. В жизни это можно представить как плато на графике, когда не одна точка поддерживает равенство «ниже/выше по 50%», а целый диапазон.

Ключевые свойства медианы

В практическом смысле медиану удобно помнить как набор качеств. Она устойчива к выбросам: отдельные экстремальные значения почти не сдвигают ее позицию. Она лучше среднего описывает «центр» там, где распределение скошено: по доходам, ценам, срокам ожидания. Она работает как 0,5‑квантиль: делит массу наблюдений на две равные по вероятности части. В симметричных случаях (например, для нормального распределения) медиана практически совпадает со средним, а при сильной асимметрии уходит ближе к основной массе наблюдений.

На графиках вроде boxplot медиана — это линия внутри «коробки», которая обозначает центральные 50% значений; сама коробка по ширине дает квартильный размах, а медиана показывает, куда внутри этого диапазона смещен центр. За этот набор свойств медиану любят статистические службы и аналитики, когда говорят о доходах и ценах: одна цифра хорошо отражает уровень большинства, не позволяя редким крайним значениям полностью переформатировать картину.

Как не перепутать медиану со средним, модой и геометрией

На столе лежат три прозрачные полоски-ленты с цифрами, изображающие один и тот же набор доходов: первая лента сложена в аккуратную «качельку», уравновешенную на середине

Чаще всего ошибается не тот, кто «плохо считает», а тот, кто путает роли показателей. В одной задаче могут появиться среднее, медиана и мода, а в другой — еще и медиана треугольника как отрезок. Если не разделять эти смыслы, легко накрутить себе неверную картину по вполне правильным числам.

Полезный ориентир такой: «сложили все значения и поделили на их количество» — это среднее; «точка, которая делит упорядоченный ряд по количеству на две части» — медиана; «значение, которое встречается чаще всего» — мода. Если формулировка в условии не похожа ни на одну из этих трех, имеет смысл перечитать, что именно требуется.

Отдельный источник путаницы — слово «медиана» в геометрии. В задачах про треугольники это уже не число, а отрезок внутри фигуры. К нему применимы слова «вершина», «сторона», «угол», «площадь», а не «значения выборки» и «распределение». Это другой объект, хотя корень у названия тот же — «середина».

Медиана, среднее и мода на одном примере

Посмотрим на один набор доходов: 20 000, 25 000, 25 000, 30 000, 35 000 и 120 000 рублей.

Среднее. Складываем все суммы: 20 000 + 25 000 + 25 000 + 30 000 + 35 000 + 120 000 = 255 000 рублей. Делим на 6 человек, получаем примерно 42 500. Число заметно выше обычных зарплат в списке, и его никто из пяти рядовых сотрудников не видит в своей ведомости.

Медиана. Упорядоченный ряд уже есть. Центральная пара — 25 000 и 30 000, их полусумма дает 27 500. Три человека имеют доход не выше этой величины, трое — не ниже. Медиана оказывается ближе к реальной «обычной» зарплате, чем среднее.

Мода. Чаще всего в списке встречается 25 000 — это и есть мода. Она показывает популярный уровень, вокруг которого «кучкуются» сотрудники, но ничего не говорит о редком, очень большом значении.

Показатель Как считается Главный смысл Реакция на редкие крайности
Среднее Сумма значений / их количество Баланс всех значений вместе Сильно меняется, «тянется» к выбросам
Медиана Середина упорядоченного ряда Разделение массива на нижнюю и верхнюю половины Меняется мало, пока выбросов немного
Мода Самое частое значение Наиболее типичный по частоте вариант Игнорирует редкие значения, если они не повторяются

В этом маленьком примере видно, что каждая мера отвечает на свой вопрос. Среднее описывает общий финансовый масштаб команды. Медиана показывает уровень, вокруг которого группируется большинство. Мода фиксирует популярную зарплату, не пытаясь учитывать редких «звезд». В прикладных задачах часто смотрят сразу на несколько показателей: один помогает оценить суммарную нагрузку, другой — понять, как живет основная масса людей, а третий — увидеть самые массовые значения.

Когда график подсказывает медиану

Если смотреть не только на числа, но и на форму распределения, можно заранее прикинуть, где окажутся среднее, медиана и мода друг относительно друга.

Симметричный «колокол». Это и есть нормальное распределение. Представьте аккуратную горку: слева и справа от вершины значения убывают примерно одинаково. В таком случае пик частоты (мода), середина по значению (медиана) и баланс по сумме (среднее) лежат почти в одной точке. Для многих физических величин с небольшими разбросами это удобный образ.

Хвост вправо. Это типичная картинка для доходов или цен: много относительно небольших значений и редкие, но очень большие. Горка смещена к низу шкалы, а вправо тянется длинный хвост. В такой ситуации мода сидит возле частых низких значений, медиана чуть правее — там, где накопилось 50% наблюдений, а среднее уезжает еще дальше вправо, в сторону хвоста. Чем больше разрыв между «рядовыми» и «редкими» значениями, тем сильнее разбег между средним и медианой.

Хвост влево. Зеркальный случай: большинство значений высокие, но изредка попадаются очень маленькие. Тогда хвост тянется влево, среднее смещается к этому хвосту, медиана остается ближе к основной группе, а мода стоит в районе самого высокого «холмика» частот. Такой график можно встретить, например, при анализе времени ожидания услуги, если система обычно работает быстро, но иногда задерживается очень надолго.

На наглядных диаграммах наподобие boxplot медиану легко узнать по горизонтальной линии внутри прямоугольной «коробки». Коробка показывает, где лежит центральная половина наблюдений, а положение линии внутри нее помогает мгновенно понять, куда тянется основная масса данных — вверх или вниз по шкале.

Как отличить статистическую медиану от медианы треугольника

В статистике медиана — это числовое значение в тех же единицах, что и данные: рубли, километры, минуты. Работа идет с таблицами, списками, графиками распределений, где делят набор наблюдений на «нижнюю» и «верхнюю» часть.

В геометрии все иначе. Медиана треугольника — это отрезок, который соединяет вершину с серединой противоположной стороны. Он живет на чертеже, а не в таблице и ни к каким «процентам наблюдений» напрямую не привязан.

У такой медианы свои свойства. В любом треугольнике можно провести три медианы; они пересекаются в одной точке — центре тяжести. Эта точка делит каждую медиану в отношении 2:1 от вершины к основанию. В равнобедренном треугольнике медиана к основанию одновременно является высотой и биссектрисой, а в прямоугольном медиана к гипотенузе равна половине ее длины и служит радиусом описанной окружности.

Эти особенности активно используют в задачах: через медианы находят длины сторон, площади частей фигуры, положение центра тяжести. Поэтому удобное правило такое: в условии есть вершины, стороны, углы и чертеж — речь о медиане треугольника; обсуждаются зарплаты, оценки или другие измерения — это уже медиана данных.

Где медиана помогает, а где может ввести в заблуждение

Сцена разделенного пополам пространства: слева уютный рабочий опенспейс с несколькими обычными сотрудниками за скромными столами, на их лицах спокойное, будничное выражение

Одна и та же медиана в одном сюжете хорошо отражает реальность, а в другом маскирует важные детали. Все зависит от того, как устроены данные: есть ли выбросы, сколько групп внутри и что именно нужно узнать — «типичный уровень» или общую нагрузку.

Удобно сначала прикинуть: много ли редких экстремальных значений, тянется ли распределение хвостом в одну сторону, нет ли двух‑трех явных «холмов» на графике. Тогда проще решить, где медиана — главный герой, а где ей нужна компания в виде средних, мод, квартилей и картинок.

Типичные случаи, когда медиана точнее среднего

Доходы. Пусть в компании 11 человек: девять получают по 40 000 рублей, один — 60 000 и директор — 500 000. Средний доход будет в районе 90 000 рублей, медиана — 40 000. По среднему кажется, будто «обычный» сотрудник зарабатывает почти сотню, хотя реальность большинства — около сорока. Медиана здесь дает опору для ответа на вопрос «как живет основной персонал».

Цены на жилье. В городе продаются квартиры за 4, 4,5, 5, 5,5, 6 миллионов и один редкий пентхаус за 40 миллионов. Средняя цена окажется примерно 10,8 миллиона, медиана — около 5,5. Покупателю важнее знать, сколько стоит «обычное» жилье, а не единичная роскошная сделка; медиана как раз и фиксирует этот уровень.

Скорость движения и пробки. Представим участок дороги, где большую часть времени машинный поток идет 60–70 км/ч, иногда замедляясь до 40, а пару раз в день в пробке стоит на 5–10 км/ч. Средняя скорость за день может упасть до 45–50 км/ч, хотя водители большую часть пути едут быстрее. Медианная скорость — та, выше и ниже которой оказывается примерно половина замеров, — показывает, как обычно едет поток, а провалы до «ползучих» 5–10 км/ч можно анализировать как отдельные эпизоды.

Время ответа сервера или приложения. Допустим, 9 запросов обрабатываются за 0,2 секунды, один — за 0,3, и один из‑за сбоя тянется 5 секунд. Среднее время ответа около 0,65 секунды, медиана 0,2. Среднее создает впечатление нерасторопной системы, хотя большинство запросов проходит быстро. Медиана показывает нормальный для пользователя уровень, а единичный аварийный случай выявляется уже как отдельная проблема и попадает, например, в показатели надежности.

В таких сценариях важно увидеть поведение большинства, а не несколько крайних случаев. Если распределение явно скошено, есть отдельные очень большие или очень маленькие значения и интересует «обычный» уровень, медиана дает более устойчивую картину. При этом в аналитике ее почти всегда сопровождают средним и показателями разброса, чтобы не потерять масштаб тех самых редких экстремальных событий.

Ситуации, когда одной медианы мало

Две или больше групп. Представим школу, где учатся и младшие, и старшие классы. Рост младших — в диапазоне 120–135 см, старших — 160–180 см. На графике два явных «холма», а медиана где‑то посередине, около 150 см. Эта цифра не похожа ни на одного реального ученика и скрывает то, что фактически есть две разные группы детей.

Похожая история с базой клиентов, где часть людей делает повторную покупку через неделю, а другая — через год. Медиана может оказаться в районе нескольких месяцев и создать образ несуществующего «среднего» клиента, хотя по факту бизнес работает с двумя аудиториями с разной частотой заказов. В таких случаях полезно смотреть гистограммы, разбивку по сегментам и медианы отдельно по каждой группе.

Идея «среднего человека». Когда говорят «медианный возраст» или «медианный доход», легко начать рисовать в голове портрет конкретного человека. Но медиана — это не человек, а граница по шкале. Она не показывает, сколько людей внизу шкалы бедствуют, и не рассказывает о хвосте самых обеспеченных — просто проведена линия, отделяющая нижние 50% от верхних.

Сравнение групп только по медианам. Если ограничиться медианой двух выборок, можно решить, что одна группа «явно лучше» или «явно хуже», не замечая, что у нее гораздо больший разброс, другая форма распределения или сильные выбросы. Например, медианный доход в двух городах может быть одинаковым, но в одном доходы сосредоточены близко к этой точке, а в другом огромный разрыв между бедными и богатыми. Одна медиана этого не покажет; нужны хотя бы квартильный размах и графики.

Многомерные данные. Когда у объекта не одно число, а набор признаков (например, рост, вес и возраст человека одновременно), существует обобщение — пространственная медиана. Это такая точка в многомерном пространстве, суммарное расстояние до которой от всех наблюдений минимально. Удобный образ — выбрать на карте города место будущего склада так, чтобы суммарный путь до клиентов был как можно короче. В обычных одномерных отчетах до таких тонкостей редко доходят, но принцип «центр по расстояниям» там тот же.

Во всех этих случаях медиану лучше не оставлять в одиночестве. Как только на взгляд намечаются две или больше групп, «ступеньки» или длинные хвосты, к медиане стоит добавлять гистограммы, boxplot и разбиение на логичные сегменты. Тогда цифра «середины» становится частью более полной картинки, а не маской, которая скрывает детали.

Итоговые ориентиры для практики

Свести все можно к нескольким рабочим правилам. По сути медиана — серединное по позиции значение: примерно половина наблюдений не выше нее, примерно половина не ниже. Она особенно полезна, когда распределение скошено и встречаются выбросы: тогда медиана остается рядом с уровнем большинства, в то время как среднее тянется к крайностям.

Среднее удобно, когда важна суммарная нагрузка или общий объем: расходы, производительность, фонд оплаты труда. Мода подчеркивает самые частые значения, помогает увидеть устойчивые уровни цен, типовые размеры покупок или популярные варианты ответов.

Если данные примерно симметричны, среднее и медиана обычно близки, и можно опираться на любую из этих цифр. Если распределение скошено и заметны выбросы, полезнее смотреть на медиану и квартильный размах: они покажут, где находится основной массив значений и насколько он растянут. А как только данные напоминают смесь нескольких групп или «двугорбую» горку, медиану стоит сразу сочетать с графиками и разбиением на сегменты — подробнее этот сценарий уже разбирался в разделе про ситуации, когда одной медианы мало.

Понравилась статья? Поделитесь с друзьями