Какая особенность является характерным признаком вариационного ряда. V. Вариационные ряды, средние величины, вариабельность признака. Словарь статистических терминов

Пример решения контрольной работы по математической статистике

Задача 1

Исходные данные : студенты некоторой группы, состоящей из 30 человек сдали экзамен по курсу «Информатика». Полученные студентами оценки образуют следующий ряд чисел:

I. Составим вариационный ряд

m x

w x

m x нак

w x нак

Итого:

II. Графическое представление статистических сведений.

III. Числовые характеристики выборки.

1. Среднее арифметическое

2. Среднее геометрическое

3. Мода

4. Медиана

222222333333333 | 3 34444444445555

5. Выборочная дисперсия

7. Коэффициент вариации

8. Ассиметрия

9. Коэффициент ассиметрии

10. Эксцесс

11. Коэффициент эксцесса

Задача 2

Исходные данные : студенты некоторой группы написали выпускную контрольную работу. Группа состоит из 30 человек. Набранные студентами баллы образуют следующий ряд чисел

Решение

I. Так как признак принимает много различных значений, то для него построим интервальный вариационный ряд. Для этого сначала зададим величину интервала h . Воспользуемся формулой Стэрджера

Составим шкалу интервалов. При этом за верхнюю границу первого интервала примем величину, определяемую по формуле:

Верхние границы последующих интервалов определим по следующей рекуррентной формуле:

, тогда

Построение шкалы интервалов заканчиваем, так как верхняя граница очередного интервала стала больше или равна максимальному значению выборки
.

II. Графическое отображение интервального вариационного ряда

III. Числовые характеристики выборки

Для определения числовых характеристик выборки составим вспомогательную таблицу

Сумма :

1. Среднее арифметическое

2. Среднее геометрическое

3. Мода

4. Медиана

10 11 12 12 13 13 13 13 14 14 14 14 15 15 15 |15 15 15 16 16 16 16 16 17 17 18 19 19 20 20

5. Выборочная дисперсия

6. Выборочное стандартное отклонение

7. Коэффициент вариации

8. Ассиметрия

9. Коэффициент ассиметрии

10. Эксцесс

11. Коэффициент эксцесса

Задача 3

Условие : цена деления шкалы амперметра равна 0,1 А. Показания округляют до ближайшего целого деления. Найти вероятность того, что при отсчете будет сделана ошибка, превышающая 0,02 А.

Решение.

Ошибку округления отсчета можно рассматривать как случайную величину Х , которая распределена равномерно в интервале между двумя соседними целыми делениями. Плотность равномерного распределения

,

где
- длина интервала, в котором заключены возможные значения Х ; вне этого интервала
В данной задаче длина интервала, в котором заключены возможные значения Х , равна 0,1, поэтому

Ошибка отсчета превысит 0,02 если она будет заключена в интервале (0,02; 0,08). Тогда

Ответ: р =0,6

Задача 4

Исходные данные: математическое ожидание и стандартное отклонение нормально распределенного признака Х соответственно равны 10 и 2. Найти вероятность того, чтов результате испытания Х примет значение, заключенное в интервале (12, 14).

Решение.

Воспользуемся формулой

И теоретическими частотами

Решение

Для Х ее математическое ожидание M(X) и дисперсию D(X). Решение . Найдем функцию распределения F(x) случайной величины... ошибка выборки). Составим вариационный ряд Ширина интервала составит : Для каждого значения ряда подсчитаем, какое количество...

  • Решение: уравнение с разделяющимися переменными

    Решение

    В виде Для нахождения частного решения неоднородного уравнения составим систему Решим полученную систему... ; +47; +61; +10; -8. Построить интервальный вариационный ряд . Дать статистические оценки среднего значения...

  • Решение: Проведем расчет цепных и базисных абсолютных приростов, темпов роста, темпов прироста. Полученные значения сведем в таблицу 1

    Решение

    Объем производства продукции. Решение : Средняя арифметическая интервального вариационного ряда вычисляется следующим образом: за... Предельная ошибка выборки с вероятностью 0,954 (t=2) составит : Δ w = t*μ = 2*0,0146 = 0,02927 Определим границы...

  • Решение. Признак

    Решение

    О трудовом стаже которых и составили выборку. Средний по выборке стаж... рабочего дня этих сотрудников и составили выборку. Средняя по выборке продолжительность... 1,16, уровень значимости α = 0,05. Решение . Вариационный ряд данной выборки имеет вид: 0,71 ...

  • Рабочая учебная программа по биологии для 10-11 классов Составитель: Поликарпова С. В

    Рабочая учебная программа

    Простейших схем скрещивания» 5 Л.р. «Решение элементарных генетических задач» 6 Л.р. «Решение элементарных генетических задач» 7 Л.р. « ... , 110, 115, 112, 110. Составьте вариационный ряд , начертите вариационную кривую, найдите среднюю величину признака...

  • Особое место в статистическом анализе принадлежит определению среднего уровня изучаемого признака или явления. Средний уровень признака измеряют средними величинами.

    Средняя величина характеризует общий количественный уровень изучаемого признака и является групповым свойством статистической совокупности. Она нивелирует, ослабляет случайные отклонения индивидуальных наблюдений в ту или иную сторону и выдвигает на первый план основное, типичное свойство изучаемого признака.

    Средние величины широко используются:

    1. Для оценки состояния здоровья населения: характеристики физического развития (рост, вес, окружность грудной клетки и пр.), выявления распространенности и длительности различных заболеваний, анализа демографических показателей (естественного движения населения, средней продолжительности предстоящей жизни, воспроизводства населения, средней численности населения и др.).

    2. Для изучения деятельности лечебно-профилактических учреждений, медицинских кадров и оценки качества их работы, планирования и определения потребности населения в различных видах медицинской помощи (среднее число обращений или посещений на одного жителя в год, средняя длительность пребывания больного в стационаре, средняя продолжительность обследования больного, средняя обеспеченность врачами, койками и пр.).

    3. Для характеристики санитарно-эпидемиологического состояния (средняя запыленность воздуха в цехе, средняя площадь на одного человека, средние нормы потребления белков, жиров и углеводов и т. д.).

    4. Для определения медико-физиологических показателей в норме и патологии, при обработке лабораторных данных, для установления достоверности результатов выборочного исследования в социально-гигиенических, клинических, экспериментальных исследованиях.

    Вычисление средних величин выполняется на основе вариационных рядов. Вариационный ряд – это однородная в качественном отношении статистическая совокупность, отдельные единицы которой характеризуют количественные различия изучаемого признака или явления.

    Количественная вариация может быть двух типов: прерывная (дискретная) и непрерывная.

    Прерывный (дискретный) признак выражается только целым числом и не может иметь никаких промежуточных значений (например, число посещений, численность населения участка, число детей в семье, степень тяжести болезни в баллах и др.).

    Непрерывный признак может принимать любые значения в определенных пределах, в том числе и дробные, и выражается лишь приближенно (например, вес – для взрослых можно ограничиться килограммами, а для новорожденных – граммами; рост, артериальное давление, время, потраченное на прием больного, и т. д.).



    Цифровое значение каждого отдельного признака или явления, входящего в вариационный ряд, называется вариантой и обозначается буквой V . В математической литературе встречаются и другие обозначения, например x или y.

    Вариационный ряд, где каждая варианта указана один раз, называется простым. Такие ряды используются в большинстве статистических задач в случае компьютерной обработки данных.

    При увеличении числа наблюдений, как правило, встречаются повторяющиеся значения вариант. В этом случае создается сгруппированный вариационный ряд , где указывается число повторений (частота, обозначается буквой «р »).

    Ранжированный вариационный ряд состоит из вариант, расположенных в порядке возрастания или убывания. Как простой, так и сгруппированный ряды могут быть составлены с ранжированием.

    Интервальный вариационный ряд составляют с целью упрощения последующих вычислений, выполняемых без использования компьютера, при очень большом числе единиц наблюдения (более 1000).

    Непрерывный вариационный ряд включает значения вариант, которые могут выражаться любыми значениями.

    Если в вариационном ряде значения признака (варианты) заданы в виде отдельных конкретных чисел, то такой ряд называют дискретным .

    Общими характеристиками значений признака, отражаемого в вариационном ряду, являются средние величины. Среди них наиболее применяемые: средняя арифметическая величина М, мода Мо и медиана Me. Каждая из этих характеристик своеобразна. Они не могут подменить друг друга и лишь в совокупности достаточно полно и в сжатой форме представляют собой особенности вариационного ряда.

    Модой (Мо) называют значение наиболее часто встречающейся варианты.

    Медиана (Me) – это значение варианты, делящей ранжированный вариационный ряд пополам (с каждой стороны медианы находится половина вариант). В редких случаях, когда имеется симметричный вариационный ряд, мода и медиана равны между собой и совпадают со значением средней арифметической.

    Наиболее типичной характеристикой значений вариант является средняя арифметическая величина(М ). В математической литературе она обозначается .

    Средняя арифметическая величина (M, ) – это общая количественная характеристика определенного признака изучаемых явлений, составляющих качественно однородную статистическую совокупность. Различают среднюю арифметическую простую и взвешенную. Средняя арифметическая простая вычисляется для простого вариационного ряда путем суммирования всех вариант и делением этой суммы на общее количество вариант, входящих в данный вариационный ряд. Вычисления проводятся по формуле:

    где: М - средняя арифметическая простая;

    ΣV - сумма вариант;

    n - число наблюдений.

    В сгруппированном вариационном ряду определяют взвешенную среднюю арифметическую. Формула ее вычисления:

    где: М - средняя арифметическая взвешенная;

    ΣVp - сумма произведений вариант на их частоты;

    n - число наблюдений.

    При большом числе наблюдений в случае ручных вычислений может применяться способ моментов.

    Средняя арифметическая имеет следующие свойства:

    · сумма отклонений вариант от средней (Σd ) равна нулю (см. табл. 15);

    · при умножении (делении) всех вариант на один и тот же множитель (делитель) средняя арифметическая умножается (делится) на тот же множитель (делитель);

    · если прибавить (вычесть) ко всем вариантам одно и то же число, средняя арифметическая увеличивается (уменьшается) на это же число.

    Средние арифметические величины, взятые сами по себе, без учета вариабельности рядов, из которых они вычислены, могут не в полной мере отражать свойства вариационного ряда, в особенности когда необходимо сопоставление с другими средними. Близкие по значению средние могут быть получены из рядов с различной степенью рассеяния. Чем ближе друг к другу отдельные варианты по своей количественной характеристике, тем меньше рассеяние (колеблемость, вариабельность) ряда, тем типичнее его средняя.

    Основными параметрами, которые позволяют оценить вариабельность признака, являются:

    · Размах;

    · Амплитуда;

    · Среднее квадратическое отклонение;

    · Коэффициент вариации.

    Приблизительно о колеблемости признака можно судить по размаху и амплитуде вариационного ряда. Размах указывает на максимальную (V max) и минимальную (V min) варианты в ряду. Амплитуда (A m) является разностью этих вариант: A m = V max - V min .

    Основной, общепринятой мерой колеблемости вариационного ряда являются дисперсия (D ). Но наиболее часто применяется более удобный параметр, вычисляемый на основе дисперсии - среднее квадратическое отклонение (σ ). Оно учитывает величину отклонения (d ) каждой варианты вариационного ряда от его средней арифметической (d=V - M ).

    Поскольку отклонения вариант от средней могут быть положительными и отрицательными, то при суммировании они дают значение «0» (Sd=0 ). Чтобы избежать этого, величины отклонения (d ) возводятся во вторую степень и усредняются. Таким образом, дисперсия вариационного ряда является средним квадратом отклонений вариант от средней арифметической и вычисляется по формуле:

    Она является важнейшей характеристикой вариабельности и применяется для вычисления многих статистических критериев.

    Поскольку дисперсия выражается квадратом отклонений, ее величина не может использоваться в сопоставлении со средней арифметической. Для этих целей применяется среднее квадратическое отклонение , которое обозначается знаком «Сигма» (σ ). Оно характеризует среднее отклонение всех вариант вариационного ряда от средней арифметической величины в тех же единицах, что и сама средняя величина, поэтому они могут использоваться совместно.

    Среднее квадратическое отклонение определяют по формуле:

    Указанная формула применяется при числе наблюдений (n ) больше 30. При меньшем числе n значение среднего квадратического отклонения будет иметь погрешность, связанную с математическим смещением (n - 1). В связи с этим, более точный результат может быть получен с помощью учета такого смещения в формуле расчета стандартного отклонения:

    стандартное отклонение (s ) – это оценка среднеквадратического отклонения случайной величины Х относительно её математического ожидания на основе несмещённой оценки её дисперсии.

    При значениях n > 30 среднее квадратическое отклонение (σ ) и стандартное отклонение (s ) будут одинаковыми (σ =s ). Поэтому в большинстве практических пособий эти критерии рассматриваются как разнозначные. В программе Excel вычисление стандартного отклонения может быть выполнено функцией =СТАНДОТКЛОН(диапазон). А с целью расчета среднего квадратического отклонения требуется создать соответствующую формулу.

    Среднее квадратическое или стандартное отклонение позволяет определить, насколько значения признака могут отличаться от среднего значения. Предположим, существуют два города с одинаковой средней дневной температурой в летний период. Один их этих городов расположен на побережье, а другой на континенте. Известно, что в городах, расположенных на побережье, различия дневных температур меньше, чем у городов, расположенных внутри континента. Поэтому среднее квадратическое отклонение дневных температур у прибрежного города будет меньше, чем у второго города. На практике это означает, что средняя температура воздуха каждого конкретного дня в городе, расположенного на континенте будет сильнее отличаться от среднего значения, чем в городе на побережье. Кроме того стандартное отклонение позволяет оценить возможные отклонения температуры от средней с требуемым уровнем вероятности.

    Согласно теории вероятности, в явлениях, подчиняющихся нормальному закону распределения, между значениями средней арифметической, среднего квадратического отклонения и вариантами существует строгая зависимость (правило трех сигм ). Например, 68,3% значений варьирующего признака находятся в пределах М ± 1σ , 95,5% - в пределах М ± 2σ и 99,7% - в пределах М ± 3σ .

    Величина среднего квадратического отклонения позволяет судить о характере однородности вариационного ряда и исследуемой группы. Если величина среднего квадратического отклонения небольшая, то это свидетельствует о достаточно высокой однородности изучаемого явления. Среднюю арифметическую в таком случае следует признать вполне характерной для данного вариационного ряда. Однако слишком малая величина сигмы заставляет думать об искусственном подборе наблюдений. При очень большой сигме средняя арифметическая в меньшей степени характеризует вариационный ряд, что говорит о значительной вариабельности изучаемого признака или явления или о неоднородности исследуемой группы. Однако сопоставление величины среднего квадратического отклонения возможно только для признаков одинаковой размерности. Действительно, если сравнивать разнообразие веса новорожденных детей и взрослых, мы всегда получим более высокие значения сигмы у взрослых.

    Сравнение вариабельности признаков различной размерности может быть выполнено с помощью коэффициента вариации . Он выражает разнообразие в процентах от средней величины, что позволяет производить сравнение различных признаков. Коэффициент вариации в медицинской литературе обозначается знаком «С », а в математической «v » и вычисляемого по формуле:

    Значения коэффициента вариации менее 10% свидетельствует о малом рассеянии, от 10 до 20% – о среднем, более 20% – о сильном рассеянии вариант вокруг средней арифметической.

    Средняя арифметическая величина, как правило, вычисляется на основе данных выборочной совокупности. При повторных исследованиях под влиянием случайных явлений средняя арифметическая может изменяться. Это обусловлено тем, что исследуется, как правило, только часть возможных единиц наблюдения, то есть выборочная совокупность. Информация обо всех возможных единицах, представляющих изучаемое явление, может быть получена при изучении всей генеральной совокупности, что не всегда возможно. В то же время с целью обобщения данных эксперимента представляет интерес величина средней в генеральной совокупности. Поэтому для формулировки общего вывода об изучаемом явлении, результаты, полученные на основе выборочной совокупности, должны быть, перенесены на генеральную совокупность статистическими методами.

    Чтобы определить степень совпадения выборочного исследования и генеральной совокупности, необходимо оценить величину ошибки, которая неизбежно возникает при выборочном наблюдении. Такая ошибка называется «Ошибкой репрезентативности » или «Средней ошибкой средней арифметической». Она фактически является разностью между средними, полученными при выборочном статистическом наблюдении, и аналогичными величинами, которые были бы получены при сплошном исследовании того же объекта, т.е. при изучении генеральной совокупности. Поскольку выборочная средняя является случайной величиной, такой прогноз выполняется с приемлемым для исследователя уровнем вероятности. В медицинских исследованиях он составляет не менее 95%.

    Ошибку репрезентативности нельзя смешивать с ошибками регистрации или ошибками внимания (описки, просчеты, опечатки и др.), которые должны быть сведены до минимума адекватной методикой и инструментами, применяемыми при проведении эксперимента.

    Величина ошибки репрезентативности зависит как от объема выборки, так и от вариабельности признака. Чем больше число наблюдений, тем ближе выборка к генеральной совокупности и тем меньше ошибка. Чем более изменчив признак, тем больше величина статистической ошибки.

    На практике для определения ошибки репрезентативности в вариационных рядах пользуются следующей формулой:

    где: m – ошибка репрезентативности;

    σ – среднее квадратическое отклонение;

    n – число наблюдений в выборке.

    Из формулы видно, что размер средней ошибки прямо пропорционален среднему квадратическому отклонению, т. е. вариабельности изучаемого признака, и обратно пропорционален корню квадратному из числа наблюдений.

    При выполнении статистического анализа на основе вычисления относительных величин построение вариационного ряда не является обязательным. При этом определение средней ошибки для относительных показателей может выполняться по упрощенной формуле:

    где: Р – величина относительного показателя, выраженного в процентах, промилле и т.д.;

    q – величина, обратная Р и выраженная как (1-Р), (100-Р), (1000-Р) и т. д., в зависимости от основания, на которое рассчитан показатель;

    n – число наблюдений в выборочной совокупности.

    Однако, указанная формула вычисления ошибки репрезентативности для относительных величин может применяться только в том случае, когда значение показателя меньше его основания. В ряде случаев расчета интенсивных показателей такое условие не соблюдается, и показатель может выражаться числом более 100% или 1000%о. В такой ситуации выполняется построение вариационного ряда и вычисление ошибки репрезентативности по формуле для средних величин на основе среднего квадратического отклонения.

    Прогнозирование величины средней арифметической в генеральной совокупности выполняется с указанием двух значений – минимального и максимального. Эти крайние значения возможных отклонений, в пределах которых может колебаться искомая средняя величина генеральной совокупности, называются «Доверительные границы ».

    Постулатами теории вероятностей доказано, что при нормальном распределении признака с вероятностью 99,7%, крайние значения отклонений средней будут не больше величины утроенной ошибки репрезентативности (М ± 3m ); в 95,5% – не больше величины удвоенной средней ошибки средней величины (М ± 2m ); в 68,3% – не больше величины одной средней ошибки (М ± 1m ) (рис. 9).

    P%

    Рис. 9. Плотность вероятностей нормального распределения.

    Отметим, что приведенное выше утверждение справедливо только для признака, который подчиняется нормальному закону распределения Гаусса.

    Большинство экспериментальных исследований, в том числе и в области медицины, связано с измерениями, результаты которых могут принимать практически любые значения в заданном интервале, поэтому, как правило, описываются моделью непрерывных случайных величин. В связи с этим в большинстве статистических методов рассматриваются непрерывные распределения. Одним из таких распределений, имеющим основополагающую роль в математической статистике, является нормальное, или гауссово, распределение .

    Это объясняется целым рядом причин.

    1. Прежде всего, многие экспериментальные наблюдения можно успешно описать с помощью нормального распределения. Следует сразу же отметить, что не существует распределений эмпирических данных, которые были бы в точности нормальными, поскольку нормально распределенная случайная величина находится в пределах от до , чего никогда не встречается на практике. Однако нормальное распределение очень часто хорошо подходит как приближение.

    Проводятся ли измерения веса, роста и других физиологических параметров организма человека - везде на результаты оказывает влияние очень большое число случайных факторов (естественные причины и ошибки измерения). Причем, как правило, действие каждого из этих факторов незначительно. Опыт показывает, что результаты именно в таких случаях будут распределены приближенно нормально.

    2. Многие распределения, связанные со случайной выборкой, при увеличении объема последней переходят в нормальное.

    3. Нормальное распределение хорошо подходит в качестве приближенного описания других непрерывных распределений (например, асимметричных).

    4. Нормальное распределение обладает рядом благоприятных математических свойств, во многом обеспечивших его широкое применение в статистике.

    В то же время следует отметить, что в медицинских данных встречается много экспериментальных распределений, описание которых моделью нормального распределения невозможно. Для этого в статистке разработаны методы, которые принято называть «Непараметрическими».

    Выбор статистического метода, который подходит для обработки данных конкретного эксперимента, должен производиться в зависимости от принадлежности полученных данных к нормальному закону распределения. Проверка гипотезы на подчинение признака нормальному закону распределения выполняется с помощью гистограммы распределения частот (графика), а также ряда статистических критериев. Среди них:

    Критерий асимметрии (b );

    Критерий проверки на эксцесс (g );

    Критерий Шапиро – Уилкса (W ) .

    Анализ характера распределения данных (его еще называют проверкой на нормальность распределения) осуществляется по каждому параметру. Чтобы уверенно судить о соответствии распределения параметра нормальному закону, необходимо достаточно большое число единиц наблюдения (не менее 30 значений).

    Для нормального распределения критерии асимметрии и эксцесса принимают значение 0. Если распределение смещено вправо b > 0 (положительная асимметрия), при b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. При g > 0 кривая распределения острее, если g < 0 пик более сглаженный, чем функция нормального распределения.

    Для проверки на нормальность по критерию Шапиро – Уилкса требуется найти значение этого критерия по статистическим таблицам при необходимом уровне значимости и в зависимости от числа единиц наблюдения (степеней свободы). Приложение 1. Гипотеза о нормальности отвергается при малых значениях этого критерия, как правило, при w <0,8.

    Совокупность предметов или явлений, объединенных каким-либо общим признаком или свойством качественного или количественного характера, называется объектом наблюдения .

    Всякий объект статистического наблюдения состоит из отдельных элементов - единиц наблюдения .

    Результаты статистического наблюдения представляют собой числовую информацию - данные . Статистические данные - это сведения о том, какие значения принял интересующий исследователя признак в статистической совокупности.

    Если значения признака выражаются числами, то признак называется количественным .

    Если признак характеризует некоторое свойство или состояние элементов совокупности, то признак называется качественным .

    Если исследованию подлежат все элементы совокупности (сплошное наблюдение), то статистическую совокупность называют генеральной.

    Если исследованию подлежит часть элементов генеральной совокупности, то статистическую совокупность называют выборочной (выборкой) . Выборка из генеральной совокупности извлекается случайно, так чтобы каждый из n элементов выборки имел равные шансы быть отобранным.

    Значения признака при переходе от одного элемента совокупности к другому изменяются (варьируют), поэтому в статистике различные значения признака также называют вариантами . Варианты обычно обозначаются малыми латинскими буквами x, y, z.

    Порядковый номер варианта (значения признака) называется рангом . x 1 - 1-й вариант (1-е значение признака), x 2 - 2-й вариант (2-е значение признака), x i - i-й вариант (i-е значение признака).

    Упорядоченный в порядке возрастания или убывания ряд значений признака (вариантов) с соответствующими им весами называется вариационным рядом (рядом распределения).

    В качестве весов выступают частоты или частости.

    Частота (m i) показывает сколько раз встречается тот или иной вариант (значение признака) в статистической совокупности.

    Частость или относительная частота (w i) показывает, какая часть единиц совокупности имеет тот или иной вариант. Частость рассчитывается как отношение частоты того или иного варианта к сумме всех частот ряда.

    . (6.1)

    Сумма всех частостей равна 1.

    . (6.2)

    Вариационные ряды бывают дискретными и интервальными.

    Дискретные вариационные ряды строят обычно в том случае, если значения изучаемого признака могут отличаться друг от друга не менее чем на некоторую конечную величину.

    В дискретных вариационных рядах задаются точечные значения признака.

    Общий вид дискретного вариационного ряда указан в таблице 6.1.

    Таблица 6.1

    где i = 1, 2, … , l.

    В интервальных вариационных рядах в каждом интервале выделяют верхнюю и нижнюю границы интервала.

    Разность между верхней и нижней границами интервала называют интервальной разностью или длиной (величиной) интервала .

    Величина первого интервала k 1 определяется по формуле:

    k 1 = а 2 - а 1 ;

    второго: k 2 = а 3 - а 2 ; …

    последнего: k l = a l - a l -1 .

    В общем виде интервальная разность k i рассчитывается по формуле:

    k i = x i (max) - x i (min) . (6.3)

    Если интервал имеет обе границы, то его называют закрытым .

    Первый и последний интервалы могут быть открытыми , т.е. иметь только одну границу.

    Например, первый интервал может быть задан как "до 100", второй - "100-110", … , предпоследний - "190-200", последний - "200 и более". Очевидно, что первый интервал не имеет нижней границы, а последний - верхней, оба они - открытые.

    Часто открытые интервалы приходится условно закрывать. Для этого обычно величину первого интервала принимают равной величине второго, а величину последнего - величине предпоследнего. В нашем примере величина второго интервала равна 110-100=10, следовательно, нижняя граница первого интервала условно составит 100-10=90; величина предпоследнего интервала равна 200-190=10, следовательно, верхняя граница последнего интервала условно составит 200+10=210.

    Кроме этого, в интервальном вариационном ряде могут встречаются интервалы разной длины. Если интервалы в вариационном ряде имеют одинаковую длину (интервальную разность), их называют равновеликими , в противном случае - неравновеликими.

    При построении интервального вариационного ряда часто встает проблема выбора величины интервалов (интервальной разности).

    Для определения оптимальной величины интервалов (в том случае, если строится ряд с равными интервалами) применяют формулу Стэрджесса:

    , (6.4)

    где n - число единиц совокупности,

    x (max) и x (min) - наибольшее и наименьшее значения вариантов ряда.

    Для характеристики вариационного ряда наряду с частотами и частостями используются накопленные частоты и частости.

    Накопленные частоты (частости) показывают сколько единиц совокупности (какая их часть) не превышают заданного значения (варианта) х.

    Накопленные частоты (v i ) по данным дискретного ряда можно рассчитать по следующей формуле:

    . (6.5)

    Для интервального вариационного ряда - это сумма частот (частостей) всех интервалов, не превышающих данный.

    Дискретный вариационный ряд графически можно представить с помощьюполигона распределения частот или частостей .

    При построении полигона распределения по оси абсцисс откладываются значения признака (варианты), а по оси ординат - частоты или частости. На пересечении значений признака и соответствующих им частот (частостей) откладываются точки, которые, в свою очередь, соединяются отрезками. Получающаяся таким образом ломаная называется полигоном распределения частот (частостей).

    x k
    x 2
    x 1 x i


    Рис. 6.1.

    Интервальные вариационные ряды графически можно представить с помощью гистограммы , т.е. столбчатой диаграммы.

    При построении гистограммы по оси абсцисс откладываются значения изучаемого признака (границы интервалов).

    В том случае, если интервалы - одинаковой величины, по оси ординат можно откладывать частоты или частости.

    Если же интервалы имеют разную величину, по оси ординат необходимо откладывать значения абсолютной или относительной плотности распределения.

    Абсолютная плотность - отношение частоты интервала к величине интервала:

    ; (6.6)

    где: f(a) i - абсолютная плотность i-го интервала;

    m i - частота i-го интервала;

    k i - величина i-го интервала (интервальная разность).

    Абсолютная плотность показывает, сколько единиц совокупности приходится на единицу интервала.

    Относительная плотность - отношение частости интервала к величине интервала:

    ; (6.7)

    где: f(о) i - относительная плотность i-го интервала;

    w i - частость i-го интервала.

    Относительная плотность показывает, какая часть единиц совокупности приходится на единицу интервала.

    a l
    a 1 x i
    a 2

    И дискретные и интервальные вариационные ряды графически можно представить в виде кумуляты и огивы.

    При построении кумуляты по данным дискретного ряда по оси абсцисс откладываются значения признака (варианты), а по оси ординат - накопленные частоты или частости. На пересечении значений признака (вариантов) и соответствующих им накопленных частот (частостей) строятся точки, которые, в свою очередь, соединяются отрезками или кривой. Получающаяся таким образом ломаная (кривая) называется кумулятой (кумулятивной кривой).

    При построении кумуляты по данным интервального ряда по оси абсцисс откладываются границы интервалов. Абсциссами точек являются верхние границы интервалов. Ординаты образуют накопленные частоты (частости) соответствующих интервалов. Часто добавляют еще одну точку, абсциссой которой является нижняя граница первого интервала, а ордината равна нулю. Соединяя точки отрезками или кривой, получим кумуляту.

    Огива строится аналогично кумуляте с той лишь разницей, что на оси абсцисс наносятся точки, соответствующие накопленным частотам (частостям), а по оси ординат - значения признака (варианты).

    Различные выборочные значения назовемвариантами ряда значений и обозначим: х 1 , х 2 , …. Прежде всего произведем ранжирование вариантов, т.е. расположение их в порядке возрастания или убывания. Для каждого варианта указывается свой вес, т.е. число, которое характеризует вклад данного варианта в общую совокупность. В качестве весов выступают частоты или частости.

    Частотой n i варианта х i называется число, показывающее сколько раз встречается данный вариант в рассматриваемой выборочной совокупности.

    Частостью или относительной частотой w i варианта х i называется число, равное отношению частоты варианта к сумме частот всех вариантов. Частость показывает, какая часть единиц выборочной совокупности имеет данный вариант.

    Последовательность вариантов с соответствующими им весами (частотами или частостями), записанная в порядке возрастания (или убывания), называется вариационным рядом .

    Вариационные ряды бывают дискретными и интервальными.

    Для дискретного вариационного ряда задаются точечные значения признака, для интервального – значения признака задаются в виде интервалов. Вариационные ряды могут показывать распределение частот или относительных частот (частостей), в зависимости от того, какая величина указывается для каждого варианта – частота или частость.

    Дискретный вариационный ряд распределения частот имеет вид:

    Частости находятся по формуле , i = 1, 2, …, m .

    w 1 + w 2 + … + w m = 1.

    Пример 4.1. Для данной совокупности чисел

    4, 6, 6, 3, 4, 9, 6, 4, 6, 6

    построить дискретные вариационные ряды распределения частот и частостей.

    Решение . Объем совокупности равен n = 10. Дискретный ряд распределения частот имеет вид

    Аналогичную форму записи имеют интервальные ряды.

    Интервальный вариационный ряд распределения частот записывается в виде:

    Сумма всех частот равна общему числу наблюдений, т.е. объему совокупности: n = n 1 + n 2 + … + n m .

    Интервальный вариационный ряд распределения относительных частот (частостей) имеет вид:

    Частость находится по формуле , i = 1, 2, …, m .

    Сумма всех частостей равна единице: w 1 + w 2 + … + w m = 1.

    Наиболее часто на практике применяются интервальные ряды. Если статистических выборочных данных очень много и их значения отличаются друг от друга на сколь угодно малую величину, то дискретный ряд для этих данных будет достаточно громоздким и неудобным для дальнейшего исследования. В этом случае применяют группировку данных, т.е. промежуток, содержащий все значения признака, разбивают на несколько частичных интервалов и, подсчитав частоту для каждого интервала, получают интервальный ряд. Запишем более подробно схему построения интервального ряда, предположив, что длины частичных интервалов будут одинаковыми.

    2.2 Построение интервального ряда

    Для построения интервального ряда нужно:

    Определить число интервалов;

    Определить длину интервалов;

    Определить расположение интервалов на оси.

    Для определения числа интервалов k существует формула Стерджеса, по которой

    ,

    где n - объем всей совокупности.

    Например, если имеется 100 значений признака (вариант), то рекомендуется для построения интервального ряда взять число интервалов равным интервалам.

    Однако очень часто на практике число интервалов выбирает сам исследователь, учитывая, что это число не должно быть очень большим, чтобы ряд не был громоздким, но и не очень маленьким, чтобы не потерять некоторых свойств распределения.

    Длина интервала h определяется по следующей формуле:

    ,

    где x max и x min - это соответственно самое большое и самое маленькое значения вариантов.

    Величину называют размахом ряда.

    Для построения самих интервалов поступают по-разному. Один из самых простых способов заключается в следующем. За начало первого интервала принимают величину
    . Тогда остальные границы интервалов находятся по формуле . Очевидно, что конец последнего интервала a m+1 должен удовлетворять условию

    После того как найдены все границы интервалов, определяют частоты (или частости) этих интервалов. Для решения этой задачи просматривают все варианты и определяют число вариант, попавших в тот или иной интервал. Полное построение интервального ряда рассмотрим на примере.

    Пример 4.2. Для следующих статистических данных, записанных в порядке возрастания, построить интервальный ряд с числом интервалов, равным 5:

    11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

    Решение. Всего n =50 значений вариантов.

    Число интервалов задано в условии задачи, т.е. k =5.

    Длина интервалов равна
    .

    Определим границы интервалов:

    a 1 = 11 − 8,5 = 2,5; a 2 = 2,5 + 17 = 19,5; a 3 = 19,5 + 17 = 36,5;

    a 4 = 36,5 + 17 = 53,5; a 5 = 53,5 + 17 = 70,5; a 6 = 70,5 + 17 = 87,5;

    a 7 = 87,5 +17 = 104,5.

    Для определения частоты интервалов посчитываем число вариантов, попавших в данный интервал. Например, в первый интервал от 2,5 до 19,5 попадают варианты 11, 12, 12, 14, 14, 15. Их число равно 6, следовательно, частота первого интервала равна n 1 =6. Частость первого интервала равна . Во второй интервал от 19,5 до 36,5 попадают варианты 21, 21, 22, 23, 25, число которых равно 5. Следовательно, частота второго интервала равна n 2 =5, а частость . Найдя аналогичным образом частоты и частости для всех интервалов, получим следующие интервальные ряды.

    Интервальный ряд распределения частот имеет вид:

    Сумма частот равна 6+5+9+11+8+11=50.

    Интервальный ряд распределения частостей имеет вид:

    Сумма частостей равна 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

    При построении интервальных рядов, в зависимости от конкретных условий рассматриваемой задачи, могут применяться и другие правила, а именно

    1. Интервальные вариационные ряды могут состоять из частичных интервалов разной длины. Неравные длины интервалов позволяют выделить свойства статистической совокупности с неравномерным распределением признака. Например, если границы интервалов определяют численность жителей в городах, то целесообразно в данной задаче использовать неравные по длине интервалы. Очевидно, что для небольших городов имеет значение и небольшая разница в числе жителей, а для больших городов разница в десятки и сотни жителей не имеет существенного значения. Интервальные ряды с неравными длинами частичных интервалов исследуются, в основном, в общей теории статистики и их рассмотрение выходит за рамки данного пособия.

    2. В математической статистике иногда рассматривают интервальные ряды, для которых левую границу первого интервала полагают равной –∞, а правую границу последнего интервала +∞. Это делается для того, чтобы приблизить статистическое распределение к теоретическому.

    3. При построении интервальных рядов может оказаться, что значение какого-то варианта совпадает в точности с границей интервала. Лучше всего в этом случае поступить следующим образом. Если такое совпадение только одно, то считать, что рассматриваемый вариант со своей частотой попал в интервал, находящийся ближе к середине интервального ряда, если таких вариантов несколько, то либо все их отнести к правым от этих вариант интервалам, либо все – к левым.

    4. После определения числа интервалов и их длины, расположение интервалов можно производить и по другому способу. Находят среднее арифметическое всех рассматриваемых значений вариантов х ср. и строят первый интервал таким образом, чтобы это среднее выборочное находилось бы внутри какого-то интервала. Таким образом, получаем интервал от х ср. – 0,5h до х ср.. + 0,5h . Затем влево и вправо, прибавляя длину интервала, строим остальные интервалы до тех пор, пока x min и x max не попадут соответственно в первый и последний интервалы.

    5. Интервальные ряды при большом числе интервалов удобно записывать вертикально, т.е. интервалы записывать не в первой строке, а в первом столбце, а частоты (или частости) во втором столбце.

    Выборочные данные могут рассматриваться как значения некоторой случайной величины Х . Случайная величина имеет свой закон распределения. Из теории вероятностей известно, что закон распределения дискретной случайной величины можно задать в виде ряда распределения, а непрерывной – с помощью функции плотности распределения. Однако существует универсальный закон распределения, который имеет место и для дискретной и для непрерывной случайных величин. Этот закон распределения задается в виде функции распределения F (x ) = P (X <x ). Для выборочных данных можно указать аналог функции распределения – эмпирическую функцию распределения.

    Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку.

    Назначение сервиса . С помощью онлайн-калькулятора Вы сможете:

    • построить вариационный ряд , построить гистограмму и полигон;
    • найти показатели вариации (среднюю, моду (в т.ч. и графическим способом), медиану, размах вариации, квартили, децили, квартильный коэффициент дифференциации, коэффициент вариации и другие показатели);

    Инструкция . Для группировки ряда необходимо выбрать вид получаемого вариационного ряда (дискретный или интервальный) и указать количество данных (количество строк). Полученное решение сохраняется в файле Word (см. пример группировки статистических данных).

    Если группировка уже осуществлена и заданы дискретный вариационный ряд или интервальный ряд , то необходимо воспользоваться онлайн-калькулятором Показатели вариации . Проверка гипотезы о виде распределения производится с помощью сервиса Изучение формы распределения .

    Виды статистических группировок

    Вариационный ряд . В случае наблюдений дискретной случайной величины одно и то же значение можно встретить несколько раз. Такие значения x i случайной величины записывают с указанием n i числа раз его появления в n наблюдениях, это и есть частота данного значения.
    В случае непрерывной случайной величины на практике применяют группировку.
    1. Типологическая группировка – это разделение исследуемой качественно разнородной совокупности на классы, социально–экономические типы, однородные группы единиц. Для построения данной группировки используйте параметр Дискретный вариационный ряд.
    2. Структурной называется группировка , в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому–либо варьирующему признаку. Для построения данной группировки используйте параметр Интервальный ряд.
    3. Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой (см. аналитическая группировка ряда).

    Пример №1 . По данным таблицы 2 постройте ряды распределения по 40 коммерческим банкам РФ. По полученным рядам распределения определите: прибыль в среднем на один коммерческий банк, кредитные вложения в среднем на один коммерческий банк, модальное и медианное значение прибыли; квартили, децили, размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, коэффициент вариации.

    Решение :
    В разделе «Вид статистического ряда» выбираем Дискретный ряд. Нажимаем Вставить из Excel . Количество групп: по формуле Стэрджесса

    Принципы построения статистических группировок

    Ряд наблюдений, упорядоченных по возрастанию, называется вариационным рядом . Группировочным признаком называется признак, по которому производится разбивка совокупности на отдельные группы. Его называют основанием группировки. В основание группировки могут быть положены как количественные, так и качественные признаки.
    После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.

    При использовании персональных компьютеров для обработки статистических данных группировка единиц объекта производится с помощью стандартных процедур.
    Одна из таких процедур основана на использовании формулы Стерджесса для определения оптимального числа групп:

    k = 1+3,322*lg(N)

    Где k – число групп, N – число единиц совокупности.

    Длину частичных интервалов вычисляют как h=(x max -x min)/k

    Затем подсчитывают числа попаданий наблюдений в эти интервалы, которые принимают за частоты n i . Малочисленные частоты, значения которых меньше 5 (n i < 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
    В качестве новых значений вариант берут середины интервалов x i =(c i-1 +c i)/2.

    Пример №3 . В результате 5%-ной собственно-случайной выборки получено следующее распределение изделий по содержанию влаги. Рассчитайте: 1) средний процент влажности; 2) показатели, характеризующие вариацию влажности.
    Решение получено с помощью калькулятора : Пример №1

    Построить вариационный ряд. По найденному ряду построить полигон распределения, гистограмму, кумуляту. Определить моду и медиану.
    Скачать решение

    Пример . По результатам выборочного наблюдения (выборка А приложение):
    а) составьте вариационный ряд;
    б) вычислите относительные частоты и накопленные относительные частоты;
    в) постройте полигон;
    г) составьте эмпирическую функцию распределения;
    д) постройте график эмпирической функции распределения;
    е) вычислите числовые характеристики: среднее арифметическое, дисперсию, среднее квадратическое отклонение. Решение

    На основе данных, приведенных в Таблице 4 (Приложение 1) и соответствующих Вашему варианту, выполнить:

    1. На основе структурной группировки построить вариационный частотный и кумулятивный ряды распределения, используя равные закрытые интервалы, приняв число групп равным 6. Результаты представить в виде таблицы и изобразить графически.
    2. Проанализировать вариационный ряд распределения, вычислив:
      • среднее арифметическое значение признака;
      • моду, медиану, 1-ый квартиль, 1-ый и 9-тый дециль;
      • среднее квадратичное отклонение;
      • коэффициент вариации.
    3. Сделать выводы.

    Требуется: ранжировать ряд, построить интервальный ряд распределения, вычислить среднее значение, колеблемость среднего значения, моду и медиану для ранжированного и интервального рядов.

    На основе исходных данных построить дискретный вариационный ряд ; представить его в виде статистической таблицы и статистических графиков. 2). На основе исходных данных построить интервальный вариационный ряд с равными интервалами. Число интервалов выбрать самостоятельно и объяснить этот выбор. Представить полученный вариационный ряд в виде статистической таблицы и статистических графиков. Указать виды примененных таблиц и графиков.

    С целью определения средней продолжительности обслуживания клиентов в пенсионном фонде, число клиентов которого очень велико, по схеме собственно-случайной бесповторной выборки проведено обследование 100 клиентов. Результаты обследования представлены в таблице. Найти:
    а) границы, в которых с вероятностью 0.9946 заключено среднее время обслуживания всех клиентов пенсионного фонда;
    б) вероятность того, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине);
    в) объем повторной выборки, при котором с вероятностью 0.9907 можно утверждать, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине).
    2. По данным задачи 1, используя X 2 критерий Пирсона, на уровне значимости α = 0,05 проверить гипотезу о том, что случайная величина Х – время обслуживания клиентов – распределена по нормальному закону. Построить на одном чертеже гистограмму эмпирического распределения и соответствующую нормальную кривую.
    Скачать решение

    Дана выборка из 100 элементов. Необходимо:

    1. Построить ранжированный вариационный ряд;
    2. Найти максимальный и минимальный члены ряда;
    3. Найти размах вариации и количество оптимальных промежутков для построения интервального ряда. Найти длину промежутка интервального ряда;
    4. Построить интервальный ряд. Найти частоты попадания элементов выборки в составленные промежутки. Найти средние точки каждого промежутка;
    5. Построить гистограмму и полигон частот. Сравнить с нормальным распределением (аналитически и графически);
    6. Построить график эмпирической функции распределения;
    7. Рассчитать выборочные числовые характеристики: выборочное среднее и центральный выборочный момент;
    8. Рассчитать приближенные значения среднего квадратического отклонения, асимметрии и эксцесса (пользуясь пакетом анализа MS Excel). Сравнить приближенные расчетные значения с точными (рассчитанные по формулам MS Excel);
    9. Сравнить выборочные графические характеристики с соответствующими теоретическими.
    Скачать решение

    Имеются следующие выборочные данные (выборка 10%-ная, механическая) о выпуске продукции и сумме прибыли, млн. руб. По исходным данным:
    Задание 13.1.
    13.1.1. Постройте статистический ряд распределения предприятий по сумме прибыли, образовав пять групп с равными интервалами. Постройте графики ряда распределения.
    13.1.2. Рассчитайте числовые характеристики ряда распределения предприятий по сумме прибыли: среднюю арифметическую, среднее квадратическое отклонение, дисперсию, коэффициент вариации V. Сделайте выводы.
    Задание 13.2.
    13.2.1. Определите границы, в которых с вероятностью 0.997 заключена сумма прибыли одного предприятия в генеральной совокупности.
    13.2.2. Используя x2-критерий Пирсона , при уровне значимости α проверить гипотезу о том, что случайная величина X – сумма прибыли – распределена по нормальному закону.
    Задание 13.3.
    13.3.1. Определите коэффициенты выборочного уравнения регрессии.
    13.3.2. Установите наличие и характер корреляционной связи между стоимостью произведённой продукции (X) и суммой прибыли на одно предприятие (Y). Постройте диаграмму рассеяния и линию регрессии.
    13.3.3. Рассчитайте линейный коэффициент корреляции. Используя t-критерий Стьюдента, проверьте значимость коэффициента корреляции. Сделайте вывод о тесноте связи между факторами X и Y, используя шкалу Чеддока .
    Методические рекомендации . Задание 13.3 выполняется с помощью этого сервиса .
    Скачать решение

    Задача . Следующие данные представляют собой затраты времени клиентов на заключение договоров. Построить интервальный вариационный ряд представленных данных, гистограмму, найти несмещенную оценку математического ожидания, смещенную и несмещенную оценку дисперсии.

    Пример . По данным таблицы 2:
    1) Постройте ряды распределения по 40 коммерческим банкам РФ:
    А) по величине прибыли;
    Б) по величине кредитных вложений.
    2) По полученным рядам распределения определите:
    А) прибыль в среднем на один коммерческий банк;
    Б) кредитные вложения в среднем на один коммерческий банк;
    В) модальное и медианное значение прибыли; квартили, децили;
    Г) модальное и медианное значение кредитных вложений.
    3) По полученным в п. 1 рядам распределения рассчитайте:
    а) размах вариации;
    б) среднее линейное отклонение;
    в) среднее квадратическое отклонение;
    г) коэффициент вариации.
    Необходимые расчеты оформите в табличной форме. Результаты проанализируйте. Сделайте выводы.
    Постройте графики полученных рядов распределения. Графически определите моду и медиану.

    Решение:
    Для построения группировка с равными интервалами воспользуемся сервисом Группировка статистических данных .

    Рисунок 1 – Ввод параметров

    Описание параметров
    Количество строк : количество исходных данных. Если размерность ряда небольшая, укажите его количество. Если выборка достаточно объемная, то нажмите кнопку Вставить из Excel .
    Количество групп : 0 – число групп будет определяться по формуле Стэрджесса.
    Если задано конкретное число групп, укажите его (например, 5).
    Вид ряда : Дискретный ряд.
    Уровень значимости : например, 0.954 . Этот параметр задается для определения доверительного интервала среднего значения.
    Выборка : Например, проведена 10% -ная механическая выборка. Указываем число 10 . Для наших данных указываем 100 .