# ТВИМС теория Практика - [ТВИМС Примеры решений](/F8wOMCDvSDewQgFEmWyZYA) ### Вопрос 1: Определение вероятности: классическое, статистическое, аксиоматическое **Классическое определение вероятности**: вероятностью наступления события в некотором испытании называют отношение , где: $$ P(A) = \frac{m}{n} $$ n – общее число всех равновозможных, элементарных исходов этого испытания, которые образуют полную группу событий; m – количество элементарных исходов, благоприятствующих событию . --- **Геометрическая вероятность** может использоваться для поиска вероятности среди бесконечного количества исходов. вероятность наступления некоторого события в испытании равна отношению $$ P(a) = \frac{g}{G} $$ , где G– геометрическая мера, выражающая общее число всех возможных и равновозможных исходов данного испытания, а g – мера, выражающая количество благоприятствующих событию исходов. :::info Например, мяч падает на линию длинной 1 метр. Найдите вероятность, что он упадет в первые 0.25m. Вероятность = 0.25/1 ::: ----- **Статистическое** определение вероятности – это вероятность события А – это число Р(А), около которого колеблется значение статистической частоты этого события при условии увеличения количества испытаний. ![](https://i.imgur.com/EhxclPm.png) ----- **аксиоматическое** построение теории вероятностей создано академиком А.Н. Колмогоровым ![](https://i.imgur.com/o9VaA4q.png) ![](https://i.imgur.com/1zJlcpg.png) ![](https://i.imgur.com/E8YgfbU.png) ## Вопрос 2: 2. События. Сумма событий, произведение, разность. **Испытание или опыт** - создание некоторого комплекса условий, который мы, по крайней мере в принципе, можем воспроизводить многократно. Пример: стрельба по мишени, бросание монеты и т. д. **Событие или возможный исход** - любое явление, которое может про-изойти или не произойти в результате опыта. Пример: промах при стрельбе по мишени, выпадение орла при бросании монеты, появление трех очков при бросании игральной кости (кубика) и т. д. **Событие** называется **достоверным**, если оно обязательно происходит в результате испытания. **Событие** называется **невозможным**, если оно никогда не может проис-ходить в результате испытания. **Событие** называется **случайным**, если оно может произойти в результате испытания, а может и не произойти. Любой результат **испытания** называется **исходом**, который, собственно и представляет собой появление определённого события. События называют **несовместными**, если в одном и том же испытании появление одного из событий исключает появление других событий. **По́лной гру́ппой** называется система случайных событий такая, что в результате произведенного случайного эксперимента непременно произойдет одно из них. Множество всех несовместных событий образуют полную группу. События называются **совместными**, если в отдельно взятом испытании появление одного из них не исключает появление другого. Два или бОльшее количество событий называют **равновозможными**, если ни одно из них не является более возможным, чем другие. (их p одинакого) ---- **Объединением (суммой)** событий A и B называют событие C, состоящее из элементарных событий принадлежащих событию А **или** В. Сумма несовместных событий: A + B **Пересечением (произведением)** событий А и В называют событие С, которое благоприятствует и событию А, и событию В. Произведение несовместных событий: A\*B **Разностью** событий А и В называют событие С, состоящее из элементарных событий А, которые не являются элементарными событиями В. Разность несовместных событий: A\*(!B) Два события называются **противоположными**, если исходом испытания является одно из них но никогда оба. Например, выпал орел или режка Противоположное событие обозначается $$ \overline{A} $$ Сумма вероятностей противоположных событий равна единице: Cумма вероятностей совместных событий: Для независимых событий:Р (А+В) = Р(А) + Р(В) – Р(А) × Р(В). Для зависимых событий:Р (А+В) = Р(А) + Р(В) – Р(А) × Р_A(В). ---- #### Комбинаторные формулы **Перестановки** - Пусть имеется n различных объектов. Будем переставлять их всеми возможными способами (число объектов остается неизменными, меняется только их порядок). Получившиеся комбинации называются перестановками, а их число равно $$ Pn = n! $$ **Размещения** - Пусть имеется n различных объектов. Будем выбирать из них m объектов и переставлять всеми возможными способами между собой (то есть меняется и состав выбранных объектов, и их порядок). Получившиеся комбинации называются размещениями из n объектов по m, а их число равно $$ A_n^m = \frac{n!}{(n-m)!} $$ **Сочетания** - Пусть имеется n различных объектов. Будем выбирать из них m объектов все возможными способами (то есть меняется состав выбранных объектов, но порядок не важен). Получившиеся комбинации называются сочетаниями из n объектов по m, а их число равно $$ C^m_n = \frac{n!}{(n-m)!*m!} $$ --- ### Вопрос 3: условная вероятность **Безусловная вероятность** - это вероятность события без каких-либо ограничений **Условная вероятность** – вероятность наступления одного события при условии, что другое событие уже произошло. ![](https://i.imgur.com/0EyOtHj.png) ![](https://i.imgur.com/jBZmJCK.png) Cумма вероятностей совместных событий: Для независимых событий:Р (А+В) = Р(А) + Р(В) – Р(А) × Р(В). Для зависимых событий:Р (А+В) = Р(А) + Р(В) – Р(А) × Р_A(В). :::info ![](https://i.imgur.com/4Rqu1uy.png) Пример. Какова вероятность того, что 2 карты, вынутые из колоды в 36 карт, окажутся одной масти? Решение: В 1 масти 9 карт. Первым разом мы забрали из масти 1 карту. Осталось 8 карт этой масти из 35 оставшихся карт. Искомая вероятность = 8/35 ::: ### Вопрос 4: Формула полной вероятности и формула Байеса Формулы полной вероятности и формулы Байеса используются для расчета вероятности для зависимых событий ![](https://i.imgur.com/iJlJ657.png) Формула полной вероятности позволяет вычислить вероятность интересующего события A через вероятности его произойти при выполнении гипотез с заданной вероятностью. Формула полной вероятности требуется, когда необходимо узнать вероятность совершения некоторого события, если его совершение зависит от нескольких условий.  **Гипотеза** - условие достижения события. :::info Стрелок может выстрелить из оптимального и неоптимального ружья. Для каждого из них разная вероятность попадания. Событие - попадание. Гипотеза - взятие оптимального/неоптимального ружья ::: ![](https://i.imgur.com/83Ar7xB.png) ![](https://i.imgur.com/EgBk93b.png) :::info Пример задачи на полную вероятность: Имеются три урны: в первой 2 белых шара и 3 чёрных, во второй - 4 белых и один чёрный, в третьей - три белых шара. Найти вероятность случайно выбрать из случайной урны белый шар Событие *A* - появление белого шара Гипотезы: Bn - выбрана урна номер n. P(Bn) = 1/3 Условные вероятности события А (вероятности забрать шар А из соответствующей корзины): $$ P_{B1}(A) = \frac{2}{5};\ P_{B2}(A) = \frac{4}{5};\ P_{B3}(A) = \frac{3}{3} $$ Ищем полную вероятность $$ P(A) = P(B1)*P_{B1}(A) + P(B2)*P_{B2}(A) + P(B3)*P_{B3}(A)\\ P(A) = \frac{1*2}{3*5} + \frac{1*4}{3*5} + \frac{1*3}{3*3} = \frac{33}{45} = \frac{11}{15}\\ $$ Найдем для этой же задачи вероятность того, что если был выбран белый шар, он был взят из 1 урны: $$ P_A(B1) = \frac{P(B1)*P_{B1}(A)}{P(A)} = \frac{1*2*15}{3*5*11} = \frac{2}{11} $$ ::: ### Вопрос 5: Схема испытаний Бернулли **Независимые испытания** - серия из независимых событий. Например, несколько подряд бросаний кубика Формула бернулли: ![](https://i.imgur.com/UY397zX.png) При достаточно больших значениях n и m её применение затруднено ввиду огромных значений факториалов. В этом случае используют **теоремы Лапласа**, Другая распространённая на практике ситуация – когда вероятность некоторого события в отдельно взятом испытании достаточно мала, а количество испытаний велико. Вопрос разрешается с помощью **формулы Пуассона**. #### Наивероятнейшее число появлений события в независимых испытаниях ![](https://i.imgur.com/RmwwlTg.png) :::info Пример: Устройство, состоящее из пяти независимо работающих элементов, включается за время Т. Вероятность отказа каждого из них за это время равна 0,2. Найти вероятность того, что откажут три элемента $$ P^m_n = C^m_np^mq^{n - m}\\ p = 0.2;\ p^m = 0.2^3 = 0.008;\ q = 0.8;\ q^{n-m} = 0.8^{2} = 0.64\\ С^m_n = \frac{n!}{(n-m)!*m!} = \frac{5!}{2!*3!} = \frac{4*5}{2} = 10\\ P^m_n = 10*0.008*0.64 = 0,0512 $$ Пример на вероятнейшее число успеха Сколько следует сыграть партий в шахматы с вероятностью победы в одной партии, равной 1/3, чтобы наивероятнейшее число побед было равно 5? $$ np - q <= m_0 < np + q\\ p = 1/3, q = 2/3, m_0 = 5\\ \frac{n - 2}{3} <= 5 < \frac{n + 1}{3}\\ n - 2 <= 15 < n + 1\\ 13 <= n < 16;\\ n = 13, 14, 15 $$ ::: ### Вопрос 6: Формула пуассона Проводится n независимых испытаний, в каждом из которых случайное событие A может появиться с вероятностью p. Требуется найти вероятность того, что в данной серии испытаний событие A появится ровно m раз. Обычно для таких задач применяют теорему лапласа или формулу бернулли, но если цифры не подходят для эффективного вычисления можно использовать формулу Пуассона ![](https://i.imgur.com/t11ziif.png) Эффективно использовать эту формулу если количество испытаний n достаточно велико, а вероятность p появления события A в отдельно взятом испытании мала (0,05-0,1 и меньше) :::info Пример: С базы в магазин отправлено 4000 тщательно упакованных доброкачественных изделий. Вероятность того, что изделие повредится в пути, равна 0.0005. Найти вероятность того, что из 4000 изделий в магазин прибудут 3 испорченных изделия $$ \lambda = np = 4000*0.0005 = 2\\ \lambda^m = 2^3 = 8\\ P_m = \frac{\lambda^m}{m!}*e^{-\lambda}\\ P_3 = \frac{8}{6}*0.13 = 0.173 $$ ::: ### Вопрос 7: Локальная теорема Лапласа :::warning Использовать когда подходит использовать формулу Бернулли, но не хочется считать страшные фракталы. Формула Лапласа неточная. ::: Если вероятность p появления случайного события A в каждом испытании постоянна, то вероятность Pn(m) того, что n в испытаниях событие А наступит ровно m раз равна= ![](https://i.imgur.com/PcdOJoK.png) ф(х) - локальная функция лапласа :::warning Рекомендуемое минимальное количество испытаний – примерно 50-100. Формула дает погрешность в малом количестве испытаний. Рекомендуемое p стремится к 0.5. Формула дает погрешность при p стремящимся к 0 или к 1. Критерий эффективности использования локальной теоремы лапласа: npq > 10 ::: #### Таблица значений локальной функции лапласа: ![](https://i.imgur.com/7WfD4gy.png) ![](https://i.imgur.com/igBfb1I.png) ![](https://i.imgur.com/7WJhb7y.png) #### График локальной функции лапласа: ![](https://i.imgur.com/fFj8z7L.png) до -5 и после 5 значение функции = 0. Функция четная :::info Пример: Вероятность рождения мальчика равна 0,51. Найти вероятность того, что среди 100 новорожденных окажется 50 мальчиков. Имеем схему Бернулли с параметрами n =100, p = 0,51, q = 1-p = 0,49, k = 50. Так как n = 100 достаточно велико, используем локальную теорему Лапласа: ![](https://i.imgur.com/wqJPNJh.png) ::: ### Вопрос 8: Интегральная теорема Лапласа. Отклонение относительной частоты от постоянной вероятности Если вероятность p появления случайного события A в каждом испытании постоянна, то вероятность Pn(m1 <= m <= m2) того, что в n испытаниях событие A наступит не менее m1 и не более m2 раз (от m1 до m2 раз включительно), приближённо равна ![](https://i.imgur.com/jSOyNXx.png) для определения значения нужно использовать таблицу: ![](https://i.imgur.com/qogIJ2i.png) График интегральной функции лапласа: ![](https://i.imgur.com/Itiyuwx.png) Из графика: Ф(x) = -Ф(x) При x > 5 Ф(x) = 1, При x < -5 Ф(х) = -1 #### Отклонение относительной частоты от постоянной вероятности ![](https://i.imgur.com/Pxe0MtS.png) *Пример решения в файлике с практикой* ### Вопрос 9: Дискретные случайные величины. Закон распределения дискретной случайной величины (ряд распределения, многоугольник распределения) **Случайной** называют величину, которая в результате испытания примет одно и только одно числовое значение, зависящее от случайных факторов и заранее непредсказуемое. **Закон распределения дискретной случайной величины** Описывает независимые события. Все вероятности изолированные и в сумме образуют полную группу. 1) Формулируем закон распределения: x - значение (исход), p - вероятность. | x | x1 | xn | | -------- | -------- | -------- | | p | p1 | pn | :::info Закон распределения вероятностей выпавших костей на кубике ![](https://i.imgur.com/LELGnKH.png) ::: --- :::info Закон распределения может быть представлен в виде графика, где ось x - значения. ось y - вероятности ![](https://i.imgur.com/EHW9U7g.png) ::: Такой график называют **многоугольником распределения вероятности** ### Вопрос 10: Функция распределения случайной величины $$ F_x(x) = P(X < x) $$ F(x) = вероятность того, что случайная величина X примет значение, МЕНЬШЕЕ, чем переменная x. функция накопительная, то есть в функцию f(n) включаются все значения этой фукнции для всех x < n :::info функция распределения вероятностей ДСВ является кусочной, удобно для её отображения использовать фигурные скобки Например: ![](https://i.imgur.com/SFnWbfb.png) ::: График этой функции ступенчатый. :::info Это график актуальный для графика представленного выше ![](https://i.imgur.com/u6hFRWd.png) ::: Свойства функции распределения: ![](https://i.imgur.com/cDk9y0J.png) Функция непрерывна слева (5 условие). Функция не убывающая (4 свойство) Вероятность P{X >= x} = 1 - Fx(x) --- ### Вопрос 11: Плотность распределения вероятностей и ее свойства. Для дискретной случайной величины не существует функции плотности распределения вероятностей, так как такая случайная величина не является абсолютно непрерывной функцией. Плотностью распределения вероятностей непрерывной случайной величины называется первая производная от ее функции распределения. плотность распределения [x, x + ΔX) представляет собой среднюю вероятность, которая приходится на единицу длины участка . Плотность распределения обладает следующими свойствами: 1. Плотность распределения неотрицательная функция. 2. Вероятность попадания непрерывной случайной величины в промежуток [a,b] равна определенному интегралу от ее плотности в пределах от a до b 3. Функция распределения непрерывной случайной величины представляется через плотность распределения в виде: ![](https://i.imgur.com/kUnKxaT.png) 4. Несобственный интеграл от плотности вероятности в бесконечных пределах равен единице ### Вопрос 12: Математическое ожидание и его свойства. **Математическое ожидание** = сумма произведений всех возможных ее значений на их вероятности ![](https://i.imgur.com/GntDhX5.png) Вероятностный смысл мат.ожидания примерно равен среднему результату, который мы можем получить. Что-то вроде среднего арифметического Мат. ожидание не рассказывает об отклонениях значения от случайной величины Свойства мат. ожидания: ![](https://i.imgur.com/1uAvFYM.png) **Теорема об ожидании в независимых испытаниях** - Мат ожидание числа появления успеха в n независимых испытаний = произведению числа испытаний на вероятности их появления. M(x) = pn **Теорема 2** - математическое ожидание отклонения = 0 Отклонение: x - M(x) ![](https://i.imgur.com/IJURFBa.png) :::info для того, чтобы найти значения вроде x - M(x) нужно продлить таблицу, описывающую закон распределения. Например: ![](https://i.imgur.com/seQRiR9.png) ::: --- ### Вопрос 13: Дисперсия и ее свойства. Среднеквадратическое отклонение Дисперсия - мат. ожидание квадрата отклонения. Дисперсия описывает то, насколько значения случайной величины удалены (рассеяны) от мат. ожидания. *Дисперсия не может быть отрицательной* ![](https://i.imgur.com/SMzfRDi.png) ![](https://i.imgur.com/EzFOgNa.png) G(x) - среднее квадратическое отклонение Если мы отклонимся от математического ожидания M(x) влево и вправо на среднее квадратическое отклонение G(x), то на промежутке (M(x) - G(x); M(x) + G(x)) будут сконцентрированы наиболее вероятные значения случайной величины ![](https://i.imgur.com/6kFZUrS.png) Дисперсия числа появления успеха в n незавимсых испытаниях в каждом из которых вероятность успеха = p, а вероятность неудачи = q: D(x) = npq ### Вопрос 14: Мода. Медиана, начальные и центральные моменты. --- **мода** - значение случайной величины которое принимается с наибольшей вероятностью по сравнению с двумя соседними. Мод может быть несколько - такое распределение назовется** бимодальным/мультимодальным**. Если мода 1 - распределение **уномодальное** ![](https://i.imgur.com/MMMQjAh.png) --- **медиана** - значение для которого справедливо равенство P(x < Me) = P(x > Me). Не все ДСВ имеют медиану. определение начального и центрального момента: ![](https://i.imgur.com/O4Son4I.png) Используются для определения эксцесса, коээфициента ассиметрии (вопрос 20) ### Распределения ДСВ (кратко по вопросам 15-17, 21-23) ![](https://i.imgur.com/PeyHv6q.png) ### Вопрос 15: Биноминальное распределение Пусть проводится n независимых испытаний (не обязательно повторных), в каждом из которых случайное событие A может появиться с вероятностью p . Тогда случайная величина X – число появлений события A в данной серии испытаний, имеет биномиальное распределение. Вероятности определяются по формуле бернулли. Вероятности представляют собой члены бинома Ньютона Закон описывается таблицей: ![](https://i.imgur.com/uLottA2.png) ### Вопрос 16: Распределение Пуассона Аналогично биноминальному распределению, но вероятности расчитываются по формуле Пуассона ![](https://i.imgur.com/GBs6mBk.png) Таблица значений формулы пуассона ![](https://i.imgur.com/UjiWAMt.png) ![](https://i.imgur.com/gKWCyPp.png) ![](https://i.imgur.com/WoNyIZi.png) ![](https://i.imgur.com/AbbzGc4.png) ### Вопрос 16: Геометрическое распределение Пусть проводится серия испытаний, в каждом из которых случайное событие A может появиться с вероятностью n; причём, испытания заканчиваются при первом же появлении данного события. Тогда случайная величина X, характеризующая количество совершённых попыток, имеет геометрическое распределение. Описывается законом, где x - количество попыток необходимое на исход A, p - вероятность что событие A произойдет за x попыток ![](https://i.imgur.com/DKOoFzZ.png) p - вероятность что событие произойдет. q - что не произойдет. ### Вопрос 18: Непрерывные случайные величины. Плотность распределения. Функция распределения **НСВ** может принять любое действительное значение из некоторого промежутка ненулевой длины, что делает невозможным её представление в виде таблицы (т.к. действительных чисел несчётно много). Функция распределения непрерывной случайной величины определяется точно так же, как и функция распределения ДСВ. (смотри вопрос 10) Функция распределения НСВ непрерывна. Если в результате решения появились разрывы - то решение было неверно --- #### Функция плотности распределения вероятностей Представляет собой производную функции распределения. Если функция распределения была задана в кусочном виде, нужно для каждого элемента найти производную :::info Например: ![](https://i.imgur.com/sfemkTE.png) ::: Интеграл от минус до плюс бесконечности функции плотности распределения всегда равен 1. ![](https://i.imgur.com/EkBhn6j.png) плотность распределения [x, x + ΔX) представляет собой среднюю вероятность, которая приходится на единицу длины участка . Плотность распределения обладает следующими свойствами: 1. Плотность распределения неотрицательная функция. 2. Вероятность попадания непрерывной случайной величины в промежуток [a,b] равна определенному интегралу от ее плотности в пределах от a до b 3. Функция распределения непрерывной случайной величины представляется через плотность распределения в виде: ![](https://i.imgur.com/kUnKxaT.png) ### Вопрос 19: Числовые характеристики непрерывной случайной величины. Мат. ожидание НСВ ![](https://i.imgur.com/7Bcff3X.png) Дисперсия НСВ ![](https://i.imgur.com/BX09vry.png) ![](https://i.imgur.com/jkCaOgS.png) Среднее квадратическое отклонение ![](https://i.imgur.com/dP2AVIq.png) ### Вопрос 20: Коэффициент асимметрии. Эксцесс. Использование начального и центрального момента ![](https://i.imgur.com/dUh33nT.png) **Коэффициент асимметрии** характеризует скошенность распределения по отношению к математическому ожиданию. Асимметрия положительна, если «длинная часть» кривой распределения расположена справа от математического ожидания; асимметрия отрицательна, если «длинная часть» кривой расположена слева от математического ожидания. :::info ![](https://i.imgur.com/QEyOgbv.png) На рисунке показаны две кривые распределения: I и II. Кривая I имеет положительную (правостороннюю) асимметрию , а кривая II – отрицательную (левостороннюю) ::: Для оценки «крутости», т. е. большего или меньшего подъема кривой теоретического распределения по сравнению с нормальной кривой, пользуются характеристикой - **эксцессом**. :::info ![](https://i.imgur.com/E4GtITY.png) Кривые, более островершинные, чем нормальная, обладают положительным эксцессом, более плосковершинные - отрицательным эксцессом. ::: ### Вопрос 21: Равномерное распределение Рассмотрим некоторый конечный промежуток [a,b]. Если случайная величина A обладает постоянной плотностью распределения вероятностей на данном отрезке и нулевой плотностью вне него, то говорят, что она распределена равномерно. При этом функция плотности будет строго определённой: ![](https://i.imgur.com/yMkYI5D.png) График плотности выглядит так: ![](https://i.imgur.com/eCzvx4S.png) График распределения выглядит линейно: ![](https://i.imgur.com/E6Df9dO.png) ### Вопрос 22: Показательное распределение Характеризуется функцией плотности: ![](https://i.imgur.com/mLr2tf4.png) График показательного распределения: ![](https://i.imgur.com/HiPlVq0.png) ### Вопрос 23: Нормальное распределение Используется для описания распределения, где есть большинство значений в середине, а по краям редкие отклонения. Этим хорошо описывать рост, вес. ![](https://i.imgur.com/zWFCek5.png) Имеет функцию плотности: ![](https://i.imgur.com/kHmZInm.png) ![](https://i.imgur.com/41xM9EL.png) Формула распределения: ![](https://i.imgur.com/etX0lmb.png) Нормальное распределёние с единичным значением «сигма» называется **нормированным**, а если оно ещё и центрировано, то такое распределение называют **стандартным**. Она задается формулой: ![](https://i.imgur.com/0KEJhIk.png) #### Формулки для нормального распледеления ![](https://i.imgur.com/7iuN9nQ.png) ### Вопрос 24: Правило трех сигм Правило, актуальное для нормального распределения: с вероятностью в 68% случайная величина окажется в диапазоне: $$ [M - \sigma, M + \sigma] $$ С вероятностью в 95% случайная величина окажется в диапазоне: $$ [M - 2\sigma, M + 2\sigma] $$ С вероятностью в 99.7% случайная величина окажется в диапазоне: $$ [M - 3\sigma, M + 3\sigma] $$ Если для неизвестного распределения правило выполняется, можно сделать предположение, что оно нормальное ### Вопрос 25: Закон больших чисел. Неравенство Чебышева. Теорема Чебышева #### Неравенство чебышева = неравенства маркова Неравенство Чебышева (для неотрицательных случайных величин). Пусть случайная величина X ≥ 0 и имеет конечное математическое ожидание M < ∞ . Тогда для любого x > 0 выполнено неравенство $$ P(X ≥ x) ≤\frac{M}{x} $$ $$ P(X < x) >= 1 - \frac{M}{x} $$ Пусть случайная величина X имеет конечную дисперсию D < ∞ . Тогда для любого x > 0 выполнено неравенство $$ P(|X - M| ≥ x) ≤\frac{D}{x^2} $$ #### Теорема чебышева Для того чтобы к последовательности случайных величин была применима теорема Чебышева, достаточно, чтобы эти величины были попарно независимы, имели конечные математические ожидания и равномерно ограниченные дисперсии. Если дисперсии **n** независимых случайных величин **X1,X2,...,Xn** ограничены одной и той же постоянной, то при неограниченном увеличении числа n средняя арифметическая случайных величин сходится по вероятности к средней арифметической их математических ожиданий **a1,a2,...,an, т.е. $$ \lim_{n→∞}P(|\frac{X1+X2+...+Xn}{n}−\frac{a1+a2+...+an}{n}≤ε)=1\\ P(\frac{X1+X2+...+Xn}{n}−a≤ε)=1\\ $$ ![](https://i.imgur.com/O62pC5E.png) #### Закон больших чисел среднее арифметическое конечной выборки из фиксированного распределения близко к математическому ожиданию этого распределения. В зависимости от вида сходимости различают слабый закон больших чисел, когда имеет место сходимость по вероятности, и усиленный закон больших чисел, когда имеет место сходимость почти всюду. одно из формальных определений: ![](https://i.imgur.com/0sRyzxG.png) збч - ряд законов, которые говорят, при каких условиях выполняется утверждение о среднем арифметическом конечной выборки Другие примеры таких законов: ![](https://i.imgur.com/dtGyUaq.png) ![](https://i.imgur.com/pam4kUl.png) ![](https://i.imgur.com/VbaaLeU.png) ### Вопрос 26: Усиленный закон больших чисел, теорема Бернулли. Теорема Пуассона Теорема Бернулли: ![](https://i.imgur.com/A1fulE9.png) пусть ![](https://i.imgur.com/9luAagI.png) тогда ЗБЧ в форме пуассона утверждает, что ![](https://i.imgur.com/8cPFHRB.png) для лю­бо­го фик­си­ро­ван­но­го ε>0 при n→∞. Стро­гое до­ка­за­тель­ст­во это­го ут­вер­жде­ния бы­ло да­но П. Л. [Че­бы­ше­вым] В ра­бо­те П. Л. Че­бы­ше­ва «О сред­них ве­ли­чи­нах» (1867) бы­ло ус­та­нов­ле­но, что для не­за­ви­си­мых слу­чай­ных ве­ли­чин X1,X2,…,X1,X2,…, со­от­но­ше­ние ![](https://i.imgur.com/kZJdOtB.png) Уси­лен­ный Б. ч. з. был впер­вые сфор­му­ли­ро­ван и до­ка­зан Э. [Бо­ре­лем](https://bigenc.ru/mathematics/text/1878346) (1909) для схе­мы Бер­нул­ли. Ча­ст­ные слу­чаи схе­мы Бер­нул­ли воз­ни­ка­ют, напр., при раз­ло­же­нии взя­то­го нау­да­чу (т. е. с рав­но­мер­ным рас­пре­де­ле­ни­ем) дей­ст­ви­тель­но­го чис­ла из от­рез­ка [0, 1] в бес­ко­нечную дробь по к.-л. ос­но­ва­нию. Так, в дво­ич­ном раз­ло­же­нии ![](https://i.imgur.com/jl7jlSD.png) слу­чай­ные ве­ли­чи­ны X1(ω),X2(ω),…X1(ω),X2(ω),… при­ни­ма­ют два зна­че­ния 0 и 1 с ве­ро­ятно­стью 1/2 ка­ж­дое и яв­ля­ют­ся не­за­виси­мы­ми. В слу­чае не­за­ви­си­мых сла­гае­мых наи­бо­лее из­вест­ны­ми яв­ля­ют­ся ус­ло­вия спра­вед­ли­во­сти уси­лен­но­го Б. ч. з., ус­та­нов­лен­ные А. Н. [Кол­мо­го­ро­вым](https://bigenc.ru/mathematics/text/2081470): дос­та­точ­ное (1930) – для ве­ли­чин с ко­нечны­ми дис­пер­сия­ми и не­об­хо­ди­мое и дос­та­точ­ное (1933) – для оди­на­ко­во рас­пре­де­лён­ных ве­ли­чин (за­клю­чаю­щее­ся в су­ще­ст­во­ва­нии ма­те­ма­тич. ожи­да­ния этих ве­ли­чин). Тео­ре­ма Кол­мо­го­ро­ва для не­за­ви­си­мых слу­чай­ных ве­ли­чин X1,X2,…X1,X2,… с ко­неч­ны­ми дис­пер­сия­ми ут­вер­жда­ет, что из ус­ло­вия ![](https://i.imgur.com/XM2p1f1.png) вы­те­ка­ет спра­вед­ли­вость уси­лен­но­го Б. ч. з. с An=E(Sn/n)An=E(Sn/n). ### Вопрос 27: Центральная предельная теорема Выборочное распределение среднего значения выборки приблизительно нормально, если размер выборки достаточно велик, даже если распределение населения не является нормальным. Центральная предельная теорема также утверждает, что выборочное распределение будет иметь следующие свойства: 1. Среднее значение выборочного распределения будет равно среднему значению распределения генеральной совокупности: х = μ 2. Дисперсия выборочного распределения будет равна дисперсии распределения генеральной совокупности, деленной на объем выборки: с^2 = σ^2 / n :::info пример: Равномерное распределение: Предположим, что ширина панциря черепахи равномерно распределена с минимальной шириной 2 дюймаи максимальной шириной 6 дюймов. То есть, если мы случайным образом выберем черепаху и измерим ширину ее панциря, с одинаковой вероятностью это будет любая ширина от 2 до 6 дюймов. ![](https://i.imgur.com/zSNZfbt.png) Среднее значение равномерного распределения равно μ = (b+a)/2, где b — максимально возможное значение, а a — наименьшее возможное значение. В данном случае это (6+2)/2=4. Дисперсия равномерного распределения равна σ 2 = (ba) 2 / 12. В данном случае это (6-2) 2 / 12 = 1,33 . Dзятие случайных выборок из 2 из равномерного распределения Берем случайную выборку из двух черепах из этой популяции и измеряем ширину панциря каждой черепахи, находим их среднюю ширину. Повторяем для всех вариантов: Если бы мы построили гистограмму, представляющую среднюю ширину панциря всех этих образцов двух черепах, она выглядела бы так: ![](https://i.imgur.com/EanqTSo.png) Среднее значение этого выборочного распределения равно x = μ = 4 . Дисперсия этого выборочного распределения составляет c^2 = σ^2 / n = 1,33 / 2 = 0,665. ::: Чем больше размер выборки, тем больше распределение похоже на нормальное, тем "уже" её график Чем больше размер выборки, тем меньше дисперсия выборочного среднего ### Вопрос 28: Корреляционный момент, коэффициент корреляции. Их свойства. Корреляционным моментом ![](https://i.imgur.com/EwO5Oh7.png) (иликовариацией, или моментом связи) двух случайных величинX иY называется м. о. произведения отклонений этих величин Если обе величины демонстрируют однонаправленное изменение, то ковариация положительная, а если разнонаправленное — отрицательная. Если ковариация близка к нулю, то величины независимы. ![](https://i.imgur.com/fXF5hHS.png) ![](https://i.imgur.com/SyhhoDp.png) ![](https://i.imgur.com/U2gTLnh.png) Корреляционный момент двух независимых случайных величин X и Y равен нулю. ![](https://i.imgur.com/0wVRhqo.png) ![](https://i.imgur.com/BFXmjqL.png) ![](https://i.imgur.com/0EjvNag.png) Коэффициент корреляции характеризует не всякую зависимость, а только так называемую линейную зависимость. Линейная вероятностная зависимость случайных величин заключается в том, что при возрастании одной случайной величины другая имеет тенденцию возрастать (или же убывать) по линейному закону. Т.о., коэффициент корреляции характеризует степень тесноты линейной зависимости между случайными величинами. ### Вопрос 29: Задачи математической статистики. **Основные задачи математической статистики** Разработка методов регистрации, описания и анализа статистических экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений, составляет предмет специальной науки – математической статистики. Все задачи математической статистики касаются вопросов обработки наблюдений над массовыми случайными явлениями 1. Задача **определения закона распределения случайной величины** (или системы случайных величин) по статистическим данным При обработке обширных по своему объему статистических данных часто возникает вопрос об определении законов распределения тех или иных случайных величин. Теоретически при достаточном количестве опытов свойственные этим случайным величинам закономерности будут осуществляться сколь угодно точно. На практике нам всегда приходится иметь дело с ограниченным количеством экспериментальных данных; в связи с этим результаты наших наблюдений и их обработки всегда содержат больший или меньший элемент случайности. Возникает вопрос о том, какие черты наблюдаемого явления относятся к постоянным, устойчивым и действительно присущи ему, а какие являются случайными и проявляются в данной серии наблюдений только за счет ограниченного объема экспериментальных данных. К методике обработки экспериментальных данных следует предъявить такие требования, чтобы она, по возможности, сохраняла типичные, характерные черты наблюдаемого явления и отбрасывала все несущественное, второстепенное, связанное с недостаточным объемом опытного материала. В связи с этим возникает характерная для математической статистики задача сглаживания или выравнивания статистических данных, представления их в наиболее компактном виде с помощью простых аналитических зависимостей. 2. Задача **проверки правдоподобия гипотез** Статистический материал может с большим или меньшим правдоподобием подтверждать или не подтверждать справедливость той или иной гипотезы. Например, может возникнуть такой вопрос: согласуются ли результаты эксперимента с гипотезой о том, что данная случайная величина подчинена закону распределения? Другой подобный вопрос: указывает ли наблюденная в опыте тенденция к зависимости между двумя случайными величинами на наличие действительной объективной зависимости между ними или же она объясняется случайными причинами, связанными с недостаточным объемом наблюдений? 3. Задача **нахождения неизвестных параметров распределения** Часто при обрабтке экспериментального материала сложно определить закон распределения, но иногда из теоретических соображений закон распространения известен. Тогда возникает более узкая задача обработки наблюдений – определить только некоторые параметры (числовые характеристики) случайной величины или системы случайных величин. При небольшом числе опытов задача более или менее точного определения этих параметров не может быть решена; в этих случаях экспериментальный материал содержит в себе неизбежно значительный элемент случайности; поэтому случайными оказываются и все параметры, вычисленные на основе этих данных. В таких условиях может быть поставлена только задача об определении так называемых «оценок» или «подходящих значений» для искомых параметров, т.е. таких приближенных значений, которые при массовом применении приводили бы в среднем к меньшим ошибкам, чем всякие другие. С задачей отыскания «подходящих значений» числовых характеристик тесно связана задача оценки их точности и надежности. ### Вопрос 30: Выборка. Типы выбора. Виды выбора. Свойства выбора. **Генеральная совокупность** - Суммарная численность объектов наблюдения, обладающих определенным набором признаков, ограниченная в пространстве и времени. :::info Примеры генеральных совокупностей Все жители Москвы в 2002 году Розничные торговые точки, осуществляющие продажу продуктов питания в 2008 году ::: **Выборка (Выборочная совокупность)** - Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение о выборке можно было распространить на всю генеральную совокупность, выборка должна обладать свойством **репрезентативности**. **Репрезентативность** - Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей. :::info Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы. Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей. ::: --- **Ошибка выборки (доверительный интервал)** - Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности. Ошибка выборки бывает двух видов – **статистическая** и **систематическая**. **статистическая ошибка** Смещение результатов исследования из-за недостатка исптаний. Решается увеличением числа исптаний **Систематическая ошибка** - возникает из-за различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону. Не зависит от количества наблюдений **Доверительная вероятность** - Вероятность того, что доверительный интервал накроет неизвестное истинное значение параметра, оцениваемого по выборочным данным. В практике исследований чаще всего используют 95%-ую доверительную вероятность ---- Выборки делятся на два типа: **вероятностные** **невероятностные** #### вероятностные 1. **Случайная** выборка (простой случайный отбор) Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел. 2. **Механическая** (систематическая) выборка Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k 3. **Стратифицированная** (районированная) Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом. 4. **Серийная** (гнездовая или кластерная) выборка При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком. #### невероятностные Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д.. 1. **Квотная** выборка Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в маркетинговых исследованиях достаточно часто. 2. **Метод снежного кома** У каждого респондента, начиная с первого, просятся его контакты, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов 3. **Стихийная** выборка Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов. 4. Выборка **типичных случаев** Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения. ### Вопрос 31: Вариационный ряд и его свойства. Гистограмма **вариационный ряд (упорядоченная выборка)** - последовательность независимых одинаково распределенных случайный величин х1, х2,...хn и (опционально) соответствующих им частот, отсортированная в порядке неубывания Относительные частоты рассчитываются по формулам: ![](https://i.imgur.com/MR4ibft.png) **Дискретный вариационный ряд** - последовательность дискретных величин и частоот **Интервальный вариационный ряд** - последовательность интервалов и частот ---- Наиболее часто используют следующие виды графического представления характеристик выборки: **полигон**, **гистограмма** и к**умулятивная кривая**. Гистограмма и полигон позволяют выявить преобладающие значения признака и характер распределения частот и относительных частот **Полигон** - ломаная линия с координатами (xi, mx) где xi откладываются на оси абсцисс, а mx – на оси ординат. Если на оси ординат откладывать не абсолютные, а относительные (wi) частоты, то получим **полигон относительных частот**. **Полигон служит обычно для представления дискретного вариационного ряда**. В системе координат (xi, mx) строятся точки, соответствующие значениям частот или относительных частот ряда, а затем эти точки соединяются прямыми линиями. **Для непрерывного признака графической иллюстрацией служит гистограмма** - ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высотами – отрезки длиной ni/h (гистограмма частот) или wi/h (гистограмма относительных частот). В первом случае площадь гистограммы равна объему выборки, во втором – единице. Гистограмма относительных частот - аналог функции плотности нсв :::info По результатам выборочного исследования рабочих цеха были установлены их квалификационные разряды: 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5, 5, 2, 3, 6, 5, 4, 6, 4, 3. составить вариационный ряд и построить полигон частот, полигон относительных частот; Вычисляем сколько раз в последовательности встречается каждая цифра: | xi | ni | | --- | --- | | 2 | 3 | | 3 | 5 | | 4 | 8 | | 5 | 6 | | 6 | 3 | | сумма | 25 | строим полигон частот: ![](https://i.imgur.com/07QKSqR.png) Высчитываем wi | xi | ni | wi | | ----- | --- | --- | | 2 | 3 | 0.12 | | 3 | 5 | 0.2 | | 4 | 8 | 0.32 | | 5 | 6 | 0.24 | | 6 | 3 | 0.12 | | сумма | 25 | 1 | строим полигон относительных частот (просто график пар (xi, wi)) --- Построить по таблице интервальный вариационный ряд, построить гистограмму частот, ![](https://i.imgur.com/g1s7IRh.png) Разделяем числа на промежутки длины 1. xi - средние значения в интервалах. ni - количество чисел в интервалах ![](https://i.imgur.com/5SMNdZE.png) ![](https://i.imgur.com/LEAgbtp.png) ![](https://i.imgur.com/zcfrmze.png) Используя xi можно построить полигон относительных частот ![](https://i.imgur.com/BKWL0VI.png) ::: ### Вопрос 32: Эмпирическая функция распределения ==ЧЕК 31 ВОПРОС== **Эмпирической функцией распределения**, построенной по выборке X = (X1, x2... Xn) объема n называется случайная функция, является аналогом функции распределения $$ F^*_n: R x Q -> [0,1]\\ F^*_n = \frac{количество Xi \in (-\infty , y)}{n} = \frac{1}{n}\sum_{i-1}^{n}(I(Xi, y)) $$ :::info ![](https://i.imgur.com/LpH76LA.png) Составить эмпирическую функцию по дискретному выриационному ряду 1)находим по формуле wi (wi= ni/n). Заполняем 3 строку таблицы 2) Находим по формуле wн = ((n1 + n2.. + nн)/n) заполняем 4 строку ![](https://i.imgur.com/FORda14.png) По 4 строке составляем функцию ![](https://i.imgur.com/57WrDJL.png) Выполняем чертеж ![](https://i.imgur.com/TBKQUq3.png) ---- Аналогичное решение для интервальной выборки. Эмпирическая формула представляет собой кусочно-ломаную линию, с промежуточными точками ![](https://i.imgur.com/W5t8YKZ.png) ::: ### Вопрос 33: Выборочные числовые характеристики: выборочная средняя, выборочная дисперсия, исправленная выборочная дисперсия. Величины, вычисляемые по выборке, ![](https://i.imgur.com/Yuqo0E6.png) и ![](https://i.imgur.com/xwJd1Vs.png) называются выборочным средним и выборочной дисперсией. Выборочная дисперсия является смещённой оценкой генеральной дисперсии ![](https://i.imgur.com/hYQXBGk.png) и s^2 являются ``качественными приближениями'' для неизвестных величин a и d. чем больше данных измерений мы возьмем для статистической обработки, тем точнее будут наши выводы. Исправленная выборочная дисперсия (6.17) является несмещённой оценкой генеральной дисперсии. Таким образом, получена оценка генеральной дисперсии по исправленной выборочной дисперсии. Дисперсия среднего выборочного стремится к нулю при росте объема выборки. ![](https://i.imgur.com/I03KFxj.png) Обе выборочные дисперсии являются состоятельными оценками теоретической дисперсии. Выборочное среднее - несмещённая, состоятельная оценка теоретического среднего ### Вопрос 34: Точечное оценивание неизвестного параметра. Свойства оценок: состоятельность, несмещенность, эффективность. Числовые характеристики, которыми характеризуется распределение, как правило, неизвестные, называются параметрами генеральной совокупности. Оценка параметра — соответствующая числовая характеристика, рассчитанная по выборке. Оценки параметров генеральной совокупности делятся на два класса: **точечные** и **интервальные**. Когда оценка определяется одним числом, она называется точечной оценкой. Точечная оценка, как функция от выборки, является случайной величиной и меняется от выборки к выборке при повторном эксперименте. К точечным оценкам предъявляют требования, которым они должны удовлетворять, чтобы хоть в каком-то смысле быть «доброкачественными». Это **несмещённость**, **эффективность** и **состоятельность**. Интервальные оценки определяются двумя числами – концами интервала, который накрывает оцениваемый параметр. В отличие от точечных оценок, которые не дают представления о том, как далеко от них может находиться оцениваемый параметр, интервальные оценки позволяют установить точность и надёжность оценок. В качестве точечных оценок математического ожидания, дисперсии и среднего квадратического отклонения используют выборочные характеристики соответственно **выборочное среднее**, **выборочная дисперсия** и **выборочное среднее квадратическое отклонение.** ![](https://i.imgur.com/IJNZ71K.png) ![](https://i.imgur.com/stA0K8N.png) ### Вопрос 35: Интервальные оценки. Доверительный интервал. Доверительный интервал для оценки математического ожидания нормально распределенной случайной величины. Доверительным называют интервал (q*–e,q*+ e), который покрывает неизвестный параметр с заданной надёжностью b, где, q* – статистическая характеристика, найденная по данным выборки, которая служит оценкой неизвестного параметра q. Отклонение неизвестного параметра q от его оценки q* задаётся величиной положительной e>0,так как их разность задаётся по модулю |q – q*| < e. Чем меньше отклонение e, тем точнее оценка. Рассмотрим нахождение доверительного интервала для математического ожидания нормально распределенной случайной величины. Из теории вероятностей интервальные вероятности для нормального распределения N(a,s) определяются формулой: P (|X– a| ≤ e) = 2Ф(e/s) = 2Ф(t), где t = e/s. ![](https://i.imgur.com/OjCucD4.png) y - надежность Можно найти отклонение неизвестного параметра от его оценки: ![](https://i.imgur.com/oEXTu46.png) (6.10) Если в (6.9а) рассмотреть неравенство ![](https://i.imgur.com/zumTEpM.png) , то из него можно выразить неизвестное математическое ожидание а: ![]![](https://i.imgur.com/IB5W9Gz.png) (6.11) Если в (6.11) подставить вместо e значение из (6.10), то получим доверительный интервал для математического ожидания нормально распределенной случайной величины. ![](https://i.imgur.com/Ag3CJ2d.png) (6.12) Вероятность ![](https://i.imgur.com/RVG7HiH.png) определяется законом нормального распределения, если известна D=s2. Если дисперсия неизвестна, а лишь подсчитано ее несмещённое значение ![](https://i.imgur.com/ZDrqJv6.png) то вероятность ![](https://i.imgur.com/EVH4CJs.png определяется законом распределения Стьюдента со степенями свободы k = n–1. С увеличением степеней свободы k, то есть с увеличением объема выборки, распределение Стьюдента стремится к нормальному. ### Вопрос 36: Проверка статистических гипотез. Ошибки первого и второго рода. Статистической гипотезой называют любое предположение о распределении вероятностей случайной величины. Речь может идти или о виде распределения (непараметрическая гипотеза), или о значении параметров распределения (параметрическая гипотеза). Проверка статистических гипотез – это пятиступенчатая процедура, которая на основании данных выборки и при помощи теории вероятностей позволяет сделать вывод об обоснованности гипотезы. Другими словами, этот способ проверить, действительны ли результаты, полученные на выборке, и для генеральной совокупности. **основные этапы проверки статистических гипотез:** a - 0.05, 0.001, 0.001 B -> min k - критерий (критерий стьюдента, фишера, Пирсона-Хи-квадрат). Критерий определяется на основе выборки: Kнабл (К наблюдаемое). K критическое находится по табличке. Если K наблюдаемое окажется меньше K критического (попадет в область принятия решения) - то гипотеза верна. Иначе она попадает в критическую область Vкр - гипотеза неверна. 1. Формулируем гипотезу H0 и H1 Нулевая гипотеза (H0) – это утверждение статус-кво, что никакой разницы или никакого эффекта на самом деле нет. Альтернативная гипотеза (H1) утверждает, что некоторая разница (или эффект) все таки должна быть. 2. Задаем уровень значимости a Значимость (α) – вероятность того, что верная нулевая гипотеза будет отвергнута/Вероятность совершить ошибку первого рода принято обозначать через а; ее называют уровнем значимости β – вероятность того, что ложная нулевая гипотеза будет принята. Принятые уровни значимости: 0,01 (1%), 0,05 (5%) 3. Определение статистического критерия и вычисление k Один из критериев: Критерий χ2 (хи-квадрат) используется для проверки статистической значимости взаимосвязей между переменными, наблюдаемых в перекрестных таблицах. Тест χ2 проверяет равенство частотных распределений. описание критерия пирсона в вопросе 37 Kн – наблюдаемое (расчётное) значение статистического критерия. Kкрит– критическое значение статистического критерия для заданного уровня значимости. 5. Определяем критическую область: Vкр P(K принадлежит Vкр / Ho) = a Для критерия χ2 это значит: Если вероятность Kн меньше уровня значимости (α), то H0 надо отклонить. или Если Kн>Kкрит , то H0 надо отклонить. 6. Принятие решения: если Kнабл принадлежит Vкр - верна H1. Иначе H0. Если ситуация спорная (принадлежит, но близко к краю, проводят больше испытаний) **Ошибки первого и второго рода** Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза. Часто ошибки первого рода влекут более тяжелые последствия ### Вопрос 37: Критерий согласия Пирсона χ^2. **Проверка гипотезы о предполагаемом виде распределения** **Критерий согласия** — это статистическое правило, по которому принимается или отвергается статистическая гипотеза о том, что исследуемая случайная величина подчиняется заданному эмпирическому закону распределения: Хи-квадрат Пирсона, Колмогорова-Смирнова, t-критерий Стьюдента критерий χ2 (хи квадрат), который проверяет значимость расхождения эмпирических (наблюдаемых) и теоретических (ожидаемых) частот. ![](https://i.imgur.com/5cLz9gQ.png) $$ (хи)^2 = \sum_{i = 1}^{l}\frac{(n_i - n_{iтеор})^2}{n_{iтеор}}\\ k = l - r - 1 $$ l - количество разных групп. r - число параметров распределения (например для нормально оно = 2) k - степень свободы **Алгоритм проверки гипотезы о нормальном распределении** строим интервальный ряд | [x1,x2) | [x2,x3) | [xe-1, xe] | | ------- | ------- | ---------- | | n1 | n2 | ne | $$ a_i = \frac{x_i + x_{i+1}}{2} $$ | a1 | a2 | ae | | ---- | ---- | ---- | | n1 | n2 | ne | Находим среднее значение, исправленную дисперсию (или выборочную дисперсию). Определяем числовые характеристики распределения: x с чертой, S^2, S Вычисляем теоретические частоты генеральной совокупности $$ n_{iтеор} = n*P_i\\ p = Ф(\frac{x_{i + 1} - \overline{x}}{s}) - Ф(\frac{x_{i} - \overline{x}}{s})\\ (хи)^2_{набл} = \sum_{i = 1}^{l}\frac{n_i^2}{n_{iтеор}} = n\\ (хи)^2_{кр} (\alpha, k = l - 3) $$ Сравниваем хи-квадрат-наблюдаемое и хи-квадрат-критическое. Если первое меньше второго, то нет основания отвергать гипотезу H0. Иначе отвергаем гипотезу. Условие применение этого критерия: достаточно большой объем выборки. n>= 50. l от 7 до 15. ni >= 5. Если гипотеза подтвердилась, то опыт нужно повторить для надежности с большим n Есть таблица для критических значений хи-квадрат ![](https://i.imgur.com/3aYeP4E.png) ### Вопрос 38: Критерий Стьюдента. Часто используется для проверки гипотезы "среднее значение двух выборок относится к 1 и той же генеральной совокупности" Условия применения: — данные распределялись по закону нормального распределения; — данные были количественными; — данные - две независимые между собой выборки (независимые это значит, что в этих группах разные объекты, а не одни и те же в разных временах/ситуациях) Для проверки о равенстве генаральных средних двух независимых выборок. Двухвыборочный критерий $$ t_{эмпирич} = \frac{\overline{x} - \overline{y}}{\sigma_{x-y}}\\ \sigma_{x-y} = \sqrt(\frac{\sum(x_i - \overline{x})^2 + \sum(y_i - \overline{y})^2}{n_1 + n_2 - 2}(\frac{1}{n_1} + \frac{1}{n_2}))\\ $$ Есть таблица для критических значений t k = n1 + n2 - 2 ![](https://i.imgur.com/v3Ql8Fy.png) ![](https://i.imgur.com/i9SIaLM.png) ### Вопрос 39: Точный критерий Фишера. **Критерий фишера** (F тест) позволяет сравнивать величины двух выборочных дисперсий двух независимых выборок. Величина числителя должна быть больше или равна знаменателю. $$ F_{эмп} = \frac{\sigma_x^2}{\sigma_y^2}\\ k1 = n1 -1\\ k2 = n2 -1\\ $$ ![](https://i.imgur.com/gSGDoMu.png) **Точний критерий фишера**. Тест обычно используется, чтобы исследовать значимость взаимосвязи между двумя переменными в факторной таблице размерности 2x2 (таблице сопряжённости признаков) Точный тест Фишера использует следующие нулевые и альтернативные гипотезы: H 0: (нулевая гипотеза) Две переменные независимы. H 1: (альтернативная гипотеза) Две переменные не являются независимыми. С большими выборками в этой ситуации может использоваться тест хи-квадрат. Однако этот тест не является подходящим, когда математическое ожидание значений в любой из ячеек таблицы с заданными границами оказывается ниже 10: вычисленное выборочное распределение испытуемой статистической величины только приблизительно равно теоретическому распределению хи-квадрат, и приближение неадекватно в этих условиях в факторной таблице размера 2x2 число степеней свободы всегда равно одному. :::success Пример: Дана таблица. ![](https://i.imgur.com/k9yGTxo.png) Обозначим числа в ячейках буквами a,b,c,d соответственно, назовём итоги суммирования по строкам и столбцам маргинальными (граничными) итогами и представим общий итог буквой n Теперь таблица выглядит следующим образом: ![](https://i.imgur.com/4eP6q0K.png) Одностороннее значение p для точного критерия Фишера рассчитывается как: ![](https://i.imgur.com/AY4hZoP.png) Двустороннее значение рассчитывается хз как, находила только калькуляторы Чтобы принять нулевую гипотезу, нужно чтобы двустороннее значение (или одностороннее, если есть только оно) было меньше чем a :::