Выделения        02.05.2024   

Ю математическая статистика. Студентам и школьникам - книги, математическая статистика

2-е изд., испр. - М.: 2009.- 472 с.

Основы теории вероятностей и математической статистики излагаются в форме примеров и задач с решениями. Книга также знакомит читателя с прикладными статистическими методами. Для понимания материала достаточно знания начал математического анализа. Включено большое количество рисунков, контрольных вопросов и числовых примеров. Для студентов, изучающих математическую статистику, исследователей и практиков (экономистов, социологов, биологов), применяющих статистические методы.

Формат: pdf

Размер: 10,7 Мб

Смотреть, скачать: drive.google

ОГЛАВЛЕНИЕ
Предисловие 3
К читателю 5
Часть I. Вероятность и статистическое моделирование 7
Глава 1. Характеристики случайных величин 7
§ 1. Функции распределения и плотности 7
§ 2. Математическое ожидание и дисперсия 10
§ 3. Независимость случайных величин 12
§ 4. Поиск больных 13
Задачи 14
Решения задач 15
Ответы на вопросы 18
Глава 2. Датчики случайных чисел 19
§ 1. Физические датчики 19
§ 2. Таблицы случайных чисел 20
§ 3. Математические датчики 21
§ 4. Случайность и сложность 22
§ 5. Эксперимент «Неудачи» 24
§6. Теоремы существования и компьютер 26
Задачи 26
Решения задач 27
Ответы на вопросы 29
Глава 3. Метод Монте-Карло 30
§ 1. Вычисление интегралов 30
§ 2. «Правило трех сигм» 31
§ 3. Кратные интегралы 32
§ 4. Шар, вписанный в fc-мерный куб 35
§ 5. Равномерность по Вейлю 36
§ 6. Парадокс первой цифры 37
Задачи 38
Решения задач 39
Ответы на вопросы 41
Глава 4. Показательные и нормальные датчики 42
§ 1. Метод обратной функции 42
§ 2. Распределения экстремальных значений 43
§ 3. Показательный датчик без логарифмов 45
§ 4. Быстрый показательный датчик 46
§ 5. Нормальные случайные числа 50
§ 6. Наилучший выбор 52
Задачи 54
Решения задач 54
Ответы на вопросы 57
Глава 5. Дискретные и непрерывные датчики 58
§ 1. Моделирование дискретных величин 58
§ 2. Порядковые статистики и смеси 60
§ 3. Метод Неймана (метод исключения) 64
§ 4. Пример из теории игр 66
Задачи 67
Решения задач 68
Ответы на вопросы 69
Часть II. Оценивание параметров 71
Глава 6. Сравнение оценок 72
§ 1. Статистическая модель 72
§ 2. Несмещенность и состоятельность 73
§ 3. Функции риска 76
§ 4. Минимаксная оценка в схеме Бернулли 78
Задачи 79
Решения задач 80
Ответы на вопросы 83
Глава 7. Асимптотическая нормальность 84
§ 1. Распределение Коши 84
§ 2. Выборочная медиана 86
§ 3. Выборочные квантили 87
§ 4. Относительная эффективность 89
§ 5. Устойчивые законы 91
Задачи 93
Решения задач 94
Ответы на вопросы 98
Глава 8. Симметричные распределения 99
§ 1. Классификация методов статистики 99
§ 2. Усеченное среднее 100
§ 3. Медиана средних Уолша 102
§ 4. Робастность 103
Задачи 106
Решения задач 106
Ответы на вопросы 109
Глава 9. Методы получения оценок ПО
§ 1. Вероятностная бумага 110
§ 2. Метод моментов 112
§ 3. Информационное неравенство 114
§ 4. Метод максимального правдоподобия 116
§ 5. Метод Ньютона и одношаговые оценки 119
§ 6. Метод спейсингов 122
Задачи 123
Решения задач 124
Ответы на вопросы 127
Глава 10. Достаточность 129
§ 1. Достаточные статистики 129
§ 2. Критерий факторизации 130
§ 3. Экспоненциальное семейство 132
§ 4. Улучшение несмещенных оценок 133
§ 5. Шарики в ящиках 134
Задачи 140
Решения задач 141
Ответы на вопросы 144
Глава 11. Доверительные интервалы 145
§ 1. Коэффициент доверия 145
§ 2. Интервалы в нормальной модели 146
§ 3. Методы построения интервалов 151
Задачи 155
Решения задач 156
Ответы на вопросы 158
Часть III. Проверка гипотез 159
Глава 12. Критерии согласия 160
§ 1. Статистический критерий 160
§ 2. Проверка равномерности 161
§ 3. Проверка показательности 164
§ 4. Проверка нормальности 167
§ 5. Энтропия 170
Задачи 175
Решения задач 175
Ответы на вопросы 178
Глава 13. Альтернативы 180
§ 1. Ошибки I и II рода 180
§ 2. Оптимальный критерий Неймана-Пирсона 183
§ 3. Последовательный анализ 187
§ 4. Разорение игрока 190
§ 5. Оптимальная остановка блуждания 193
Задачи 195
Решения задач 195
Ответы на вопросы 197
Часть IV. Однородность выборок 199
Глава 14. Две независимые выборки 200
§ 1. Альтернативы однородности 200
§ 2. Правильный выбор модели 201
§ 3. Критерий Смирнова 202
§ 4. Критерий Розенблатта 203
§ 5. Критерий ранговых сумм Уилкоксона 204
§ 6. Принцип отражения 209
Задачи 214
Решения задач 215
Ответы на вопросы 217
Глава 15. Парные повторные наблюдения 219
§ 1. Уточнение модели 219
§ 2. Критерий знаков 220
§ 3. Критерий знаковых рангов Уилкоксона 222
§ 4. Зависимые наблюдения 227
§ 5. Критерий серий 229
Задачи 231
Решения задач 232
Ответы на вопросы 236
Глава 16. Несколько независимых выборок 237
§ 1. Однофакторная модель 237
§ 2. Критерий Краскела-Уоллиса 237
§ 3. Критерий Джонкхиера 245
§ 4. Блуждание на плоскости и в пространстве 248
Задачи 253
Решения задач 254
Ответы на вопросы 257
Глава 17. Многократные наблюдения 259
§ 1. Двухфакторная модель 259
§ 2. Критерий Фридмана 260
§ 3. Критерий Пейджа 263
§ 4. Счастливый билетик и возвращение блуждания 265
Задачи 269
Решения задач 270
Ответы на вопросы 271
Глава 18. Сгруппированные данные 273
§ 1. Простая гипотеза 273
§ 2. Сложная гипотеза 276
§ 3. Проверка однородности 280
Задачи 282
Решения задач 282
Ответы на вопросы 286
Часть V. Анализ многомерных данных 287
Глава 19. Классификация 288
§ 1. Нормировка, расстояния и классы 289
§ 2. Эвристические методы 291
§ 3. Иерархические процедуры 294
§ 4. Быстрые алгоритмы 297
§ 5. Функционалы качества разбиения 299
§ 6. Неизвестное число классов 307
§ 7. Сравнение методов 309
§ 8. Представление результатов 311
§ 9. Поиск в глубину 311
Задачи 313
Решения задач 313
Ответы на вопросы 315
Глава 20. Корреляция 317
§ 1. Геометрия главных компонент 317
§ 2. Эллипсоид рассеяния 322
§ 3. Вычисление главных компонент 324
§ 4. Линейное шкалирование 326
§ 5. Шкалирование индивидуальных различий 332
§ 6. Нелинейные методы понижения размерности 337
§ 7. Ранговая корреляция 343
§ 8. Множественная и частная корреляции 347
§ 9. Таблицы сопряженности 350
Задачи 352
Решения задач 353
Ответы на вопросы 356
Глава 21. Регрессия 357
§ 1. Подгонка прямой 357
§ 2. Линейная регрессионная модель 360
§ 3. Статистические свойства МНК-оценок 363
§ 4. Общая линейная гипотеза 368
§ 5. Взвешенный МНК 372
§ 6. Парадоксы регрессии 376
Задачи 382
Решения задач 383
Ответы на вопросы 386
Часть VI. Обобщения и дополнения 387
Глава 22. Ядерное сглаживание 388
§ 1. Оценивание плотности 388
§ 2. Непараметрическая регрессия 392
Глава 23. Многомерные модели сдвига 399
§ 1. Стратегия построения критериев 399
§ 2. Одновыборочная модель 399
§ 3. Двухвыборочная модель 406
Глава 24. Двухвыборочная задача о масштабе 411
§ 1. Медианы известны или равны 411
§ 2. Медианы неизвестны и неравны 414
Глава 25. Классы оценок 417
§ 1. L-оценки 417
§ 2. М-оценки 419
§ 3. Д-оценки 423
§ 4. Функция влияния 426
Глава 26. Броуновский мост 428
§ 1. Броуновское движение 428
§ 2. Эмпирический процесс 429
§ 3. Дифференцируемые функционалы 430
Приложение. Некоторые сведения из теории вероятностей и линейной алгебры 435
Раздел 1. Аксиоматика теории вероятностей 435
Раздел 2. Математическое ожидание и дисперсия 435
Раздел 3. Формула свертки 437
Раздел 4. Вероятностные неравенства 437
Раздел 5. Сходимость случайных величин и векторов 438
Раздел 6. Предельные теоремы 439
Раздел 7. Условное математическое ожидание 440
Раздел 8. Преобразование плотности случайного вектора. . 441
Раздел 9. Характеристические функции и многомерное нормальное распределение 442
Раздел 10. Элементы матричного исчисления 444
Таблицы 449
Литература 456
Обозначения и сокращения 460
Предметный указатель 462

Перед Вами, уважаемый читатель, итог размышлений автора о содержании начального курса математической статистики. Настоящая книга -это, в первую очередь, множество занимательных примеров и задач, собранных из различных источников. Задачи предназначены для активного освоения понятий и развития у читателя навыков квалифицированной статистической обработки данных. Для их решения достаточно знания элементов математического анализа и теории вероятностей (краткие сведения по теории вероятностей и линейной алгебре даны в приложении).
Акцент делается на наглядном представлении материала и его неформальном пояснении. Теоремы, как правило, приводятся без доказательств (со ссылкой на источники, где их можно найти). Наша цель -и осветить практически наиболее важные идеи математической статистики, и познакомить читателя с прикладными методами.
Первая часть книги (гл. 1-5) может служить введением в теорию вероятностей. Особенностью этой части является подход к освоению понятий теории вероятностей через решение ряда задач, относящихся к области статистического моделирования (имитации случайности на компьютере). Ее материал, в основном, доступен школьникам старших классов и студентам 1-го курса.
Вторая и третья части (гл. 6-13) посвящены, соответственно, оценкам параметров статистических моделей и проверке гипотез. Они могут быть особенно полезны студентам при подготовке к экзамену по математической статистике.
Четвертая и пятая части (гл. 14-21) предназначаются, в первую очередь, лицам, желающим применить статистические методы для анализа экспериментальных данных.
Наконец, шестая часть (гл. 22-26) включает в себя ряд более специальных тем, обобщающих и дополняющих содержание предыдущих глав.
Собранный в книге материал неоднократно использовался на занятиях по математической статистике на механико-математическом факультете МГУ им. М. В. Ломоносова.
Автор будет считать свой труд небесполезным, если, перелистав книгу, читатель не потеряет к ней интереса, а захочет ознакомиться
с теорией и приложениями статистики как по этому, так и по другим учебникам.
При работе над книгой образцом для автора была популярная серия книг для школьников Я. И. Перельмана. Хотелось, по возможности, использовать живую форму изложения и стиль, характерный для этой серии.

Методы математической статистики


1. Введение

Математической статистикой называется наука, занимающаяся разработкой методов получения, описания и обработки опытных данных с целью изучения закономерностей случайных массовых явлений.

В математической статистике можно выделить два направления: описательную статистику и индуктивную статистику (статистический вывод). Описательная статистика занимается накоплением, систематизацией и представлением опытных данных в удобной форме. Индуктивная статистика на основе этих данных позволяет сделать определенные выводы относительно объектов, о которых собраны данные, или оценки их параметров.

Типичными направлениями математической статистики являются:

1) теория выборок;

2) теория оценок;

3) проверка статистических гипотез;

4) регрессионный анализ;

5) дисперсионный анализ.

В основе математической статистики лежит ряд исходных понятий без которых невозможно изучение современных методов обработки опытных данных. В ряд первых из них можно поставить понятие генеральной совокупности и выборки.

При массовом промышленном производстве часто нужно без проверки каждого выпускаемого изделия установить, соответствует ли качество продукции стандартам. Так как количество выпускаемой продукции очень велико или проверка продукции связана с приведением ее в негодность, то проверяется небольшое количество изделий. На основе этой проверки нужно дать заключение о всей серии изделий. Конечно нельзя утверждать, что все транзисторы из партии в 1 млн. штук годны или негодны, проверив один из них. С другой стороны, поскольку процесс отбора образцов для испытаний и сами испытания могут оказаться длительными по времени и привести к большим затратам, то объем проверки изделий должен быть таким, чтобы он смог дать достоверное представление о всей партии изделий, будучи минимальных размеров. С этой целью введем ряд понятий.

Вся совокупность изучаемых объектов или экспериментальных данных называется генеральной совокупностью. Будем обозначать через N число объектов или количество данных, составляющих генеральную совокупность. Величину N называют объемом генеральной совокупности. Если N>>1, то есть N очень велико, то обычно считают N = ¥.

Случайной выборкой или просто выборкой называют часть генеральной совокупности, наугад отобранную из нее. Слово "наугад" означает, что вероятности выбора любого объекта из генеральной совокупности одинакова. Это важное предположение, однако, часто трудно это проверить на практике.

Объемом выборки называют число объектов или количество данных, составляющих выборку, и обозначают n . В дальнейшем будем считать, что элементам выборки можно приписать соответственно числовые значения х 1 , х 2 , ... х n . Например, в процессе контроля качества производимых биполярных транзисторов это могут быть измерения их коэффициента усиления по постоянному току.


2. Числовые характеристики выборки

2.1 Выборочное среднее

Для конкретной выборки объема n ее выборочное среднее

определяется соотношением

где х i – значение элементов выборки. Обычно требуется описать статистические свойства произвольных случайных выборок, а не одной из них. Это значит, что рассматривается математическая модель, которая предполагает достаточно большое количество выборок объема n. В этом случае элементы выборки рассматриваются как случайные величины Х i , принимающие значения х i с плотностью вероятностей f(x), являющейся плотностью вероятностей генеральной совокупности. Тогда выборочное среднее также является случайной величиной

равной

Как и ранее будем обозначать случайные величины прописными буквами, а значения случайных величин – строчными.

Среднее значение генеральной совокупности, из которой производится выборка, будем называть генеральным средним и обозначать m x . Можно ожидать, что если объем выборки значителен, то выборочное среднее не будет заметно отличаться от генерального среднего. Поскольку выборочное среднее является случайной величиной, для нее можно найти математическое ожидание:

Таким образом, математическое ожидание выборочного среднего равно генеральному среднему. В этом случае говорят, что выборочное среднее является несмещенной оценкой генерального среднего. В дальнейшем мы вернемся к этому термину. Так как выборочное среднее является случайной величиной, флуктуирующей вокруг генерального среднего, то желательно оценить эту флуктуацию с помощью дисперсии выборочного среднего. Рассмотрим выборку, объем которой n значительно меньше объема генеральной совокупности N (n << N). Предположим, что при формировании выборки характеристики генеральной совокупности не меняются, что эквивалентно предположению N = ¥. Тогда

Случайные величины Х i и X j (i¹j) можно считать независимыми, следовательно,

Подставим полученный результат в формулу для дисперсии:

где s 2 – дисперсия генеральной совокупности.

Из этой формулы следует, что с увеличением объема выборки флуктуации среднего выборочного около среднего генерального уменьшаются как s 2 /n. Проиллюстрируем сказанное примером. Пусть имеется случайный сигнал с математическим ожиданием и дисперсией соответственно равными m x = 10, s 2 = 9.

Отсчеты сигнала берутся в равноотстоящие моменты времени t 1 , t 2 , ... ,

X(t)

X 1

t 1 t 2 . . . t n t

Так как отсчеты являются случайными величинами, то будем их обозначать X(t 1), X(t 2), . . . , X(t n).

Определим количество отсчетов, чтобы среднее квадратическое отклонение оценки математического ожидания сигнала не превысило 1% его математического ожидания. Поскольку m x = 10, то нужно, чтобы

С другой стороны поэтому или Отсюда получаем, что n ³ 900 отсчетов.

2.2 Выборочная дисперсия

По выборочным данным важно знать не только выборочное среднее, но и разброс выборочных значений около выборочного среднего. Если выборочное среднее является оценкой генерального среднего, то выборочная дисперсия должна быть оценкой генеральной дисперсии. Выборочная дисперсия

для выборки, состоящей из случайных величин определяется следующим образом

Используя это представление выборочной дисперсии, найдем ее математическое ожидание

«Некоторые люди думают, что они всегда правы. Такие люди не могли бы ни быть хорошими учёными, ни иметь какой – либо интерес к статистике… Случай был с неба спущен на землю, где он стал частью мира науки». (Дайменд С.)

«Случай - только мера нашего невежества. Случайными явлениями, если дать им определение, будут те, законов которых мы не знаем». (А. Пуанкаре «Наука и гипотеза»)

«Слава случаю. Разве не случай
С непреложным всегда наравне…
Случай часто событием правит,
Порождает и радость, и боль.
И задачу пред нами жизнь ставит:
Как постигнуть случайности роль»
(из книги Б.А. Кордемского «Математика изучает случайности»)

Сам мир закономерен – так мы часто считаем и изучаем законы физики, химии и т.д., и всё же ничто не происходит без вмешательства случайности, возникающей под воздействием непостоянных, побочных причинных связей, изменяющих ход явления или опыта при его повторении. Создаётся «эффект случайности» с присущей закономерностью «скрытой предопределённости», т.е. у случайности появляется необходимость закономерного исхода.

Математики случайные события рассматривают лишь в дилемме « быть или не быть» - наступит или не наступит.

Определение. Раздел прикладной математики, в котором исследуются количественные характеристики массовых случайных событий или явлений, называется математической статистикой.

Определение. Соединение элементов теории вероятностей и математической статистики называют стохастикой.

Определение. Стохастика - это тот раздел математики, который возник и развивается в тесной связи с практической деятельностью человека. Сегодня элементы стохастики входят в математику для всех, становятся новым, важным аспектом математического и общего образования.

Определение. Математическая статистика – наука о математических методах систематизации, обработки и использовании статистических данных для научных и практических выводов.

Поговорим об этом подробнее.

Общепринятой сейчас является точка зрения на математическую статистику как на науку об общих способах обработки результатов эксперимента. Решая эти проблемы, каким должен обладать эксперимент, чтобы сделанные на его основании суждения были правильными. Математическая статистика отчасти становится наукой о планировании эксперимента.

Значение слова «статистика» за последние два столетия претерпело значительные изменения, - пишут известные современные учёные Ходжес и Леман, - слово «статистика» имеет один корень со словом «государство» (state) и первоначально означало искусство и науку управления: первые преподаватели статистики университетов Германии 18-го века сегодня назывались бы специалистами по общественным наукам. Поскольку решения правительства до некоторой степени основываются на данных о населении, промышленности и т.д. статистики, естественно, стали интересоваться и такими данными, и постепенно слово «статистика» стало означать сбор данных о населении, о государстве, а затем вообще сбор и обработку данных. Нет смысла извлекать данные, если из этого не извлекается какая-то польза, и статистики, естественно, начинают заниматься интерпретацией данных.

Современный статистик изучает методы, при помощи которых можно сделать выводы о популяции на основе данных, которые обычно получают из выборки «популяции».

Определение. Статистик – человек, который занимается наукой о математических методах систематизации, обработке и использования статистических данных для научных и практических выводов.

Математическая статистика возникла в 17 веке и развивалась параллельно с теорией вероятностей. Дальнейшее развитие математической статистики (вторая половина 19 начало 20-ых веков) обязано в первую очередь, П.Л. Чебышеву, А.А. Маркову, А.М. Ляпунову, К. Гауссу, А. Кетле, Ф.Гальтону, К Пирсону, и др. В 20 –ом наиболее существенный вклад в математическую статистику был сделан А.Н. Колмогоровым, В.И. Романовским, Е.Е. Слуцким, Н.В. Смирновым, Б.В. Гнеденко, а также английскими Стъюдентом, Р. Фишером, Э. Пурсоном и американскими (Ю. Нейман, А Вальд) учёными.

Задачи математической статистики и значение ошибки в мире науки

Установление закономерностей, которым подчинены массовые случайные явления, основаны на изучении методами теории вероятностей статистических данных результатов наблюдений.

Первая задача математической статистики – указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.

Вторая задача математической статистики – разработать методы анализа статистических данных в зависимости от целей исследования.

Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирования эксперимента), в ходе исследования (последовательный анализ). Её можно определить как науку о принятии решений в условии неопределённости.

Кратко, можно сказать, задача математической статистики состоит в создании методов сбора и обработки статистических данных.

При изучении массового случайного явления предполагается, что все испытания производятся при одинаковых условиях, т.е. группа основных факторов, поддающихся учёту (измерению) и оказывающих существенное влияние на результат испытания, сохраняет по возможности одинаковые значения.

Случайные факторы искажают результат, который получился бы при наличии только основных факторов, делают его случайным. Отклонение результата каждого испытания от истинного называется ошибкой наблюдения, которая представляет собой случайную величину. Необходимо различать систематические ошибки и случайные.

Научный эксперимент немыслим без ошибки как океан, без соли. Любой поток фактов, пополняющий наше знание, приносит какую-то ошибку. Согласно известной поговорке в жизни у большинства людей ни в чём нельзя быть уверенным, кроме смерти и налогов, а учёный добавляет: “И ошибок опыта”.

Статистик- это “ищейка”, которая охотится за ошибкой. Статистика инструмент для обнаружения ошибки.

Слово “ошибка” не означает простой “просчёт”. Последствия просчёта – это небольшой и сравнительно неинтересный источник ошибки эксперимента.

Действительно, наши инструменты ломаются; наши глаза и уши могут обмануть нас; наши измерения никогда не бывают совершенно точными, иногда даже наши арифметические подсчёты бывают ошибочными. Ошибка эксперимента есть нечто более существенное, чем неточная рулетка или обман зрения. И так как важнейшее дело статистики помочь учёным проанализировать ошибку эксперимента, то мы должны попытаться понять, что же такое ошибка в действительности.

Над какой бы проблемой учёный не работал, она, безусловно, окажется более сложной, чем ему бы хотелось. Предположим, он измеряет выпадение радиоактивных осадков в разных широтах. Результаты будут зависеть от высоты над уровнем моря тех мест, где собраны образцы, от количества местных осадков и от высотных циклонов на более широких пространствах.

Экспериментальная ошибка - это неотъемлемая часть всякого подлинно научного опыта.

Один и тот же результат может быть ошибкой и информацией в зависимости от проблемы и точки зрения. Если биолог желает исследовать, как изменение в питании влияют на рост, то наличие родственной конституции являются источником ошибки; если же он изучает зависимость между наследственностью и ростом, источником ошибки будут различия в питании. Если физик хочет исследовать зависимость между электропроводностью и температурой, различия в плотности, служащего проводником материала, являются источником ошибки; если же он изучает зависимость между этой плотностью и электропроводностью, температурные изменения будут источником ошибки.

Это употребление слова ошибка может показаться сомнительным, и, возможно, предпочтительным было бы сказать, что полученные эффекты искажены “непредполагаемыми” или “нежелательными” воздействиями. Мы планируем эксперимент для изучения известных влияний, но случайные факторы, которые мы не в состоянии предвидеть или проанализировать, искажают результаты, добавляя к ним свои собственные эффекты.

Различия между запланированными эффектами и эффектами, обусловленными случайными причинами, подобно различию между движениями судна в море, плывущего по определённому курсу, и судна, дрейфующего бесцельно по воле изменчивых ветров и течений. Движение второго судна можно назвать движением случайным. Не исключено, что это судно может прийти в какой - либо порт, но более вероятно, что оно, ни в какое определённое место не придёт.

Статистики употребляют слово “случайный” для обозначения явления, исход которого в предстоящий момент времени совершенно невозможно предсказать.

Ошибка, обусловленная предусмотренными в опыте эффектами, бывает иногда скорее систематической, нежели случайной.

Систематическая ошибка вводит в заблуждение больше, чем случайная. Помехи, идущие от другой радиостанции, могут создать систематический музыкальный аккомпанемент, который вы иногда можете предсказать, если вы знаете мелодию. Но этот “аккомпанемент” может быть причиной того, что мы можем составить неправильное суждение о словах или о музыке программы, которую мы пытаемся услышать.

Однако обнаружение систематической ошибки часто наводит нас на след нового открытия. Знания, каким образом появляются случайные ошибки, помогают нам обнаружить систематические ошибки и, следовательно, исключить их.

Тот же характер рассуждений обычен и в наших житейских делах. Как часто мы замечаем: “Это не случайность!”. Всякий раз, когда мы можем это сказать – мы находимся на пути к открытию.

Например, А.Л. Чижевский, анализируя исторические процессы: увеличение смертности, эпидемии, начала войн, великие перемещения народов, резкие изменения климата и т.д. открыл зависимость между этими, не связанными между собой процессами и периодами солнечной активности, которые имеют циклы: 11 лет, 33 года.

Определение. Под систематической ошибкой понимается ошибка, повторяющаяся и одинаковая для всех испытаний. Она обычно связана с неправильным ведением эксперимента.

Определение. Под случайными ошибками понимаются ошибки, возникающие под влиянием случайных факторов и меняющихся случайным образом от опыта к опыту.

Обычно распределение случайных ошибок симметрично относительно нуля, откуда вытекает важный вывод: при отсутствии систематических ошибок истинный результат испытаний есть математическое ожидание случайной величины, конкретное значение которой фиксируется в каждом испытании.

Объектами изучения в математической статистике могут быть качественные или количественные признаки изучаемого явления или процесса.

В случае качественного признака подсчитывается число появлений этого признака в рассматриваемой серии опытов; это число и представляет собой изучаемую (дискретную) случайную величину. Примерами качественных признаков могут служить дефекты на готовой детали, демографические данные и т.д. Если признак является количественным, то в опыте производится прямое или косвенное измерения путём сравнения с некоторым эталоном - единицей измерения – с помощью различных измерительных приборов. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным – контролируемый размер детали.

Основные определения

Значительная часть математической статистики связана с необходимостью описать большую совокупность объектов.

Определение. Всю совокупность объектов, подлежащих изучению, называют генеральной совокупностью.

Генеральной совокупностью могут быть всё население страны, месячная продукция завода, популяция рыб, живущих в данном водоёме и т.д.

Но генеральная совокупность - это не просто множество. Если интересующая нас совокупность объектов слишком многочисленна, или объекты труднодоступны, или имеются другие причины, не позволяющие изучить все объекты, прибегают к изучению какой-то части объектов.

Определение. Та часть объектов, которая попала на проверку, исследование и т.п., называется выборочной совокупностью или просто выборкой.

Определение. Число элементов в генеральной совокупности и выборке называется их объёмами .

Как добиться, чтобы выборка наилучшим образом представляло целое, т.е. была бы репрезентативной?

Если целое, т.е. если генеральная совокупность нам мало известна или совсем неизвестна, не удаётся предложить ничего лучшего, чем чисто случайный выбор. Большая осведомлённость позволяет действовать лучше, но всё равно на некоторой стадии наступает незнание и, как результат – случайный выбор.

Но как осуществить чисто случайный выбор? Как правило, отбор идёт по легко наблюдаемым признакам, ради изучения которого ведётся исследование.

Нарушение же принципов случайного выбора приводило к серьезным ошибкам. Стал знаменитым своей неудачей опрос, проведённый американским журналом “Литературное обозрение” относительно исхода президентских выборов в 1936 году. Кандидатами на этих выборах были Ф.Д. Рузвельт и А.М. Ландон.

Кто победил?

В качестве генеральной совокупности редакция использовала телефонные книги. Отобрав случайно 4 миллиона адресов, она разослала открытки с вопросами об отношении к кандидатам в президенты по всей стране. Затратив большую сумму на рассылки и обработку открыток, журнал объявил, что на предстоящих выборах в президенты с большим перевесом победит Ландон. Результат выборов оказался противоположенным этому прогнозу.

Здесь были совершенны сразу две ошибки. Во-первых, телефонные книги не дают репрезентативную выборку из населения США – в основном зажиточные главы семейств. Во-вторых, прислали ответы не все люди, а в значительной части представители делового мира, которые и поддерживали Ландона.

В то же время социологи Дж. Гэллан и Э. Уорнер правильно предсказали победу Ф.Д. Рузвельта, основываясь только на четырёх тысячах анкетах. Причиной этого успеха было не только правильное составление выборки. Они учли, что общество распадается на социальные группы, которые более однородны по отношению к кандидатам в президенты. Поэтому выборка из слоя может быть относительно малочисленной с тем же результатом точности. Победил в итоге Рузвельт, который был сторонником реформ для менее богатых слоёв населения.

Имея результаты обследования по слоям, можно характеризовать общество в целом.

Что представляют собой выборки?

Это ряды чисел.

Более подробно остановимся на основных понятиях, характеризующих ряд выборки.

Из генеральной совокупности извлечена выборка объёмом n> n 1 , где n 1 – столько раз наблюдалось появление x 1 , n 2 - x 2 и т.д.

Наблюдаемые значения х i называют вариантами, а последовательность вариантов, записанных в возрастающем порядке - вариационным рядом. Числа наблюдений n i называют частотами и n i /n - относительными частотами (или частостями).

Определение. Различные значения случайной величины называются вариантами.

Определение. Вариационным рядом называется ряд, расположенный в порядке возрастания (или убывания) вариантов с соответствующими им частотами (частостями).

При изучении вариационных рядов наряду с понятиями частоты используется понятие накопленной частоты. Накопленные частоты (частости) для каждого интервала находятся последовательным суммированием частот всех предшествующих интервалов.

Определение. Накопление частот или частостей называют кумуляцией . Кумулировать можно частоты вариант и интервалов.

Характеристики ряда могут быть количественные и качественные.

Количественные (вариационные) характеристики – это характеристики, которые можно выразить числами. Их подразделяются на дискретные и непрерывные.

Качественные (атрибутивные) характеристики – это характеристики, которые не выражаются числами.

Непрерывные переменные – это переменные, которые выражаются действительными числами.

Дискретные переменные – это переменные, которые выражаются только целыми числами.

Выборки характеризуются центральными тенденциями : средним значением, модой и медианой. Средним значением выборки называют среднее арифметическое всех её значений. Мода выборки – те её значения, которые встречаются чаще всего. Медиана выборки – это число, “разделяющее” пополам упорядоченную совокупность всех значений выборки.

Вариационный ряд может быть дискретным или непрерывным.

Задача

Дана выборка: 1,3; 1,8; 1,2; 3,0; 2,1; 5; 2,4; 1,2; 3,2;1,2; 4; 2,4.

Это ряд вариантов. Расположив эти варианты в возрастающем порядке, мы получим вариационный ряд: 1,2; 1,2; 1,2; 1,3; 1,8; 2,1; 2,4; 2,4; 3,0; 3,2; 4; 5.

Среднее значение этого ряда равно 2,4.

Медиана ряда 2,25.

Мода ряда –1,2.

Дадим определения этим понятиям.

Определение. Медианой вариационного ряда называется то значение случайной величины, которое приходится на средину вариационного ряда (Ме).

Медианой упорядоченного ряда чисел с нечетным числом членов называется число, записанное посередине, а медианой упорядоченного ряда чисел с четным числом членов называется среднее арифметическое двух чисел, записанных посередине. Медианой произвольного ряда чисел называется медиана соответствующего упорядоченного ряда.

Определение. Модой вариационного ряда называют вариант (значение случайной величины), которому соответствует наибольшая частота (Мо), т.е. которая встречается чаще других.

Определение. Среднеарифметическим значением вариационного ряда называется результат деления суммы значений статистической переменной на число этих значений, то есть на число слагаемых.

Правило нахождения среднеарифметического значения выборки:

  1. каждую варианту умножить на её частоту (кратность);
  2. сложить все полученные произведения;
  3. поделить найденную сумму на сумму всех частот.

Определение. Размахом ряда называется разность между R=x max -x min , т.е. наибольшим и наименьшим значениями этих вариантов.

Проверим, правильно ли мы нашли среднее значение этого ряда, медиану и моду, опираясь на определения.

Сосчитали число членов, их 12 - чётное число членов, значит надо найти среднее арифметическое двух чисел записанных посередине, то есть 6 и 7-ой варианты. (2,1+2,4)\2=2.25 – медиана.

Мода. Модой является 1.2, т.к. только это число встречается 3 раза, а остальные встречаются меньше, чем 3 раза.

Среднеарифметическое значение находим так:

(1,2*3+1,3+1,8+2,1+2,4*2+3,0+3,2 +4+5)\12=2,4

Составим таблицу

Такие таблицы называют частотными. В них числа второй строки – частоты; они показывают, как часто встречаются в выборке те или другие её значения.

Определение. Относительной частотой значений выборки называют отношение её частоты к числу всех значений выборки.

Относительные частоты иначе называют частостями. Частоты и частости называют весами. Найдём размах ряда: R=5-1,2=3,8; Размах ряда равен 3,8.

Информация к размышлению

Среднее арифметическое – это условная величина. Реально она не существует. Реально существует общая сумма. Поэтому среднее арифметическое не есть характеристика одного наблюдения; она характеризует ряд в целом.

Среднее значение можно трактовать как центр рассеивания значений наблюдаемого признака, т.е. значения, около которого колеблются все наблюдаемые значения, причём алгебраическая сумма отклонений от среднего, всегда равна нулю, т.е. сумма отклонений от среднего в большую или меньшую сторону равны между собой.

Среднее арифметическое является абстрактной (обобщающей) величиной. Даже при задании ряда только из натуральных чисел, среднее значение может выражаться дробным числом. Пример: средний балл контрольной работы 3,81.

Среднее значение находится не только для однородных величин. Средняя урожайность зерновых по всей стране (кукуруза-50-60 ц. с га. и гречиха-по5-6 ц. с га, рожь, пшеница и т.д.), среднее потребление продуктов питания, средняя величина национального дохода на душу населения, средний показатель обеспеченности жильём, средний взвешенный показатель стоимости жилья, средняя трудоёмкость возведения здания и т.д. – это характеристики государства как единой народнохозяйственной системы, это так называемые системные средние.

В статистике широкое применение находят такие характеристики, как мода и медиана . Их называют структурными средними, т.к. значения этих характеристик определяются общей структурой ряда данных.

Иногда ряд может иметь две моды, иногда ряд может не иметь моды.

Мода является наиболее приемлемым показателем при выявлении расфасовки некоторого товара, которой отдают предпочтение покупатели; цены на товар данного вида, распространённый на рынке; как размер обуви, одежды, пользующийся наибольшим спросом; вид спорта, которым предпочитают заниматься большинство населения страны, города, посёлка школы и т.д.

В строительстве существует 8 вариантов плит по ширине, и более часто применяются 3 вида:1 м. 1,2 м. и 1,5 м. По длине 33 варианта плит, но чаще других применяются плиты длиной 4,8 м.; 5,7 м. и 6,0 м., мода на плиты чаще всего встречается среди этих 3-х размеров. Аналогично можно рассуждать и с марками окон.

Моду ряда данных находят тогда, когда хотят выявить некоторый типичный показатель.

Мода может быть выражена числом и словами, с точки зрения статистики мода – это экстремум частоты.

Медиана позволяет учитывать информацию о ряде данных, которую даёт среднее арифметическое и наоборот.

1. Математическая статистика. Введение

Математическая статистика - это такая дисциплина, которая применяется во всех областях научного знания.

Статистические методы предназначены для понимания "численной природы" действительности (Nisbett, et al., 1987).

Определение понятия

Математическая статистика - это раздел математики, посвященный методам анализа данных, преимущественно вероятностной природы. Она занимается систематизацией, обработкой и использованием статистических данных для теоретических и практ ических выводов.

Статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками. Здесь важно понять, что статистика имеет дело именно с количеством объектов, а не с их описательными признаками.

Цель статистического анализа - исследование свойств случайной величины. Для этого приходится несколько раз измерять значения изучаемой случайной величины. Полученная группа значений рассматривается как выборка из гипотетической генеральной совокупности .

Производится статистическая обработка выборки, и после этого принимается решение. Важно заметить, что вследствие начального условия неопределённости притятое решение всегда носит характер "нечёткого высказывания". Иными словами, в статистической обработке приходится иметь дело с вероятностями, а не с точными утверждениями.

Главное в статистическом методе - это подсчёт числа объектов, входящих в различные группы. Объекты собираются в группу по какому-то определённому общему признаку, а затем рассмотривается распределение этих объектов в группе по количественному выражению данного признака. В статистике часто применяется выборочный метод анализа, т.е. анализируется не вся группа объектов, а небольшая выборка - несколько объектов, взятых из большой группы. Широко используется теория вероятностей при статистической оценке наблюдений и при формировании выводов.

Основным предметом математической статистики является вычисление статистик (да простит нас читатель за тавтологию), являющихся критериями для оценки достоверности априорных предположений, гипотез или выводов по существу эмпирических данных.

Другое определение - “Статистики – это предписания, по которым из выборки рассчитывается некоторое число – значение статистики для данной выборки” [Закс, 1976]. Выборочные среднее и дисперсия, отношение дисперсий двух выборок или любые другие функции от выборки могут рассматриваться как статистики .

Вычисление "статистик" - это представление "одним числом" сложного стохастического (вероятностного) процесса.

Распределение Стьюдента

Статистики также являются случайными переменными. Распределения статистик (тест-распределения) лежат в основе критериев, которые построены на этой статистике. Например, В. Госсет, работая на пивоварне Гиннеса и публикуясь под псевдонимом “Стьюдент”, в 1908 г. доказал очень полезные свойства распределения отношения разности между выборочным средним и средним значением генеральной совокупности () к стандартной ошибке среднего значения генеральной совокупности , или t –статистики (распределение Стьюдента ):

. (5.7)

Распределение Стьюдента по форме при некоторых условиях приближается к нормальному .

Другими двумя важными распределениями выборочных статистик является c 2 -распределение и F -распределение , широко используемые в ряде разделов статистики для проверки статистических гипотез.

Итак, предмет математической статистики составляет формальная количественная сторона исследуемых объектов, безразличная к специфической природе самих изучаемых объектов.

По этой причине в приводимых здесь примерах речь идёт о группах данных, о числах, а не о конкретных измеряемых вещах. И поэтому по образцам расчётов, данных здесь, вы можете рассчитывать свои данные, полученные на самых разных объектах.

Главное - подобрать подходящий для ваших данных метод статистической обработки .

В зависимости от конкретных результатов наблюдений математическая статистика делится на несколько разделов.

Разделы математической статистики

        Статистика чисел.

        Многомерный статистический анализ.

        Анализ функций (процессов) и временных рядов.

        Статистика объектов нечисловой природы.

В современной науке считается, что любая область исследований не может быть настоящей наукой до тех пор, пока в неё не проникнет математика. В этом смысле математическая статистика является полномочным представителем математики в любой другой науке и обеспечивает научный подход к исследованиям. Можно сказать, что научный подход начинается там, где в исследовании появляется математическая статистика. Вот почему математическая статистика так важна для любого современного исследователя.

Хотите быть настоящим современным исследователем - изучайте и применяйте в своей работе математическую статистику!

Статистика с необходимостью появляется там, где происходит переход от единичного наблюдения к множественному. Если у вас имеется множество наблюдений, замеров и данных - то без математической статистики вам не обойтись.

Математическую статистику подразделяют на теоретическую и прикладную.

Теоретическая статистика доказывает научность и правильность самой статистики.

Теоретическая математи ческая статистика - наука, изучающая методы раскрытия закономерностей, свойственных большим совокупностям однородных объектов, на основании их выборочного обследования.

Этим разделом статистики занимаются математики, и они любят с помощь своих теоретических математических доказательств убеждать нас в том, что статистика сама по себе научна и ей можно доверять. Беда в том, что эти доказательства способны понять только другие математики, а обычным людям, которым нужно пользоваться математической статистикой эти доказательства всё равно не доступны, да и совершенно не нужны!

Вывод: Если вы не математик, то не тратьте зря свои силы на понимание теоретических выкладок по поводу математической статистики. Изучайте собственно статистические методы, а не их математические обоснования.

Прикладная статистика учит пользователей работать с любыми данными и получать обобщённые результаты. Неважно, какие именно это данные, важно, какое количество этих данных находится в вашем распоряжении. Кроме того, прикладная статистика подскажет нам, насколько можно верить в то, что полученные результаты отражают действительное положение дел.

Для разных дисциплин в прикладной статистике используют различные наборы конкретных методов. Поэтому различают следующие разделы прикладной статистики: биологическая, психологическая, экономическая и другие. Они отличаются друг от друга комплектацией примеров и приемов, а также излюбленными методами вычислений.

Можно привести следующий пример различий между применением прикладной статистики для разных дисциплин. Так, статистическое изучение режима турбулентных водных потоков производится на основе теории стационарных случайных процессов. Однако применение той же теории к анализу экономических временных рядов может привести к грубым ошибкам ввиду того, что допущение того, что распределение вероятностей сохраняется неизменным в этом случае, как правило, совершенно неприемлемо. Следовательно, для этих разных дисциплин потребуются разные статистические методы.

Итак, математическую статистику должен применять в своих исследованиях любой современный учёный. Даже тот учёный, который работает в направлениях, которые весьма далеки от математики. И он должен уметь применять прикладную статискику к своим данным, даже не зная её.

© Сазонов В.Ф., 2009.

Математическая статистика является одним из основных разделов такой науки, как математика, и представляет собой отрасль, изучающую методы и правила обработки определенных данных. Иными словами, она исследует способы раскрытия закономерностей, которые свойственны большим совокупностям одинаковых объектов, основываясь на их выборочном обследовании.

Задача данного раздела состоит в построении методов оценки вероятности или принятии определенного решения о характере развивающихся событий, опираясь на полученные результаты. Для описания данных используются таблицы, диаграммы, а также корреляционные поля. применяются редко.

Математическая статистика используются в различных областях науки. К примеру, для экономики важно обрабатывать сведения об однородных совокупностях явлений и объектов. Ими могут являться изделия, выпускаемые промышленностью, персонал, данные о прибыли и т. д. В зависимости от математической природы результатов наблюдений, можно выделить статистику чисел, анализ функций и объектов нечисловой природы, многомерный анализ. Помимо этого, рассматривают общие и частные (связанные с восстановлением зависимостей, использованием классификаций, выборочными исследованиями) задачи.

Авторы некоторых учебников считают, что теория математической статистики является лишь разделом теории вероятности, другие - что это самостоятельная наука, имеющая собственные цели, задачи и методы. Однако в любом случае ее использование очень обширно.

Так, наиболее ярко математическая статистика применима в психологии. Ее использование позволит специалисту правильно обосновать найти зависимость между данными, обобщить их, избежать многих логических ошибок и многое другое. Нужно отметить, что измерить тот или иной психологический феномен или свойство личности без вычислительных процедур часто просто невозможно. Это говорит о том, что азы данной науки необходимы. Иными словами, ее можно назвать источником и базой теории вероятностей.

Метод исследования, который опирается на рассмотрение статистических данных, используется и в других областях. Однако сразу необходимо отметить, что его черты в применении к объектам, имеющим различную природу происхождения, всегда своеобразны. Поэтому объединять в одну науку физическую или не имеет смысла. Общие же черты данного метода сводятся к подсчету определенного числа объектов, которые входят в ту или иную группу, а также изучению распределения количественных признаков и применению теории вероятностей для получения тех или иных выводов.

Элементы математической статистики используются в таких областях, как физика, астрономия и т. д. Здесь могут рассматриваться значения характеристик и параметров, гипотезы о совпадении каких-либо характеристик в двух выборках, о симметрии распределения и многое другое.

Большую роль математическая статистика играет в проведении Их целью чаще всего является построение адекватных методов оценивания и проверка гипотез. В настоящее время огромное значение в данной науке имеют компьютерные технологии. Они позволяют не только значительно упростить процесс расчета, но и создать для размножения выборок или при изучении пригодности полученных результатов на практике.

В общем случае методы математической статистики помогают сделать два вывода: или принять искомое суждение о характере или свойствах изучаемых данных и их взаимосвязей, или доказать, что полученных результатов недостаточно для того, чтобы делать выводы.