Лекция 1.6.2

Операционные системы копия 1

  • Современные операционные системы, Э. Таненбаум, 2002, СПб, Питер, 1040 стр., (в djvu 10.1Мбайт) подробнее>>
  • Сетевые операционные системы Н. А. Олифер, В. Г. Олифер (в zip архиве 1.1Мбайт)
  • Сетевые операционные системы Н. А. Олифер, В. Г. Олифер, 2001, СПб, Питер, 544 стр., (в djvu 6.3Мбайт) подробнее>>

7.1 Алгоритмы замещения страниц

Идеальный алгоритм заключается в том, что бы выгружать ту страницу, которая будет запрошена позже всех.

Но этот алгоритм не осуществим, т.к. нельзя знать какую страницу, когда запросят. Можно лишь набрать статистику использования.

7.1.1 Алгоритм NRU (Not Recently Used – не использовавшаяся в последнее время страница)

Используются биты обращения (R-Referenced) и изменения (M-Modified) в таблице страниц.

При обращении бит R выставляется в 1, через некоторое время ОС не переведет его в 0.

M переводится в 0, только после записи на диск.

Благодаря этим битам можно получить 4-ре класса страниц:

не было обращений и изменений (R=0, M=0)

не было обращений, было изменение (R=0, M=1)

было обращение, не было изменений (R=1, M=0)

было обращений и изменений (R=1, M=1)

7.1.2 Алгоритм FIFO (первая прибыла – первая выгружена)

Недостаток заключается в том, что наиболее часто запрашиваемая страница может быть выгружена.

7.1.3 Алгоритм “вторая попытка”

Подобен FIFO, но если R=1, то страница переводится в конец очереди, если R=0, то страница выгружается.

Алгоритм “вторая попытка”

В таком алгоритме часто используемая страница никогда не покинет память.

Но в этом алгоритме приходится часто перемещать страницы по списку.

7.1.4 Алгоритм “часы”

Чтобы избежать перемещения страниц по списку, можно использовать указатель, который перемещается по списку.

7.1.5 Алгоритм LRU (Least Recently Used – использовавшаяся реже всего)

Чтобы реализовать этот алгоритм, можно поддерживать список, в котором выстраивать страницы по количеству использования. Эта реализация очень дорога.

В таблице страниц добавляется запись – счетчик обращений к странице. Чем меньше значение счетчика, тем реже она использовалась.

7.1.6 Алгоритм “рабочий набор”

Замещение страниц по запросу – когда страницы загружаются по требованию, а не заранее, т.е. процесс прерывается и ждет загрузки страницы.

Буксование – когда каждую следующую страницу приходится процессу загружать в память.

Чтобы не происходило частых прерываний, желательно чтобы часто запрашиваемые страницы загружались заранее, а остальные подгружались по необходимости.

Рабочий набор – множество страниц (к), которое процесс использовал до момента времени (t). Т.е. можно записать функцию w(k,t).

Зависимость рабочего набора w(k,t) от количества запрошенных страниц

Т.е. рабочий набор выходит в насыщение, значение w(k,t) в режиме насыщения может служить для рабочего набора, который необходимо загружать до запуска процесса.

Алгоритм заключается в том, чтобы определить рабочий набор, найти и выгрузить страницу, которая не входит в рабочий набор.

Этот алгоритм можно реализовать, записывая, при каждом обращении к памяти, номер страницы в специальный сдвигающийся регистр, затем удалялись бы дублирующие страницы. Но это дорого.

В принципе можно использовать множество страниц, к которым обращался процесс за последние t секунд.

Текущее виртуальное время (Tv) – время работы процессора, которое реально использовал процесс.

Время последнего использования (Told) – текущее время при R=1, т.е. все страницы проверяются на R=1, и если да то текущее время записывается в это поле.

Теперь можно вычислить возраст страницы (не обновления) Tv-Told, и сравнить с t, если больше, то страница не входит в рабочий набор, и страницу можно выгружать.

Получается три варианта:

если R=1, то текущее время запоминается в поле время последнего использования

если R=0 и возраст > t, то страница удаляется

если R=0 и возраст = 7.1.7 Алгоритм WSClock

Алгоритм основан на алгоритме “часы”, но использует рабочий набор.

Используются битов R и M, а также время последнего использования.

Работа алгоритма WSClock

Это достаточно реальный алгоритм, который используется на практике.

7.2 Распределение памяти

7.2.1 Политика распределения памяти

Алгоритмы замещения бывают:

Пример глобального и локального алгоритма

В целом глобальный алгоритм работает лучше.

Можно поровну распределять страничные блоки между процессами.

Такой подход справедлив, но не эффективен, т.к. процессы разные.

Можно распределять страничные блоки между процессами, в зависимости от размеров процесса

Размер процесса динамически меняется, поэтому определить размер динамически сложно.

Частота страничных прерываний – может служить показателем потребности процесса в страницах.

Чем больше частота, тем больше памяти необходимо процессу.

Зависимость частоты страничных прерываний от размеров памяти предоставленной процессу

Если частота стала ниже линии В, то памяти процессу предоставлено слишком много.

Если частота стала выше линии А, то памяти процессу предоставлено слишком мало.

Если всем процессам не хватает памяти (происходит пробуксовка), то производится выгрузка какого то процесса на диск.

7.2.2 Размеры страниц

Есть два крайних случая:

Маленькие страницы – улучшает распределение памяти, но увеличивает таблицу и частые переключения уменьшают производительность.

Большие страницы – наоборот.

7.2.3 Совместно используемые страницы

Отдельные пространства команд и данных

Пример разделения пространства команд и данных

Совместно используемые страницы

Два процесса могут содержать в таблицах страниц указатели на общие страницы. В случае разделения пространств команд и данных это легко реализуется. Эти данные используются в режиме чтения.

В UNIX, когда создается дочерний процесс, у родительского и дочернего процесса общее пространство данных, и только если один из процессов попытается изменить данные, происходит прерывание и создание копии этой страницы, если записи не происходит, то оба процесса продолжают работать с общей памятью. Это приводит к экономии памяти.

7.2.4 Политика очистки страниц

Лучше всегда держать в запасе свободные блоки, освобождая их заранее, чем при нехватке памяти, искать и освобождать их.

Страничный демон – программа, периодически проверяющая состояние памяти, если занято много блоков, то производит выборочную выгрузку страниц.

7.3 Особенности реализации в UNIX

В UNIX системах последовательность запуска процессов, следующая:

процесс 0 – это свопер

процесс 1 – это init

процесс 2 – это страничный демон

Страничный демон просыпается каждые 250мс, и проверяет количество свободных страничных блоков, если их меньше 1/4 памяти, то он начинает выгружать страницы на диск. Он использует модифицированный алгоритм часов, и он является глобальным (т.е. он не различает, какому процессу принадлежит страница).

Читайте также:
Лекция 4.4

Каждые несколько секунд свопер проверяет, есть ли на диске готовые процессы для загрузки в память для выполнения. При этом сам код программы в своп-файле не сохраняется, а подкачивается непосредственно из файла программы.

В LUNIX системе нет предварительной загрузки страниц и концепции рабочего набора.

Тексты программ и отображаемые файлы подгружаются прямо из файлов расположенных на диске.

Все остальное выгружается в раздел свопинга или файлы свопинга (их может быть от 0 до 8).

Алгоритм выгрузки страниц основан на страничном демоне (kswapd), он активизируется раз в секунда и проверяет достаточно ли свободных страниц. Демон может быть активизирован и принудительно, при не хватке памяти.

Демон состоит из трех процедур:

В первой используется алгоритм часов, она ищет редко используемые страницы страничного кэша и буферного кэша файловой системы.

Вторая процедура ищет совместно редко используемые страницы.

Третья ищет редко используемые страницы одиночных пользователей. Сначала сканируются страницы у того процесса, у которого их больше всего.

В LINUX есть еще один демон – bdflush. Он регулярно просыпается и проверяет, не превысило ли определенное значение количество измененных страниц, если да то он начинает их принудительно сохранять на диск.

7.4 Особенности реализации в Windows

В Windows системах сегментация (следующая лекция) не поддерживается. Поэтому каждому процессу выделяется виртуальное адресное пространство в 4 Гбайт (ограничение 32 разрядов). Нижние 2 Гбайт доступны для процесса, а верхние 2 Гбайт отображаются на память ядра. В Advanced server и Datacenter server процесс может использовать до 3 Гбайт.

Страницы имеют фиксированный размер (на процессорах Pentium 4 Кбайт, на Itanium 8 или 16 Кбайт) и подгружаются по требованию.

Конфигурация виртуального адресного пространства Windows

Белым цветом выделены области приватных данных процесса.

Затемнены области, совместно используемые всеми процессами.

Области в 64 Кбайт в начале и в конце, используются для защиты виртуального адресного пространства процесса, при попытке чтения или записи в эти области будет вызвано прерывание.

Системные данные содержат указатели и таймеры, доступные на чтение другим процессам.

Отображение верхней части на память ядра, позволяет при переключении потока в режим ядра не менять карту памяти.

У страниц есть три состояния:

свободное – не используется

фиксированное – данные отображены в странице

зарезервированное – зарезервировано, но не занято данными (при создании потока)

Файлы свопинга может быть до 16, разделов свопинга нет. В файлах свопинга хранятся только изменяемые страницы.

Опережающая подкачка в Windows не используется.

В Windows используется понятие рабочий набор.

Страничный демон в Windows состоит из :

менеджера балансового множества – проверяет, достаточно ли свободных страниц.

менеджера рабочих наборов – который исследует рабочие наборы и освобождает страницы.

Также в Windows есть следующие демоны:

демон записи отображенных страниц – запись в отображенные файлы

Лекция 1.6.2

МОДУЛЬ 1 «Физические основы механики»

Неделя 1-2

Лекция 1. Введение.

Вводная. Предмет физики. Физический объект, физическое явление, физический закон. Физика и современное естествознание. Системы отсчёта. Кинематика материальной точки. Угловые скорость и ускорение твёрдого тела. Классический закон сложения скоростей и ускорений при поступательном движении подвижной системы отсчета.

Очное обучение: ОЛ-2: Введение. §1.1 – 1 .5; ОЛ-5: Введение. §1.1 – 1.3; ДЛ-12: §1 – 4, 7 – 9, ДЛ-14: §1 – 4

Дистанционное обучение: ОЛ-2: Введение. §1.1 – 1.5; ОЛ-5: Введение, §1.1 – 1.3; ДЛ-12: §1 – 4, 7 – 9; ДЛ-14: §1 – 4, МП-7: гл.1

Лекция 2 . Закон сохранения импульса.

Силы. Инерциальная система отсчета. Динамика материальной точки. Механическая система и ее центр масс. Уравнение изменения импульса механической системы. Закон сохранения импульса.

Очное обучение: ОЛ-2: §2.1 – 2.6, 2.8 – 2.11, 3.1 – 3.10; ОЛ-5: § 2.1 – 2.5, 3.1 – 3.4; ДЛ-12: § 18, 19, 21, 23; ДЛ-14: § 9 – 13, 18, 19

Дистанционное обучение: ОЛ-2: §2.1 – 2.6, 2.8 – 2.11, 3.1 – 3.10; ОЛ-5: §2.1 – 2.5, 3.1 – 3.4; ДЛ-12: §18, 19, 21, 23; ДЛ-14: §9 – 13, 18, 19; МП-7: гл.2.

Семинар 1. Кинематика.

Очное обучение: Ауд.: ОЛ-8: 1.15, 1.25, 1.41, 1.45, 1.52 или ОЛ-9: 1.15, 1.26, 1.41, 1.45, 1.52

Дома: ОЛ-8: 1.20, 1.47 или ОЛ-9: 1.20, 1.46; + ОЛ-10: 1.26, 1.54

Дистанционное обучение: ОЛ-8: 1.15, 1.20, 1.25, 1.41, 1.45, 1.47, 1.52 или ОЛ-9: 1.15, 1.20, 1.26, 1.41, 1.45, 1.46, 1.52; + ОЛ-10: 1.26, 1.54, МП-5 гл.1

Занятие 1 . Входное тестирование, вводная беседа и начало выполнения лабораторной работы №1 (М-1).

Очное и дистанционное обучение: ОЛ-2, ОЛ-5

Лекция 3. Закон сохранения момента импульса.

Момент силы. Моменты импульса материальной точки и механической системы. Уравнение моментов механической системы. Закон сохранения момента импульса механической системы.

Очное обучение: ОЛ-2: § 3.12, 5.1 – 5.4; ОЛ-5: §5.1 – 5.4; ДЛ-12: § 21, 24, 31, 32; ДЛ-14: § 30, 32, 33 – 36

Дистанционное обучение: ОЛ-2: §3.12, 5.1 – 5.4; ОЛ-5: §5.1 – 5.4; ДЛ-12: §21, 24, 31, 32; ДЛ-14: §30, 32, 33 – 36; МП-7: гл. 2.

Лекция 4 . Закон сохранения энергии в механике.

Работа и кинетическая энергия. Консервативные силы. Работа в потенциальном поле. Потенциальные энергии тяготения и упругих деформаций. Связь между потенциальной энергией и силой. Закон сохранения энергии.

Очное обучение: ОЛ-2: §3.2 – 3.8, 5.6 – 5.8; ОЛ-5: §4.1 – 4.6; ДЛ-12: §25, 33; ДЛ-14: §22–29

Дистанционное обучение: ОЛ-2: §3.2 – 3.8, 5.6 – 5.8; ОЛ-5: §4.1 – 4.6; ДЛ-12: §25, 33; ДЛ-14: §22 – 29; МП-7: гл. 3

Семинар 2. Закон сохранения импульса.

Очное обучение: Ауд.: ОЛ-8: 1.88, 1.108, 1.125, 1.144 или ОЛ-9: 1.85, 1.103, 1.120, 1.138

Дома: ОЛ-8: 1.87, 1.117 или ОЛ-9: 1.84, 1.112; + ОЛ-10: 2.34, 2.39

Дистанционное обучение: ОЛ-8: 1.87, 1.88, 1.108, 1.117, 1.125, 1.144 или ОЛ-9: 1.84, 1.85, 1.103, 1.112, 1.120, 1.138; + ОЛ-10: 2.34, 2.39, МП-5 гл.2

Читайте также:
Лекция 1.1

Очное и дистанционное обучение: ОЛ-2, ОЛ-5

Лекция 5 – 6. Колебания.

Гармонические колебания. Векторная диаграмма. Сложение гармонических колебаний одного направления равных и близких частот. Сложение взаимно перпендикулярных гармонических колебаний равных и кратных частот. Свободные незатухающие колебания. Энергия и импульс гармонического осциллятора. Фазовая траектория. Физический маятник. Квазиупругая сила. Свободные затухающие колебания. Декремент и логарифмический декремент колебаний. Вынужденные колебания. Установившиеся вынужденные колебания. Механический резонанс

Очное обучение: ОЛ-2: §8.1, 8.4 – 8.9, 8.11; ОЛ-5: §6.1 – 6.4; ДЛ-12: §50 – 54; ДЛ-14: §39 – 41, 81, 82, 85

Дистанционное обучение: ОЛ-2: §8.1, 8.4 – 8.9, 8.11; ОЛ-5: §6.1 – 6.4; ДЛ-12: §50 – 54; ДЛ-14: §39 – 41,81,82,85; МП-7: гл. 4.

Семинар 3 . Закон сохранения момента импульса.

Очное обучение: Ауд.: ОЛ-8: 1.228, 1.292, 1.310(а), 1.324 (а) или ОЛ-9: 1.207, 1.266, 1.282(а), 1.292(а)

Дома: ОЛ-8: 1.229, 1.287 (а) или ОЛ-9:1.208, 1.263 (а); + ОЛ-10: 3.25, 3.29.

Дистанционное обучение: ОЛ-8: 1.228, 1.229, 1.287(а), 1.292, 1.310(а), 1.324 (а) или ОЛ-9: 1.207, 1.208, 1.263(а), 1.266, 1.282(а), 1.292(а); + ОЛ-10: 3.25, 3.29, МП-5 гл.3

Очное и дистанционное обучение: ОЛ-2, ОЛ-5

Лекция 7. Механические волны.

Виды механических волн. Упругие волны в стержнях. Волновое уравнение. Плоская гармоническая волна, длина волны, фазовая скорость. Сферические волны. Объёмная плотность энергии волны. Вектор Умова-вектор плотности потока энергии. Когерентные волны. Интерференция волн. Стоячая волна.

Очное обучение: ОЛ-4: §1.1 – 1.7; ОЛ-6: §1.1 – 1.5; ДЛ-14: §81, 82, 85, МП-7; МП-8

Дистанционное обучение: ОЛ-4: §1.1 – 1.7; ОЛ-6: §1.1 – 1.5; ДЛ-14: §81, 82, 85; МП-8; МП-7: гл. 5.

Лекция 8 . Элементы релятивистской механики.

Преобразования Галилея. Инвариантность уравнений механики относительно преобразований Галилея. Специальная теория относительности. Постулаты Эйнштейна. Преобразования Лоренца. Кинематические следствия из преобразований Лоренца. Релятивистский закон сложения скоростей. Интервал событий. Элементы релятивистской динамики. Взаимосвязь массы и энергии. Связь между импульсом и энергией релятивистской частицы. Основное уравнение релятивистской динамики.

Очное обучение: ОЛ-2: § 6.1 – 6.8; ОЛ-5: §7.1 – 7.5, 8.1 – 8.4; ДЛ-12: §10 – 17, 20

Дистанционное обучение: ОЛ-2: §6.1 – 6.8; ОЛ-5: §7.1 – 7.5, 8.1 – 8.4; ДЛ-12: §10 – 17, 20; МП-7: гл. 6.

Семинар 4 . Закон сохранения энергии в механике.

Очное обучение: Ауд.: ОЛ-8: 1.158, 1.180, 1.194, 1.211, 1.310(б) или ОЛ-9: 1.148, 1.164, 1.176, 1.191, 1.282(б), 1.292(б)

Дома: ОЛ-8: 1.149, 1.169 или ОЛ-9: 1.142, 1.157; + ОЛ-10: 2.76, 2.87

Дистанционное обучение: ОЛ-8: 1.149, 1.158, 1.169, 1.180, 1.194, 1.211, 1.310(б) или ОЛ-9: 1.142, 1.148, 1.157, 1.164, 1.176, 1.191, 1.282(б), 1.292(б); + ОЛ-10: 2.76, 2.87, МП-5 гл.4

Очное и дистанционное обучение: ОЛ-1, ОЛ-2, ОЛ-4, ОЛ-6

Лекция 9. Элементы релятивистской механики.

Преобразования Галилея. Инвариантность уравнений механики относительно преобразований Галилея. Специальная теория относительности. Постулаты Эйнштейна. Преобразования Лоренца. Кинематические следствия из преобразований Лоренца. Релятивистский закон сложения скоростей. Интервал событий. Элементы релятивистской динамики. Взаимосвязь массы и энергии. Связь между импульсом и энергией релятивистской частицы. Основное уравнение релятивистской динамики.

Очное обучение: ОЛ-2: §6.1 – 6.8; ОЛ-5: §7.1 – 7.5, 8.1 – 8.4; ДЛ-12: §10 – 17, 20

Дистанционное обучение: ОЛ-2: §6.1 – 6.8; ОЛ-5: §7.1 – 7.5, 8.1 – 8.4; ДЛ-12: §10 – 17, 20; МП-7: гл. 6.

Статистический и термодинамический методы описания макроскопических тел. Термодинамическая система. Термодинамические состояния, обратимые и необратимые термодинамические процессы. Внутренняя энергия и температура термодинамической системы. Теплота и работа. Адиабатически изолированная система. Первое начало термодинамики.

Очное обучение: ОЛ-1: Введение. §1.1 – 1.5; ОЛ-3: §1.1 – 1.7; ДЛ-13: §1, 14, 16; ДЛ-15: §13, 41, 29

Дистанционное обучение: ОЛ-1: Введение, §1.1 – 1.5; ОЛ-3: §1.1 – 1.7; ОЛ-7: §1.1 – 1.2; ДЛ-13: §1, 14, 16; ДЛ-15: §13, 41, 29; МП-6.

Семинар 5 . Колебания и волны.

Очное обучение: Ауд.: ОЛ-8: 3.27, 3.64, 3.85, 3.186 или ОЛ-9: 4.25, 4.57, 4.79, 4.177

Дома: ОЛ-8: 3.12, 3.180 или ОЛ-9: 4.12, 4.176; + ОЛ-10: 6.45, 7.4

Дистанционное обучение: ОЛ-8: 3.12, 3.27, 3.64, 3.85, 3.180, 3.186 или ОЛ-9: 4.12, 4.25, 4.57, 4.79, 4.176, 4.177; + ОЛ-10: 6.45, 7.4, МП-5 гл.5, 6

МОДУЛЬ 2 «Молекулярная физика и термодинамика»

Лекция 11.

Уравнения состояния термодинамических систем. Уравнение Клапейрона-Менделеева. Идеально-газовый термометр. Основное уравнение молекулярно-кинетической теории. Равномерное распределение энергии по степеням свободы молекул. Внутренняя энергия идеального газа. Эффективный диаметр и средняя длина свободного пробега молекул газа. Экспериментальные подтверждения молекулярно-кинетической теории.

Очное обучение: ОЛ-1: §2.1 – 2.3; ОЛ-3: §1.8, 2.2 – 2.5, 7.2; ОЛ-3: §1.8, 2.2 – 2.5, 7.2; ДЛ-13: §8, 10, 11; ДЛ-15: §7, 8, 14, 86, 87

Дистанционное обучение: ОЛ-1: §2.1 – 2.3; ОЛ-3: §1.8, 2.2 – 2.5, 7.2; ОЛ-7: §1.5, 1.6, 2.3; ДЛ-13: §8, 10, 11; ДЛ-15: §7, 8, 14, 86, 87; МП-6

Теплоемкость идеального газа при изопроцессах. Адиабатический процесс, уравнение Пуассона. Политропический процесс. Теплоемкость и работа в политропических процессах. Газ Ван-дер-Ваальса. Внутренняя энергия газа Ван-дер-Ваальса.

Очное обучение: ОЛ-1: §2.4 – 2.7; ОЛ-3: §1.9 – 1.13; ОЛ-7: §1.3, 1.4, 1.7; ДЛ-13: §10, 17, 18, 32; ДЛ-15: §18, 21, 98, 103

Дистанционное обучение: ОЛ-1: §2.4 – 2.7; ОЛ-3: §1.9 – 1.13; ОЛ-7: §1.3, 1.4, 1.7; ДЛ-13: §10, 17, 18, 32; ДЛ-15: §18, 21, 98, 103; МП-6

Семинар 6. Теория относительности.

Очное обучение: Ауд.: ОЛ-8: 1.398, 1.415, 1.428, 1.443 или ОЛ-9: 1.365, 1.382, 1.395, 1.409

Дома: ОЛ-8: 1.396, 1.417 или ОЛ-9: 1.363, 1.384; + ОЛ-10 № 5.9, 5.30

Дистанционное обучение: ОЛ-8: 1.396, 1.398, 1.415, 1.417, 1.428, 1.443 или ОЛ-9: 1.363, 1.365, 1.382, 1.384, 1.395, 1.409; ОЛ-10 № 5.9, 5.30, МП-5 гл.7

Очное и дистанционное обучение: ОЛ-1, ОЛ-3, ОЛ-7

Лекция 13.

Тепловые и холодильные машины. Второе начало термодинамики. Цикл Карно. Теорема Карно. Термодинамическая шкала температур. Неравенство Клаузиуса. Термодинамическая энтропия. Закон возрастания энтропии. Третье начало термодинамики.

Читайте также:
Лекция 5.1

Очное обучение: ОЛ-1: § 3.1, 3.2, 3.4 – 3.10; ОЛ-3: § 2.11, 3.1 – 3.5; ОЛ-7: § 3.1 – 3.5; ДЛ-13: §19–22; ДЛ-15: §27 – 31, 37, 40, 41

Дистанционное обучение: ОЛ-1: § 3.1, 3.2, 3.4 – 3.10; ОЛ-3: § 2.11, 3.1 – 3.5; ОЛ-7: § 3.1 – 3.5; ДЛ-13: §19–22; ДЛ-15: §27 – 31, 37, 40, 41; МП-6

Основное неравенство и основное уравнение термодинамики. Понятие о термодинамических потенциалах. Эффект Джоуля-Томпсона. Принцип Ле-Шателье-Брауна. Введение в термодинамику необратимых процессов.

Очное обучение: ОЛ-1: §4.1 – 4.5; ОЛ-3: §3.6; ОЛ-7: §3.5, 3.6; ДЛ-13: §23, 33, 57; ДЛ-15: §29, 45, 46

Дистанционное обучение: ОЛ-1: §4.1 – 4.5; ОЛ-3: §3.6; ОЛ-7: §3.5, 3.6; ДЛ-13: §23, 33, 57; ДЛ-15: §29, 45, 46

Семинар 7 . Термодинамика.

Очное обучение: Ауд.: ОЛ-8: 6.3, 6.30, 6.47, 6.154 или ОЛ-9: 2.3, 2.30, 2.47, 2.138

Дома: ОЛ-8: 6.32, 6.137 или ОЛ-9: 2.32, 2.122; + ОЛ-10: 11.6, 11.61

Дистанционное обучение: ОЛ-8: 6.3, 6.30, 6.32, 6.47, 6.137, 6.154 или ОЛ-9: 2.3, 2.30, 2.32, 2.47, 2.122, 2.138; + ОЛ-10: 11.6, 11.61, МП-6

Очное и дистанционное обучение: ОЛ-1, ОЛ-3, ОЛ-7

Лекция 15.

Статистическое описание равновесных состояний. Функция распределения. Барометрическая формула. Распределения Больцмана. Принцип детального равновесия. Распределение Максвелла. Экспериментальная проверка распределения Максвелла. Фазовое пространство. Распределение Максвелла-Больцмана. Равновесные флуктуации. Статистическое обоснование второго начала термодинамики. Формула Больцмана для статистической энтропии.

Очное обучение: ОЛ-1: §5.1 – 5.9; ОЛ-3: §1.14, 2.1, 2.6 – 2.8, 2.10; ОЛ-7: §2.1 – 2.4; ДЛ-13: §8 – 10; ДЛ-15: §72, 76, 77

Дистанционное обучение: ОЛ-1: §5.1 – 5.9; ОЛ-3: §1.14, 2.1, 2.6 – 2.8, 2.10; ОЛ-7: §2.1 – 2.4; ДЛ-13: §8 – 10; ДЛ-15: §72, 76, 77, МП-1

Термодинамические потоки. Явления переноса в газах: диффузия, теплопроводность и вязкость. Эффузия в разреженном газе. Физический вакуум. Броуновское движение. Производство энтропии в необратимых процессах.

Очное обучение: О Л-1: §91, 120 – 127; ОЛ-11: §97, 98, 100, 102, 104

Дистанционное обучение: ОЛ-1: §6.1 – 6.5; ОЛ-3: §7.1, 7.3 – 7.7; ОЛ-7: §6.2, 6.3; ДЛ-13: §50 – 52, 54; ДЛ-15: §86 – 89, 93, 95; МП-2

Семинар 8 . Равновесные статистические распределения.

Очное обучение: Ауд.: ОЛ-8: 6.84, 6.96, 6.124, 6.208 или ОЛ-9: 2.81, 2.95, 2.119, 2.252

Дома: ОЛ-8: 6.68, 6.192 или ОЛ-9: 2.68, 2.236; + ОЛ-10: 10.16, 10.60

Дистанционное обучение: ОЛ-8: 6.68, 6.84, 6.96, 6.124, 6.192, 6.208 или ОЛ-9: 2.68, 2.81, 2.95, 2.119, 2.236, 2.252; + ОЛ-10: 10.16, 10.60, МП-1

Лекция 17.

Основные представления о строении жидкостей. Поверхностное натяжение. Формула Лапласа. Смачивание жидкостями поверхностей твердых тел. Капиллярные явления.

Очное обучение: ОЛ-1: §6.1 – 6.5; ОЛ-3: § 7.1, 7.3 – 7.7; ОЛ-7: §5.1 – 5.4; ДЛ-13: §34, 35, 41; ДЛ-15: §111, 112, 116, 120

Дистанционное обучение: ОЛ-1: §7.1 – 7.7; ОЛ-3: §5.1 – 5.5, 6.1-6.5; ОЛ-7: §5.1 – 5.4; ДЛ-13: §34, 35, 41; ДЛ-15: §111, 112, 116, 120

Лекция 18. Обзорная лекция.

Примечание: часть указанного в плане теоретического материала лектор по согласованию с методической комиссией кафедры дает студентам для самостоятельного изучения.

6/2(1+2) =? (простой вопрос по школьной программе)

Это не юмор, а просто попытка увидеть рассуждения разных людей по такому элементарному вопросу.

Поэтому пожалуйста пишите небольшие коменты под вашим ответом.

  • Вопрос задан более трёх лет назад
  • 550209 просмотров

Оценить 6 комментариев

  • Facebook
  • Вконтакте
  • Twitter

Приоритет операций:
скобки
умножение/деление (слева направо)
сложение/вычитание (слева направо)

Соответственно
6/2(1+2)
1. 6/2*3
2. 3*3
3. 9

  • Facebook
  • Вконтакте
  • Twitter

6/2(1+2)=6/2*(1+2)=6/2*3=3*3=9

  • Facebook
  • Вконтакте
  • Twitter

Прежде всего хочу напомнить, что в советской школе нас учили, что есть разница между умножением со знаком и без знака. А разница состоит в том, что при умножении без знака произведение рассматривается как цельная величина. На бытовом уровне, если 2а это литр жидкости, то 2×а это два пол-литра жидкости.
Рассмотрим пример:
2а:2а=1
при а=1+2
2(1+2):2(1+2)=6:2(1+2)=6:6=1
Для тех, кто не помнит этого правила, предлагаю решить пример на понимание:

Этот пример из «Сборника задач по алгебре», Часть I, для 6-7 классов. (П.А. Ларичев)
В интернете можно скачать его бесплатно и убедиться в моей правоте.
Исходя из вышесказанного 6:2(1+2)=1

И вот что я ещё нашёл недавно:
В пособии для математических факультетов педагогических институтов по курсу методики преподавания математики, по которому учили наших преподавателей алгебры в педагогических ВУЗах Советского Союза, однозначно сказано, что в алгебре знак умножения связывает компоненты действия сильнее, чем знак деления. А тот факт, что в спорном примере знак умножения опущен, говорит о том, что спорный пример алгебраический.

По нижеприведённой ссылке Вы можете скачать:
Методика преподавания алгебры, Курс лекций, Шустеф М. Ф., 1967 г.
https://russianclassicalschool.ru/biblioteka/matem.
Приложенный мной текст на 43-й странице пособия.

Так что, для тех, кто хорошо учился в советской школе 6:2(1+2) = 1

  • Facebook
  • Вконтакте
  • Twitter
  • Facebook
  • Вконтакте
  • Twitter

Рассказываю почему.
Вот картинка с двумя вариантами как кто видит формулу итоговую:

Кто считает, что первый вариант верен — получите в итоге 9.
Кто считает, что верен второй вариант — получат в итоге 1.

Но по правилам, раз 6/2 не заключено в скобки, значит всё что после дроби — находится в знаменателе, значит верен второй вариант.

  • Facebook
  • Вконтакте
  • Twitter

  • Facebook
  • Вконтакте
  • Twitter

  • Facebook
  • Вконтакте
  • Twitter

EugeneOZ, что-то не могу понять как вы дробь горизонтально запишете в текстовом редакторе. Можете пример привезти?
Если принимать слеш как дробь, а двоеточие как деление, то вот пара примеров.
Вариант 1.
6/2(1+2)

Если же Принимать слеш как деление — то как обозначать дробь? Только добавлять скобки, увеличивая формулу в габаритах.
То есть 6/(2(1+2))
А когда имеешь дело с кучей скобок (это в этом примере всего одни вложенные — а когда их с десяток?) — легче ошибиться. Кто учился на инженера в ВУЗе меня поймёт.

  • Facebook
  • Вконтакте
  • Twitter
Читайте также:
Лекция 2.3

  • Facebook
  • Вконтакте
  • Twitter
  • Facebook
  • Вконтакте
  • Twitter

  • Facebook
  • Вконтакте
  • Twitter

  • Facebook
  • Вконтакте
  • Twitter
  • Facebook
  • Вконтакте
  • Twitter

  • Facebook
  • Вконтакте
  • Twitter
  • Facebook
  • Вконтакте
  • Twitter
  • Facebook
  • Вконтакте
  • Twitter

  • Facebook
  • Вконтакте
  • Twitter

  • Facebook
  • Вконтакте
  • Twitter

А вот что в Маткаде получается

  • Facebook
  • Вконтакте
  • Twitter
  • Facebook
  • Вконтакте
  • Twitter
  • Facebook
  • Вконтакте
  • Twitter

Поставлю точку что ли. Проблема вытекает из математической неточности при записи деления “в столбик” при использовании горизонтальной черты. Ведь если в примере переписать 6 в числителе, а всё остальное в знаменателе – сомнений ни у кого не возникнет. Ответ будет однозначно 1 и это будет правильный ответ.

Теперь, допустим, перед нами задача запихнуть наш пример в строку. Очевидно что для компутера не существует никаких вертикальных черт. Также допустим что мы не очень внимательны и просто тупо заменяем черту делением, т.е. “/” или “*” в зависимости от парсера. Считаем в любом калькуляторе и с некоторой вероятностью (в зависимости от ответа на вопрос топика разрабочиком калькулятора) получаем 9. И это тоже правильный ответ.

Получаем 2 разных правильных результата для, как мы уверены, идентичного выражения. И проблема собственно в том, выражения в этих случаях нифига не идентичны. Напоминаю про порядок операций: скобки, умножение(то же самое что и деление), сумма. И вот когда мы пишем дробь с вертикальной чертой, на числитель и знаменатель неявно накладываются скобки, а между ними ставится знак деления. И вот про знак деления почему-то все помнят, когда избавляются от черты, а про скобки забывают. Либо намеренно вкладывают в “слеш” смысл вертикальной черты. Но единого стандарта по слешу нет, кто-то интерпретирует его как знак деления, а кто-то как знак деления со скобками для числителя со знаменателем. Проблему ещё создает то, что иногда они взаимозаменяемы, но это не общий случай, о чем многие забывают.

Иными словами:
1) a/b != a:b
2) a/b == (a):(b)
Из чего кстати следует что 2*2+2 != (2)*(2+2).

  • Facebook
  • Вконтакте
  • Twitter

Калькуляторы выдают разные результаты лишь по одной причине:
один калькулятор разбирает выражение «справа-налево», другой – «слева-направо».

Большинство общедоступных бытовых и инженерных калькуляторов (именно физических устройств, не ПК и не смартфон, а именно калькуляторов с кнопочками) разбирают выражения «справа-налево».

Всё остальное, что программируется современными прикладными программистами (калькулятор в Windows, смартфон, иные приложения) – разбирают выражения «слева-направо».

Чтобы понять почему выражение 6/2(1+2) в одном калькуляторе выдаёт 9, а в другом 1 – надо помнить об одном единственном правиле: для любого вычислительного устройства действие умножения и деления равнозначны (если, конечно, разработчик не заложил какую-то иную логику, что было бы нарушением правил математики?).

Вот и получается: при равнозначности действий умножения и деления, калькуляторы получают разные результаты потому и только лишь потому, что в случае «справа-налево» первым идет действие умножения, а в случае «слева-направо» – первым идёт действие деления.

6.1 Параметрические критерии

В группу параметрических критериев методов математической статистики входят методы для вычисления описательных статистик, построения графиков на нормальность распределения, проверка гипотез о при­надлежности двух выборок одной совокупности. Эти методы основыва­ются на предположении о том, что распределение выборок подчиняется нормальному (гауссовому) закону распределения. Среди параметрических критериев статистики нами будут рассмотрены критерий Стьюдента и Фишера.

6.1.1 Методы проверки выборки на нормальность

Чтобы определить, имеем ли мы дело с нормальным распределением, можно применять следующие методы:

1) в пределах осей можно нарисовать полигон частоты (эмпирическую функцию распределения) и кривую нормального распределения на основе данных исследования. Исследуя формы кривой нормального распределения и графика эмпирической функции распределения, можно выяснить те параметры, которыми последняя кривая отличается от первой;

2) вычисляется среднее, медиана и мода и на основе этого определяется отклонение от нормального распределения. Если мода, медиана и среднее арифметическое друг от друга значительно не отличаются, мы имеем дело с нормальным распределением. Если медиана значительно отличается от среднего, то мы имеем дело с асимметричной выборкой.

3) эксцесс кривой распределения должен быть равен 0. Кривые с положительным эксцессом значительно вертикальнее кривой нормального распределения. Кривые с отрицательным эксцессом являются более покатистыми по сравнению с кривой нормального распределения;

4) после определения среднего значения распределения частоты и стандартного oтклонения находят следующие четыре интервала распределения сравнивают их с действительными данными ряда:

а) — к интервалу должно относиться около 25% частоты совокупности,

б) — к интервалу должно относиться около 50% частоты совокупности,

в) — к интервалу должно относиться около 75% частоты совокупности,

г) — к интервалу должно относиться около 100% частоты совокупности.

6.1.2 Критерий Стьюдента ( t-критерий)

Критерий позволяет найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности».

При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух неза­висимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.

Во втором случае, когда одна и та же группа объектов порождает числовой матери­ал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными.

а) случай независимых выборок

Статистика критерия для случая несвязанных, независимых выборок равна:

(1)

где , — средние арифметические в эксперименталь­ной и контрольной группах,

– стан­дартная ошибка разности средних арифметических. Находится из формулы:

, (2)

где n 1 и n 2 соответственно величины первой и второй выборки.

Если n 1= n 2, то стандартная ошибка разности средних арифметических будет считаться по формуле:

(3)

где n величина выборки.

Подсчет числа степеней свободы осуществля­ется по формуле:

При численном равенстве выборок k = 2 n – 2.

Далее необходимо срав­нить полученное значение t эмп с теоретическим значением t—рас­пределения Стьюдента (см. приложение к учеб­никам статистики). Если t эмп t крит, то гипотеза H принимается, в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза.

Читайте также:
Лекция 3.1

Рассмотрим пример использования t -критерия Стьюдента для несвязных и неравных по численности выборок.

Пример 1 . В двух группах учащихся — экспериментальной и контрольной — получены следующие результаты по учеб­ному предмету (тестовые баллы; см. табл. 1). [1]

Таблица 1. Результаты эксперимента

Первая группа (экспериментальная) N 1=11 человек

Вторая группа (контрольная)

12 14 13 16 11 9 13 15 15 18 14

13 9 11 10 7 6 8 10 11

Общее количество членов выборки: n 1=11, n 2=9.

Расчет средних арифметических: Хср=13,636; Y ср=9,444

Стандартное отклонение: s x=2,460; s y =2,186

По формуле (2) рассчитываем стандартную ошибку разности арифметических средних:

Считаем статистику критерия:

Сравниваем полученное в эксперименте значение t с табличным значением с учетом степеней свободы, равных по формуле (4) числу испытуемых минус два (18).

Табличное значение tкрит равняется 2,1 при допущении возможности риска сделать ошибочное сужде­ние в пяти случаях из ста (уровень значимости=5 % или 0,05).

Если полученное в эксперименте эмпирическое значение t превы­шает табличное, то есть основания принять альтернативную гипотезу (H1) о том, что учащиеся экспериментальной группы показывают в среднем более высокий уровень знаний. В эксперименте t=3,981, табличное t=2,10, 3,981>2,10, откуда следует вывод о преимуществе эксперимен­тального обучения.

Здесь могут возникнуть такие вопросы:

1. Что если полученное в опыте значение t окажется меньше табличного? Тогда надо принять нулевую гипотезу.

2. Доказано ли преимущество экспериментального метода? Не столько доказано, сколько показано, потому что с самого начала допускается риск ошибиться в пяти случаях из ста (р=0,05). Наш эксперимент мог быть одним из этих пяти случаев. Но 95% возможных случаев говорит в пользу альтернативной гипотезы, а это достаточно убедительный аргумент в статистическом доказательстве.

3. Что если в контрольной группе результаты окажутся выше, чем в экспериментальной? Поменяем, например, местами, сделав средней арифметической эксперимен­тальной группы, a — контрольной:

Отсюда следует вывод, что новый метод пока не про­явил себя с хорошей стороны по разным, возможно, при­чинам. Поскольку абсолютное значение 3,9811>2,1, принимается вторая альтернативная гипотеза (Н2) о пре­имуществе традиционного метода.

б) случай связанных (парных) выборок

В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента.

Вычисление значения t осуществляется по формуле:

(5)

где — разности между соответствующими значениями переменной X и переменной У, а d – среднее этих разностей;

Sd вычисляется по следующей формуле:

(6)

Число степеней свободы k определяется по формуле k= n -1. Рассмотрим пример использования t -критерия Стьюдента для связных и, очевидно, равных по численности выборок.

Если t эмп t крит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.

Пример 2. Изучался уровень ориентации учащихся на художественно-эстети­ческие ценности. С целью активизации формирования этой ориентации в экспериментальной группе проводились бе­седы, выставки детских рисунков, были организованы по­сещения музеев и картинных галерей, проведены встречи с музыкантами, художниками и др. Закономерно встает вопрос: какова эффективность проведенной работы? С целью проверки эффективности этой работы до начала эксперимента и после давался тест. Из методических со­ображений в таблице 2 приводятся результаты небольшо­го числа испытуемых. [2]

Таблица 2. Результаты эксперимента

Вспомогательные расчеты

до начала экспери­мента (Х)

экспери­мента (У)

Вначале произведем расчет по формуле:

Затем применим формулу (6), получим:

И, наконец, следует применить формулу (5). Получим:

Число степеней свободы: k =10-1=9 и по таблице При­ложения 1 находим tкрит =2.262, экспериментальное t=6,678, откуда следует возможность принятия альтерна­тивной гипотезы (H1) о достоверных различиях средних арифметических, т. е. делается вывод об эффективности экспериментального воздействия.

В терминах статистических гипотез полученный результат будет звучать так: на 5% уров­не гипотеза Н отклоняется и принимается гипотеза Н1 .

6.1.3 F — критерий Фишера

Критерий Фишера позволяет сравнивать величины выбороч­ных дисперсий двух независимых выборок. Для вычисления Fэмп нуж­но найти отношение дисперсий двух выборок, причем так, что­бы большая по величине дисперсия находилась бы в числителе, а меньшая – в знаменателе. Формула вычисления критерия Фи­шера такова:

(8)

где – дисперсии первой и второй выборки соответственно.

Так как, согласно условию критерия, величина числителя должна быть больше или равна величине знаменателя, то значе­ние Fэмп всегда будет больше или равно единице.

Чис­ло степеней свободы определяется также просто:

k 1=nl – 1 для первой выборки (т.е. для той выборки, величина дисперсии которой больше) и k 2= n 2 – 1 для второй выборки.

В Приложе­нии 1 критические значения критерия Фишера находятся по величинам k 1 (верхняя строчка таблицы) и k 2 (левый столбец таблицы).

Если t эмп> t крит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.

Пример 3. В двух третьих классах проводилось тестирование умственного развития по тесту ТУРМШ десяти учащихся. [3] Полученные значения величин средних достоверно не различались, однако психолога интересует вопрос — есть ли различия в степени однородности показателей умственного развития между классами.

Решение. Для критерия Фишера необходимо сравнить дис­персии тестовых оценок в обоих классах. Резуль­таты тестирования представлены в таблице:

Рассчитав дисперсии для переменных X и Y, получаем:

Тогда по формуле (8) для расчета по F критерию Фишера находим:

По таблице из Приложения 1 для F критерия при степенях свободы в обоих случаях равных k =10 – 1 = 9 находим F крит=3,18 ( c следователь может утверждать, что по степени однородности такого показа­теля, как умственное развитие, имеется различие между выбор­ками из двух классов.

6.2 Непараметрические критерии

Сравнивая на глазок (по процентным соотношениям) результаты до и после какого-либо воздействия, исследователь приходит к заключению, что если наблюдаются различия, то имеет место различие в сравниваемых выборках. Подобный подход категорически неприемлем, так как для процентов нельзя определить уровень достоверности в различиях. Проценты, взятые сами по себе, не дают возможности делать статистически достоверные выводы. Чтобы доказать эффективность какого-либо воздействия, необходимо выявить статистически значимую тенденцию в смещении (сдвиге) показателей. Для решения подобных задач исследователь может использовать ряд критериев различия. Ниже будет рассмотрены непараметрические критерии: критерий знаков и критерий хи-квадрат.

Читайте также:
Лекция 3.6

6.2.1 Критерий знаков ( G-критерий)

Критерий предназначен для срав­нения состояния некоторого свойства у членов двух зави­симых выборок на основе измерений, сделанных по шка­ле не ниже ранговой.

Имеется две серии наблюдений над случайными переменными X и У, полученные при рассмотрении двух зависимых выборок. На их основе составлено N пар вида (х i , у i ), где х i , у i — результаты двукратного измерения одного и того же свойства у одного и того же объекта.

В педагогических исследованиях объектами изуче­ния могут служить учащиеся, учителя, администрация школ. При этом х i , у i могут быть, например, балловы­ми оценками, выставленными учителем за двукратное выполнение одной и той же или различных работ одной и той же группой учащихся до и после применения некоторого педагогическою средства.

Элементы каждой пары х i , у i сравниваются между собой по величине, и паре присваивается знак «+», ес­ли х i i , знак «—», если х i > у i и «0», если х i = у i .

Нулевая гипотеза формулируются следующим обра­зом: в состоянии изучаемого свойства нет значимых различий при первичном и вторичном измерениях. Альтернативная гипотеза: законы распределения величин X и У различны, т. е. состояния изучаемого свойства существенно раз­личны в одной и той же совокупности при первичном и вторичном измерениях этого свойства.

Ста­тистика критерия (Т) определяется следую­щим образом:

допустим, что из N пар (х, у,) нашлось несколько пар, в которых значения х i и у i равны. Такие пары обозначаются знаком «0» и при подсчете значения ве­личины Т не учитываются. Предположим, что за вы­четом из числа N числа пар, обозначенных знаком «0», осталось всего n пар. Среди оставшихся n пар подсчита­ем число пар, обозначенных знаком «-», т.е, пары, в которых xi yi . Значение величины Т и равно чис­лу пар со знаком минус.

Нулевая гипотеза принимается на уровне значимости 0,05, если наблю­даемое значение T n – ta , где значение n – ta определя­ется из статистических таблиц для критерия знаков Приложения 2.

Пример 4. Учащиеся выполняли контрольную ра­боту, направленную на проверку усвоения некоторого понятия. Пятнадцати учащимся затем предложили электронное пособие, составленное с целью фор­мирования данного понятия у учащихся с низким уров­нем обучаемости. После изучения пособия учащиеся снова выполняли ту же контрольного работу, которая оценивалась по пятибалльной системе.

Результаты двукратного выполнения ра­боты представляют измерения по шкале по­рядка (пятибалльная шкала). В этих условиях возмож­но применение знакового критерия для выявления тенденции изменения состояния знаний учащихся после изучения пособия, так как выполняются все допуще­ния этого критерия.

Результаты двукратного выполнения работы (в бал­лах) 15 учащимися запишем в форме таблицы (см. табл. 1). [4]

ТФКП лекции 1-6

Поле C. Основные топологические понятия

Поле комплексный чисел. По определению, C = fx + iy : x 2 R; y 2 Rg, где i – символ (z = x + iy – алгебраическая форма комплексного числа z, x = Re z

– его действительная часть, y = Im z – мнимая часть) и введены следующие операции:

z 1 + z 2 = (x 1 + x 2 ) + i(y 1 + y 2 ) z 1 z 2 = (x 1 x 2 y 1 y 2 ) + i(x 1 y 2 + x 2 y 1 )

при условии, что z 1;2 = x 1;2 + iy 1;2 .

Упражнение. Проверить, что C – поле, его подполе fx+i0 : x 2 Rg изоморфно R (далее они отождествляются), i 2 = (0 + i1) 2 = 1 + i0 = 1.

Нулем и единицей в C являются 0 = 0 + i0 и 1 = 1 + i0 соответственно, а при

z 6= 0 обратный элемент числа z находится по формуле:

где z = x iy – число, сопряженное к z = x + iy.

Тригонометрическая форма комплексного числа. При z = x + iy поло-

жим jzj = x 2 + y 2 – модуль числа z (r = jzj – полярный радиус, zz

существует единственное ‘ 0 в промежутке (

; ] (‘ 0 = arg(z) – главное

значение (полярного) аргумента z) с условиями x = r cos ‘ 0 , y = r sin ‘ 0 . Наконец вводится Arg(z) = f’ 0 + 2k : k 2 Zg – совокупный (полярный) аргумент числа z. При любом ‘ 2 Arg z имеем z = r(cos ‘ + i sin ‘) – тригонометрическая форма z.

Полезно заметить, что если z = x+iy и x > 0 (z лежит в правой полуплоскости), то arg(z) = arctg(y=x).

Элементарно проверяется, что если ‘ 1;2 2 Arg(z 1;2 ), r 1;2 = jz 1;2 j, то

z 1 z 2 = r 1 r 2 (cos(‘ 1 + ‘ 2 ) + i sin(‘ 1 + ‘ 2 )):

Формула Муавра. Если z = r(cos ‘ + i sin ‘) 6= 0, то при n 2 N

z n = r n cos(n’) + i sin(n’) :

Корни степени n ( p z).

w n = z. Из (1.1) следует, что при z 6= 0 совокупность p

состоит из n элементов

fw 0 ; w 1 ; : : : ; w n 1 g, находящихся по формуле

w k = p z (k) = p r cos

k = 0; : : : ; n 1. Ясно, что

В C вводится метрика d(z 1 ; z 2 ) = jz 1 z 2 j такая же, как в R 2 (так что как метрические пространства они тождественны). Предполагаются известными определения открытых, замкнутых, ограниченных, компактных, связных множеств в метрическом пространстве, определения предела последовательности и функции (в точке по множеству), непрерывности функции (в точке множества и на множестве). Тем не менее мы напоминаем

Определение. Окрестностью точки a в C называется всякое открытое множество, содержащее a.

Определение. Подмножество E в C называется связным, если нельзя найти открытые множества U 1 и U 2 со следующими свойствами: U 1 E 6= ?, U 2 E 6= ?,

U 1 U 2 = ?, E U 1 [ U 2 .

Определение. Областью (в C) называется всякое (не пустое) открытое связное множество в C.

Простейшим примером области является открытый круг B(a; r) = fz 2 C : jz aj 0.

1.1. Утверждение. Пусть G – область в C. Если E G – не пусто, открыто

и замкнуто в G, то E = G.

Доказательство этого утверждения оставляется в качестве несложной задачи.

Определение. Произвольное непрерывное отображение какого-либо отрезка [ ; ] R в C называется путем (в C), а множество [ ] = ([ ; ]) – его носителем.

Определение. Множество E C называется линейно-связным, если для любых z 1 2 E и z 2 2 E существует путь : [ ; ] ! E с условием ( ) = z 1 , ( ) = z 2 .

Нетрудно доказать, что всякая область в C линейно-связна.

Определение. Два пути 1;2 : [ 1;2 ; 1;2 ] ! C называются эквивалентными если существует непрерывная строго возрастающая функция из [ 1 ; 1 ] на [ 2 ; 2 ] с условием 1 (t) = 2 ( (t)) для любого t 2 [ 1 ; 1 ]. (Для краткости пишем 1 2 ).

Определение. Класс эквивалентных путей называют (непрерывной) кривой.

При этом корректно определен носитель кривой. Обозначения: = f g – кривая с представителем , [ ] = [ ] – ее носитель.

Определение. Путь : [ ; ] ! C называется жордановым, если он взаимно однозначен на [ ; ] (т.е. (t 1 ) 6= (t 2 ) при t 1 2 ).

Определение. Путь : [ ; ] ! C называется замкнутым жордановым, если(t 1 ) 6= (t 2 ) при всех t 1 2 из [ ; ), но ( ) = ( ).

Носитель всякого жорданова пути гомеоморфен отрезку [0; 1], а замкнутого жорданова пути – единичной окружности fjzj = 1g.

Определение. Жорданова кривая – класс эквивалентности жордановых путей. Замкнутая жорданова кривая – класс эквивалентности замкнутых жордановых путей.

Читайте также:
Введение в онлайн-курс изучения химии

Следующая весьма сложная топологическая теорема имеет принципиальное значение в анализе.

ПРИРАЩЕНИЕ АРГУМЕНТА. ИНДЕКС ПУТИ

(1) Пусть – жорданова кривая. Тогда = C n [ ] связно и @ = [ ].

(2) Пусть – замкнутая жорданова кривая. Тогда множество Cn[ ] не связно

– оно состоит из двух непересекающихся компонент (областей): ограниченной – D и неограниченной – , причем @D = @ = [ ].

Напомним, что через @E обозначается граница, через E – замыкание, а через

E – внутренность множества E в C. Компонентой связности множества E в C

называется всякое связное подмножество из E, которое не содержится ни в каком большем связном подмножестве в E. Всякое открытое множество распадается на конечное или счетное число своих компонент связности, являющихся (попарно непересекающимися) областями.

Считаем также, что читатель знаком с конструкцией сферы Римана C = C[f1g

– стандартной одноточечной компактификацией C (ее метризуемая топология согласована с топологией C). В случае, если E неограниченно, или 1 2 E C, мы каждый раз конкретизируем: какие из упомянутых выше топологических понятий определяются относительно топологии в C.

Ветви многозначных функций. Приращение (полярного) аргумента вдоль пути. Индекс пути относительно точки.

Пусть E C не пусто. Будем говорить, что F – многозначная функция на E, если для любого z 2 E объект F (z) представляет собой некоторое непустое подмножество в C (для однозначной функции множество F (z) – одноточечно). Иногда вместо C берется множество C.

(1) Пусть ? 6= E 1 E. Функция f : E 1 ! C называется однозначной ветвью многозначной функции F на E 1 , если для любого z 2 E 1 имеем f(z) 2 F (z).

(2) Скажем, что F распадается на однозначные ветви ff j g j2J над E 1 (где J – некоторое конечное или счетное множество индексов), если F (z) = [ j2J ff j (z)g при каждом z 2 E 1 .

1.3. Теорема. Пусть : [ ; ] ! C n f0g – путь. Тогда многозначная функция Arg( (t)) распадается над всем [ ; ] на счетное множество непрерывных ветвей f’ j (t)g j2Z . Любые две из этих ветвей отличаются друг от друга на аддитивную постоянную, кратную 2 .

Доказательство. Нетрудно вывести формулу Arg(z) через x и y и убедиться, что над каждым кругом B(a; jaj), a 6= 0, многозначная функция Arg(z) распадается на счетное число непрерывных ветвей, отличающихся друг от друга на аддитивные постоянные, кратные 2 . Пользуясь последним замечанием и равномерной непрерывностью на [ ; ], мы можем разбить отрезок [ ; ] на равные достаточно малые отрезки, на каждом из которых требуемая непрерывная ветвь заведомо имеется (надо взять композицию и подходящей непрерывной ветви Arg(z)). Остается надлежащим образом “склеить” эти ветви. Аккуратное доказательство предлагаем провести читателю.

Определение. В условиях последней теоремы, величина ‘ j ( ) ‘ j ( ) (не зависящая от j) называется приращением (полярного) аргумента вдоль пути и

1.4. Утверждение-задача. Функция ( w) Arg(z) непрерывна по w вне [ ].

Здесь и далее ( w)(t) = (t) w, t 2 [ ; ].

ДЕЙСТВИЯ С КРИВЫМИ.

Определение. Пусть : [ ; ] ! C – замкнутый путь, т.е. ( ) = ( ). При a 62[ ] величина

ind a ( ) = 2 ( a) Arg(z)

называется индексом пути относительно точки a.

Пусть E 1 и E 2 – непустые множества, а 1 и 2 – пути в C, определенные на [ ; ]. В дальнейшем мы будем пользоваться обозначениями:

dist(E 1 ; E 2 ) = inffjz 1 z 2 j : z 1 2 E 1 ; z 2 2 E 2 g; d( 1 ; 2 ) = maxfj 1 (t) 2 (t) : t 2 [ ; ]g:

1.5. Лемма. Пусть 1 и 2 – замкнутые пути в C, определенные на [ ; ]. Пусть a 2= [ 1 ], причем d( 1 ; 2 ) 1 ]). Тогда ind a ( 1 ) = ind a ( 2 ).

Доказательство. Пусть ‘(t) и (t) – некоторые непрерывные на [ ; ] ветви многозначных функций Arg( 1 (t) a) и Arg( 2 (t) a) соответственно. Из условия леммы вытекает, что функция ‘(t) (t) не принимает на [ ; ] значений f +2k : k 2 Zg. Нужное утверждение вытекает из теоремы о промежуточных значениях непрерывной функции (‘ на [ ; ]).

1.6. Следствие. Функция ind w ( ) постоянна (по w) в каждой компоненте связности множества C n [ ] и принимает только целочисленные значения.

1.7. Утверждение-задача. Величины Arg(z) и ind a ( ) не меняются при замене на любой эквивалентный ему путь, так что f g Arg(z) и ind a (f g) определены корректно для кривой f g.

Действия с кривыми.

Пусть – кривая, 2 , определен на [ ; ]. Положим (t) = ( + t) при t 2 [ ; ]. Кривая = f g называется противоположной к (имеющей противоположную ориентацию).

Определение. Пусть 1 и 2 – кривые, причем конец 1 совпадает с началом 2 . Возьмем какие-либо 1 2 1 и 2 2 2 , определенные на [0; 1]. Кривая = 1 [ 2 (объединение 1 и 2 , порядок важен!) определяется путем

Замечание. По индукции определяется объединение нескольких кривых, = 1 [ [ n . Нетрудно доказывается корректность введенных определений.

1.8. Определение-задача. Пусть 1 – замкнутая жорданова кривая, а 2 – жорданова кривая с условием [ 2 ] [ 1 ] и “сонаправленная” с 1 . Дать корректное определение кривой 1 n 2 (это будет одна из двух возможных жордановых кривых

с носителем, равным замыканию множества [ 1 ] n [ 2 ]).

1.9. Утверждение-задача. Если кривые , 1 и 2 не проходят через 0 и кривая 1 [ 2 определена, то

1 [ 2 Arg(z) = 1 Arg(z) + 2 Arg(z):

ДЕЙСТВИЯ С КРИВЫМИ.

(1) Доказать эквивалентность понятий связности и линейной связности для открытых множеств в C.

(2) Привести пример линейно связного компакта в C, не являющегося носителем никакого пути.

(3) Пусть K – компакт в C и функция f : K ! C – непрерывна и взаимнооднозначна на K. Тогда f(K) – компакт, а f – гомеоморфизм K и f(K).

Это утверждение имеет несколько важных следствий. Так, носитель всякого жорданова пути в C гомеоморфен отрезку, а носитель всякого замкнутого жорданова пути в C гомеоморфен окружности.

(4) Построить жорданов путь в C, носитель которого имеет положительную плоскую меру Лебега.

R и C-дифференцируемость и конформность функций комплексного переменного.

Пусть множество E C не пусто, пусть определена функция f : E ! C и пусть w = f(z), w = u + iv при z = x + iy.

Определение. Пусть z 0 – предельная точка множества E. Скажем, что суще-

ствует lim f(z) = w 0 , если для всякого ” > 0 найдется > 0 такое, что из условий

0 0 j 0 j 0 2 (E [ fz 0 g) , то пишем lim f(z) = w 0 , опуская E.

Определение. Функция f(z) непрерывна в точке z 0 (по множеству E), если z 0 2 E и выполняется одно из двух: либо z 0 – изолированная (т.е. не предельная)

точка E, либо z 0 – предельная точка E и lim f(z) = f(z 0 ).

Положим f(z) = u(x; y) + iv(x; y), где z = x + iy, u = Re f, v = Im f.

Утверждение-задача. lim f(z) = u 0 +iv 0 если и только если

u 0 и, одновременно, lim v(x; y) = v 0 .

Определение. Пусть функция f определена в некоторой окрестности точки z 0 = x 0 + iy 0 . Говорят, что f является R-дифференцируемой в точке z 0 , если Re f(z) = u(x; y) и Im f(z) = v(x; y) дифференцируемы в точке (x 0 ; y 0 ) как функции двух (вещественный) переменных.

Читайте также:
Лекция 1.4.2

Положим z = x+i y. Условие R-дифференцируемости f в точке z 0 означает, что

fj z 0 ( z) := f(z 0 + z) f(z 0 ) = uj z 0 ( x; y) + i vj z 0 ( x; y) = u 0 x j z 0 x + u 0 y j z 0 y + o( z) + i v x 0 j z 0 x + v y 0 j z 0 y + o( z) =

(u x 0 + iv x 0 )j z 0 x + (u y 0 + iv y 0 )j z 0 y + o( z) =:

Лекция 1.6.2

Большинство химических реакций протекают одновременно в двух направлениях: в сторону образования продуктов реакции (прямая реакция) и в сторону разложения последних (обратная реакция). Вследствие химической обратимости реакции не доходят до конца. Скорость прямой реакции уменьшается, а скорость обратной, напротив, возрастает. Когда эти скорости выравниваются наступает состояние химического равновесия.

Так как химически обратимые реакции до перехода в равновесное состояние протекают с конечными скоростями, то с точки зрения термодинамики они не обратимы. Однако можно мысленно представить, что эти реакции идут бесконечно медленно через смежные равновесные состояния. Тогда к ним можно применить общие условия термодинамического равновесия.

Для гомогенных обратимых реакций экспериментально Гульбергом и Ваге был установлен закон действующих масс. При постоянной температуре отношение произведения равновесных концентраций (или парциальных давлений) продуктов реакции к произведению равновесных концентраций (или парциальных равновесий) исходных веществ есть величина постоянная.

Этот экспериментально установленный закон может быть получен методом термодинамических потенциалов. Рассмотрим реакцию в газовой фазе:

аА(г) + b В ↔ сС + dD

Когда система достигает термодинамического равновесия, то термодинамический потенциал при фиксированных естественных переменных достигает минимума. Равновесие, таким образом, можно охарактеризовать выражением химических потенциалов, когда потенциалы продуктов реакции сравняются с потенциалами исходных веществ:

с μ ( с ) + d μ (D) – a μ (a) – b μ (b) = 0 (6 – 1)

Если естественными переменными являются p и T , то = , а = V

Отсюда для систем, подчиняющихся закону идеальных газов, можно получить выражения для μ i

μ i = μ i ° + RTlnCi (6 – 2)

где μ i ° – стандартный химический потенциал.

Подставляется (6 – 2) в (6 – 1) и перенося постоянные величины в левую часть, получаем

сμ C ° + d μ D ° – a μ A ° – b μ B ° = – RTln (6 – 3)

Поскольку в левой части выражение не зависит от концентраций, то выражение под логарифмом является постоянной величиной при постоянной температуре:

Для идеального газа парциальные давления пропорциональны концентрациям, поэтому константа равновесия может быть всегда выражена через равновесные парциальные давления:

Аналогично может быть записано выражение через мольные доли:

Для идеальных газов эти константы связаны между собой соотношением:

где

Следует обратить внимание, что в полученных соотношениях только KN зависит от общего давления. Она позволяет нам оценивать сдвиг равновесия в газовых реакциях при изменении общего давления. Следует иметь в виду, что давление в этих выражениях складывается из парциальных давлений компонентов системы и не учитывает влияние инертных газов, если они присутствуют в реакционной смеси. Естественно инертный газ «разбавляет» компоненты реакционной смеси и поэтому влияет на KN .

Из уравнения (6 – 3) вытекает связь константы равновесия с ∆ rG °:

(6 – 4)

Это уравнение было впервые получено Вант – Гофором методом циклов и получило название уравнения изотермической химической реакции. Очевидно, в этом уравнении ∆ rGT ° относится к этой температуре, при которой определена Кр. Уравнение изотермической химической реакции позволяет определить константу равновесия при заданных условиях не прибегая к исследованию равновесия. Величина ∆ rGT ° может быть рассчитана на основе термических констант для индивидуальных веществ.

Если заданы концентрации (парциальные давления) отличные от равновесных, то можно записать более общий вид уравнения изотермической химической реакции:

Это выражение позволяет определить направление самопроизвольного процесса.

Уравнение изотермы химической реакции позволяет получить выражение для температурной зависимости константы равновесия.

Запишем уравнение Гиббса – Гельмгольца:

Подставим выражение для из (6 – 4)

(6 – 5)

Дифференцируем уравнение (6 – 5)


(6 – 5´)

Из уравнения (6 – 5´) получаем уравнение изобары химической реакции:

(6 – 6)

Если проинтегрировать уравнение (6 – 6) в предположении, что ∆ rHT ° не зависит от температуры, то получим уравнение:

где С – константа интегрирования.

Уравнение (6 – 7) хорошо выполняется в узких интервалах температур и позволяет определить ∆ rGT °.

Для широких интервалов температур ln K р представляют в виде степенных рядов или других аналитических формах:

Такие выражения позволяют рассчитать все термодинамические функции для процессов, для которых данные зависимости получены.

Выражения для термодинамических потенциалов, полученные для идеального газа. Для реальных газов, а особенно для газовых растворов возникают затруднения. Это связано с тем, что расчет концентраций и давлений должен быть проведен исходя из уравнения состояния. Однако для реальных систем единое достаточно простое уравнение состояния получить не удалось.

В связи с этим в термодинамике реальных систем применяется эмпирический метод, предложенный Льюисом. Льюис предложил в уравнениях термодинамики, полученных для идеальных систем заменить давления p на величину летучести f , а концентрации С на активности a .

При такой замене выражения для констант равновесия не меняются по форме. Но этот прием позволяет связать экспериментально найденные свойства реального газа с термодинамическими параметрами.

Летучести и активности – это экспериментальные величины, которые находятся из условия, что для раствора при бесконечном разбавлении или газа при давлении стремящимся к 0 активность приближается к аналитической концентрации, а летучесть к реальному давлению идеального газа. Исходя из этой посылки рассчитываются активности и летучести.

При 1273 К и общем равновесии 30 атм. В равновесной системе

содержится 17% (по общему) . Сколько процентов будет содержаться в газе при общем давлении 20 атм.? При каком давлении в газе будет содержаться 25% ? (Газ считать идеальным).

В соответствии с законом Авогадро, объёмный процент равен мольному проценту. Следовательно, при 30 атм. будет равен:

Отсюда находим

В отличие от , для идеальных газов не зависит от давления. На основании этого находим при 20 атм.

= 0,125 или 12,5%

Для 25%

Следовательно,

При 2000°С и общем давлении 1 атм. 2% воды диссоцииовано на водород и кислород. Рассчитайте константу равновесия реакции при этих условиях.

Читайте также:
Лекция 6.1.2

Стэнфордский курс: лекция 6. Обучение нейросетей, часть 1

В прошлый раз мы обсудили историю возникновения свёрточных архитектур, а также узнали об их устройстве и широких возможностях применения. В течение следующих двух лекций мы поговорим об особенностях обучения нейросетей и разберёмся, как правильно настраивать параметры, выбирать функцию активации, подготавливать данные и добиваться успешных результатов.

Обучение нейросети — непредсказуемый и захватывающий процесс, который, однако, требует тщательной подготовки. В целом его можно разделить на три основных этапа:

  1. Однократная настройка
    Сюда входят: выбор функции активации, предварительная обработка данных, инициализация весов, регуляризация, градиентная проверка.
  2. Динамика обучения
    Отслеживание процесса обучения, оптимизация и обновление гиперпараметров.
  3. Оценка
    Использование ансамблевых методов.

В этой лекции мы обсудим некоторые детали первых двух пунктов. Если вы уже знакомы со всеми понятиями и имеете опыт работы с нейросетями, рекомендуем нашу статью с полезными советами по обучению моделей.

Обучение нейросети — непредсказуемый и захватывающий процесс, который, однако, требует тщательной подготовки. В целом его можно разделить на три основных этапа:

  1. Однократная настройка

Сюда входят: выбор функции активации, предварительная обработка данных, инициализация весов, регуляризация, градиентная проверка.

  1. Динамика обучения

Отслеживание процесса обучения, оптимизация и обновление гиперпараметров.

  1. Оценка

В этой лекции мы обсудим некоторые детали первых двух пунктов. Если вы уже знакомы со всеми понятиями и имеете опыт работы с нейросетями, рекомендуем нашу статью с полезными советами по обучению моделей.

Функция активации

Ранее мы выяснили, что в каждый слой нейросети поступают входные данные. Они умножаются на веса полносвязного или свёрточного слоя, а результат передаётся в функцию активации или нелинейность. Мы также говорили о сигмоиде и ReLU, которые часто используются в качестве таких функций. Но список возможных вариантов не ограничивается только ими. Какой же следует выбирать?

Рассмотрим наиболее популярные функции активации и обсудим их преимущества и недостатки.

Сигмоида

Функция сигмоиды преобразовывает поступающие в неё значения в вещественный диапазон [0, 1]. То есть, если входные данные окажутся большими положительными значениями, то после преобразования они будут равны примерно единице, а отрицательные числа станут близки к нулю. Это довольно популярная функция, которую можно интерпретировать как частоту возбуждения нейрона.

Но если внимательнее присмотреться к сигмоиде, можно заметить несколько проблем.

1. Насыщенные нейроны могут «убить» градиент. Возьмём сигмоидный узел вычислительного графа и передадим в него входные данные X. Когда мы делаем обратный проход, восходящий градиент равен dL/d , а локальный — dL/d * d /dx.

Что же произойдёт, если X будет равен −10? Градиент станет нулевым, поскольку все большие отрицательные значения находятся на прямом участке сигмоидной функции. Таким образом, во все последующие узлы будут передаваться нулевые производные — это и «убивает» градиентный поток.

А если X = 0? В этом случае всё будет в порядке, как и для других близких к нулю значений. А вот при X = 10 градиент снова обнулится. Поэтому сигмоида не работает для слишком высоких положительных или отрицательных данных.

2. Выходные значения сигмоиды не центрированы нулем. Пусть исходные данные полностью положительны — что тогда станет с градиентами во время обратного распространения? Они все будут либо положительными, либо отрицательными (в зависимости от градиента f). Это приведёт к тому, что все веса при обновлении также будут либо увеличены, либо уменьшены, и градиентный поток станет зигзагообразным.

Поэтому следует изначально подготавливать данные таким образом, чтобы их средним значением являлся ноль.

3. Функцию exp() достаточно дорого считать. Это не такая существенная проблема, поскольку скалярные произведения во время свёртки тратят гораздо больше вычислительных мощностей, но в сравнении с остальными функциями активации её тоже можно отметить.

Тангенс

Тангенс очень похож на сигмоиду, но обладает двумя существенными отличиями: он преобразует данные в диапазон [-1, 1] и имеет нулевое центрирование, что исключает вторую проблему сигмоиды. Значения градиента при обратном распространении по-прежнему могут обнуляться, тем не менее, использование тангенса обычно более предпочтительно.

ReLU

ReLU или Rectified Linear Unit стала довольно популярной в последние годы. Она вычисляет функцию f(x) = max(0,x), то есть просто выдаёт значения «ноль» и «не ноль». Это решает проблему обнуления градиента для положительных чисел. Кроме того, ReLU очень просто вычисляется: примерно в шесть раз быстрее сигмоиды и тангенса. Однако, в ней снова отсутствует нулевое центрирование.

Другой очевидный недостаток — градиент по-прежнему «умирает» при отрицательных входных данных. Это может привести к тому, что половина нейронов будет неактивна и не сможет обновляться.

Проблему можно попробовать решить, задав более низкую скорость обучения и подобрав другие весовые коэффициенты. Или использовать модификации ReLU.

Leaky ReLU

Отличие этой функции в том, что она имеет небольшой наклон в левой полуплоскости — значит, при отрицательных входных данных градиент не будет нулевым.

При этом функцию по-прежнему легко вычислить. То есть, она решает практически все перечисленные проблемы. Одной из её разновидностей является PReLU, которая выглядит как f(x) = max(𝛼x, x).

ELU

Эта функция похожа на leaky ReLU и обладает всеми её преимуществами, но включает в себя экспоненту, что делает её вычисление дороже. Её стоит использовать в тех случаях, когда вам важна устойчивость к шумовым данным.

Maxout

Maxout выбирает максимальную сумму из двух наборов весов, умноженных на исходные данные с учётом смещения. Тем самым он обобщает ReLU и leaky ReLU, не обнуляя градиент. Но, как можно догадаться по виду функции, maxout требует удвоения параметров и нейронов.

Подводя итог: используйте ReLU, можете попробовать взять leaky ReLU/Maxout/ELU. На тангенс и сигмоиду лучше не рассчитывать.

Подготовка данных

Существует три наиболее распространённых способа предварительной обработки данных. Будем полагать, что данные X — это матрица размером [NxD].

1. Вычитание среднего. Чтобы избежать смещения данных и сделать их симметричными относительно нуля, из каждого элемента вычитается среднее значение. Это помогает предотвратить ситуации, когда все исходные числа оказываются только положительными или отрицательными. В NumPy операция выглядит как X -= np.mean(X, axis = 0). В частности, при обработке изображений можно вычитать одно значение из всех пикселей (например, X -= np.mean(X)) или делать это отдельно по каждому из трёх цветовых каналов.

Читайте также:
Лекция 3.1

2. Нормализация. Изменение данных таким образом, чтобы они все были приблизительно одного масштаба. Один из вариантов — разделить каждое измерение на его стандартное отклонение: (X /= np.std(X, axis = 0)). Другой вариант — нормализовать каждое значение так, чтобы min и max были равны -1 и 1 соответственно. Нормализацию следует применять только в том случае, если исходные данные имеют разные форматы или единицы измерения. У изображений значения пикселей не выходят за пределы диапазона от 0 до 255, поэтому для них нет необходимости выполнять нормализацию.

Инициализация весов

Итак, мы построили архитектуру нейронной сети и подготовили данные. Прежде чем начать обучение, необходимо инициализировать параметры (веса).

Как не нужно делать: задавать веса нулевыми. Это приведёт к тому, что абсолютно все нейроны будут вести себя одинаково — совсем не то, что мы хотим получить. Нейросеть должна обучаться разным признакам.

Небольшие случайные величины. Более удачный вариант — присвоить весам маленькие значения. Тогда все нейроны будут уникальными и в процессе обучения постепенно интегрируются в различные части сети. Реализация может выглядеть так: W = 0.01* np.random.randn(D,H). Метод randn(n) формирует массив размера n х n, элементами которого являются случайные величины, распределённые по нормальному закону с математическим ожиданием 0 и среднеквадратичным отклонением 1 (распределение Гаусса). Недостаток этого способа в том, что он неплохо работает для небольших архитектур, но гораздо хуже справляется с громоздкими нейросетями.

Калибровка с помощью 1/sqrt(n). Проблема вышеупомянутого метода состоит в том, что дисперсия случайных величин растёт с числом нейронов. Чтобы избежать этого, можно масштабировать веса, поделив их на корень из количества входов: w = np.random.randn(n) / sqrt(n). Это гарантирует, что все нейроны сети изначально будут иметь примерно одинаковое выходное распределение.

Также можно использовать вариант w = np.random.randn(n) * sqrt(2.0/n), который был предложен в одном из исследований. Он приводит к наиболее удачному распределению нейронов, поэтому на практике рекомендуем использовать именно его.

Пакетная нормализация

Метод, известный также как batch normalization, решает множество проблем при инициализации, заставляя все активации (выводы) принимать единичное гауссово распределение в начале обучения.

Как же это работает? Рассмотрим небольшое число выводов нейронов на каком-либо слое. Пусть в функцию активации поступает вектор размерности d: x = (x(1),…,x(d)). Нормализуем его по каждой из размерностей:

Где E(x) — математическое ожидание, D(x) — дисперсия, которые вычисляются по всей обучающей выборке. Таким образом, вместо инициализации весов можно использовать эту простую дифференцируемую функцию и получить нормальное распределение на каждом слое.

Пакетная нормализация обычно применяется между слоями (полносвязными или свёрточными) и функциями активации.

Это очень полезный алгоритм, который часто применяется в современном машинном обучении. Нейросети, использующие batch normalization, значительно более устойчивы к плохой инициализации.

За нейросетью глаз да глаз

Мы выбрали архитектуру сети, подготовили данные, инициализировали веса и нормализовали их. Пришло время начать обучение! Вернее, попытаться начать. Самый простой способ проверить, что нейросеть готова обучаться — взять совсем немного данных и попробовать переобучить её на них, то есть, добиться очень хорошей точности и малых потерь. Для этого мы убираем регуляризацию, устанавливаем необходимое количество эпох обучения и вычисляем потери (они должны уменьшаться).

Напомним, что эпоха — один «проход» данных через нейросеть, после которого обновляются веса с помощью градиентного спуска. Упрощённо это выглядит следующим образом:

Теперь можно запустить настоящий процесс: взять все данные, добавить регуляризацию и установить начальную скорость обучения. К сожалению, просто выполнить код и оставить нейросеть на пару часов пока не получится. Необходимо убедиться, что потери постепенно уменьшаются после каждой эпохи. Если этого не происходит, скорее всего, скорость обучения слишком маленькая. Стремительный рост потерь наоборот говорит о слишком высоком значении learning rate.

Оптимизация гиперпараметров

Как мы могли убедиться, обучение нейронных сетей включает множество этапов настройки гиперпараметров. Наиболее распространенными являются:

— начальная скорость обучения;

— график затухания скорости обучения (например, постоянная затухания);

При желании можно даже модернизировать архитектуру сети, если вам кажется, что она выбрана не слишком удачно.

Learning rate — одно из самых важных значений. Попробуйте поэкспериментировать с различными вариантами и построить графики потерь. На рисунке ниже слева показаны эффекты, возникающие при изменении скорости обучения, а справа — типичная функция потерь при обучении небольшой нейросети на наборе данных CIFAR-10.

Вторая важная вещь, которую следует отслеживать — точность сети на обучающих и оценочных данных. Если поместить их на один график, то можно оценить наличие переобучения, о чём свидетельствуют расходящиеся кривые.

Для поиска оптимальных гиперпараметров стоит написать отдельную функцию, которая будет самостоятельно подбирать их и выполнять оптимизацию. При этом лучше использовать не равномерный поиск (известный также как «перебор по сетке»), а случайный — он чаще всего даёт гораздо более удачные результаты.

Итоги

Кратко изложим всё, что мы узнали про обучение нейросетей из сегодняшней лекции:

— используйте функцию активации ReLU;

— выполняйте предварительную обработку данных (для изображений: вычитайте среднее значение);

— масштабируйте веса при инициализации;

— применяйте пакетную нормализацию;

— следите за процессом обучения;

— оптимизируйте гиперпараметры с помощью случайного поиска.

На следующей лекции мы расскажем ещё о нескольких важных шагах обучения, узнаем про ансамблевые методы и разберёмся, как выполнять передачу обучения (transfer learning) и точную настройку (fine tuning). Пробовали ли вы самостоятельно обучать нейросети? Были ли у вас свои хитрости, или вы полагались на установки по умолчанию? Делитесь с нами успехами и не забывайте задавать вопросы, если что-то непонятно.

Следующие лекции (список будет дополняться по мере появления материалов):

С оригинальной лекцией можно ознакомиться на YouTube.

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: