Гид компьютерного мира - Информационный портал
  • Главная
  • Вконтакте
  • Производительность обучения нейронных сетей statistica. STATISTICA Automated Neural Networks Автоматизированные нейронные сети

Производительность обучения нейронных сетей statistica. STATISTICA Automated Neural Networks Автоматизированные нейронные сети

Пакет Statistica Neural Networks (SNN)

  1. Открыть файл данных Series_g из имеющихся в пакете данных. Файл содержит единственную переменную, определяющую объем перевозок на протяжении нескольких лет с помесячной регистрацией данных. (При открытии этого файла появляется еще ряд таблиц, относящихся к опции интеллектуального решателя, которые на данной стадии надо закрыть, оставив только таблицу исходных данных).
  2. Задать тип переменной «входная – выходная» следующим образом: выделить переменную щелчком по заголовку таблицы, нажать правую клавишу мыши и выбрать из меню опцию Input / Output (Входная / выходная). При этом имя переменной высветится зеленым цветом.
  3. Создать новую сеть с помощью диалогового окна Create Network (Создать сеть). Для этого последовательно нажать: File – New – Network (Файл – новый – сеть). На экране монитора – диалоговое окно (рис. 1).

Рис. 1. Диалоговое окно создания сети

В задаче прогноза временного ряда сеть должна знать, сколько копий одной переменной она должна взять и как далеко вперед она должна прогнозировать значение переменной. В данной задаче принять параметр Steps (Временное окно) равным 12, т. к. данные представляют собой ежемесячные наблюдения, а параметр Lookahead (Горизонт) – равным 1.

  1. Выбрать в качестве типа сети Multilayer Perceptron (Многослойный персептрон) и принять число слоев сети равным 3. После этого нажать кнопку Advice (Совет), в результате чего программа автоматически установит число нейронов во всех трех слоях сети: 12 – 6 – 1 (рис. 2).

Рис. 2. Диалоговое окно после установки параметров сети

После этого нажать кнопку Create (Создать).

  1. При создании сети программа SNN автоматически присвоит первым 12 наблюдениям из файла данных тип Ignore (Неучитываемые). При дальнейшем обучении и работе сети в задаче анализа временного ряда каждый подаваемый ей на вход блок данных содержит данные, относящиеся к нескольким наблюдениям. Весь такой блок приписывается тому наблюдению, которое содержит значение выходной переменной. Вследствие этого первые 12 наблюдений на самом деле не игнорируются, а являются входами первого блока данных временного ряда, который соответствует наблюдению №13. На самом деле программа строит преобразованный набор данных, в котором число наблюдений на 12 меньше, но данные в каждое наблюдение берутся из 13 последовательных строк исходного файла.

Созданная сеть показана на рис. 3.

Рис. 3. Трехслойный персептрон

  1. В окне исходных данных «Data Set Editor» задать 66 обучающих (Training) и 66 контрольных (Verification) наблюдений (рис. 4), после чего нажать кнопку перемешивания строк следующим образом: через меню Edit – Cases Shuffle – All (Редактирование – Случаи – Перемешать – Все) .
  2. Обучить сеть методом Левенберга-Маркара, для чего необходимо нажать: Train Multilayer Perceptron – Levenberg-Marquardt (Обучить – Многослойный персептрон – Левенберг-Маркар). Процедура обучения занимает несколько секунд (зависит от типа процессора). Метод Левенберга-Маркара является одним из надежных и быстрых алгоритмов обучения, однако его применение связано с определенными ограничениями:

Рис. 4. Окно исходных данных с разделенными наблюдениями

  • этот метод можно применять только для сетей с одним выходным элементом.
  • метод Левенберга-Маркара требует памяти, пропорциональной квадрату числа весов в сети, поэтому метод не подходит для сетей большого размера (порядка 1000 весов).
  • метод применим только для среднеквадратичной функции ошибок.

Алгоритм Левенберга-Маркара разработан так, чтобы минимизировать среднеквадратичную функцию ошибок. Вблизи точки минимума это предположение выполняется с большой точностью, поэтому алгоритм продвигается очень быстро. Вдали от минимума это предположение может оказаться неправильным, поэтому метод находит компромисс между линейной моделью и градиентным спуском. Шаг делается только в том случае, если он уменьшает ошибку, и там, где это необходимо, для обеспечения продвижения используется градиентный спуск с достаточно малым шагом.

Диалоговое окно метода Левенберга-Маркара показано на рис. 5.

Рис. 5. Диалоговое окно метода Левенберга-Маркара

Основные элементы окна:

  • Epochs (Число эпох) – задается число эпох, в течение которых алгоритм будет прогоняться. На каждой эпохе через сеть пропускается все обучающее множество, а затем происходит корректировка весов.
  • Cross-Verification (Кросс-проверка) – при отмеченной позиции качество выдаваемого сетью результата проверяется на каждой эпохе по контрольному множеству (если оно задано). При выключенной позиции контрольные наблюдения игнорируются, даже если они присутствуют в файле данных.
  • Train (Обучить) – При каждом нажатии кнопки алгоритм прогоняется через заданное число эпох.
  • Reinitialize (Переустановить) – перед новым запуском обучения следует нажать кнопку переустановки, т. к. при этом заново случайным образом устанавливаются веса сети.
  • Jog Weights (Встряхивание весов) – при возможном застревании алгоритма в локальном минимуме данная опция добавляет к каждому весу небольшую величину.
  1. Построить проекцию временного ряда, для чего через Run – Times Series Projection (Запуск – Проекция временного ряда) открыть соответствующее окно (рис. 6).

Рис. 6. Окно проекции временного ряда

Описание диалогового окна

  • Start (Начало) – указывает, должна ли проекция временного ряда начинаться с некоторого номера наблюдений (Case No) в файле данных или с отдельного наблюдения.
  • Case No (Номер наблюдения) – при проекции временного ряда из файла данных указывается номер наблюдения с выходным значением, с которого надо начинать.
  • Length (Длина) – число шагов, на которое будет проектироваться прогноз.
  • Variable (Переменная) – указывается переменная, которая будет проектироваться.
  1. С помощью обученной сети можно выполнить проекцию временного ряда. Вначале сеть отработает на первых 12 входных значениях, в результате чего будет получен прогноз следующего значения. Затем спрогнозированное значение вместе с предыдущими 11 входными величинами вновь подается на вход сети, и последняя выдает прогноз очередного значения.

Единственный управляющий параметр, который нужно выбрать – это длина проекции. В данном примере всего 144 наблюдения, 12 из которых будут удалены при предварительной обработке, поэтому сравнивать результаты можно будет самое большее на 132 шагах. Однако можно проектировать ряд и за границы имеющихся данных, только при этом не с чем будет сравнивать результат.

Просмотреть поведение прогнозируемых значений при различных длинах, с использованием кнопки Run (Запуск) можно наблюдать изменение целевых и выходных значений ряда.

На приведенном рис. 6 видно, что прогнозируемая кривая (синего цвета на экране монитора) не очень хорошо обучилась, так как имеются значительные отклонения между исходным и прогнозируемым рядами, начиная примерно с 70 наблюдения.

  1. Провести прогнозирование ряда с использованием интеллектуального решателя (третья кнопка слева в верхнем ряду). В этом случае необходимо ответить на ряд вопросов в режиме диалога:
  • Выбрать основную версию (рис. 7) и нажать Next.

Рис. 7. Выбор основной версии

  • Определить тип задачи (стандартная или временной ряд). Здесь нужно отметить временной ряд (рис. 8).

Рис. 8. Выбор типа задачи

  • Установить период наблюдений, равный 12 месяцам (рис. 9).

Рис. 9. Установка периода наблюдений

  • Выбрать зависимую и независимую переменные, в качестве которых служит одна и та же переменная Series.
  • Определить время расчетной процедуры, равное 2 мин (рис. 10).

Рис. 10. Установка времени расчетной процедуры

  • Указать количество сохраняемых сетей и действия при их сохранении (рис. 11).

Рис. 11. Действия по выбору сетей

  • Выбрать формы представления результатов (рис. 12) и нажать Finish.

Рис. 12. Выбор формы представления результатов

В результате использования интеллектуального решателя прогноз получается гораздо точнее, так как обучаемая сеть намного ближе к исходному ряду (рис. 13).

Рис. 13. Прогноз с помощью интеллектуального решателя

Задание

Построить смоделированный временной ряд из пакета Statistica следующим образом:

  • Создать новый файл, состоящий из 20 строк и 2 столбцов.
  • Через меню Data – Variable Specs (Данные – описание переменной) ввести в окно формул выражение =vnormal(rnd(1);1;3).
  • Смоделировать 20 значений случайной нормально распределенной величины с математическим ожиданием, равным 1, и среднеквадратичным отклонением, равным 3. Эти 20 значений определяют переменную Var 1. Перевести их к целому типу данных, установив в окне описания переменной в качестве Type значение Integer.
  • Перейти к переменной Var 2 следующим образом: первое значение Var 2 равно первому значению переменной Var 1; второе значение Var 2 равно сумме первых двух значений переменной Var 1; третье значение переменной Var 2 равно сумме первых трех значений переменной Var 1 и т. д.
  • Скопировать переменную Var 2 и перейти в пакет SNN, разместив скопированные данные в новом созданном файле.
  • Провести прогнозирование полученного ряда с помощью нейронной сети.

Версия для печати

Многие понятия, относящиеся к методам нейронных сетей, лучше всего объяснять на примере конкретной нейронно-сетевой программы. Поэтому в данном разделе будет много ссылок на пакет STATISTICA Neural Networks (сокращенно, ST Neural Networks, нейронно-сетевой пакет фирмы StatSoft), представляющий собой реализацию всего набора нейросетевых методов анализа данных.

В последние несколько лет мы наблюдаем взрыв интереса к нейронным сетям, которые успешно применяются в самых различных областях - бизнесе, медицине, технике, геологии, физике. Нейронные сети вошли в практику везде, где нужно решать задачи прогнозирования, классификации или управления. Такой впечатляющий успех определяется несколькими причинами:

Нейронные сети - исключительно мощный метод моделирования, позволяющий воспроизводить чрезвычайно сложные зависимости. В частности, нейронные сети нелинейны по свой природе (смысл этого понятия подробно разъясняется далее в этой главе). На протяжение многих лет линейное моделирование было основным методом моделирования в большинстве областей, поскольку для него хорошо разработаны процедуры оптимизации. В задачах, где линейная аппроксимация неудовлетворительна (а таких достаточно много), линейные модели работают плохо. Кроме того, нейронные сети справляются с "проклятием размерности", которое не позволяет моделировать линейные зависимости в случае большого числа переменных

Нейронные сети учатся на примерах. Пользователь нейронной сети подбирает представительные данные, а затем запускает алгоритм обучения, который автоматически воспринимает структуру данных. При этом от пользователя, конечно, требуется какой-то набор эвристических знаний о том, как следует отбирать и подготавливать данные, выбирать нужную архитектуру сети и интерпретировать результаты, однако уровень знаний, необходимый для успешного применения нейронных сетей, гораздо скромнее, чем, например, при использовании традиционных методов статистики.

Нейронные сети привлекательны с интуитивной точки зрения, ибо они основаны на примитивной биологической модели нервных систем. В будущем развитие таких нейро-биологических моделей может привести к созданию действительно мыслящих компьютеров. Между тем уже "простые" нейронные сети, которые строит система ST Neural Networks , являются мощным оружием в арсенале специалиста по прикладной статистике (Нейронные сети. STATISTICA Neural Networks: Методология и технологии современного анализа данных.).

Нейронные сети возникли из исследований в области искусственного интеллекта, а именно, из попыток воспроизвести способность биологических нервных систем обучаться и исправлять ошибки, моделируя низкоуровневую структуру мозга (Patterson, 1996). Основной областью исследований по искусственному интеллекту в 60-е - 80-е годы были экспертные системы. Такие системы основывались на высокоуровневом моделировании процесса мышления (в частности, на представлении, что процесс нашего мышления построен на манипуляциях с символами). Скоро стало ясно, что подобные системы, хотя и могут принести пользу в некоторых областях, не ухватывают некоторые ключевые аспекты человеческого интеллекта. Согласно одной из точек зрения, причина этого состоит в том, что они не в состоянии воспроизвести структуру мозга. Чтобы создать искусственных интеллект, необходимо построить систему с похожей архитектурой.

Мозг состоит из очень большого числа (приблизительно 10,000,000,000) нейронов, соединенных многочисленными связями (в среднем несколько тысяч связей на один нейрон, однако это число может сильно колебаться). Нейроны - это специальная клетки, способные распространять электрохимические сигналы. Нейрон имеет разветвленную структуру ввода информации (дендриты), ядро и разветвляющийся выход (аксон). Аксоны клетки соединяются с дендритами других клеток с помощью синапсов. При активации нейрон посылает электрохимический сигнал по своему аксону. Через синапсы этот сигнал достигает других нейронов, которые могут в свою очередь активироваться. Нейрон активируется тогда, когда суммарный уровень сигналов, пришедших в его ядро из дендритов, превысит определенный уровень (порог активации).

Интенсивность сигнала, получаемого нейроном (а следовательно и возможность его активации), сильно зависит от активности синапсов. Каждый синапс имеет протяженность, и специальные химические вещества передают сигнал вдоль него. Один из самых авторитетных исследователей нейросистем, Дональд Хебб, высказал постулат, что обучение заключается в первую очередь в изменениях "силы" синаптических связей. Например, в классическом опыте Павлова, каждый раз непосредственно перед кормлением собаки звонил колокольчик, и собака быстро научилась связывать звонок колокольчика с пищей. Синаптические связи между участками коры головного мозга, ответственными за слух, и слюнными железами усилились, и при возбуждении коры звуком колокольчика у собаки начиналось слюноотделение.

Таким образом, будучи построен из очень большого числа совсем простых элементов (каждый из которых берет взвешенную сумму входных сигналов и в случае, если суммарный вход превышает определенный уровень, передает дальше двоичный сигнал), мозг способен решать чрезвычайно сложные задачи. Разумеется, мы не затронули здесь многих сложных аспектов устройства мозга, однако интересно то, что искусственные нейронные сети способны достичь замечательных результатов, используя модель, которая ненамного сложнее, чем описанная выше.

За определенную историю наблюдения за больными, накопился массив данных, которые сохранены в таблице системы STATISTICA. Вид соответствующей Таблицы данных представлен на Рисунке 6.

Рисунок 6. Фрагмент таблицы исходных данных

Целью исследования является построение нейросетевой модели, которая по заданному набору исходных данных (данные обследований больного, результаты анализов, лечение до поступления), на основе назначенного в стационаре лечения выдавала бы прогноз его лечения (значений приём в стационаре И-АПФАРА, БАБ, БКК, диуретиков, препаратов центрального действия) с достаточной точностью.

Факт нелинейности задачи не вызывает сомнения. Конечно, можно было бы попробовать решить задачу, воспользовавшись модулем STATISTICA Nonlinear Estimation, а именно при помощи предлагаемых данным модулем итеративных процедур "нащупать" вид функции. Однако здесь есть ряд неприятностей, которые значительно растягивают процедуру поиска решения. Важнейшей из них является формулировка гипотезы о явном виде изучаемой зависимости, которая совсем не является очевидной.

Без дополнительных исследований, о явном виде зависимости сказать что-либо сложно. Тем более, следует упомянуть, что мы не учли еще один фактор. В общем, решение подобной задачи методами нелинейного оценивания может растянуться очень надолго, а может так ни к чему и не привести. В таких критических ситуациях, когда известно, что

Зависимость между переменными есть;

Зависимость определенно нелинейная;

О явном виде зависимости сказать что-либо сложно,

выручают нейросетевые алгоритмы. Рассмотрим способ решения данной задачи в модуле STATISTICA Neural Networks.

К сожалению, универсальных правил, говорящих о том, какой топологии нейронной сети стоит придерживаться для решения той или иной задачи нет. Поэтому, необходима разумная процедура поиска нужной сети.

Модуль Neural Networks системы STATISTICA включает в себя процедуру, организующую поиск нужной конфигурации сети. Эта процедура заключается в построении и тестировании большого количества сетей с разными архитектурами и послудующем выборе из них той сети, которая лучше всего подходит для решения поставленной задачи. Данный инструмент называется Intelligent Problem Solver. Для запуска модуля Neural Networks необходимо воспользоваться одноименной командой основного меню системы STATISTICA - Statistics. (рисунок 7)

Рисунок 7. Запуск модуля Neural Networks

Очень распространенным является следующий тезис: "нейронные сети представляют собой универсальную структуру, позволяющую реализовать любой алгоритм". Попробуем, слепо веря данному утверждению, построить нейронную сеть, которая бы "уловила" предлагаемую зависимость сразу (имеется в виду, без предварительного, разведочного анализа).

Одним из важнейших вопросов, до сих пор, не решенных современной наукой, является вопрос о структуре нейронный сети, которая была бы способна к воспроизведению искомой многомерной нелинейной зависимости. Да действительно, теорема Колмогорова о полноте, доказанная им еще 1957 году, утверждает, что нейронная сеть способна воспроизвести любую (очень важно - непрерывную) функцию. Однако она не прелагает исследователю рецепта по созданию такой сети. В 1988 году, ряд авторов обобщили теорему Колмогорова и показали, что любая непрерывная функция может быть аппроксимирована трехслойной нейронной сетью с одним скрытым слоем и алгоритмом обратного распространения ошибки с любой степенью точности. Таким образом, в нашем случае положительным аспектом является знание того, что сеть должна быть трехслойной, но опять-таки в распоряжении нет правил, устанавливающих зависимость между "любой степенью точности" и количеством нейронов на промежуточном, так называемом скрытом слое.

Резюмируя все вышесказанное, отметим, что универсальных правил, говорящих о том, какой топологии нейронной сети стоит придерживаться для решения той или иной задачи нет. Поэтому, необходима разумная процедура поиска нужной сети.

Модуль Neural Networks системы STATISTICA включает в себя уникальную процедуру, организующую поиск нужной конфигурации сети. Данный инструмент называется Intelligent Problem Solver. Воспользуемся этим инструментом и осуществим поиск нейронной сети, которая будет способна к решению нашей задачи.

Рисунок 8. Стартовая панель модуля Neural Networks

Во вкладке Quick (Быстрый) данного диалогового окна в разделе Problem Type (Класс задач) предлагается осуществить выбор того класса задач, с которым мы столкнулись. Нашей целью является построение многомерной зависимости или, другими словами, многомерной нелинейной регрессии. Значит, в разделе Problem Type - Класс задач следует указать Regression (Регрессия).

Определившись с классом задач, необходимо указать переменные для проведения Анализа. Для того чтобы выбрать переменные, воспользуемся кнопкой Variables. При нажатии данной кнопки появляется диалоговое окно Select input (independent), output (dependent) and selector variables (Укажите входные (независимые), выходные (зависимые) и группирующие переменные). В данном диалоговом окне необходимо задать два списка переменных. Continuous outputs (Непрерывные выходящие), в нашем случае, - это переменные Приём в стационаре И-АПФ/АРА, Приём в стационаре БАБ, Приём в стационаре БКК, Приём в стационаре диуретиков и приём в стационае препаратов центрального действия . Continuous inputs (Непрерывные входящие), в нашем примере, - это с 1 по 61 исходный параметр.

Рисунок 9. Выбор переменных для анализа

В разделе Select analysis (Выбор анализа) доступны две опции Intelligent Problem Solver и Custom Network Designer. Для автоматического подбора параметров нейронной сети требуется первая опция, которая устанавливается по умолчанию. Для продолжения Анализа необходимо нажать кнопку OK.

На следующем шаге появляется диалоговое окно настройки процедуры Intelligent Problem Solver.

Раздел Quick (Быстрый) содержит группу опций, отвечающих за время исполнения алгоритма поиска нейронной сети. На этой вкладке необходимо задать количество сетей, которые необходимо протестировать (выяснить подходят ли они для решения сформулированной задачи), а также указать, сколько из этих сетей войдут в итоговый отчет.

В разделе Networks tested (Количество тестируемых сетей) укажем 100, Networks retained (Количество сохраненных сетей) -- 10 (Рисунок 10)

На вкладке Types указывается, какие типы нейронных сетей будут использованы в процессе тестирования. Для решения задачи нелинейной регрессии больше всего подходит многослойный персептрон, поэтому выбираем сети, отмеченные на рисунке 11.

Рисунок 10. Задание количества тестируемых сетей

Рисунок 11. Выбор архитектуры сети

Далее, для организации процесса перебора и тестирования необходимо указать диапазон изменения количества нейронов в каждом слое нейронной сети. Рекомендуемые для данной задачи значения указаны на рисунке 12.

Рисунок 12. Указание размеров обучающей, контрольной и тестовой выборок

Теперь, после задания всех параметров обучения, для запуска процедуры поиска сетей необходимо нажать кнопку ОК.

Состояние алгоритма поиска отображается в диалоговом окне IPS Training In Progress (Процесс поиска сети).

Во время работы алгоритма поиска подходящей нейронной сети в этом диалоговом окне приводится информация о времени исполнения алгоритма, а так же о рассмотренных нейронных сетях. Цель алгоритма поиска - перебор ряда нейросетевых конфигураций и выбор наилучшей с точки зрения минимума ошибки на выходе сети и максимума её производительности.

Эти книги можно приобрести в офисе StatSoft .

Популярное введение в современный анализ данных и машинное обучение на Statistica

В.П. Боровиков

Объем: 354 стр.

Цена: 1000 руб.

Популярно и увлекательно освещены современные возможности анализа данных и машинного обучения, являющегося трендом современной компьютерной аналитики. В изложении упор сделан на понимании методов и их применении к практическим задачам. "Делайте вслед за нами, и вы научитесь анализировать данные!" - основной лейтмотив книги.

Подробно описаны классические статистические методы, включая многомерные методы: кластерный, дискриминантный анализ, множественная регрессия, факторный анализ, метод главных компонент, анализ выживаемости и регрессия Кокса. В отдельных главах изложены нейросетевые методы, методы добычи данных, деревья классификации и регрессии (CART - модели). Рассмотрены примеры из различных областей человеческой деятельности: промышленности, ритейла, инфокоммуникаций, бизнеса, медицины. Специальные главы посвящены теории вероятностей и методам оптимизации, лежащим в основе методов машинного обучения.

Для широкого круга читателей: инженеров, технологов, менеджеров, аналитиков, врачей, исследователей, интересующихся современными аналитическими методами и технологиями анализа данных и машинного обучения и их применением на практике.

Популярное введение в современный анализ данных в системе STATISTICA

В.П. Боровиков

Объем: 288 стр.

В уникальной книге научного директора StatSoft Владимира Боровикова собрано все лучшее, что известно в области анализа данных.

На простых, ясных примерах из бизнеса, маркетинга, медицины описаны современные методы анализа данных - визуальный анализ и графическое представление данных, описательные статистики, методы классификации и прогнозирования.

Книга является образовательным стандартом в области анализа данных в ведущих вузах России: НИУ МИЭМ ВШЭ, МГУ, Кубанский государственный университет и др.

Большое внимание уделяется систематике анализа данных, начиная от описательного анализа, чистки и верификации данных, визуального представления, группировки и методов классификации до новейших технологий нейронных сетей и data mining, позволяющих найти закономерности в ваших данных.

Теория вероятностей, математическая статистика и анализ данных: Основы теории и практика на компьютере. STATISTICA. EXCEL. Более 150 примеров решения задач

Халафян А.А., Боровиков В.П., Калайдина Г.В.

Объем: 320 стр.

Цена: 600 руб.

Отправить заявку можно по адресу

Современный уровень развития компьютерных технологий позволяет изучение теории вероятностей и математической статистики вывести на новый образовательный уровень, сделав упор на прикладную часть дисциплины – математическую статистику и компьютерный анализ данных.

В учебном пособии изложены элементы комбинаторики, различные способы вычисления вероятностей, даны понятия случайной величины, ее функциональные и числовые характеристики. Теоретический материал сопровождается примерами и специально подобранными задачами, позволяющими глубже изучить материал. В отдельной главе описано использование Excel и STATISTICA для решения прикладных задач. Excel входит в состав Microsoft Office и на сегодняшний день является одним из наиболее популярных приложений в мире. STATISTICA занимает лидирующее положение среди программ анализа данных, имеет более миллиона пользователей по всему миру. Программа полностью русифицирована, создан Интеллектуальный портал знаний, который представляет глобальный мультимедийный ресурс для широкого круга пользователей: школьников, студентов, аспирантов – всех желающих развить свой интеллект, познакомиться с современными технологиями компьютерного анализа данных.

Учебное пособие адресовано широкому кругу учащихся и преподавателей, студентам, бакалаврам гуманитарных и естественно-научных специальностей нематематического направления, изучающих высшую математику.

Нейронные сети STATISTICA Neural Networks : Методология и технология современного анализа данных

Под ред. В.П. Боровикова

Объем: 392 стр.

Отправить заявку можно по адресу

В книге изложены нейросетевые методы анализа данных, основанные на использовании пакета STATISTICA Neural Networks , полностью адаптированного для русского пользователя.

Даны основы теории нейронных сетей; большое внимание уделено решению практических задач, всесторонне рассмотрена методология и технология проведения исследований с помощью пакета STATISTICA Neural Networks – мощного инструмента анализа данных, построения зависимостей, прогнозирования, классификации.

В настоящее время нейронные сети интенсивно используются в банках, промышленности, маркетинге, экономике, медицине и других областях, где требуется прогнозирование и углубленное понимание данных. Общепризнанно, что нейронные сети являются естественным дополнением классических методов анализа и применяются там, где стандартные процедуры не дают нужного эффекта.

Книга содержит множество примеров анализа данных, практические рекомендации по проведению анализа, прогнозирования, классификации, распознавания образов, управления производственными процессами с помощью нейронных сетей.

Книга будет полезна для широкого круга читателей, занимающегося исследованиями в банковской сфере, промышленности, бизнесе, геологоразведке, управлении, транспорте и других областях.

STATISTICA : искусство анализа данных на компьютере (2-ое издание)

+ Мультимедийный Учебник StatSoft

В. П. Боровиков

Объем: 700 стр.

В настоящее время книга отсутствует в продаже. В ближайшее время планируется новое издание книги. Ваши заявки, пожалуйста, направляйте по адресу:

Книга является самым фундаментальным текстом по современному анализу данных и включает около 700 страниц описания методов и процедур анализа данных. Второе издание книги дополнено новыми материалами, не включенными в предыдущую версию книги, в частности: описан анализ мощности, оценка объема выборки, частные корреляции, анализ главных компонент, дана новая интерпретация нейронных сетей и многое другое. К книге прилагается компакт-диск, на котором Вы найдете демо-версии программных продуктов StatSoft, примеры анализа данных, знаменитый электронный учебник StatSoft, учебник по промышленной статистике, материалы обучающих курсов, а также огромное количество данных для обучения и проведения самостоятельных исследований.

Главную особенность второго издания представляет новая глава о языке STATISTICA Visual Basic (SVB), расширяющем возможности системы STATISTICA и позволяющем пользователям создавать собственные приложения.

В книге на примере реальных данных подробно описаны основные понятия анализа данных в системе STATISTICA : дескриптивный и визуальный анализ, анализ таблиц сопряженности, построение зависимостей, множественная регрессия, анализ выживаемости, непараметрические методы, анализ соответствий, нейронные сети, классификация и прогнозирование с помощью нейронных сетей, контроль качества, планирование экспериментов, включая самые разнообразные планы и многое другое.

Особенность книги состоит в том, что Вы не только видите результаты анализа, но и можете повторить их вслед за нами на системе STATISTICA , таким образом, используя новейшие компьютерные технологии анализа данных от StatSoft, Вы учитесь шаг за шагом анализировать и понимать данные.

Данное фундаментальное издание рассчитано на самый широкий круг читателей и пользователей системы STATISTICA , желающих стать профессионалами в анализе данных в различных областях: бизнесе, маркетинге, финансах, управлении, экономике, промышленности, страховании, медицине и других приложениях.

Прогнозирование в системе STATISTICA в среде WINDOWS

В.П. Боровиков, Г.И. Ивченко

Объем: 368 стр.

В настоящее время книга отсутствует в продаже.

Секреты прогнозирования из первых рук.

Особенностью книги является сочетание двух взаимосвязанных и взаимодополняющих друг друга частей: практической, в которой подробно, с переводом основных опций и диалоговых окон, описано прогнозирование в современной версии системы STATISTICA , и теоретической, в которой изложены основные идеи, методы и результаты теории стохастического прогнозирования.

По мнению авторов, синтез теории и практики должен привести к тому, что читатель не только механически осваивает методы и приемы прогнозирования, а получает связанное представление о них: от знакомства с математическими основами до приобретения практических навыков в системе STATISTICA .

В основе книги лежит курс, читаемый авторами в Московском государственном институте электроники и математики (МГИЭМ - Технический Университет). Приложение содержит исчерпывающий англо-русский словарь основных терминов по прогнозированию.
Книга ориентирована на научных работников, аналитиков и специалистов, использующих методы прогнозирования в повседневной деятельности, а также может быть использована преподавателями высших учебных заведений при чтении курсов по прогнозированию и математической статистике.

Геостатистика. Теория и практика

В.В. Демьянов, Е.А. Савельева

Объем: 327 стр.

В настоящее время книга отсутствует в продаже.


Эта книга ответит на вопросы:
- что такое геостатистика?
- какие существуют методы пространственной интерполяции?
- что такое кригинг?
- чем полезна вариограмма?
- зачем нужно стохастическое моделирование?
и многие другие

В монографии подробно изложены методы геостатистики и смежных разделов пространственного моделирования. Изложение теории сопровождается примерами использования моделей в различных областях: экологии, геологии, гидрогеологии, нефтедобыче, энергетике, оценке рыбных запасов и т. п. В заключительном разделе очерчены основные направления развития современной геостатистической теории. Издание может быть использовано в качестве учебного пособия.

Материал книги излагается с постепенным усложнением. Для закрепления полученных знаний имеются вопросы и упражнения. В книгу включены приложения, позволяющие использовать её как справочник по геостатистике.


Академия Анализа Данных StatSoft также предлагает широкий выбор курсов по современным методам и технологиям анализа данных в области геоаналитики.

Промышленная статистика. Контроль качества, анализ процессов, планирование экспериментов в пакете STATISTICA

Халафян А.А.

Объем: 384 стр.

В настоящее время книга отсутствует в продаже.


Настоящее издание посвящено описанию статистических методов, которые позволяют при ограниченных объемах анализируемых изделий с заданной степенью точности и достоверности судить о состоянии качества выпускаемой продукции. Статистический анализ качества продукции обеспечивает принятие верных управленческих решений не на основе интуиции, а при помощи научных методов выявления закономерностей в накапливаемых массивах числовой информации.

В учебнике рассмотрены такие разделы промышленной статистики, как: карты контроля качества; анализ процессов; шесть сигма; планирование экспериментов в среде широко известного во всем мире пакета STATISTICA . Дано подробное описание технологии работы с модулями программы.

Издание адресовано студентам направлений "Экономика", "Управление качеством", "Стандартизация и метрология", "Метрология, стандартизация и сертификация", аспирантам, научным работникам, преподавателям вузов, аналитикам и управленцам, а также всем, кто интересуется статистическими методами в управлении качеством.

Как выиграть мировой чемпионат. Методы математической статистики в управлении национальным футболом

Петрунин Ю.Ю., Рязанов М.А.

Объем: 56 стр.

В настоящее время книга отсутствует в продаже.


Современные методы статистики и анализа данных привели к созданию новых научных дисциплин – футболономики и футболометрии. Используя разработанный в них аппарат, можно оценить качество работы государственных (Министерство спорта) и некоммерческих организаций (футбольных ассоциаций и союзов), разработать и применить методы регулирующих воздействий, способных поднять уровень национального футбола и его престиж на мировой арене.

STATISTICA – Краткое руководство пользователя

Объем: 250 стр.

В настоящее время книга отсутствует в продаже.

В книге изложены основные принципы работы с системой, рассматриваются панели инструментов, пользовательский интерфейс, файлы данных, практические примеры использования пакета. Отдельная глава посвящена настройке системы. Также книга содержит исчерпывающий справочник, который представляет собой краткие сведения о наиболее часто используемых соглашениях, функциях и возможностях системы STATISTICA , и предметный указатель.

В чем же заключается сходство и различие языков нейрокомпьютинга и статистики в анализе данных. Рассмотрим простейший пример.

Предположим, что мы провели наблюдения и экспериментально измерили N пар точек, представляющих функциональную зависимость. Если попытаться провести через эти точки наилучшую прямую, что на языке статистики будет означать использование для описания неизвестной зависимости линейной модели

(где обозначает шум при проведении наблюдения), то решение соответствующей проблемы линейной регрессии сведется к нахождению оценочных значений параметров, минимизирующих сумму квадратичных невязок .

Если параметры и найдены, то можно оценить значение y длялюбого значения x, то есть осуществить интерполяцию и экстраполяцию данных.

Та же самая задача может быть решена с использованием однослойной сети с единственным входным и единственным линейным выходным нейроном. Вес связи a и порог b могут быть получены путем минимизации той же величины невязки (которая в данном случае будет называться среднеквадратичной ошибкой ) в ходе обучения сети, например методом backpropagation. Свойство нейронной сети к обобщению будет при этом использоваться для предсказания выходной величины по значению входа.

Рисунок 25. Линейная регрессия и реализующий ее однослойный персептрон.

При сравнении этих двух подходов сразу бросается в глаза то, что при описании своих методов статистика апеллирует к формулам и уравнениям , а нейрокомпьютинг к графическому описанию нейронных архитектур .

1 Если вспомнить, что с формулами и уравнениями оперирует левое полушарие, а с графическими образами правое, то можно понять, что в сопоставлении со статистикой вновь проявляется “правополушарность ” нейросетевого подхода.

Еще одним существенным различием является то, что для методов статистики не имеет значения, каким образом будет минимизироваться невязка - в любом случае модель остается той же самой, в то время как для нейрокомпьютинга главную роль играет именно метод обучения. Иными словами, в отличие от нейросетевого подхода, оценка параметров модели для статистических методов не зависит от метода минимизации. В то же время статистики будут рассматривать изменения вида невязки, скажем на

как фундаментальное изменение модели .

В отличие от нейросетевого подхода, в котором основное время забирает обучение сетей, при статистическом подходе это время тратится на тщательный анализ задачи. При этом опыт статистиков используется для выбора модели на основе анализа данных и информации, специфичной для данной области. Использование нейронных сетей - этих универсальных аппроксиматоров - обычно проводится без использования априорных знаний, хотя в ряде случаев оно весьма полезно. Например, для рассматриваемой линейной модели использование именно среднеквадратичной ошибки ведет к получению оптимальной оценки ее параметров, когда величина шума имеет нормальное распределение с одинаковой дисперсией для всех обучающих пар. В то же время если известно, что эти дисперсии различны, то использование взвешенной функции ошибки

может дать значительно лучшие значения параметров.

Помимо рассмотренной простейшей модели можно привести примеры других в некотором смысле эквивалентных моделей статистики и нейросетевых парадигм

Таблица 3. Аналогичные методики

Сеть Хопфилда имеет очевидную связь с кластеризацией данных и их факторным анализом.

1 Факторный анализ используется для изучения структуры данных. Основной его посылкой является предположение о существовании таких признаков - факторов , которые невозможно наблюдать непосредственно, но можно оценить по нескольким наблюдаемым первичным признакам. Так, например, такие признаки, как объем производства и стоимость основных фондов , могут определять такой фактор, как масштаб производства . В отличие от нейронных сетей, требующих обучения, факторный анализ может работать лишь с определенным числом наблюдений. Хотя в принципе число таких наблюдений должно лишь на единицу превосходить число переменных рекомендуется использовать хотя бы втрое большее число значение. Это все равно считается меньшим, чем объем обучающей выборки для нейронной сети. Поэтому статистики указывают на преимущество факторного анализа, заключающееся в использовании меньшего числа данных и, следовательно, приводящего к более быстрой генерации модели. Кроме того, это означает, что реализация методов факторного анализа требует менее мощных вычислительных средств. Другим преимуществом факторного анализа считается то, что он является методом типа white-box, т.е. полностью открыт и понятен - пользователь может легко осознавать, почему модель дает тот или иной результат. Связь факторного анализа с моделью Хопфилда можно увидеть, вспомнив векторы минимального базиса для набора наблюдений (образов памяти - см. Главу 5). Именно эти векторы являются аналогами факторов, объединяющих различные компоненты векторов памяти - первичные признаки.

1 Логистическая регрессия является методом бинарной классификации, широко применяемом при принятии решений в финансовой сфере. Она позволяет оценивать вероятность реализации (или нереализации) некоторого события в зависимости от значений некоторых независимых переменных - предикторов: x 1 ,...,x N . В модели логистической регресии такая вероятность имеет аналитическую форму: Pr(X ) =(1+exp(-z)) -1 , где z = a 0 + a 1 x 1 +...+ a N x N . Нейросетевым аналогом ее, очевидно, является однослойный персептрон с нелинейным выходным нейроном. В финансовых приложениях логистическую регрессию по ряду причин предпочитают многопараметрической линейной регрессии и дискриминантному анализу. В частности, она автоматически обеспечивает принадлежность вероятности интервалу , накладывает меньше ограничений на распределение значений предикторов. Последнее очень существенно, поскольку распределение значений финансовых показателей, имеющих форму отношений, обычно не является нормальным и “сильно перекошено”. Достоинством нейронных сетей является то, что такая ситуация не представляет для них проблемы. Кроме того, нейросети нечувствительны к корреляции значений предикторов, в то время как методы оценки параметров регрессионной модели в этом случае часто дают неточные значения.

Лучшие статьи по теме