на тему рефераты Информационно-образоательный портал
Рефераты, курсовые, дипломы, научные работы,
на тему рефераты
на тему рефераты
МЕНЮ|
на тему рефераты
поиск
Разработка программно-технологического обеспечения статистического описания объектов посредством Visual Basic for Application Excel
b>

4.1.3 Апробация программного обеспечения непараметрических методов статистической аппроксимации законов распределения. Первоначально перед пользователем стоит выбор решаемой задачи: гистограмма и полигон частот для статистических данных с разбиением на интервалы равной длины (задача 1), гистограмма и полигон частот для статистических данных с разбиением на равнонаполненные интервалы (задача 2), непараметрическая оценка функции плотности распределения вероятности для статистических данных методом прямоугольных вкладов (задача 3).

При выборе задачи 1 на рабочий лист выдаются результаты работы макроса, а именно значения длины и высоты интервалов для гистограммы и полигона частот при разбиении интервалов на участки равной длины. После этого по найденным данным автоматически построены графики гистограмма и полигон частот (см. рисунок 4.8).

Рисунок 4.8 - Равноинтервальная гистограмма и полигон частот

При выборе задачи 2 на рабочий лист выдаются результаты работы макроса, а именно значения длины и высоты интервалов для гистограммы и полигона частот при разбиении на равнонаполненные интервалы. После этого по найденным данным автоматически построены графики гистограмма и полигон частот (см. рисунок 4.9).

Рисунок 4.9 - Равнонаполненная гистограмма и полигон частот

При выборе задачи 3 на рабочий лист выдаются результат работы макроса, а именно выходной массив значений для функции ядерного типа. После этого по найденным данным автоматически построен график функции ядерного типа (см. рисунок 4.10).

Рисунок 4.10 - «Ядерная» аппроксимация

Таким образом, при помощи ряда макросов проведена первичная статистическая обработка по описанию эмпирических данных: построены равноинтервальные и равнонаполненные гистограммы и полигоны частот, а также функция ядерного типа заданной совокупности объектов.

ЗАКЛЮЧЕНИЕ

В ходе выполнения дипломной работы изучены:

ѕ краткие теоретические сведения о типах методов кластерного анализа, об алгоритмах прямой классификации;

ѕ сведения об оценке функции распределения с помощью нормальной вероятностной бумаги;

ѕ теоретические сведения о статистической аппроксимации законов распределения, гистограмме и полигоне частот, оценке плотности распределения вероятностей «ядерного» типа.

С целью более глубокого изучения задач статистического описания объектов разработаны алгоритмы и программные обеспечения посредством Visual Basic for Application в среде встроенного пакета анализа данных EXEL.

В ходе выполнения дипломной работы на основе теоретических сведений и разработанных алгоритмов программного обеспечения разработаны и реализованы в среде встроенного пакета анализа данных Microsoft Excel средства автоматизации, которые позволяют быстро и эффективно получить требуемую информацию о классификации выборки упрощенным методом К - ближайших соседей, о правильности выполнения лабораторной работы на тему «Оценка функции распределения с помощью нормальной вероятностной бумаги» из курса «Пакеты статистической обработки данных», а также аппроксимировать неизвестную функцию плотности распределения непараметрическими методами.

Таким образом, созданы обучающие средства, позволяющие

ѕ преподавателю упростить процедуру проверки правильности выполнения работ;

ѕ студентам упростить решение задачи статистического описания;

ѕ студентам предоставить наглядные обучающие средства для изучения влияния нормировки, начального разбиения выборки, выбора расстояния на результаты классификации.

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1
Айвазян С.А., Бухштабер В.М., Енюков И.С и др. Прикладная статистика: Классификация и снижение размерности. - М.: Финансы и статистика. 1989. -605с.

2 Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: основы моделирования и первичная обработка данных. - М.: Финансы и статистика. 1983. -472c.

3 Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. - М.: Мир.1982. -405с.

4 О формировании эмпирического образа данных/ Осипенко А.Н., Осипенко Н.Б.// -M.: НТИ. Сер. 2. 1990. -С.30-35.

5 Пособие для лабораторных занятий по спецкурсу «Обработка экспериментальных данных на ЭВМ» (для специальностей Н.01.01 и Н.08.01)/ Максимей И.В., Осипенко Н.Б., Осипенко А.Н. Гомель: ГГУ, 1998. -54с.

6 Мандель И.Д. Кластерный анализ. - М.: Финансы и статистика, 1988. -172с

Приложение А

Апробация программного обеспечения алгоритма прямой классификации средствами пакета анализа данных STATISTICA

Краткая характеристика пакета STATISTICA

Для анализа данных исследователь может воспользоваться готовыми пакетами анализа данных. Одним из таких пакетов статистической обработке является пакет STATISTICA.

Пакет STATISTICA является одним из наиболее мощных пакетов по статистической обработке.

Статистика - это наука, которая позволяет увидеть закономерности в хаосе случайных данных, выделить в них устойчивые связи и определить наши действия с тем, чтобы увеличить долю правильно принятых решений. Как все математические науки, статистика родилась из потребностей практики: подобно тому, как древние египтяне после разливов Нила вынуждены были заново измерять свои участки и для этого разработали начала геометрии, так и мы, окруженные хаотическими данными, вынуждены анализировать их. Конечно, мы стремимся интуитивно сузить пределы случайного, максимально сократить рамки неопределенности, но сделать полностью это редко когда удается. Применяя статистические методы, мы стремимся найти закономерности в случайных данных и воспользоваться найденными закономерностями.

STATISTICA - это универсальная интегрированная программная система, предназначенная для статистического анализа и визуализации данных, управления базами данных и разработки пользовательских приложений, содержащая широкий набор процедур анализа для применения в научных исследованиях, технике, бизнесе, а также специальные методы добычи данных. Помимо общих статистических и графических средств в системе имеются специализированные модули, например, для проведения социологических или биомедицинских исследований, решения технических и, что очень важно, промышленных задач: карты контроля качества, анализ процессов и планирование эксперимента. Работа со всеми модулями происходит в рамках единого программного пакета, для которого можно выбирать один из нескольких предложенных интерфейсов пользователя.

С помощью реализованных в системе STATISTICA мощных языков программирования, снабженных специальными средствами поддержки, легко создаются законченные пользовательские решения и встраиваются в различные другие приложения или вычислительные среды.

STATISTICA представляет собой интегрированную систему статистического анализа и обработки данных. Она состоит из следующих основных компонент, объединенных в рамках одной системы:

ѕ электронных таблиц для ввода и задания исходных данных, а также специальных таблиц для вывода численных результатов анализа;

ѕ мощной графической системы для визуализации данных и результатов статистического анализа;

ѕ набора специализированных статистических модулей, в которых собраны группы логически связанных между собой статистических процедур;

ѕ специального инструментария для подготовки отчетов;

ѕ встроенных языков программирования SCL (STATISTICA Command Language) и STATISTICA BASIC, которые позволяют пользователю расширить стандартные возможности системы.

В ряде случаев для проведения законченного статистического исследования не требуется дополнительное программное обеспечение - все этапы статистического анализа, начиная от ввода исходных данных и их преобразований и заканчивая подготовкой отчета или написания собственных процедур обработки, можно выполнить, используя только систему STATISTICA.

STATISTICA предоставляет пользователю уникальную среду экспериментирования, разведки, графического отображения и углубленного анализа данных, в которой статистическая обработка становится не рутинным занятием, а увлекательным исследованием с использованием новейших компьютерных технологий и современных приемов и методов.

Опишем основные модули пакета STATISTICA, используемые в работе:

ѕ модуль диалога

ѕ модуль построения/выполнения технологических цепочек

ѕ модуль управления данными.

ѕ модуль статистических функций

ѕ модуль визуализации

1 Модуль диалога. С помощью данного модуля пользователь производит выбор необходимого ему метода обработки информации или технологической цепочки методов и выполняет настройку соответствующих параметров. Данная компонента обеспечивает удобный интерфейс с пользователем в системе Windows. Предлагается широкий спектр диалоговых окон для настройки как параметров предоставляемого набора функций (статистической обработки, визуализации результатов и т.д.), так и параметров среды общения, что позволяет настроить модуль под конкретного пользователя. Также обеспечивается возможность справки по текущей ситуации.

2 Модуль построения/выполнения технологических цепочек. Данный модуль позволяет описывать часто используемую цепочку действий по обработке информации в виде пакета команд предлагаемого SCL-языка (STATISTICA Command Language), синтаксис которого очень похож на распространенный язык Basic или Pascal. Практически все возможности пакета STATISTICA продублированы соответствующими командами-функциями, на вход которых подаются продекларированные параметры настройки. Заметим, что возможности расширены вплоть до имитации работы пользователя (запись и воспроизведение команд пользователя и имитация работы органов управления посредством SCL-команд). Модуль реализован в виде двух Windows-программ: sta_com.exe (конструктор) и sta_run.exe (процессор). Созданные технологические цепочки хранятся в базе знаний в виде текстового файла с расширением SCL и могут выполняться посредством процессора sta_run из других Windows-приложений. Эта возможность позволяет строить проблемно-ориентированный программный инструментарий, который будет более понятен и прост в использовании для специалиста, что значительно повысит эффективность его работы.

3 Модуль управления данными. STATISTICA обеспечивает широкие возможности импорта/экспорта из различных стандартных типов баз данных как Windows, так и DOS версий (Symphony, Quattro, dBASE III+, dBASE IV, Paradox и ASCII формат). При импорте данные переводятся во внутренний формат (STA-формат), поддерживающий 32,000 переменных (признаков) и обеспечивающий более быструю обработку данных. Предлагаются возможности верификации (попадание в интервал), различные варианты ранжирования, кодировки данных (соотнесение значений по заданным категориям), создание переменных по уравнению связи признаков, нормировки, смещения значений признаков, замена пропусков на медианное значение, а также стандартные возможности редактирования данных (выделения подвыборки, копирования, удаления, добавления, перемещения, транспонирования и сортировки). Для автоматизации выполнения небольшого объема действий по управлению данными имеется встроенная версия SCL-языка - QMML (Quick Megafile Manager Language). Имеется также возможности установления DDE-связи с другими Windows-приложениями (такие как Excel, MS Word, Ami Pro, Quattro Pro), а также поддержка OLE. Модуль реализован в виде Windows-программы: sta_dat.exe.

4 Модуль статистических функций. Здесь предлагается широкий спектр возможностей статистического анализа данных. Из-за большого объема информации по предлагаемым методам анализа ограничимся краткой характеристикой каждого из них:

ѕ Basic Statistics - базовый статистический анализ: описательная статистика; описательная статистика для групп; t-тест для зависимых и независимых выборок; построение матрицы парных корреляций, частотных таблиц (гистограмм) и другое (реализован в виде Windows-программы sta_bas.exe);

ѕ Nonparametrics - непараметрический анализ (внутри и межгрупповые различные тесты, корреляции), обычная описательная статистика (процентили, медиана и т.д. (sta_non.exe);

ѕ Linear Regression - множественная линейная регрессия (различные методы определения), фиксированная нелинейная регрессия (полиномиальная) (sta_lin);

ѕ NonLinear Estimation - построение нелинейной регрессии (определенного пользователем вида: фиксированной экспоненциальной, ломанной линейной и др. ) с помощью различных аппроксимаций (Симплекс, Квази-Ньютона, Хук-Риверса и др.) (sta_log);

ѕ Time Series and Forecasting - анализ временных рядов и прогноз, а также различного рода сглаживания, трансформации, определение сезонных колебаний и т.д. (sta_tim);

ѕ Cluster Analysis - кластерный анализ, позволяющий выделять однородные группы с помощью метода К-средних, попарного объединения и иерархического метода (sta_clu).

ѕ Factor Analysis - факторный анализ методом выделения главных компонент, максимального правдоподобия факторов, центроидный метод, метод главных аксцис (sta_fac);

ѕ Canonical Analysis - оценка взаимосвязи признаков методом главных компонент (sta_can);

ѕ Multidimensional Scaling - многомерное шкалирование, анализ расстояний или однородности/разнородности, восстановление расстояний (sta_mul)

ѕ Reliability & Item Analysis - методы построения и анализа тестов, построения различных корреляций (Кронбач-альфа, часть-целое, множественные) (sta_rel);

Страницы: 1, 2, 3, 4, 5, 6, 7, 8



© 2003-2013
Рефераты бесплатно, курсовые, рефераты биология, большая бибилиотека рефератов, дипломы, научные работы, рефераты право, рефераты, рефераты скачать, рефераты литература, курсовые работы, реферат, доклады, рефераты медицина, рефераты на тему, сочинения, реферат бесплатно, рефераты авиация, рефераты психология, рефераты математика, рефераты кулинария, рефераты логистика, рефераты анатомия, рефераты маркетинг, рефераты релиния, рефераты социология, рефераты менеджемент.