Почему растет популярность Data Mining?
Курсовая работа по дисциплине: «Сетевые информационные технологии» на тему: «Технологии интеллектуального анализа данных или Data mining технологии» Выполнила: студентка ФКН УС-502 Морарь Ю.В. Проверила: Климова А.С. Киев-2012 Содержание Введение_________________3 1. Почему растет популярность Data Mining?_________________________4 2. Определение Data Mining_________6 3. Области применения Data Mining__8 4. Типы закономерностей__________14 5. Классы систем Data Mining______15 6. Инструментарий технологии Data Mining__________________________20 7. Важное положение Data Mining__22 8. Специальные приложения________23 Медицина______________23 Молекулярная генетика и генная инженерия_________________23 Прикладная химия________24 9. Data Mining. Мультидисциплинарная область_______________________18 10. Класиффикация стадий Data Mining______________________________26 10.1. Свободный поиск (Discovery)_____________________________26 10.2. Прогностическое моделирование__________________________28 10.3. Анализ исключений (forensic analysis)_______________________31 11. Класиффикация методов Data Mining____________________________32 11.1. Статистические методы Data mining______________________35 11.2. Кибернетические методы Data Mining_____________________37 Выводы_________________38 Список литературы______41 Введение Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Суть и цель технологии Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей. Неочевидных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем. Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным. Практически полезных - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение. (Григорий Пиатецкий-Шапиро) Традиционные методы анализа данных (статистические методы) и OLAP в основном ориентированы на проверку заранее сформулированных гипотез (verification-driven data mining) и на "грубый" разведочный анализ, составляющий основу оперативной аналитической обработки данных (OnLine Analytical Processing, OLAP), в то время как одно из основных положений Data Mining - поиск неочевидных закономерностей. Инструменты Data Mining могут находить такие закономерности самостоятельно и также самостоятельно строить гипотезы о взаимосвязях. Поскольку именно формулировка гипотезы относительно зависимостей является самой сложной задачей, преимущество Data Mining по сравнению с другими методами анализа является очевидным.
Почему растет популярность Data Mining? Мы живем в веке информации. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информации в самых различных областях. Трудно переоценить значение данных, которые мы непрерывно собираем в процессе нашей деятельности, в управлении бизнесом или производством, в банковском деле, в решении научных, инженерных и медицинских задач. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Мощные компьютерные системы, хранящие и управляющие огромными базами данных, стали неотъемлемым атрибутом жизнедеятельности, как крупных корпораций, так и даже небольших компаний. Без продуктивной переработки потоки сырых данных образуют никому не нужную свалку. Наличие данных само по себе еще недостаточно для улучшения показателей работы. Нужно уметь трансформировать "сырые" данные в полезную для принятия важных бизнес решений информацию. В этом и состоит основное предназначение технологий Data Mining. Необходимость автоматизированного интеллектуального анализа данных стала очевидной в первую очередь из-за огромных массивов исторической и вновь собираемой информации. Трудно даже приблизительно оценить объем ежедневных данных, накапливаемых различными компаниями, государственными, научными и медицинскими организациями. По мнению исследовательского центра компании GTE только научные институты собирают ежедневно около терабайта новых данных! А ведь академический мир далеко не самый главный поставщик информации. Человеческий ум, даже такой тренированный, как ум профессионального аналитика, просто не в состоянии своевременно анализировать столь огромные информационные потоки. Другой причиной роста популярности Data Mining является объективность получаемых результатов. Человеку-аналитику, в отличие от машины, всегда присущ субъективизм, он в той или иной степени является заложником уже сложившихся представлений. Иногда это полезно, но чаще приносит большой вред. И, наконец, Data Mining дешевле. Оказывается, что выгоднее инвестировать деньги в решения Data Mining, чем постоянно содержать целую армию высоко подготовленных и дорогих профессиональных статистиков. Data Mining вовсе не исключает полностью человеческую роль, но значительно упрощает процесс поиска знаний, делая его доступным для более широкого круга аналитиков, не являющихся специалистами в статистике, математике или программировании. Итак, современная специфика такова, что: · данные имеют неограниченные объем; · данные являются разнородными (количественными, качественными, текстовыми); · результаты должны быть конкретны и понятны; · инструменты для обработки сырых данных должны быть просты в использовании.
Популярное: Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы... Почему двоичная система счисления так распространена?: Каждая цифра должна быть как-то представлена на физическом носителе... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (731)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |