ЗАДАЧИ,РЕШАЕМЫЕМЕТОДАМИDATAMINING.
1. Классификация–этоотнесениеобъектов(наблюдений,событий)кодномуиззаранееизвестныхклассов. 2. Регрессия,втомчислезадачипрогнозирования.Установлениезависимостинепрерывныхвыходныхотвходныхпеременных. 3. Кластеризация–этогруппировкаобъектов(наблюдений,событий)наосноведанных(свойств),описывающихсущностьэтихобъектов.Объектывнутрикластерадолжныбыть"похожими"другнадругаиотличатьсяотобъектов,вошедшихвдругиекластеры.Чембольшепохожиобъектывнутрикластераичембольшеотличиймеждукластерами,темточнеекластеризация. 4. Ассоциация–выявлениезакономерностеймеждусвязаннымисобытиями.Примеромтакойзакономерностислужитправило,указывающее,чтоизсобытияXследуетсобытиеY.Такиеправиланазываютсяассоциативными.Впервыеэтазадачабылапредложенадлянахождениятипичныхшаблоновпокупок,совершаемыхвсупермаркетах,поэтомуиногдаееещеназываютанализомрыночнойкорзины(marketbasketanalysis). 5. Последовательныешаблоны–установлениезакономерностеймеждусвязаннымивовременисобытиями,т.е.обнаружениезависимости,чтоеслипроизойдетсобытиеX,тоспустязаданноевремяпроизойдетсобытиеY. 6. Анализотклонений–выявлениенаиболеенехарактерныхшаблонов. Проблемыбизнесанализаформулируютсяпо-иному,норешениебольшинстваизнихсводитсяктойилиинойзадачеDataMiningиликихкомбинации.Например,оценкарисков–эторешениезадачирегрессиииликлассификации,сегментациярынка–кластеризация,стимулированиеспроса–ассоциативныеправила.Фактически,задачиDataMiningявляютсяэлементами,изкоторыхможнособратьрешениеподавляющегобольшинствареальныхбизнесзадач. ДлярешениявышеописанныхзадачиспользуютсяразличныеметодыиалгоритмыDataMining.Ввидутого,чтоDataMiningразвиваласьиразвиваетсянастыкетакихдисциплин,какстатистика,теорияинформации,машинноеобучение,теориябазданных,вполнезакономерно,чтобольшинствоалгоритмовиметодовDataMiningбылиразработанынаосноверазличныхметодовизэтихдисциплин.Например,процедуракластеризацииk-meansбылапростозаимствованаизстатистики.БольшуюпопулярностьполучилиследующиеметодыDataMining:нейронныесети,деревьярешений,алгоритмыкластеризации,втомчислеимасштабируемые,алгоритмыобнаруженияассоциативныхсвязеймеждусобытиямиит.д. Deductorявляетсяаналитическойплатформой,вкоторуювключенполныйнаборинструментовдлярешениязадачDataMining:линейнаярегрессия,нейронныесетисучителем,нейронныесетибезучителя,деревьярешений,поискассоциативныхправилимножестводругих.Длямногихмеханизмовпредусмотреныспециализированныевизуализаторы,значительнооблегчающиеиспользованиеполученноймоделииинтерпретациюрезультатов.Сильнойсторонойплатформыявляетсянетолькореализациясовременныхалгоритмованализа,ноиобеспечениевозможностипроизвольнымобразомкомбинироватьразличныемеханизмыанализа.
ХРАНИЛИЩАИВИТРИНЫДАННЫХ
Храни́лищеда́нных(англ.DataWarehouse)—предметно-ориентированнаяинформационнаябазаданных,специальноразработаннаяипредназначеннаядляподготовкиотчётовибизнес-анализасцельюподдержкипринятиярешенийворганизации.Строитсянабазесистемуправлениябазамиданныхисистемподдержкипринятиярешений.Данные,поступающиевхранилищеданных,какправило,доступнытолькодлячтения. ДанныеизOLTP-системыкопируютсявхранилищеданныхтакимобразом,чтобыприпостроенииотчётовиOLAP-анализенеиспользовалисьресурсытранзакционнойсистемыиненарушаласьеёстабильность.Естьдвавариантаобновленияданныхвхранилище: · полноеобновлениеданныхвхранилище.Сначаластарыеданныеудаляются,потомпроисходитзагрузкановыхданных.Процесспроисходитсопределённойпериодичностью,приэтомактуальностьданныхможетнесколькоотставатьотOLTP-системы; · инкрементальноеобновление—обновляютсятолькотеданные,которыеизменилисьвOLTP-системе. · Принципыорганизациихранилища · Проблемно-предметнаяориентация.Данныеобъединяютсявкатегорииихранятсявсоответствиисобластями,которыеониописывают,анесприложениями,которыеонииспользуют. · Интегрированность.Данныеобъединенытак,чтобыониудовлетворяливсемтребованиямпредприятиявцелом,анеединственнойфункциибизнеса. · Некорректируемость.Данныевхранилищеданныхнесоздаются:тоестьпоступаютизвнешнихисточников,некорректируютсяинеудаляются. · Зависимостьотвремени.Данныевхранилищеточныикорректнытольковтомслучае,когдаонипривязаныкнекоторомупромежуткуилимоментувремени. Дизайнхранилищданных Существуютдваархитектурныхнаправления—нормализованныехранилищаданныхихранилищасизмерениями. Внормализованныххранилищах,данныенаходятсявпредметноориентированныхтаблицахтретьейнормальнойформы.Нормализованныехранилищахарактеризуютсякакпростыевсозданиииуправлении,недостаткинормализованныххранилищ—большоеколичествотаблицкакследствиенормализации,из-зачегодляполучениякакой-либоинформациинужноделатьвыборкуизмногихтаблицодновременно,чтоприводиткухудшениюпроизводительностисистемы.Длярешенияэтойпроблемыиспользуютсяденормализованныетаблицы—витриныданных,наосновекоторыхужевыводятсяотчетныеформы.Пригромадныхобъемахданныхмогутиспользоватьнесколькоуровней«витрин»/«хранилищ».Хранилищасизмерениямииспользуютсхему«звезда»илисхему«снежинка» .Приэтомвцентре«звезды»находятсяданные(таблицафактов),аизмеренияобразуютлучизвезды.Различныетаблицыфактовсовместноиспользуюттаблицыизмерений,чтозначительнооблегчаетоперацииобъединенияданныхизнесколькихпредметныхтаблицфактов(пример—фактыпродажипоставоктовара).Таблицыданныхисоответствующиеизмеренияобразуютархитектуру«шина».Измерениячастосоздаютсявтретьейнормальнойформе,втомчисле,дляпротоколированияизменениявизмерениях.Основнымдостоинствомхранилищсизмерениямиявляетсяпростотаипонятностьдляразработчиковипользователей,также,благодаряболееэффективномухранениюданныхиформализованнымизмерениям,облегчаетсяиускоряетсядоступкданным,особенноприсложныханализах.Основнымнедостаткомявляетсяболеесложныепроцедурыподготовкиизагрузкиданных,атакжеуправлениеиизменениеизмеренийданных. Придостаточнобольшомобъемеданныхсхемы«звезда»и«снежинка»такжедаютснижениепроизводительностиприсоединенияхсизмерениями.
Популярное: Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной... Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация... Как распознать напряжение: Говоря о мышечном напряжении, мы в первую очередь имеем в виду мускулы, прикрепленные к костям ... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (360)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |