Возможности представления знаний на базе языка HTML
Рассмотрим, каким образом HTML-документ может быть представлен в виде семантической сети. Нам необходимо выделить те конструкции языка, которые могут быть полезными для решения этой задачи. Прежде всего, к числу таких конструкций относятся теги типа <TITLE>, <META…> и <A…>. Первый тег важен для фиксации семантики всего HTML – документа, так как текст, заключенный между тегами <TITLE> и </TITLE> чаще всего отражает его назначение или содержание. Теги типа <META…> вводят имена атрибутов и их значения с помощью параметров name=”…” и content=”…”, а ссылки и якоря фиксируют отношения между частями одного документа или между отдельными документами. Теги типа <META…> явно вводят семантику значений атрибутов, одинаково интерпретируемых броузерами за счет ключевых слов, которые могут быть значениями параметра name. Теги типа <A…> фиксируют лишь факт наличия отношения между ссылкой и ее якорем. В некоторых случаях этому отношению можно «приписать» имя SeeAlso (смотри также), в других случаях – ConsistOf, PartOf или иное подходящее имя, но семантика данной конструкции имплицитна, а встроенная интерпретация ее связана лишь с переходом по ссылке и визуализацией начала соответствующего фрагмента документа или загрузкой нового документа для просмотра. Другими полезными конструкциями являются заголовки разделов и подразделов (тексты между тегами <Hi> и </Hi>), списки, таблицы и другие элементы языка. Но в целом, выделение значимых для семантической интерпретации конструкций является экспертной задачей, решаемой каждый раз автором соответствующей Интернет - публикации по-своему. Но существуют определенные стереотипы. Например, на страницах Интернет – магазинов каталоги товаров в большинстве случаев представляются таблицами или списками, либо «зашиты» в чувствительные для щелчка мыши графические объекты. Это характерно и для индексов на сайтах машин поиска. Рассмотрим в качестве примера страницу официального сайта компании Microsystems LTD, расположенную в сети по адресу http://www.analyst.ru. На этой странице располагается по информация по программе TextAnalyst 2.0. Экранная форма этой страницы показана на рисунке.
Фрагмент соответствующего HTML – текста представлен ниже:
<html> <head>
---------------------------------
<meta name="KEYWORDS" content="Microsystems, TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, Микросистемы, анализ текстов, база знаний, документооборот, классификация, семантический анализ, нейронные сети, натуральные языки, текст процессор"> <meta name="GENERATOR" content="Microsoft FrontPage 4.0"> <meta name="ProgId" content="FrontPage.Editor.Document"> <title>Microsystems, Ltd</title> <link rel="stylesheet" type="text/css" href="style.css"> </head>
-----------------------------------------------
<body topmargin="0" leftmargin="0"> <table border="0" cellspacing="0" cellpadding="0"> <tr> <td href="/index.php?lang=eng"><img border="0" src="/images/top_logo.gif"></a></td> <td align="left"> <table border="0" cellspacing="0" cellpadding="0"> <tr><td border="0" src="/images/top_up.gif"> </td></tr> <tr> <td width="100%"> <table border="0" cellspacing="0" cellpadding="0" bgcolor="#001395" height="23"> <tr><td width="100%">
-------------------------------------
</table> </td></tr> </table> <!-- end menu -->
----------------------------------------------
<!-- start menu here --> <table border="0" cellspacing="0" cellpadding="0" width="100%"> <tr> <td align="left"> <table border="0" cellspacing="0" cellpadding="0"> <tr><td width="100%"> <p> </p> <p align="center"> <img border="0" src="/images/10thyear_s.gif" height="52"> </p> </td></tr> <tr><td align="left"> <!-- left menu--> <table border="0" width="218"> <tr><td bgcolor="#DDDDDD" align="left"> <p align="right"><b>Products</b></td> </tr> <tr onmouseout="this.style.backgroundColor='transparent'" onmouseover="this.style.backgroundColor='#6B8ADE'"> <td align="right"> <a href="/index.php?lang=eng&dir=content/products/&id=body&left= content/products/menu.txt " target="_self"> <span style="color: #000000; text-decoration: none"> TextAnalyst SDK</span></a> </td></tr> <tr><td align="right"> <p align="right"><img border="0" src="/images/bd14580_.gif" height="12"> TextAnalyst</p> </td></tr> <tr onmouseout="this.style.backgroundColor='transparent'" onmouseover="this.style.backgroundColor='#6B8ADE'"> <td align="right"> <a href="/index.php?lang=eng&dir=content/products/&id= tref&left=content/products/menu.txt " target="_self"> <span style="color: #000000; text-decoration: none"> Text Referent</span></a> </td></tr> <!-- end left menu-->
----------------------------------------
</table> <!-- end here --> </td> <!-- free space --> <td align="left"> </td> <!-- end free space -->
<td align="left" > <!-- content started here --> <table border="0" cellspacing="6" cellpadding="0"> <tr> <td align="left"> <head> <meta name="DESCRIPTION" content="TextAnalyst - personal text mining system"> <meta name="KEYWORDS" content="TextAnalyst, personal, text mining"> <title>TextAnalyst</title> </head> <div align="left"> <table border="0" align="left" cellspacing="4" cellpadding="3"> <tr> <td align="center" width="250"> <p align="center"> </p> <p align="center"><a href="cgi-bin/stat/loadfile.pl?file=ta_rus"> <img border="0" src="images/downloads.gif"></a></p> <p align="center">Получите бесплатную версию TextAnalyst</p> <table border="0"> <tr><td bgcolor="#008000"> <p align="center" class="menu"> <font color="#FFFFFF">Системные требования</font></td> </tr> <tr><td PC</td> </tr> <tr> <td 9X, NT, 2000, Me</td> </tr> <tr> <td bgcolor="#C0C0C0"> <p align="center" class="menu"> <font color="#FFFFFF">Технические характеристики</font></td>/tr> <tr><td align="left"> <ul> <li> Средняя скорость анализа текста около 1Мбайт/мин (при использовании Pentium-II).</li> <li>Максимальный объем анализируемой подборки не ограничен и зависит от объема ресурсов компьютера и настройки TextAnalyst.</li> <li>Собственный объем TextAnalyst не превышает 5Мб.</li> <li>Форматы обрабатываемых файлов:</li> <li>*.txt (ANSI, DOS), *.rtf</li> <li>Экспорт информации в форматы: *.txt, *.csw (электронные таблицы).</li> </ul> </td></tr> </table>
-----------------------------------
<h1 align="center"> <img border="0" src="../../images/octopus_shaden.gif" align="left" height="112">TextAnalyst 2.0 </h1> <p align="center"><b>персональная система автоматического анализа текста </b></p> <p>TextAnalyst разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности: </p> <ul> <li>анализа содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей; </li> <li>анализа содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем; </li> <li>смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста; </li> <li>автоматического реферирования текста - формирования его смыслового портрета в терминах наиболее информативных фраз; </li> <li>кластеризации информации - анализа распределения материала текстов по тематическим классам;</li> <li>автоматической индексации текста с преобразованием в гипертекст; </li> <li>ранжирования всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования; </li> <li>автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации; </li> </ul> <p align="center"><b>Не пугайтесь обилия возможностей!</b></p> <p align="center"><i>Работа с TextAnalyst покажется Вам неожиданно простой и приятной, а его аналитические способности сэкономят массу полезного времени... </i></p></td> </tr> </table></div></td> </tr> </table>
----------------------------------
</body> </html>
Сравнив приведенные экранную форму и HTML-текст, видим, что семантически значимыми элементами данного документа являются: - ключевые слова, относящиеся к данному документу: Microsystems, TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, Микросистемы, анализ текстов, база знаний, документооборот, классификация, семантический анализ, нейронные сети, натуральные языки, текст процессор (тег <META>); - все меню организованы в виде таблиц (тег <TABLE>), в ячейках которых (тег <TD>) расположены ссылки (тег <A href …>), с помощью которых можно перейти к другой интересующей информации. Например, можно получить информацию о продуктах данной компании, выбрав их название из левого меню. - текст описания возможностей программы TextAnalyst организован в виде списка (тег <li>). Т.о. можно видеть, семантически значимые характеристики документа могут быть разбросаны по разным частям документа или по разным документам. Это сильно затрудняет семантический анализ Интернет – документов. Решение этой проблемы в настоящее время связано с использованием двух подходов. Первый подход предполагает, что семантическая разметка документа выполняется вручную его автором на основе специальных метатегов, а второй подход связан с автоматическим или полуавтоматическим преобразованием исходного текста в специальное семантическое представление. Целесообразно конвертировать HTML-тест в более удобную форму представления для дальнейшей обработки.
Популярное: Почему стероиды повышают давление?: Основных причин три... Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние... Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (250)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |