Автоматизированная обработка текста
Текстовое представление информации — одно из наиболее удобных для организации автоматической обработки. Связано это с тем, что в этой форме информация представляется в виде близком к исходному языку, что позволяет выполнять преобразования, связанные со смыслом текста. Существует несколько наиболее распространенных автоматизированных операций, связанных с текстовым представлением. Поиск Задача поиска необходимой информации чаще всего формулируется как поиск фрагментов, содержащих некоторые понятия, в достаточно большом массиве. Большое значение этот вид автоматической обработки получил с ростом популярности межсетевой среды Интернет. Существует несколько подходов к организации такого поиска. Первый подход опирается на поиск фрагмента текста, соответствующего некоторому образцу. Наиболее популярная форма задания этого образца — так называемые регулярные выражения. По сути, это описание фрагмента текста, удовлетворяющего некоторым условиям, по тем частям, которые в нем содержатся, и их порядку. Таким способом в большом текстовом массиве можно находить упоминания тех или иных слов, адреса, номера телефонов и т.п. шаблонные элементы. Достоинство этого подхода — возможность применять его к массиву текста без предварительной обработки. Например, сразу при посимвольном получении текста. Второй подход предусматривает предварительное создание специального вида базы для ускорения поиска — индекса. Такой способ применяется для ускорения поиска, если некоторые типовые поисковые запросы повторяются часто и нет возможности формировать/хранить весь массив текста. Например, при организации поисковой машины в среде Интернет. Расшифровка или уточнение значений слова Для решения такой задачи в самых разных видах применяют словари — базы информационных фрагментов, связанных с некоторыми ключевыми словами или словосочетаниями. Примером таких баз могут быть словари различных языков: англо-русский, русско-английский, толковый и другие виды словарей. Одно из самых распространенных применений словарей — проверка правописания слов при наборе. Особым видом словарей являются тезаурусы — словари, в которых слова связываются на основе каких-либо лексических отношений. Например: слова являются синонимами (смысловыми аналогами), антонимами (противоположны по смыслу) и т.п. Этот вид словарей важен не только потому, что может помочь при подготовке текстов, но и потому, что это отразит смысл слов — для систем, моделирующих отдельные аспекты мышления человека. (Слайд 13) Системы автоматизированной обработки текста Используя закономерности естественного языка и описанные выше средства выполнения некоторых операций и выявления зависимостей, с помощью ЭВМ автоматизируют (хотя и не полностью) некоторые операции по смысловому преобразованию текста. Современные системы обработки позволяют создавать краткие обзоры текстов (рефераты) или готовить перевод с одного естественного языка на другой. Приходится отметить, что точного решения эти задачи не имеют, поскольку зачастую трудно подобрать адекватное слово или выражение, учитывая не только формальный перевод, но и грамматические особенности, и культурные. Тем не менее с применением специализированных по областям знания словарей современные системы автоматизированного перевода создают подстрочник, который может дать представление о смысле текста и в дальнейшем помочь переводчику в переводе документа. Примеры программных продуктов Системы локального поиска: Следопыт , Google Desktop, Microsoft Office Find Системы и утилиты автоматизированной обработки текста: Grep , lexx , yacc Словари: Abbyy Lingvo , Multilex Автоматизации перевода: Promt Специальные тексты Под специальными текстами подразумеваются тексты, содержащие математические, химические или другие формулы, сложные схемы и специфические обозначения, используемые в научных, учебных и технических публикациях и документах. Для создания таких фрагментов стандартные средства представления и подготовки текста плохо приспособлены. Существует множество специальных программных средств, предназначенных для подготовки специальных текстов. Наиболее популярным способом интеграции элементов-формул в документы является технология OLE. Технология предусматривает, что в документе выделяется место для размещения объекта, а обработка его ведется с помощью внешней программы, выступающей как OLE-сервер. Такой способ позволяет интегрировать в одном документе разные объекты, но для корректной обработки и печати требует наличия соответствующих программ, а для редактирования — большое количество системных ресурсов. При подготовке научных, технических и учебных текстов часто используется свободно доступная система подготовки публикаций TeX (от гр. teRcnh — “искусство”, “мастерство”). При использовании этой системы документ с формулами описывается на специальном языке разметки в виде текстового файла, который и обрабатывается системой. Результатом становится специальный файл (dvi, device independent — “независимый от устройства”), который может быть просмотрен, напечатан или преобразован в другой формат с помощью специальных программ из комплекта. Для соблюдения стандартов и упрощения набора систему комплектуют набором шаблонов и указаний о формировании страниц. Примерами таких шаблонов являются комплекты LaTeX, MikiTeX, AMSTeX. Файл с материалом для этой системы набора может быть подготовлен с помощью обычного текстового редактора и передан на любую другую платформу. Тексты, подготовленные с помощью этой системы, соответствуют строгим стандартам оформления формул и научных текстов. Многие системы визуального набора позволяют сохранять описания формул в стандарте одного из комплектов TeX. В современных условиях все большее значение приобретает отображение документа с помощью браузеров web-страниц, с минимальным количеством дополнительных средств. Для решения этой задачи в общем стандарте XML предусмотрен язык специальной разметки: MathML. Формулы на этом языке описываются и отображаются в документах с помощью дополнительных модулей к программам просмотра web-страниц. Примеры программных продуктов Макропакеты TeX: LaTeX, MikiTeX, AMSTeX Специализированные редакторы: MathType (его облегченная версия входит в пакет MS Office под названием Equation), Scientific Letter, Chem Window, ISIS Draw. Издательские системы Появление мощных и сравнительно недорогих персональных компьютеров, качественных устройств ввода и вывода информации, разработка программного обеспечения сделали возможным появление комплексов настольных издательских систем (DesktopPublishing, DTP). В узком смысле под издательской системой понимают комплекс программ, позволяющих выполнить весь цикл допечатной подготовки издания: импорт или набор текста, его оформление и расположение на листах, вставку иллюстраций и сложных объектов — и в итоге выполнить вывод издания на печать. Примерами таких программ могут быть пакеты Adobe In Design, Scribus, Quark XPress. Процесс и результат создания страниц издания называют версткой, а точную копию самого издания — оригинал-макетом. Следует отметить, что многие возможности программных пакетов настольных издательских систем заимствованы современными текстовыми процессорами, которые позволяют выполнить большую часть задач верстки и подготовки макета. Полнофункциональная издательская система имеет менее развитые средства ввода и обработки собственно текста, но значительно больше возможностей управления параметрами оформления и разметки листов, управления процессом вывода (с учетом цветовых особенностей), применения шаблонов оформления и автоматизации подготовки списков, указателей и оглавлений. Некоторые операции, типичные для издательских систем, нельзя выполнить средствами текстового процессора. Например, к таким операциям относится спуск полос — расположение подготовленных полос издания на большом печатном листе, который потом будет разрезан и сброшюрован. В широком смысле под издательской системой понимают весь комплекс программного обеспечения и аппаратных средств, позволяющих ввести текст, подготовить графические изображения, выполнить подготовку оригинал-макета и вывести его в виде готовых форм для печати. Современная издательская система, помимо компьютера со специальным ПО, также включает устройство оптического ввода (сканер, цифровую камеру) и устройства вывода на печать — различные принтеры. Для обеспечения точности и согласованности работы всех средств ввода и вывода перед использованием проводится цветокалибровка монитора, принтера и сканера. В процессе калибровки с помощью специального оборудования добиваются точного соответствия между цветами на всех этапах обработки. Поскольку конечной целью подготовки оригинал-макета является его печать, издательская система либо выводит полученный макет на специальное устройство печати, либо готовит файл с описанием всего издания (чаще всего в формате PostScript), либо с помощью принтера готовит эталонную копию для тиражирования. Использование издательских систем и фотонаборного оборудования позволило значительно сократить срок подготовки печатных изданий, снизить трудоемкость этого процесса, значительно расширить творческие возможности дизайнеров печатных изданий.
Популярное: Почему стероиды повышают давление?: Основных причин три... Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы... Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (205)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |