Прикладное программное обеспечение: системы автоматической обработки текстов
Добавить в закладки
К обложке
-
1. Сферы применения систем автоматической обработки текстов
- Страница 1
-
1.2. Генерация текста
- Страница 4
-
1.3. Локализация и интернационализация
- Страница 6
-
1.4. Работа на ограниченном языке
- Страница 7
-
1.5. Создание текстовых документов (ввод, редактирование, исправление ошибок)
- Страница 8
-
1.6. Поиск информации
- Страница 9
-
2. Лингвистическое обеспечение систем автоматической обработки текстов
- Страница 10
-
2.2. Библиотека программ "Русская морфология"
- Страница 11
-
2.2.2. Формальная модель русского словоизменения
- Страница 13
-
2.2.3. Основные программы
- Страница 15
-
3. Исправление ошибок в русскоязычных текстах
- Страница 19
-
3.2. Система комплексного контроля качества текста ЛИНАР
- Страница 22
-
3.3.2. База знаний системы
- Страница 24
-
2.3.3. Программы контроля
- Страница 25
-
3.2.3.2. Анализ лексического состава текста
- Страница 27
-
3.2.3.3. Стилистический контроль
- Страница 29
-
3.2.3.4. Контроль структуры текста
- Страница 30
-
3.2.3.5. Синтаксический контроль
- Страница 31
-
3.2.3.6. Пунктуационный контроль
- Страница 32
-
3.2.3.7. Семантический контроль
- Страница 33
-
4. Информационно-поисковые системы
- Страница 34
-
4.2. Тезаурус
- Страница 36
-
4.3. Релевантность
- Страница 38
-
4.4. Языковой компонент
- Страница 40
- 1. Сферы применения систем автоматической обработки текстов - Страница 1
- 1.2. Генерация текста - Страница 4
- 1.3. Локализация и интернационализация - Страница 6
- 1.4. Работа на ограниченном языке - Страница 7
- 1.5. Создание текстовых документов (ввод, редактирование, исправление ошибок) - Страница 8
- 1.6. Поиск информации - Страница 9
- 2. Лингвистическое обеспечение систем автоматической обработки текстов - Страница 10
- 2.2. Библиотека программ "Русская морфология" - Страница 11
- 2.2.2. Формальная модель русского словоизменения - Страница 13
- 2.2.3. Основные программы - Страница 15
- 3. Исправление ошибок в русскоязычных текстах - Страница 19
- 3.2. Система комплексного контроля качества текста ЛИНАР - Страница 22
- 3.3.2. База знаний системы - Страница 24
- 2.3.3. Программы контроля - Страница 25
- 3.2.3.2. Анализ лексического состава текста - Страница 27
- 3.2.3.3. Стилистический контроль - Страница 29
- 3.2.3.4. Контроль структуры текста - Страница 30
- 3.2.3.5. Синтаксический контроль - Страница 31
- 3.2.3.6. Пунктуационный контроль - Страница 32
- 3.2.3.7. Семантический контроль - Страница 33
- 4. Информационно-поисковые системы - Страница 34
- 4.2. Тезаурус - Страница 36
- 4.3. Релевантность - Страница 38
- 4.4. Языковой компонент - Страница 40
1. Сферы применения систем автоматической обработки текстов
Системы
Язык входного текста
Язык выходного текста
1
Естественный-1
Естественный-2
2
Искусственный
Естественный
3
Естественный
Искусственный / Естественный
4
Естественный
Естественный + { Искусственный}
К системам первого типа относятся программы машинного перевода, получающие текст на некотором естественном языке и перерабатывающие его в текст на другом естественном языке. Второй тип - системы генерации (синтеза) текстов по некоторому формальному описанию. Системы третьего типа, наоборот, перерабатывают текст на естественном языке в текст на искусственном (индексирование, извлечение смыслового содержания) или в другой текст на естественном языке (реферирование). К последнему классу отнесем программы, занимающиеся проверкой текста, написанного на естественном языке. Они в результате своей работы либо исправляют входной текст автоматически, либо формируют некоторый протокол замечаний.
Естественный язык - сложная, многоплановая система, с множеством правил, внутренних связей, имеющая отношение ко всем аспектам деятельности человека. Точность и правильность работы программ определяется глубиной анализа. Достаточно глубокий анализ пока достигается только для определенных узких предметных областей (из-за специфичности подъязыка такой области: в каждой области свои термины, специфические семантические отношения и т.п.).
Для создания систем, работающих со всем естественным языком без потери глубины анализа, в настоящий момент не хватает либо технических возможностей (быстродействия, памяти), либо теоретической базы (например, пока нет даже единой схемы достаточно полного, глубокого и непротиворечивого описания семантики естественного языка). Однако в коммерческих системах, ввиду того, что предназначаются они для большого количества пользователей, разных предметных областей, принята концепция поверхностного анализа, к тому же и производится такой анализ значительно быстрее. Дальнейшее продвижение вперед, использование естественного языка в практических областях невозможно без оснащения этих систем обширными и глубокими (с точки зрения охвата различных явлений языка) описаниями и моделями, созданными лингвистами-профессионалами.
Эта тенденция прогнозируется многими исследователями и прослеживается на примере развития АОТ-систем, уже в наши дни представляющих коммерческий интерес и использующихся при решении следующих прикладных задач:
1. Machine Translation and Translation Aids - машинный перевод;
2. Text Generation - генерация текста;
3. Localization and Internationalization - локализация и интернационализация;
4. Controlled Language - работа на ограниченном языке;
5. Word Processing and Spelling Correction - создание текстовых документов (ввод, редактирование, исправление ошибок)
6. Information Retrieval - информационный поиск и связанные с ним задачи.
Отметим, что это деление несколько условное, и в реальных системах часто встречается объединение функций. Так, для машинного перевода требуется генерация текста, а при исправлении ошибок приходится заниматься поиском вариантов словоформы и т.д.
1.1. Машинный перевод
Исторически
В конце февраля 2009 года в продаже на Amazon появилось долгожданное устройство для чтения электронных книг Kindle 2. Это событие вызвало бурю негодов
Электронная читалка - вещь очень хрупкая. Если с ней обращаться не правильно - она может сломаться. Чтобы этого не случилось, нужно придерживаться лиш
Большинство книг в сети интернет распространяется в формате FB2 (Fiction Book). Этот формат очень удобен для чтения. Файлы, в нем созданные, отличаютс
Популярность электронных книг у читателей неуклонно растет. Для доказательства этого мы провели маленький эксперимент. Из 10 людей, читающих в метро,
Файлы формата FB2 часто можно увидеть среди огромнейшего разнообразия текстовых форматов. Такая высокая популярность объясняется его предназначением.
Первую версию формата PDF (Portable Document Format) еще в 1993 году разработала фирма Adobe Systems. В 2006 году она уже разработала версию 1.7, а с
Фирма Apple порадовала пользователей iPad, выпустив под него красивую и удобную читалку iBooks.