- Извлечение информации из текстов: портрет направления

Презентация "Извлечение информации из текстов: портрет направления" по информатике – проект, доклад

Слайд 1
Слайд 2
Слайд 3
Слайд 4
Слайд 5
Слайд 6
Слайд 7
Слайд 8
Слайд 9
Слайд 10
Слайд 11
Слайд 12
Слайд 13
Слайд 14
Слайд 15
Слайд 16
Слайд 17
Слайд 18
Слайд 19
Слайд 20
Слайд 21

Презентацию на тему "Извлечение информации из текстов: портрет направления" можно скачать абсолютно бесплатно на нашем сайте. Предмет проекта: Информатика. Красочные слайды и иллюстрации помогут вам заинтересовать своих одноклассников или аудиторию. Для просмотра содержимого воспользуйтесь плеером, или если вы хотите скачать доклад - нажмите на соответствующий текст под плеером. Презентация содержит 21 слайд(ов).

Слайды презентации

Летняя школа по КЛ, 5-11 июля 2011. ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ. Большакова Елена Игоревна МГУ им. М.В. Ломоносова, Факультет ВМиК bolsh@cs.msu.su
Слайд 1

Летняя школа по КЛ, 5-11 июля 2011

ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ

Большакова Елена Игоревна МГУ им. М.В. Ломоносова, Факультет ВМиК bolsh@cs.msu.su

СОДЕРЖАНИЕ. Особенности задачи Выделяемые сущности Технология решения: шаблоны Проект ONTOS и система GATE Задача извлечения терминологии Особенности терминов и их употребления Критерии распознавания Шаблоны для извлечения
Слайд 2

СОДЕРЖАНИЕ

Особенности задачи Выделяемые сущности Технология решения: шаблоны Проект ONTOS и система GATE Задача извлечения терминологии Особенности терминов и их употребления Критерии распознавания Шаблоны для извлечения

ОСОБЕННОСТИ ЗАДАЧИ. Information Extraction Специфика задачи – распознавание и извлечение из текста определенной значимой информации - объектов и фактов, структуризация извлеченной информации Приложения: текстовая аналитика (экономическая, производственная, правоохранительная и др.) построение онтоло
Слайд 3

ОСОБЕННОСТИ ЗАДАЧИ

Information Extraction Специфика задачи – распознавание и извлечение из текста определенной значимой информации - объектов и фактов, структуризация извлеченной информации Приложения: текстовая аналитика (экономическая, производственная, правоохранительная и др.) построение онтологий и тезаурусов, моделей проблемной области

ВЫДЕЛЯЕМЫЕ СУЩНОСТИ. Именованные сущности: Имена персоналий Географические названия Названия фирм и организаций Адреса Даты Отношения (связи) выделенных сущностей, например: работать в Смирнов А. работает в ОА «Альфа» с 1998 г. связанные с ними события и факты получение кредита, слияние компаний…
Слайд 4

ВЫДЕЛЯЕМЫЕ СУЩНОСТИ

Именованные сущности: Имена персоналий Географические названия Названия фирм и организаций Адреса Даты Отношения (связи) выделенных сущностей, например: работать в Смирнов А. работает в ОА «Альфа» с 1998 г. связанные с ними события и факты получение кредита, слияние компаний…

ТЕХНОЛОГИЯ РЕШЕНИЯ. Частичный синтаксический анализ : неэфффективность и многовариантность синт. разбора Лигвистические шаблоны, содержащие лексическую, морфологическую и синтаксическую информацию Лингвистич. шаблон – описание языковой конструкции, ее лексического состава и грамматических свойств: N
Слайд 5

ТЕХНОЛОГИЯ РЕШЕНИЯ

Частичный синтаксический анализ : неэфффективность и многовариантность синт. разбора Лигвистические шаблоны, содержащие лексическую, морфологическую и синтаксическую информацию Лингвистич. шаблон – описание языковой конструкции, ее лексического состава и грамматических свойств: N “работает” в NP (Noun Phrase) Элементы шаблонов: Словоформы, лексемы (возможно, с указанием части речи/морфологических характеристик) Грамматические конструкции: именные и др. группы

АвиКомп, 2000 – 2010 гг. Извлечение под управлением онтологии Инструментальная система GATE Семейство систем OntosMiner - для разных ЕЯ и ПО Цели Построение модели ПО Семантическая навигация по тексту Дайджестирование Реферирование: основа реферата - извлеченная информация. ПРОЕКТ ONTOS
Слайд 6

АвиКомп, 2000 – 2010 гг. Извлечение под управлением онтологии Инструментальная система GATE Семейство систем OntosMiner - для разных ЕЯ и ПО Цели Построение модели ПО Семантическая навигация по тексту Дайджестирование Реферирование: основа реферата - извлеченная информация

ПРОЕКТ ONTOS

СИСТЕМА GATE КАК ИНСТРУМЕНТ. Набор стандартных программных компонент (лингвистических процессоров) для обработки текста Представление лингвистической информации об обрабатываемом тексте в виде набора аннотаций, которые хранятся отдельно от текста Графическая среда для сборки приложения из компонент
Слайд 7

СИСТЕМА GATE КАК ИНСТРУМЕНТ

Набор стандартных программных компонент (лингвистических процессоров) для обработки текста Представление лингвистической информации об обрабатываемом тексте в виде набора аннотаций, которые хранятся отдельно от текста Графическая среда для сборки приложения из компонент

GATE: ПРИМЕРЫ АННОТАЦИЙ. Сущность «Angela Merkel»
Слайд 8

GATE: ПРИМЕРЫ АННОТАЦИЙ

Сущность «Angela Merkel»

GATE : КОМПОНЕНТЫ. Цепочка обработки текста в системе GATE: Tokeniser - разбиение текста на отдельные токены (числа, знаки препинания, слова) Gazetteer - создание аннотаций к словам на основании словарных файлов (названия городов, организаций, дней недели и т.д.) Sentence Splitter - разбиение текста
Слайд 9

GATE : КОМПОНЕНТЫ

Цепочка обработки текста в системе GATE: Tokeniser - разбиение текста на отдельные токены (числа, знаки препинания, слова) Gazetteer - создание аннотаций к словам на основании словарных файлов (названия городов, организаций, дней недели и т.д.) Sentence Splitter - разбиение текста на предложения Part of Speech Tagger - определение части речи слов на основании словаря и правил Semantic Tagger - распознавание языковых конструкций и сущностей на основе аннотаций и JAPE-правил OrthoMatcher (Orthographic Coreference ) - соотнесение идентичных сущностей с разными названиями

GATE : ШАБЛОНЫ И ПРАВИЛА. Язык JAPE - запись правил преобразования аннотаций Шаблоны для выявляемых конструкций, например: {Morph.SpeechPart="Adjective", Morph.Case="Nominative"} - шаблон для выявления прилагательных в именит. падеже Правила для преобразования аннотаций : левая ч
Слайд 10

GATE : ШАБЛОНЫ И ПРАВИЛА

Язык JAPE - запись правил преобразования аннотаций Шаблоны для выявляемых конструкций, например: {Morph.SpeechPart="Adjective", Morph.Case="Nominative"} - шаблон для выявления прилагательных в именит. падеже Правила для преобразования аннотаций : левая часть – шаблон, правая – преобразование нужных аннотаций выявленной конструкции Rule: Second_name ({Token.SemanticType="Name: FName"}):family {[А-Я]}{Token.Text="."}{[А-Я]}{Token.Text=="."})  family.Family={rule="Second_name"} - правило для выявления имен персоналий вида Иванов И. и выделение из них фамилий

ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ. Терминологические слова и словосочетания: называют понятия проблемной области: общий регистр, число с плавающей точкой технология двойной накачки Приложения: индексирование текстов навигация по тексту поддержка терминологич. редактирования текстов построение глоссариев
Слайд 11

ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ

Терминологические слова и словосочетания: называют понятия проблемной области: общий регистр, число с плавающей точкой технология двойной накачки Приложения: индексирование текстов навигация по тексту поддержка терминологич. редактирования текстов построение глоссариев и предметных указателей создание онтологий и тезаурусов Часть приложений – обработка отдельного текста, но не коллекции

ОСОБЕННОСТИ ТЕРМИНОВ. Большинство словосочетаний – несвободные (некомпозиционные), т.е. их смысл не выводится из смысла компонент: железная дорога, длина слова Конвенциональность научно-технических терминов  необходимость их определения в тексте: Под прерыванием понимается сигнал… Грамматическая ст
Слайд 12

ОСОБЕННОСТИ ТЕРМИНОВ

Большинство словосочетаний – несвободные (некомпозиционные), т.е. их смысл не выводится из смысла компонент: железная дорога, длина слова Конвенциональность научно-технических терминов  необходимость их определения в тексте: Под прерыванием понимается сигнал… Грамматическая структура терминов: чаще всего - именные словосочетания, их можно описать структурными грамматическими образцами: прилагательное-существительное – логический вывод, существительное- существительное в род. падеже – период упреждения

МЕТОДЫ РАСПОЗНАВАНИЯ. Применение статистических и лингвистических критериев: Статистические критерии Например, функция упорядочивания по статистике: log2 |a| * freq (a), если a не вложено, иначе C-Value(a) =   log2 |a| * (freq (a) – P(Ta)-1 * bTa freq (b)) где a – слово (словосочетание), |a| –
Слайд 13

МЕТОДЫ РАСПОЗНАВАНИЯ

Применение статистических и лингвистических критериев: Статистические критерии Например, функция упорядочивания по статистике: log2 |a| * freq (a), если a не вложено, иначе C-Value(a) =   log2 |a| * (freq (a) – P(Ta)-1 * bTa freq (b)) где a – слово (словосочетание), |a| – его длина, freq(a) – частота встречаемости a в тексте, Ta – множество словосочетаний текста, содержащих a, P(Ta) – количество словосочетаний, содержащих a. электрический слой - двойной электрический слой

МЕТОДЫ РАСПОЗНАВАНИЯ: ЛИНГВИСТИЧЕСКИЕ КРИТЕРИИ. грамматические (синтаксические) образцы терминов: A N N - спектральный коэффициент излучения контексты употребления терминов: effect of T – effect of drought, effect of cold (последствие засухи, заморозков) such T1 as T2 – such crimes as money launderi
Слайд 14

МЕТОДЫ РАСПОЗНАВАНИЯ: ЛИНГВИСТИЧЕСКИЕ КРИТЕРИИ

грамматические (синтаксические) образцы терминов: A N N - спектральный коэффициент излучения контексты употребления терминов: effect of T – effect of drought, effect of cold (последствие засухи, заморозков) such T1 as T2 – such crimes as money laundering (такие преступления, как отмывание денег) Лингвистическую информацию можно записать в виде шаблонов необходим язык шаблонов и поддерживающие его средства

РАСПОЗНАВАНИЕ ТЕРМИНОВ: ТЕКСТОВЫЕ ВАРИАНТЫ. При использовании терминов в тексте они могут образовывать варианты: Орфографические варианты: браузер - броузер Морфоварианты: спецсимвол – спецзнак Лексико-синтаксические варианты: механическое напряжение - напряжение дисковый контроллер – контроллер дис
Слайд 15

РАСПОЗНАВАНИЕ ТЕРМИНОВ: ТЕКСТОВЫЕ ВАРИАНТЫ

При использовании терминов в тексте они могут образовывать варианты:

Орфографические варианты: браузер - броузер Морфоварианты: спецсимвол – спецзнак Лексико-синтаксические варианты: механическое напряжение - напряжение дисковый контроллер – контроллер диска Варианты сокращений: ЦП, авост В словаре представлены далеко не все варианты терминов, их необходимо распознвать

ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ: ПРИМЕР
Слайд 16

ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ: ПРИМЕР

РАСПОЗНАВАНИЕ ТЕРМИНОВ: СОЕДИНЕНИЯ ТЕРМИНОВ. Соединения нескольких терминологических словосочетаний: Бессоюзные соединения, с разрывом и без разрыва термина: разрядность внутренних регистров – разрядность регистра, внутренний регистр Соединения с союзом: шинам адреса, данных и управления – шина адре
Слайд 17

РАСПОЗНАВАНИЕ ТЕРМИНОВ: СОЕДИНЕНИЯ ТЕРМИНОВ

Соединения нескольких терминологических словосочетаний:

Бессоюзные соединения, с разрывом и без разрыва термина: разрядность внутренних регистров – разрядность регистра, внутренний регистр Соединения с союзом: шинам адреса, данных и управления – шина адреса, шина данных, шина управления Средство распознавания - лингвистические шаблоны

ШАБЛОНЫ: ЯЗЫК LSPL. Лексико-синтаксический шаблон позволяет задать для элемента-слова: часть речи (A, N, V, Pa и т.д.) – A индекс – A1 A2 N лексему – A морфологические характеристики (имя=значение) – A Грамматическое согласование элементов шаблона: A N  Прилагательное тяжелый и существительное согла
Слайд 18

ШАБЛОНЫ: ЯЗЫК LSPL

Лексико-синтаксический шаблон позволяет задать для элемента-слова: часть речи (A, N, V, Pa и т.д.) – A индекс – A1 A2 N лексему – A морфологические характеристики (имя=значение) – A Грамматическое согласование элементов шаблона: A N Прилагательное тяжелый и существительное согласованы в роде, числе и падеже: тяжелым вечером, тяжелых камней, тяжелое тело

ЯЗЫК LSPL-ШАБЛОНОВ: ВОЗМОЖНОСТИ. AP = A(A) | Pa(Pa) AN= { AP } N [“в”]  (N). Элемент-слово Имя шаблона Экземпляр шаблона Условия согласования. Альтернативы | Повторение {} Опциональное вхождение [] Параметры шаблона. Альтернативы | Повторение {} Опциональное вхождение []
Слайд 19

ЯЗЫК LSPL-ШАБЛОНОВ: ВОЗМОЖНОСТИ

AP = A(A) | Pa(Pa) AN= { AP } N [“в”] (N)

Элемент-слово Имя шаблона Экземпляр шаблона Условия согласования

Альтернативы | Повторение {} Опциональное вхождение [] Параметры шаблона

Альтернативы | Повторение {} Опциональное вхождение []

LSPL-ШАБЛОНЫ: ПРИМЕРЫ. Шаблон типичной структуры термина: A N1 { N2 } (A=N1) реактивная сила, немаркированный квантор общности Шаблон типичной фразы-определения новых терминов: NP1 ["мы"] "назовем" NP2 Указанную операцию назовем операцией поиска примеров Шаблон образования термин
Слайд 20

LSPL-ШАБЛОНЫ: ПРИМЕРЫ

Шаблон типичной структуры термина: A N1 { N2 } (A=N1) реактивная сила, немаркированный квантор общности Шаблон типичной фразы-определения новых терминов: NP1 ["мы"] "назовем" NP2 Указанную операцию назовем операцией поиска примеров Шаблон образования терминологических вариантов: N1 N2 "," N3 {"и"|"или"} N4 #N1 N2 , N1 N3 , N1 N4 шинам адреса, данных и управления – шина адреса, шина данных, шина управления

ЗАКЛЮЧЕНИЕ. В основном – извлечение на основе правил (rule-based), все чаще - машинное обучение Точность и полнота извлечения зависят от набора шаблонов зависят друг от друга верхняя граница - до 80-90 % Сложность задачи (технологическая): приемлемая полнота и точность достигается на больших массива
Слайд 21

ЗАКЛЮЧЕНИЕ

В основном – извлечение на основе правил (rule-based), все чаще - машинное обучение Точность и полнота извлечения зависят от набора шаблонов зависят друг от друга верхняя граница - до 80-90 % Сложность задачи (технологическая): приемлемая полнота и точность достигается на больших массивах текстов обычно в рамках коммерческих компаний СПАСИБО ЗА ВНИМАНИЕ!

Список похожих презентаций

Визуализация информации в текстовых документах

Визуализация информации в текстовых документах

источники. 201. Три учительницы — Ирина Васильевна (ИВ), Дарья Михайловна (ДМ) и Софья Петровна (СП) — преподают химию, биологию и физику в школах ...
Алфавитный подход к измерению информации

Алфавитный подход к измерению информации

Бит – наименьшая единица измерения информации (от англ. binary digit – двоичный знак). 1 байт = 8 битов. Алфавит – множество символов, используемых ...
Алфавитный подход к измерению количества информации

Алфавитный подход к измерению количества информации

Измерение информации. Алфавитный подход Алфавит – набор букв, знаков, цифр и других символов, используемых в тексте. Полное число символов называется ...
Единицы измерения информации

Единицы измерения информации

Всем хорошо известны Единицы измерения длины: миллиметры, сантиметры, метры и километры. Масса измеряется в граммах, килограммах, центнерах и тоннах. ...
Единицы измерения информации

Единицы измерения информации

Цели урока:. Личностные: развивать умение слушать; ясно, точно, грамотно излагать свои мысли в устной и письменной речи; развивать креативность мышления, ...
Анализ информации представленной в виде схем

Анализ информации представленной в виде схем

Задача:. На схеме нарисованы дороги между четырьмя населёнными пунктами А, В, С, Д и указаны протяжённости данных дорог:. А С Д В 3 6. Определите. ...
Измерение информации

Измерение информации

Минимальная единица измерения информации бит. В вычислительной технике битом называют наименьшую порцию памяти, необходимую для хранения одного из ...
Измерение информации. Алфавитный подход к измерению информации

Измерение информации. Алфавитный подход к измерению информации

Содержание курса:. информация, измерение информации; алфавитный подход к измерению информации; алфавит, мощность алфавита; информационный вес символа; ...
Измерение информации объемный подход

Измерение информации объемный подход

Информация является предметом нашей деятельности: мы ее храним, передаем, принимаем, обрабатываем. Способ измерения информации. Достаточно ли места ...
Измерение информации

Измерение информации

Алфавитный подход к измерению информации. Центральный процессор (ЦП) -. управляет работой ПК и преобразует информацию («мозг» ПК). ЦП может представлять ...
Измерение информации

Измерение информации

Термин «информация» происходит от латинского слова «information», что означает: «набор сведений, изложение, разъяснение». Информация – сведения об ...
Измерение информации

Измерение информации

Единицы измерения информации. 1 бит 1 единица или 1 ноль 1 байт 8 бит 1 килобайт    1024 байт (210) 1 Мегабайт    ≈1000 000 байт (220) 1 Гигабайт ≈ 1000 ...
Вероятностный метод измерения информации

Вероятностный метод измерения информации

Формула Хартли 2I = N. N – количество равновероятных событий I – количество информации. 1 бит — это информация о результате опыта с двумя равновероятными ...
Измерение информации

Измерение информации

Три кита на которых стоит мир. Вещество Энергия Информация. Можно ли измерить вещество? Например: длина (мм, см, дм, м,… вес (мг, г, кг,… объем (мм3, ...
Измерение информации

Измерение информации

В чем измеряется информация? Бит (англ. binary digit — двоичное число) —минимальная единица измерения количества информации, равная одному разряду ...
Измерение количества информации

Измерение количества информации

Как измерить информацию? Двоичный код Единицы измерения Алфавитный подход Формула Хартли Пример Задачи. Как измерить информацию? Информация в компьютере ...
Единицы измерения информации

Единицы измерения информации

Всем хорошо известны Единицы измерения длины: сантиметры, миллиметры и километры. Масса измеряется в граммах, килограммах, центнерах и тоннах. Время: ...
Единицы измерения информации

Единицы измерения информации

Грамм — изначально определялся как масса 1 см³ воды при температуре 4 °C и давлении в 1 атмосферу. Единицы измерения:. Грамм Килограмм Тонна Центнер ...
Задачи на кодирование текстовой информации и определение объема методика решения задач повышенного уровня сложности

Задачи на кодирование текстовой информации и определение объема методика решения задач повышенного уровня сложности

Что следует знать:. чаще всего используют кодировки, в которых на символ отводится 8 бит (8-битные) или 16 бит (16-битные) необходимо запомнить, что ...

Конспекты

Алфавитный подход к определению количества информации. Единицы измерения информации. Кодирование текстовой информации

Алфавитный подход к определению количества информации. Единицы измерения информации. Кодирование текстовой информации

ПЛАН-КОНСПЕКТ УРОКА Тема урока: «Алфавитный подход к определению количества информации. Единицы измерения информации. Кодирование текстовой информации». ...
Алфавитный подход к измерению информации

Алфавитный подход к измерению информации

Урок 7( 1 урок). . . Тема: Алфавитный подход к измерению информации. Цель: сформировать у учащихся понимание алфавитного подхода к измерению ...
Алфавитный подход к измерению информации

Алфавитный подход к измерению информации

Волкова Евгения Игоревна. учитель информатики. МАОУ "СОШ№9 им. А.С. Пушкина с углубленным изучением предметов физико-математического цикла", г. ...
Алфавитный подход к измерению информации

Алфавитный подход к измерению информации

Тема:. «Алфавитный подход к измерению информации. ». Цели урока:. Обучающие:. . Познакомить учащихся с алфавитным подходом к измерению информации;. ...
Алфавитный подход к измерению информации

Алфавитный подход к измерению информации

Чурбанова Ольга Викторовна,. . МАОУ «Лицей № 78 им. А.С. Пушкина». . Урок "Алфавитный подход к измерению информации". Объяснительная записка. ...
Алфавитный подход к измерению информации

Алфавитный подход к измерению информации

Государственное образовательное учреждение. начального профессионального образования. «Профессиональное училище №5» г. Белгорода. ...
Информация и информационные процессы. Единицы измерения информации

Информация и информационные процессы. Единицы измерения информации

ПЛАН-КОНСПЕКТ УРОКА Информация и информационные процессы. . ФИО (полностью). . Халкечева Лейла Владимировна. . . . Место работы. ...
Информация. Измерение информации

Информация. Измерение информации

Открытый урок по информатике и ИКТ. . Тема: Информация. Измерение информации. . Класс. : 8. Цель урока. : обобщение и систематизация пройденного ...
Кодирование текстовой информации

Кодирование текстовой информации

Автор урока. :. . АЛИКИНА ОКСАНА НИКОЛАЕВНА. , учитель математики МКОУ Ястребовская СОШ Красноярского края Ачинского района . Предмет:. информатика. ...
Количество информации, единицы измерения информации

Количество информации, единицы измерения информации

Дата проведения. :. . . . . . План – конспект №. 4. . . по предмету информатика. Тақырып/ Тема:. Количество информации, единицы измерения информации. ...

Советы как сделать хороший доклад презентации или проекта

  1. Постарайтесь вовлечь аудиторию в рассказ, настройте взаимодействие с аудиторией с помощью наводящих вопросов, игровой части, не бойтесь пошутить и искренне улыбнуться (где это уместно).
  2. Старайтесь объяснять слайд своими словами, добавлять дополнительные интересные факты, не нужно просто читать информацию со слайдов, ее аудитория может прочитать и сама.
  3. Не нужно перегружать слайды Вашего проекта текстовыми блоками, больше иллюстраций и минимум текста позволят лучше донести информацию и привлечь внимание. На слайде должна быть только ключевая информация, остальное лучше рассказать слушателям устно.
  4. Текст должен быть хорошо читаемым, иначе аудитория не сможет увидеть подаваемую информацию, будет сильно отвлекаться от рассказа, пытаясь хоть что-то разобрать, или вовсе утратит весь интерес. Для этого нужно правильно подобрать шрифт, учитывая, где и как будет происходить трансляция презентации, а также правильно подобрать сочетание фона и текста.
  5. Важно провести репетицию Вашего доклада, продумать, как Вы поздороваетесь с аудиторией, что скажете первым, как закончите презентацию. Все приходит с опытом.
  6. Правильно подберите наряд, т.к. одежда докладчика также играет большую роль в восприятии его выступления.
  7. Старайтесь говорить уверенно, плавно и связно.
  8. Старайтесь получить удовольствие от выступления, тогда Вы сможете быть более непринужденным и будете меньше волноваться.

Информация о презентации

Ваша оценка: Оцените презентацию по шкале от 1 до 5 баллов
Дата добавления:28 апреля 2019
Категория:Информатика
Содержит:21 слайд(ов)
Поделись с друзьями:
Скачать презентацию
Смотреть советы по подготовке презентации