Блог

Передовая лингвистическая технология (NER) в Brand Analytics автоматически выявляет объекты информационного поля – персоны, компании, геообъекты и предлагает удобную визуализацию структуры инфополя

Человечество производит все больше информации – как известно, за последние годы мы создали её больше, чем за всю историю своего существования. При этом до 90% новых данных – это так называемые неструктурированные данные или, проще говоря, текст. И если со структурированными данными ИТ-технологии достаточно успешно справляются даже тогда, когда это Big Data, то с неструктурированными данными мы научились работать куда как менее успешно. 

 Интерфейс интерактивного отчета «Персоны» в теме «Новый год»

А ведь именно они обладают большим предсказательным потенциалом по сравнению с табличными данными, с фактами, которые уже остались в прошлом. Мнения потребителей и граждан, которые по большей части агрегируются в соцмедиа, содержат в себе еще не сформулированные ощущения, идеи, смыслы и инсайты, которые только ждут своего осмысления. Для работы с такими данными на первый план выходят современные лингвистические технологии. 

Мы рады сообщить, что компания Brand Analytics, являясь инновационной компанией и лидером рынка мониторинга и анализа соцмедиа, сделала доступным для своих пользователей расширенный набор отчетов, включающий в себя интерактивные автоматические отчеты по выявленным объектам внимания – персонам, компаниям и геообъектам. В зависимости от настроек мониторинга эти объекты могут иметь отношение как к вашей компании, так и к компаниям конкурентам или к интересующему вас сегменту рынка. Отвечает за новый функционал так называемый модуль автоматического определения именованных сущностей (NER – named entity recognition). Расширенный набор отчетов уже доступен в наиболее востребованных тарифах Brand Analytics. В течение месяца отчеты будут добавлены во все наши тарифы. 

Указанный функционал не только помогает мгновенно разглядеть структуру информационного потока, потребительского интереса или негативной волны, но и может стать незаменимым аналитическим инструментом для брендов, ставших на путь ситуационного маркетинга и изголодавшихся по алгоритмам выявления зарождающихся трендов. 

Данное решение разработано в недрах нашей компании командой лингвистов под руководством Алексея Соловьева, который так прокомментировал возможности технологии NER (named entity recognition): 

– В чем преимущество алгоритма NER перед существующими аналогами? 

Прежде всего, этот модуль не использует словари или тезаурусы имен собственных и не обращается к внешним ресурсам (базам знаний). Для корректного обнаружения типа сущности достаточно контекста и графематических характеристик слова (наличие заглавных букв, цифр, тире, кавычек и пр.). На основании такой информации система принимает решение с точностью не менее 86-94% (зависит от класса сущностей). 

– А почему не 100%?

Потому что 100% не бывает. Даже системы на словарях дают точность около 85%.

– Небольшая разница. Тогда зачем это надо?

А дело в том, что если словарь слов нарицательных растет в экспоненциальной зависимости и наиболее частотные слова можно учесть в словаре, то рост имен собственных близок к линейному. А это значит, что новые имена и названия появляются каждый день, и даже если попытаться учесть их, то это будет вторичная информация для системы. Наш модуль может сразу правильно типизировать имена собственные, притом что они никогда не встречались ранее.

– И неужели не путает типы, раз нет ни баз знаний, ни словарей?

Иногда путает, особенно если неправильно написано (например, вдруг автор решил написать заглавными буквами несколько слов, например, «РУЛОН ОБОЕВ» – чем не имя?). Но, в отличие от словарных систем, наш модуль может определить сущности, тип которых не всегда однозначен и меняется в зависимости от контекста.

Например, 

В Москве состоялись финальные поединки теннисного турнира «Кубок Кремля».
Где «Кремль» не география и даже не юр. лицо, а часть составной событийной сущности «Кубок Кремля».

Или

КамАЗ, которым управлял 23-летний  Армен Берберян, протаранил детскую автоколонну.
«КамАЗ» в данном случае это не название компании, а название продукта.

– Какой алгоритм используется в NER?

Для определения типа сущности мы используем алгоритм так называемых условных Марковских полей. Его суть в параметризации каждого элемента лексического множества и построении фактор-графа этого параметрического пространства.

Более подробно об этом алгоритме см. http://www.dialog-21.ru/digests/dialog2013/materials/pdf/AntonovaAJ.pdf

Давайте теперь посмотрим подробнее как выглядят остальные новые отчеты в системе Brand Analytics.

Интерфейс интерактивного отчета «Геообъекты» в теме «Новый год»

 

Интерфейс интерактивного отчета «Юрлица» в теме «Банк БинБанк» 

В каждом из новых отчетов (персоны, компании, геообъекты) вам будет доступно облако объектов, гистограмма с лидерами роста и, собственно, рейтинг самих объектов с абсолютными значениями упоминаемости и приростом относительно предыдущего периода. Все данные и графики доступны как в интерактивном виде, так и в выгружаемом отчете. Что особенно важно, мы предлагаем пользовательский инструментарий для самостоятельной корректировки списка наблюдаемых объектов – объекты можно исключать из наблюдения или объединять несколько объектов в единый объект.  

Спрос на подобный инструментарий возник не сегодня, но именно сегодня бренды рассматривают такие инструменты как свой приоритет. И если ранее для правильно сложенных текстов СМИ подобные технологии у нас уже работали, то сейчас, когда надо анализировать миллионы пользовательских сообщений на неграмотном русском языке, требуются новые решения. 

Вы можете быть уверены, что у нас в разработке еще много интересных новинок, которые сделают Brand Analytics еще более удобным инструментом для аналитики и повышения эффективности вашего бизнеса и бизнеса ваших клиентов. 

Оставайтесь с нами :)
 
Запись опубликована в рубрике Обновления Brand Analytics. Добавьте в закладки постоянную ссылку.
Комментариев: 0
Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*

*

CAPTCHA изображение