Блог

Первый выпуск еженедельного Рейтинга упоминаний персон в социальных медиа

Представляем новый проект аналитического центра Brand Analytics — еженедельный Рейтинг упоминаемости медийных персон в социальных медиа и раскрываем технологии его подготовки.

 

Хотим мы того или нет, но люди XXI века живут в океане информации: интернет, ТВ, радио, газеты, книги и журналы, окружающие люди — все вокруг напичкано названиями, именами, брендами, кличками и прочими атрибутами идентификации объектов.

Проходя через наше сознание информация внешнего мира трансформируется не только в знания и опыт, но и в эмоции, мнения, высказывания, суждения, что находит свое отражение в социальных медиа: статьи, посты, твиты, комментарии, отзывы.

Новые технологии, для которых есть специальное название — OBD&A (Online Big Data & Analytics ), — позволяют анализировать миллиарды публичных высказываний миллионов людей и выявить наиболее обсуждаемые персоны, объекты и сущности, которые наиболее сильно «зацепили» нас в окружающем информационном поле.

Используемые ранее технологии, в виду своих ограничений, не могли обработать такие огромные объемы данных, и проводили обработку, например, статей в СМИ, составляя рейтинги упоминаний топ-персон в газетах и журналах. Или же подобные рейтинги проводились путем социологических исследований — опросов сотен людей. Понятно, что подобные выборки данных или аудитории позволяют получить реальные мнения населения страны или региона с невысокой точностью.

Современные (что вдвойне приятно — российские) технологии и разработки позволяют революционно изменить подход к учету мнений населения: не спрашивать — а слушать, не выбирать узкую группу (фокус- или журналистов) — а учитывать мнения всех.

Подобный подход позволяет решать множество старых и новых задач и вызовов, среди которых есть и такая интересная тема, как выявление топовых медийных персон — своеобразный народный рейтинг политиков, звезд шоу-бизнеса, спортсменов и просто замечательных людей, которые стали героями прошедшей недели.

Рейтинг Топ-50 персон в социальных медиа и СМИ, неделя первая (1-7 сентября):

По данным анализа соцмедиа

 

По данным анализа СМИ

Персона

Упоминания

 

Персона

Упоминания

1

Владимир Путин

1 121 296

 

1

Владимир Путин

60 726

2

Петр Порошенко

537 269

 

2

Петр Порошенко

38 583

3

Барак Обама

207 439

 

3

Дмитрий Медведев

19 139

4

Игорь Стрелков

118 176

 

4

Барак Обама

15 561

5

Дмитрий Песков

97 889

 

5

Ангела Меркель

5 804

6

Дмитрий Медведев

82 959

 

6

Владимир Ленин

5 791

7

Сергей Лавров

81 507

 

7

Андрей Лысенко

5 686

8

Виктор Янукович

78 181

 

8

Сергей Лавров

5 607

9

Игорь Коломойский

76 597

 

9

Игорь Коломойский

5 555

10

Владимир Ленин

73 816

 

10

Дмитрий Песков

5 516

11

Андрей Макаревич

66 090

 

11

Игорь Стрелков

4 827

12

Адольф Гитлер

61 122

 

12

Александр Лукашенко

4 514

13

Ангела Меркель

61 025

 

13

Виктор Янукович

4 440

14

Юлия Тимошенко

47 689

 

14

Франсуа Олланд

4 318

15

Владимир Жириновский

47 349

 

15

Александр Захарченко

4 293

16

Арсен Аваков

46 726

 

16

Адольф Гитлер

4 167

17

Александр Лукашенко

45 681

 

17

Леонид Кучма

3 920

18

Иосиф Сталин

43 590

 

18

Андрей Стенин

3 677

19

Андрей Стенин

43 344

 

19

Андрей Пургин

3 479

20

Рамзан Кадыров

38 454

 

20

Андрей Макаревич

3 007

21

Олег Ляшко

35 087

 

21

Михаил Зурабов

2 937

22

Франсуа Олланд

31 939

 

22

Иосиф Сталин

2 905

23

Сергей Собянин

31 422

 

23

Игорь Плотницкий

2 819

24

Алексей Навальный

31 264

 

24

Сергей Аксенов

2 586

25

Руслана

31 177

 

25

Сергей Собянин

2 572

26

Сергей Шойгу

30 462

 

26

Олег Ляшко

2 490

27

Лионель Месси

30 448

 

27

Нурсултан Назарбаев

2 400

28

Ксения Собчак

28 939

 

28

Арсен Аваков

2 339

29

Леонид Кучма

28 732

 

29

Владимир Жириновский

2 297

30

Никита Михалков

28 693

 

30

Сергей Шойгу

2 094

31

Анджелина Джоли

23 867

 

31

Юлия Тимошенко

1 916

32

Ляпис Трубецкой

23 365

 

32

Рамзан Кадыров

1 848

33

Макс Корж

22 221

 

33

Валерий Андреев

1 825

34

Дмитрий Рогозин

21 710

 

34

Дмитрий Рогозин

1 816

35

Павел Губарев

21 695

 

35

Хайди Тальявини

1 748

36

Бьянка

20 675

 

36

Дмитрий Тымчук

1 733

37

Андрей Макаревич

19 803

 

37

Юрий Луценко

1 618

38

Владимир Ходов

18 941

 

38

Виталий Кличко

1 387

39

Тимати

18 766

 

39

Борис Ельцин

1 380

40

Андрей Леницкий

17 992

 

40

Руслана

1 363

41

Надежда Савченко

17 609

 

41

Игорь Сечин

1 289

42

Андрей Пургин

17 457

 

42

Олег Иванов

1 239

43

Михаил Саакашвили

17 414

 

43

Дженнифер Лоуренс

1 198

44

Виталий Кличко

16 451

 

44

Лев Шлосберг

1 195

45

Олег Царев

16 329

 

45

Надежда Савченко

1 160

46

Нурсултан Назарбаев

15 855

 

46

Леонид Кучук

1 121

47

Борис Ельцин

15 817

 

47

Анджелина Джоли

934

48

Рем Дигга

15 475

 

48

Борис Немцов

932

49

Дженнифер Лоуренс

15 398

 

49

Виктор Ющенко

875

50

Сергей Аксенов

14 175

 

50

Михаил Горбачев

862

Для расчета Рейтинга за 1-7 сентября  2014 были проанализированы 142 910 402 публичных русскоязычных сообщения пользователей социальных медиа. Источниками данных для анализа сообщений выступили популярные социальные сети и сервисы: ВКонтакте, Twitter, Одноклассники, Мой Мир, Facebook, Instagram, YouTube, G+, а также блоги, форумы, тематические сайты и группы обсуждений, онлайн СМИ и комментарии в них. Общее число выявленных объектов составило 16 198 388, из которых 2 088 558 – уникальных объектов (например, РФ, Российская Федерация и Россия – один уникальный объект). Далее было проанализировано количество упоминаний персон, в соответствии с которым выстроен рейтинг.

Система выявления  сущностей (NER — Named Entities recognition) системы Brand Analytics позволяет классифицировать именованные объекты в тексте на пять классов: физические лица, юридические лица, географические объекты, названия продуктов и брендов и именованные события.

Основной особенностью разработки NER Brand Analytics является то, что в его основе не используются словари и тезаурусы, которые хорошо работают для канонических текстов СМИ и книг, но плохо применимы для пользовательских сообщений в социальных сетях и выявления новых, не существовавших ранее, объектов и именований (челябинский метеорит, ДНР, влог). Таким образом, новый NER достаточно точно может определять тип ранее не встречающегося объекта или объекта, тип которого может меняться в зависимости от контекста. Так же к плюсам данной технологии можно отнести и то, что ему не требуется никакой лингвистической предобработки текста, что значительно повышает скорость его работы и позволяет в реальном масштабе времени обрабатывать тысячи сообщений в секунду — именно такой поток «генерят»  русскоязычные пользователи соцсетей.

Для специалистов и любителей лингвистики: в таблице представлена точность и полнота определения системой типа именованных сущностей:

Тип

Точность

Полнота

F1

Физ.лица

94.04

94.28

94.16

Гео.объекты

92.19

91.76

91.97

Юр.лица

85.27

86.52

85.89

Продукты

79.20

80.03

79.62

События

80.15

76.27

78.16

Среднее

86.18

85.78

85.97

 

Запись опубликована в рубрике Рейтинги. Добавьте в закладки постоянную ссылку.
Рубрика: Рейтинги
Автор:
Комментариев: 0
Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*

*

CAPTCHA изображение