Новые инструменты для мониторинга социальных сетей
Сбор данных на сайтах социальных сетей – нелёгкая задача.
Тем не менее, это важнейший этап в проведении расследований на основе открытых источников, если вы хотите, например, узнать, кто стоит за вредоносной рекламой на этих платформах, понять алгоритм рекомендаций TikTok, или выявить группы конспирологов или влиятельных лиц, распространяющих дезинформацию, пишет Рован Филп для gijn.
По мнению экспертов, одна из причин этой проблемы заключается в том, что службы безопасности некоторых платформ намеренно затрудняют веб-скрэйпинг, якобы пытаясь, как они утверждают, усложнить деятельность злоумышленников. Однако такая тактика мешает журналистам, которые отслеживают токсичных пользователей соцсетей или подозрительных лиц.
Поэтому в последние годы журналисты стали полагаться на принадлежащие платформам инструменты анализа, например CrowdTangle для отслеживания контента в Facebook и Instagram, а также интерфейс API Twitter (24 июля 2023 года Илон Маск переименовал Twitter в X и отключил бесплатный API – примечание редактора) для изучения твитов. Однако и с этими дашбордами у журналистов возникают проблемы.
«Их будущее туманно», – предупреждал дата-журналист Washington Post Джереми Меррилл. «CrowdTangle – важный инструмент, но уже писали, что он прекращает своё существование. Аналогичным образом, API в Twitter исторически был супероткрытым. Но Илон Маск пообещал сделать его платным, а заявления о том, какие данные вообще будут доступны исследователям, очень противоречивы». В начале марта Twitter действительно ввёл новые платные уровни доступа к API, которые не позволяют получить доступ практически никому, кроме корпораций.
А для других крупных платформ, например TikTok, подобного инструмента для доступа к контенту и вовсе не существует.
На ежегодной конференции по журналистике данных NICAR23, организованной «Организацией журналистов и редакторов-расследователей» (IRE), одна из сессий была посвящена набирающему популярность инструменту, который отслеживает публичные аккаунты на многочисленных платформах в интересах журналистов и исследователей – Junkipedia.
Junkipedia была разработана Институтом алгоритмической прозрачности, проектом учреждённой Конгрессом США НКО «Национальная конференция по вопросам гражданства», цель которой – «укреплять гражданское общество в Америке». Изначально Junkipedia предназначалась для мониторинга дезинформации и фейков, но в этом году инструмент сменил название, чтобы отразить свою новую глобальную универсальную роль в анализе.
Junkipedia разработана журналистами и расследователями для своих коллег – и она бесплатна.
Стоит оговориться: в ней не самые полные наборы данных, нет доступа ко всем публичным страницам Facebook, как у CrowdTangle, а её пользовательский интерфейс некоторые исследователи называют «неуклюжим» по сравнению с крупными, хорошо финансируемыми инструментами социального анализа.
По словам Хики, в дополнение к общей базе данных проблемного контента в социальных сетях Junkipedia, теперь позволяет пользователям отслеживать и составлять списки аккаунтов в социальных сетях с десятка различных платформ, включая периферийные сайты, такие как GETTR и Gab, а также крупные сайты – TikTok, Facebook и Telegram.
Примечательно, что Junkipedia также умеет автоматически транскрибировать англоязычные подкасты и проводить поиск по ним.
«Мы значительно расширили возможности этого инструмента, и теперь эта платформа в поисках нового имени», – говорит Хики. «Можно создать список учётных записей из двенадцати социальных сетей, а также из подкастов, и система будет автоматически показывать все сообщения с этих аккаунтов. Для некоторых из них также можно отобразить публикации по конкретным поисковым запросам».
Он добавил: «Например, для Youtube вы можете ввести термины «бюллетень» и «мошенничество», и платформа будет искать, где эти термины встречаются в названии или описании видео, и покажет вам данные обо всех таких видео. Также можно просмотреть множество метаданных об аккаунтах».
Хики предложил журналистам-расследователям и репортёрам, работающим с данными, подавать заявки на использование этого инструмента с официальных адресов своего издания.
Помимо мониторинга двенадцати социальных сетей, Junkipedia позволяет делать следующее:
-
Изучайте интересующую вас тему на разных платформах с помощью новой базы данных деятелей (actor). «Деятелями мы называем людей, а иногда и компании, которые часто имеют множество аккаунтов в социальных сетях, и полезно иметь возможность связать их все воедино», – сказал Хики. Меррилл добавил: «Таким образом, в один щелчок мыши вы можете увидеть всё, что, скажем, кандидаты от демократов на выборах в штате Джорджия говорили о марихуане».
-
Покажите статистику вовлечённости для исследуемого контента в социальных сетях. «Вы можете увидеть все показатели вовлечённости, которые предоставляют платформы социальных сетей, – количество сообщений, лайков, комментариев и просмотров», – отметил Хики. «Примечательно, что после приобретения Twitter (X.com) Илоном Маском добавился счётчик просмотров твитов, чего раньше не было, поэтому наша система теперь собирает просмотры из постов в Twitter».
-
Разоблачайте корпоративный «гринвошинг» и «воук-вошинг» – формы маркетинга, которые создают видимость добропорядочных социальных кампаний, призванных замаскировать основную неэкологичную или эксплуататорскую деятельность. «Например, часто компании, применяющие неэкологичное топливо, используют социальные проблемы для очищения или возвышения своего бренда: автомобильные или энергетические компании в рекламе акцентируют внимание на «Black Lives Matter» («Жизни чёрных имеют значение»), ЛГБТКИA+ или гендерной идентификации людей. Именно это исследователи и называют «воук-вошингом» или «гринвошингом», – говорит Хики.
-
Применяйте платформу как интерфейс для мониторинга соцсетей, с возможностью поиска и фильтрации содержимого.
-
Пользуйтесь функцией расшифровки англоязычных аудиозаписей в TikTok, Youtube, Telegram и подкастах. «Подкасты на протяжении многих лет были «чёрным ящиком»», – говорит Меррилл. «Хотите ли вы день за днём часами слушать Стива Бэннона? – Нет. Благодаря Junkipedia мы теперь получили расшифровку этих подкастов». Хики добавил: «Также можно извлекать значимые темы или определять часто используемые термины».
-
Формируйте публичные списки аккаунтов в социальных сетях – и применяйте уже опубликованные списки, скажем, белых шовинистов в Австралии или антивакцинаторов-конспирологов в Европе.
-
Создавайте базы данных аккаунтов и подписывайтесь на них – например, списки аккаунтов политиков и их партий.
-
Создавайте описания всех своих проектов, применяя встроенный инструмент маркировки.
Примеры расследований
Вместе с Хики в дискуссии на NICAR участвовали Меррилл и журналистка Wall Street Journal Андреа Фуллер.
По словам Меррилла, Junkipedia стала важнейшим инструментом в его расследовании под названием «Большая ложь Трампа породила новое поколение «лидеров мнений» в социальных сетях». В этом материале Меррил рассказал, как соцсети потакали фейкам о фальсификациях на президентских выборах в США в 2020 году, что позволило «раскрутить» аккаунты инфлюэнсеров, и в дальнейшем они стали распространять другую дезинформацию. Для проведения расследования Меррилл изучил публикации и подкасты 77 инфлюэнсеров, заявлявших о фальсификации выборов после 7 декабря 2020 года, когда победителем был признан Джо Байден.
«На этой лжи они приобрели влияние, и использовали его для разжигания вражды и разногласий по другим вопросам, поэтому попустительство платформ стало для них наградой», – объясняет Меррилл. «Мне не доставляло особого удовольствия писать скрэйпер для таких маргинальных платформ, как Gab или GETTR, или просматривать всё, что ультраправые говорят в своих подкастах. Чтобы решить эту проблему, я обратился к Junkipedia».
По словам Фуллер, в своём недавнем расследовании, посвящённом тому, как мошеннический маркетинг дал толчок развитию компаний, занимающихся телемедициной, её команда использовала Junkipedia для анализа 1800 рекламных объявлений в социальных сетях от 15 компаний, предоставляющих услуги телемедицины, которые не сопровождались предупреждениями о рисках или рекламировали приём лекарств не по назначению.
Фуллер обнаружила, что руководители одной компании даже выдавали себя за покупателей в некоторых рекламных роликах, а это нарушение американских правил маркетинга лекарств.
«В библиотеке рекламы Facebook есть API, но он предназначен только для политических объявлений, а нас интересовала только коммерческая реклама, ведь статья была о телемедицинских компаниях и способах распространения ими препаратов», – пояснила Фуллер. «Junkipedia показала нам все данные для собранной нами рекламы, ссылки на используемые изображения, всего примерно по 30 компаниям, которые нас интересовали. Вышло около 4 000 объявлений с разбивкой по категориям: «в этой рекламе названы рецептурные препараты, а тут актёр притворяется покупателем».
Ограничения и альтернативы Junkipedia
По словам Хики, глобальный охват этого инструмента зависит от участия его пользователей. «Он использовался на выборах в Германии, на недавних выборах в Австралии – его можно использовать практически везде, но главная сила заключается в пользователях», – отметил он.
Он также предупредил, что Junkipedia не является комплексным инструментом для мониторинга всех социальных сетей.
«Существуют и другие инструменты, которые собирают более полные наборы данных», – признаёт Хики. «Например, у CrowdTangle есть данные, которые нельзя получить через их API, поэтому мы их не фиксируем».
«В некоторых случаях на вопросы, которые мы пытаемся задать, Junkipedia ответить не может», – сказал Меррилл.
Для поиска информации в социальных сетях, который не может выполнить Junkipedia, Меррилл предложил журналистам рассмотреть следующие варианты:
-
Snscrape – инструмент командной строки, который может выдавать себя за незалогиненного в Twitter пользователя, чтобы собрать всё содержимое с определённой страницы Twitter. «Это инструмент с открытым кодом, поэтому его можно модифицировать, если нужно сделать что-то необычное», – говорит Меррилл. «До тех пор, пока Twitter позволяет незалогиненным пользователям просматривать содержимое страницы, Snscrape работает отлично».
-
SMAT – позволяет искать и анализировать посты в маргинальных социальных сетях, которые не охватывает Junkipedia, таких как 4chan, 8kun и Parler.
-
Waybackpack – инструмент командной строки, позволяющий загрузить весь архив Wayback Machine для определённого URL. По словам Меррилла, обновлённая версия Waybackpack2 может также находить в социальных сетях показатели, которые меняются задним числом, например, если вдруг число заявленных подписчиков резко станет больше.
Хики добавил, что журналистам, использующим инструменты для веб-скрэйпинга, следует задуматься о том, как они их используют. В большинстве стран мира скрэйпинг, как правило, не считается преступлением, однако его использование может быть сопряжено с этическими сложностями. «Скрэйпинг всех аккаунтов в соцсети Дональда Трампа Truth Social, казалось бы, этического риска особо не несёт, но если мы скрэйпим кучу видеороликов подростков в TikTok и все их комментарии, то тут куда больше этических вопросов», – сказал Хики. Главное – знать, когда без скрэйпинга не обойтись. «Но угрозам и давлению извне мы поддаваться не должны».
Читайте еще:
Праект «Пегас» — рэвалюцыя ў шпіянажы
Эти использующие ИИ инструменты помогают разоблачать дипфейки
Семь раз проверь, один раз удали. Где могут спрятаться ваши фото с протестов, когда вы думаете, что все удалили