Ищете идеи, которые легко получить по электронным таблицам и необработанным данным? Обозреватель Дэйв Дэвис объясняет, как использовать инструмент визуализации данных Gephi для создания визуального представления структуры вашего сайта в отношении силы входящего соединения.Говорят, что картина стоит тысячи слов - и ничего себе, они правильные!
Сегодня я расскажу о мощных способах визуализации структуры вашего сайта, особенно в том, что касается страниц, которые приобретают входящие ссылки; однако мы также обсудим другие применения этого метода с использованием аналитических показателей или других сторонних данных.
Существует ряд причин, по которым вы хотели бы сделать это, в том числе для визуального контекста данных. Как мы увидим ниже, визуальные представления данных могут помочь быстро идентифицировать шаблоны в структурах сайтов, которые могут быть не очевидны, если рассматривать их как электронную таблицу или как необработанные данные. Вы также можете использовать эти визуальные эффекты, чтобы объяснить клиентам и другим заинтересованным сторонам, что происходит в структуре сайта.
Чтобы создать визуальное представление структуры нашего сайта, относящееся к входящим ссылкам, мы будем:
запуск Screaming Frog для сбора внутренних данных и структуры ссылок.
добавление количества обратных ссылок, которые каждая страница имеет к метрикам страницы.
с помощью Gephi для создания визуального представления этих данных.
Для тех, кто не знаком с Gephi, это инструмент визуализации данных с открытым исходным кодом - в основном, он превращает данные в интерактивную картинку.
Удалить первую строку, содержащую «Все входящие».
Удалить первый столбец «Тип.»
Переименуйте столбец «Целевой» «Цель».
Удалите все остальные столбцы, кроме «Источник» и «Целевой».
Сохранить отредактированный файл. Вы можете называть его, что бы вы хотели, но я буду ссылаться на мою во всей статье как на work.csv.
Я настоятельно рекомендую сканировать ваши столбцы Source и Target, чтобы искать аномалии. Например, сайт, который я просматривал для снимков экрана ниже, содержал ссылки привязки на большом количестве страниц. Я быстро выполнил поиск хэштегов в столбце «Цель» и удалил их, чтобы они не исказили информацию о потоке ссылок.
При этом нам остается таблица, которая должна выглядеть примерно так:
Только эти данные могут быть довольно интересными для анализа - и с этой целью я рекомендую прочитать статью Патрика Стокса «Легкая визуализация групп PageRank и страниц с Gephi».
В своей статье Stox использовал Gephi, чтобы визуализировать отношения между страницами на веб-сайте и посмотреть, какие страницы являются самыми сильными (на основе внутреннего графика ссылок на сайте).
Вы можете прочитать его статью для инструкций и описания, но вкратце, что мы видим, это разные «кластеры» страниц (в зависимости от того, какие страницы связаны чаще всего - не идеально, но неплохо), сгруппированные по цвету и размеру внутренние ссылки (с наиболее привязанными к страницам, которые появляются больше).
Разумеется, эта информация удобна. Но что, если мы хотим больше? Что делать, если мы хотим по-настоящему раскрасить страницы на основе их раздела сайта, и что, если мы хотим, чтобы они были размером по количеству входящих внешних ссылок?
Чтобы достичь этого, сначала вам нужно будет загрузить свои страницы с главной страницы из Google Search Console. Если вы этого еще не сделали, просто войдите в свою учетную запись Search Console и выполните следующие действия:
Нажмите «Поиск трафика» в левом навигаторе.
Нажмите «Ссылки на свой сайт» в открывшемся меню.
Нажмите «Больше >>» в колонке «Ваш наиболее связанный контент».
И «Загрузить эту таблицу».
Единственная проблема с загруженными данными заключается в том, что для наших целей нам нужны URL-адреса в форме домена, и в таблице отображается только путь. Чтобы справиться с этим легко, вы можете просто:
Откройте таблицу.
Вставьте новый столбец A перед URL-адресом.
Поместите свой домен https://www.yourdomain.com/ в ячейку A3 (при условии, что B2 содержит ваш домен, который странно является единственным URL-адресом, отображаемым полностью), чтобы вы не создавали https: //www.yourdomain. ком / HTTPS:. //www.yourdomain.com/
Дважды щелкните в нижнем правом углу ячейки с недавно добавленным доменом, чтобы скопировать домен в нижнюю часть электронной таблицы.
Выберите данные из столбцов A и B (домен и путь) и скопируйте их в Блокнот.
Найти и заменить «/ /» на «/» (исключая кавычки).
Выберите все в Блокноте.
Пройдет это в столбец B и удалите столбец A.
Теперь у вас есть тот же список, но с полным URL.
Id
<Литий> Этикетка
Timeset
Вы добавите четвертый столбец с именем в зависимости от того, какой показатель вы хотите втянуть. Здесь я собираюсь перехватить ссылочные домены, как указано в Search Console, поэтому я буду отмечать четвертый столбец (D), ссылающийся на домены. «Пятый будет« modularity_class ».
Вы хотите временно добавить второй лист в электронную таблицу и назовите его «консоль поиска».
В ячейке D2 (прямо под заголовком столбца D) введите следующую формулу:
= IFERROR (INDEX («консоль поиска»! $ C $ 2: $ C $ 136, MATCH (A2, «консоль поиска»! $ A $ 2: $ A $ 136,0), 1), «0»)
В моем примере здесь есть 136 строк в моих данных Search Console. Ваш может отличаться, и в этом случае значение 136 в формуле выше должно быть изменено на количество строк в вашем списке. Кроме того, если вы хотите перечислить количество ссылок и не ссылаться на домены, вы должны изменить Cs на B, чтобы поиск находился в столбце B вместо C.
После завершения вы захотите скопировать столбец ссылочных доменов и использовать команду «Вставить значения», которая будет переключать ячейки из содержащего формулу, чтобы содержать значение их количества ссылочных доменов как целое число.
Процесс выглядит следующим образом:
Теперь, наконец, вы хотите добавить пятый столбец с заголовком «modularity_class». Хотя Gephi имеет встроенную модульность, которая будет группировать похожие страницы на основе внутренней структуры ссылок, я предпочитаю более ручной подход, который четко определяет категорию страницы ,
В моем примере я собираюсь присвоить одно из следующих значений каждой странице в столбце modularity_class, в зависимости от категории страницы:
0 - разное / другое
1 - сообщения в блогах
2 - страницы ресурсов
3 - информация о компании
4 - сервис
5 - домашняя страница
Разумеется, то, как вы нарушаете свои категории, зависит от вашего сайта (например, вы можете разбить свой сайт электронной торговли по типу продукта или ваш сайт для путешествий по месту нахождения).
После того как вы сохранили это как csv named nodes.csv, вам просто нужно импортировать эту таблицу в текущий проект Gelphi с помощью кнопки Import Spreadsheet на экране Лаборатории данных, с которого вы экспортировали.
На следующем экране вы убедитесь, что для «refering domains» и «modularity_class» установлено значение «Float» и убедитесь, что флажок «Силовые узлы будут созданы как новые» не установлен. Затем нажмите «Далее». После импорта вы будете искать такую страницу, как:
Затем вы вернетесь к обзору в верхней части Gephi. На этом этапе вы заметите, что не так много изменилось ... но это все.
Там есть тонна, которую вы можете сделать с Гефи. Я рекомендую запустить имитацию PageRank, которую вы найдете в настройках с правой стороны. Настройки по умолчанию работают хорошо. Теперь пришло время использовать все эти данные.
Сначала мы будем раскрашивать узлы на основе их типа страницы (modularity_class). В левом верхнем углу выберите «Узлы», затем «Атрибут». В раскрывающемся списке выберите «Класс модульности» и выберите, какой цвет вы хотите представить. Из моего примера выше я выбрал следующие цвета:
misc / other - orange
Сообщения в блоге - светло-фиолетовый
страницы ресурсов - светло-зеленый
информация о компании - темно-зеленый
сервис - синий
домашняя страница - розовая
Это даст вам что-то близкое:
Теперь давайте использовать эти ссылочные домены для определения размеров узлов. На этот раз нам нужно выбрать размер атрибута «refering domains». Чтобы сделать это, выберите значок размера; затем в Атрибутах выберите «refering domains» и установите минимальное и максимальное значение. Мне нравится начинать с 10 и 50, но каждый график уникален, поэтому найдите то, что работает для вас.
Если вы обнаружите, что «ссылающиеся домены» не входят в список (что случается иногда), это нечетный сбой с одинаково нечетным обходным путем - и кредит для rbsam на Github для него:
В области Appearence / Attributes по цвету вы можете установить атрибут «Разделение на ранжирование» в левом нижнем углу окна. Если для атрибута установлено значение «Разделение», он не будет отображаться в атрибуте «Размер». Если он установлен в «Ранжирование», он появится в атрибуте «Размер».
Что это значит ...
Хорошо, так что теперь у нас есть цвета, закодированные разными разделами сайта, и размер которых зависит от уровня входящих ссылок на страницу. Это все еще выглядит немного запутанным, но мы еще не закончили!
Следующий шаг - выбрать макет в левом нижнем углу. Все они выглядят несколько иначе и выполняют разные функции. Моими любимыми двумя являются Fruchterman Reingold (показано ниже) и Force Atlas 2. Вы также можете играть вокруг с гравитацией (то есть, насколько ребра вытягивают узлы вместе). Текущий сайт отображается как:
Только эта информация может дать вам очень интересное представление о том, что происходит на вашем сайте. Важно знать, что при щелчке правой кнопкой мыши по любому узлу вы можете выбрать его в лаборатории данных. Хотите узнать, какая эта одинокая страница наверху и почему у нее есть только одна одинокая ссылка на нее? Щелкните правой кнопкой мыши и просмотрите его в лаборатории данных (это файл Sitemap, FYI). Вы также можете сделать то же самое в обратном порядке. Если вы не видите отдельную страницу, вы можете найти ее в лаборатории данных и щелкнуть ее правой кнопкой мыши и выбрать ее в обзоре.
То, что дает эта визуализация, - это способность быстро обнаруживать аномалии на сайте, определять, какие страницы сгруппированы по-разному, и найти возможности для улучшения потока PageRank и веса внутренней линии.
Post A Comment:
0 comments so far,add yours