Парсер киносайта или как создать свой киносайт

Парсер киносайта
Парсер киносайта или как создать свой киносайт
Оцените пост

Задача по парсингу киносайта приходит в голову каждому вебмастеру, который решил создать свой киносайт. Наполнение контентом — важная часть работы над таким сайтом. И тут есть несколько вариантов как вы поступите.

  1. Поиск фильмов на одном из популярных кино-энциклопедий типа кинопоиска или Imdb и ручное копирование на свой сайт нужной информации по фильмам.
  2. Скрипт или программа, которая сможет спарсить из чужого киносайта всю необходимую информацию прямо на ваш сайт.

Тут мы упираемся в вопрос о движке сайта (CMS). Многие выбирают Data Life Engine (DLE), как самую оптимальную, оптимизированную под SEO и быстродействие движок. Крайне не советую брать для этих задач WordPress, потому что он предназначен не для таких проектов и если взглянуть на топ киносайтов в российском сегменте интернета, то обнаружите сами, что практически все они созданы на DLE.

Так же я видел, как мой друг успешно продвинул киносайт в бурже, и обогнал своих конкурентов, используя DLE. Так что выбор движка для киносайта очевиден.

После установки CMS и шаблона для вашего будущего сайта, можно приступать к парсингу киносайта. Для этого нам понадобиться выбрать программу для парсинга. Мы рассмотрим как полнофункциональные платные решения и плагины под DLE для парсинга, так и бесплатные поделки.

Процесс парсинга разбит на 3 части.

  1. Сбор данных с сайта донора
  2. Обработка взятых данных в окончательный вид для публикации на вашем сайте
  3. Импорт проекта на ваш сайт на DLE

Я могу перечислять разные малоэффективные программы и плагины, которые можно было бы скачать на свой страх и риск, и пытаться что то с ними сделать, но порекомендую то, что сам использую для этого.

Читайте также:  SEO: Создание и продвижение кино сайта

Связка Content Downloader + Zebroid. Первый скачивает контент с нужного нам сайта донора, другой обрабатывает и уникализирует контент и имеет модуль для импорта в DLE и другие популярные движки.

Суммарно эти два продукта стоят чуть более 10000 рублей. Это единоразовое вложение в профессиональные инструменты, я использую их уже почти 10 лет. В дальнейшем их можно использовать не только для создания киносайтов но и парсинга + публикации с других видов сайтов, для вебмастера мастхэв.

Парсинг киносайта (пример)

Процесс парсинга через Content Downloader очень прост и интуитивно понятен. Запускаем программу для парсинга, создаем новый проект, все как и в других программах. Вот пошаговый процесс со скриншотами.

Сканер сайта и сбор ссылок

Понадобиться нам, для того, чтобы собрать все ссылки на фильмы.

Указываем домен на сайт, с которого требуется спарсить данные.

Теперь самое главное! Так как мы выбрали для парсинга сайт kinogo, идем туда сначала и открываем страницу с любым фильмом. Важно посмотреть ссылку страницы.

Обратите внимание на вид ссылки фильма. Он заканчивается всегда на .html! Это первое, что нам поможет найти ссылки на фильмы. Идем в программу для парсинга, находим в сканере сайта кнопку фильтра ссылок.

Вставляем .html в фильтр для сбора ссылок, чтобы собирался список ссылок с фильмами из kinogo

Сохраняем и запускаем поиск ссылок.

Как видим сработало, программа собирает для нас ссылки на фильмы. Теперь остается только нажать кнопку добавить их в список для парсинга.

Задание границ парсинга

Далее настраиваем границы парсинга. Простым языком говоря, места на страницах, которые мы будем парсить. Такие как название фильма, картинка постера, год выпуска и даже iframe плеер с фильмом.

Откроется браузер и исходный код страницы, отбор нужных данных достаточно легкий процесс. Вы просто кликаете по нужному место на странице, и вам подсвечивается в исходном коде страницы, это место.

Читайте также:  Как обойти блокировку ссылки в Одноклассниках

Затем остается только нажать на две кнопки, это кнопка авто и готово в правом верхнем углу.

И тогда выбранная часть сохранится. Чтобы протестировать, будет ли программа при парсинге забирать заданный участок с названием фильма, нажмите два раза на сохраненную границу для парсинга, в нашем случае добавить макрос <CD_GRAN_1!>, что выведет название фильма.

Вывод и сохранение результатов парсинга

Затем нажмите на любую ссылку в списке для парсинга и посмотрите на вывод.

Повторите с остальными элементами тоже самое, и получите HTML, TXT либо Табличный формат с данными. Далее по очереди со всех найденных ссылок с фильмами, программа проделает то же самое и сохранит результат парсинга в папку.

Просто запустите процесс и ждите завершения. Есть еще множество настроек и нюансов, с которыми можно ознакомиться на сайте программы, там есть подробная документация с видеоуроками.

Обработка в zebroid

Про обработку спасенных данных подробно я напишу отдельный пост. Сейчас же просто хочу показать вообщем, как это происходит. Работа с программой начинается с импорт сохраненных данных из парсера.

Я потом отдельно напишу о том, как настраивать импорт в Zebroid , как обрабатывать данные в ней и экпортировать на ваш сайт. Сейчас же хочется написать о процессе в общем.

Можно уникализировать текст и картинки. Если картинок и видео нет, но вы хотите их добавить, программа сама найдет подходящие и равномерно вставит их на ваши страницы. Тут есть функции перевода, если вы хотите перевести сайт на другой язык.

Установив плагин на DLE или другие CMS, вы сможете с легкостью эскпортировать готовый результат на сайт и даже запланировать постепенную публикацию, чтобы не публиковать все сразу, и сделать самонаполняемый сайт.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.