Semalt ділиться простим способом вилучення інформації з веб-сайтів

Web Scraping - популярний метод отримання контенту з веб-сайтів. Спеціально запрограмований алгоритм заходить на головну сторінку сайту і починає слідувати всім внутрішнім посиланням, збираючи вказані вами інтер'єри дівок. Як результат - готовий файл CSV, що містить усю необхідну інформацію, що лежить у строгому порядку. Отриманий CSV можна використовувати в майбутньому, створюючи майже унікальний контент. І взагалі, як таблиця, такі дані мають велике значення. Уявіть, що весь товарний перелік будівельного цеху представлений у таблиці. Більше того, для кожного продукту, для кожного виду та марки товару заповнюються всі поля та характеристики. Будь-який копірайтер, який працює в Інтернет-магазині, буде радий мати такий файл CSV.

Існує безліч інструментів для вилучення даних з веб-сайтів або веб-скреблінгу, і не хвилюйтесь, якщо ви не знайомі з будь-якими мовами програмування, в цій статті я покажу один з найпростіших способів - за допомогою Scrapinghub.

Перш за все, перейдіть на scrapinghub.com, зареєструйтесь та увійдіть у систему.

Наступний крок щодо вашої організації можна просто пропустити.

Потім ви переходите до свого профілю. Вам потрібно створити проект.

Тут потрібно вибрати алгоритм (ми будемо використовувати алгоритм "Портія") і дати ім'я проекту. Назвемо це якось незвично. Наприклад, "111".

Тепер ми потрапляємо в робочий простір алгоритму, куди потрібно ввести URL-адресу веб-сайту, з якого ви хочете отримати дані. Потім натисніть на "Новий павук".

Ми перейдемо на сторінку, яка стане прикладом. Адреса оновлюється у заголовку. Натисніть "Анотувати цю сторінку".

Перемістіть курсор миші праворуч, що зробить меню. Тут нас цікавить вкладка "Витягнутий елемент", де потрібно натиснути "Редагувати елементи".

І все ж відображається порожній список наших полів. Натисніть "+ поле".

Тут все просто: вам потрібно створити список полів. Для кожного елемента потрібно ввести ім’я (у цьому випадку заголовок та зміст), вказати, чи потрібне це поле ("Обов'язково") та чи може воно змінюватися ("Варіант"). Якщо ви вказали, що елемент "обов'язковий", алгоритм буде просто пропускати сторінки там, де він не зможе заповнити це поле. Якщо його не позначено, процес може тривати вічно.

Тепер просто натисніть на потрібне нам поле та вкажіть, що це:

Зробили? Потім у заголовку веб-сайту натисніть «Зберегти зразок». Після цього можна повернутися в робочий простір. Тепер алгоритм знає, як щось дістати, нам потрібно для цього поставити завдання. Для цього натисніть «Опублікувати зміни».

Перейдіть на дошку завдань, натисніть «Запустити павука». Виберіть веб-сайт, пріоритет і натисніть «Виконати».

Ну, зараз відбувається вискоблювання. Його швидкість відображається, вказуючи курсором на кількість відправлених запитів:

Швидкість готування рядків у CSV - вказівкою на інше число.

Щоб побачити список вже виготовлених предметів, просто натисніть на це число. Ви побачите щось подібне:

Після закінчення результат можна зберегти, натиснувши цю кнопку:

Це воно! Тепер ви можете отримувати інформацію з веб-сайтів без досвіду програмування.

mass gmail