Как решать задачи веб-скрапинга с помощью Scrapy и Playwright в 2025 году

Блог

All

Блог

All

Как решать задачи веб-скрапинга с помощью Scrapy и Playwright в 2025 году

Anh Tuan

Data Science Expert

12-Nov-2024

Что такое Scrapy-Playwright?

Scrapy-Playwright — это промежуточное ПО, которое интегрирует Scrapy, быстрый и мощный фреймворк для веб-скрейпинга на Python, с Playwright, библиотекой автоматизации браузеров. Эта комбинация позволяет Scrapy обрабатывать веб-сайты с интенсивным использованием JavaScript, используя возможности Playwright для отрисовки динамического контента, взаимодействия с веб-страницами и плавного управления контекстами браузера.

Зачем использовать Scrapy-Playwright?

Хотя Scrapy отлично подходит для скрейпинга статических веб-сайтов, многие современные веб-сайты в значительной степени полагаются на JavaScript для динамической отрисовки контента. Традиционные пауки Scrapy могут испытывать трудности с такими сайтами, часто пропуская важные данные или не в состоянии перемещаться по сложным структурам страниц. Scrapy-Playwright устраняет этот разрыв, позволяя Scrapy управлять браузером без графического интерфейса, гарантируя, что весь динамический контент полностью загружен и доступен для скрейпинга.

Преимущества использования Scrapy-Playwright

Отрисовка JavaScript: Легко скрепить веб-сайты, которые динамически загружают контент с помощью JavaScript.
Браузер без графического интерфейса: Выполняйте задачи скрейпинга без видимого браузера, оптимизируя производительность.
Расширенные взаимодействия: Обрабатывайте сложные взаимодействия, такие как нажатие кнопок, заполнение форм и навигация по страницам.
Асинхронные операции: Воспользуйтесь преимуществами асинхронных возможностей Playwright для ускорения задач скрейпинга.

Установка

Чтобы начать работу с Scrapy-Playwright, вам необходимо установить как Scrapy, так и Playwright. Вот как вы можете настроить свою среду:

Установка Scrapy:
bash Copy
```
pip install scrapy
```
Установка Scrapy-Playwright:
bash Copy
```
pip install scrapy-playwright
```
Установка браузеров Playwright:

После установки Playwright вам необходимо установить необходимые двоичные файлы браузера.
bash Copy
```
playwright install
```

Начало работы

Настройка нового проекта Scrapy

Сначала создайте новый проект Scrapy, если вы еще этого не сделали:

bash Copy

scrapy startproject myproject
cd myproject

Настройка Playwright

Затем вам необходимо включить Playwright в настройках вашего проекта Scrapy. Откройте settings.py и добавьте следующие конфигурации:

python Copy

# settings.py

# Включите промежуточное ПО загрузчика Playwright
DOWNLOADER_MIDDLEWARES = {
    'scrapy_playwright.middleware.ScrapyPlaywrightDownloadHandler': 543,
}

# Укажите обработчик загрузки для HTTP и HTTPS
DOWNLOAD_HANDLERS = {
    'http': 'scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler',
    'https': 'scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler',
}

# Включите настройки Playwright
TWISTED_REACTOR = 'twisted.internet.asyncioreactor.AsyncioSelectorReactor'

# Настройки Playwright (необязательно)
PLAYWRIGHT_BROWSER_TYPE = 'chromium'  # Может быть 'chromium', 'firefox' или 'webkit'
PLAYWRIGHT_LAUNCH_OPTIONS = {
    'headless': True,
}

Базовое использование

Создание паука

После завершения настройки давайте создадим простой паук, который использует Playwright для скрейпинга веб-сайта с отрисовкой JavaScript. Для иллюстрации мы будем скрепить гипотетический сайт, который динамически загружает контент.

Создайте новый файл паука dynamic_spider.py в каталоге spiders:

python Copy

# spiders/dynamic_spider.py

import scrapy
from scrapy_playwright.page import PageCoroutine

class DynamicSpider(scrapy.Spider):
    name = "dynamic"
    start_urls = ["https://example.com/dynamic"]

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(
                url,
                meta={
                    "playwright": True,
                    "playwright_page_coroutines": [
                        PageCoroutine("wait_for_selector", "div.content"),
                    ],
                },
            )

    async def parse(self, response):
        # Извлеките данные после того, как JavaScript отрисует контент
        for item in response.css("div.content"):
            yield {
                "title": item.css("h2::text").get(),
                "description": item.css("p::text").get(),
            }

        # Обработайте пагинацию или дополнительные взаимодействия, если необходимо

Обработка контента, отрисованного JavaScript

В приведенном выше примере:

playwright: True: Сообщает Scrapy использовать Playwright для этого запроса.
playwright_page_coroutines: Указывает действия, которые нужно выполнить с помощью Playwright. Здесь он ожидает селектора div.content, чтобы убедиться, что динамический контент загружен перед разбором.
Асинхронный метод parse: Использует асинхронные возможности для эффективной обработки ответа.

Решение капчи с помощью CapSolver

Одна из серьезных проблем веб-скрейпинга — это решение капчи, которые предназначены для предотвращения автоматизированного доступа. CapSolver — это надежное решение, которое предоставляет услуги по решению капчи, включая интеграцию с инструментами автоматизации браузеров, такими как Playwright. В этом разделе мы рассмотрим, как интегрировать CapSolver с Scrapy-Playwright для беспроблемной обработки капчи.

Что такое CapSolver?

CapSolver — это служба решения капчи, которая автоматизирует процесс решения различных типов капчи, включая captcha и reCAPTCHA. Интегрируя CapSolver с вашим рабочим процессом скрейпинга, вы можете обойти проблемы с капчей и сохранить поток задач скрейпинга без ручного вмешательства.

Интеграция CapSolver с Scrapy-Playwright

Чтобы интегрировать CapSolver с Scrapy-Playwright, вам необходимо:

Получить расширение CapSolver для браузера: CapSolver предоставляет расширение для браузера, которое автоматизирует решение капчи в контексте браузера.
Настроить Playwright для загрузки расширения CapSolver: При запуске браузера Playwright загрузите расширение CapSolver, чтобы включить решение капчи.
Изменить запросы Scrapy для использования настроенного контекста Playwright: Убедитесь, что ваши запросы Scrapy используют контекст Playwright с загруженным расширением CapSolver.

Пример реализации на Python

Ниже приведено пошаговое руководство по интеграции CapSolver с Scrapy-Playwright, которое включает пример кода.

1. Получите расширение CapSolver для браузера

Сначала скачайте расширение CapSolver для браузера и поместите его в каталог проекта. Предположим, что расширение находится в CapSolver.Browser.Extension.

2. Настройка расширения:

Найдите файл конфигурации ./assets/config.json в каталоге расширения CapSolver.
Установите параметр enabledForcaptcha в true и настройте captchaMode на token для автоматического решения.

Пример config.json:

json Copy

{
  "enabledForcaptcha": true,
  "captchaMode": "token"
  // остальные настройки остаются прежними
}

3. Обновите настройки Scrapy для загрузки расширения

Измените свой settings.py, чтобы настроить Playwright для загрузки расширения CapSolver. Вам нужно указать путь к расширению и передать необходимые аргументы Playwright.

python Copy

# settings.py

import os
from pathlib import Path

# Существующие настройки Playwright
PLAYWRIGHT_BROWSER_TYPE = 'chromium'
PLAYWRIGHT_LAUNCH_OPTIONS = {
    'headless': False,  # Должно быть False, чтобы загрузить расширения
    'args': [
        '--disable-extensions-except={}'.format(os.path.abspath('CapSolver.Browser.Extension')),
        '--load-extension={}'.format(os.path.abspath('CapSolver.Browser.Extension')),
    ],
}

# Убедитесь, что установлен реактор Twisted
TWISTED_REACTOR = 'twisted.internet.asyncioreactor.AsyncioSelectorReactor'

Примечание: Для загрузки расширений браузера браузер должен работать в режиме без графического интерфейса. Поэтому установите 'headless': False.

4. Создайте паука, который обрабатывает капчи

Создайте нового паука или измените существующего, чтобы взаимодействовать с капчами с помощью расширения CapSolver.

python Copy

# spiders/captcha_spider.py

import scrapy
from scrapy_playwright.page import PageCoroutine
import asyncio

class CaptchaSpider(scrapy.Spider):
    name = "captcha_spider"
    start_urls = ["https://site.example/captcha-protected"]

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(
                url,
                meta={
                    "playwright": True,
                    "playwright_page_coroutines": [
                        PageCoroutine("wait_for_selector", "iframe[src*='captcha']"),
                        PageCoroutine("wait_for_timeout", 1000),  # Ожидайте, пока расширение обработает
                    ],
                    "playwright_context": "default",
                },
                callback=self.parse_captcha
            )

    async def parse_captcha(self, response):
        page = response.meta["playwright_page"]

        # Найдите флажок captcha или фрейм и взаимодействуйте соответствующим образом
        try:
            # Ожидайте, пока фрейм captcha станет доступен
            await page.wait_for_selector("iframe[src*='captcha']", timeout=10000)
            frames = page.frames
            captcha_frame = None
            for frame in frames:
                if 'captcha' in frame.url:
                    captcha_frame = frame
                    break

            if captcha_frame:
                # Нажмите на флажок captcha
                await captcha_frame.click("div#checkbox")

                # Ожидайте, пока CapSolver решит капчу
                await page.wait_for_selector("div.captcha-success", timeout=60000)  # Настройте селектор по мере необходимости

                self.logger.info("Капча решена успешно.")
            else:
                self.logger.warning("Фрейм captcha не найден.")
        except Exception as e:
            self.logger.error(f"Ошибка обработки капчи: {e}")

        # Продолжите разбор страницы после решения капчи
        for item in response.css("div.content"):
            yield {
                "title": item.css("h2::text").get(),
                "description": item.css("p::text").get(),
            }

        # Обработайте пагинацию или дополнительные взаимодействия, если необходимо

5. Запуск паука

Убедитесь, что все зависимости установлены, и запустите своего паука с помощью:

bash Copy

scrapy crawl captcha_spider

Дополнительные функции

Как только вы освоите основы, Scrapy-Playwright предлагает несколько дополнительных функций для улучшения ваших проектов скрейпинга.

Обработка нескольких страниц

Скрейпинг нескольких страниц или навигация по веб-сайту может быть оптимизирована с помощью возможностей навигации Playwright.

python Copy

# spiders/multi_page_spider.py

import scrapy
from scrapy_playwright.page import PageCoroutine

class MultiPageSpider(scrapy.Spider):
    name = "multipage"
    start_urls = ["https://example.com/start"]

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(
                url,
                meta={
                    "playwright": True,
                    "playwright_page_coroutines": [
                        PageCoroutine("wait_for_selector", "div.list"),
                        PageCoroutine("evaluate", "window.scrollTo(0, document.body.scrollHeight)"),
                    ],
                },
            )

    async def parse(self, response):
        # Извлеките данные с первой страницы
        for item in response.css("div.list-item"):
            yield {
                "name": item.css("span.name::text").get(),
                "price": item.css("span.price::text").get(),
            }

        # Перейдите на следующую страницу
        next_page = response.css("a.next::attr(href)").get()
        if next_page:
            yield scrapy.Request(
                response.urljoin(next_page),
                callback=self.parse,
                meta={
                    "playwright": True,
                    "playwright_page_coroutines": [
                        PageCoroutine("wait_for_selector", "div.list"),
                    ],
                },
            )

Использование контекстов Playwright

Playwright позволяет создавать несколько контекстов браузера, что может быть полезно для обработки сессий, файлов cookie или параллельных задач скрейпинга.

python Copy

# settings.py

PLAYWRIGHT_CONTEXTS = {
    "default": {
        "viewport": {"width": 1280, "height": 800},
        "user_agent": "CustomUserAgent/1.0",
    },
    "mobile": {
        "viewport": {"width": 375, "height": 667},
        "user_agent": "MobileUserAgent/1.0",
        "is_mobile": True,
    },
}

В вашем пауке укажите контекст:

python Copy

# spiders/context_spider.py

import scrapy

class ContextSpider(scrapy.Spider):
    name = "context"
    start_urls = ["https://example.com"]

    def start_requests(self):
        yield scrapy.Request(
            self.start_urls[0],
            meta={
                "playwright": True,
                "playwright_context": "mobile",
            },
        )

    async def parse(self, response):
        # Ваша логика разбора здесь
        pass

Интеграция с промежуточным ПО

Scrapy-Playwright можно интегрировать с другими промежуточными компонентами для повышения функциональности, такой как обработка повторов, управление прокси или настройка заголовков.

python Copy

# settings.py

DOWNLOADER_MIDDLEWARES.update({
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
    'scrapy_playwright.middleware.ScrapyPlaywrightDownloadHandler': 543,
})

# Пример настройки пользовательских заголовков
DEFAULT_REQUEST_HEADERS = {
    'User-Agent': 'MyCustomAgent/1.0',
    'Accept-Language': 'en-US,en;q=0.9',
}

Бонусный код

Заберите свой Бонусный код для лучших решений по капче на CapSolver: scrape. После активации вы получите дополнительный бонус в размере 5% после каждого пополнения баланса, неограниченное количество раз.

Заключение

Scrapy-Playwright — это революционная технология для веб-скрейпинга, которая устраняет разрыв между извлечением статического и динамического контента. Используя мощь надежного фреймворка Scrapy и передовой автоматизации браузера Playwright, вы можете с легкостью решать самые сложные задачи скрейпинга. Более того, интеграция CapSolver позволяет вам преодолеть проблемы с капчей, обеспечивая бесперебойный сбор данных даже с самых защищенных веб-сайтов.

Независимо от того, скрепите ли вы сайты электронной коммерции, платформы социальных сетей или любые веб-сайты с интенсивным использованием JavaScript, Scrapy-Playwright в сочетании с CapSolver предоставляет вам необходимые инструменты для достижения успеха. Следуя рекомендациям и используя эти мощные интеграции, вы можете создавать эффективные, надежные и масштабируемые решения для веб-скрейпинга, адаптированные к вашим конкретным потребностям.

Готовы вывести свои проекты по скрейпингу на новый уровень? Окунитесь в Scrapy-Playwright и CapSolver и откройте для себя новые возможности для сбора данных и автоматизации.

Дисклеймер о соблюдении: Информация, представленная в этом блоге, предназначена только для справочных целей. CapSolver обязуется соблюдать все применимые законы и нормы. Использование сети CapSolver для незаконной, мошеннической или злоупотребляющей деятельности строго запрещено и будет расследовано. Наши решения для распознавания капчи улучшают пользовательский опыт, обеспечивая 100% соблюдение при помощи в решении трудностей с капчей в процессе сбора общедоступных данных. Мы призываем к ответственному использованию наших услуг. Для получения дополнительной информации, пожалуйста, посетите наши Условия обслуживания и Политику конфиденциальности.

Ещеe

Лучшие User Agent'ы для веб-скрапинга и как их использовать

Руководство по лучшим user agent'ам для веб-скрапинга и их эффективному использованию для предотвращения обнаружения. Изучите важность user agent'ов, их типов и способы их реализации для бесшовного и незаметного веб-скрапинга.

Nikolai Smirnov

07-Mar-2025

Как обойти защиту Cloudflare JS при веб-скрейпинге и автоматизации

Как обойти защиту Cloudflare JS при веб-скрапинге и автоматизации

Научитесь решать JavaScript-вызов Cloudflare для бесшовного веб-скрапинга и автоматизации. Откройте для себя эффективные стратегии, включая использование headless-браузеров, ротацию прокси и использование расширенных возможностей решения CAPTCHA от CapSolver.

Cloudflare

Nikolai Smirnov

05-Mar-2025

Отпечатки TLS в Cloudflare: что это такое и как их решить

Отпечатки TLS Cloudflare: что это и как это решить

Узнайте о применении Cloudflare TLS-фингерпринтинга в целях безопасности, как он обнаруживает и блокирует ботов, и изучите эффективные методы решения этой проблемы для веб-скрейпинга и автоматизированного просмотра.

Cloudflare

Nikolai Smirnov

28-Feb-2025

Почему меня постоянно просят подтвердить, что я не робот?

Узнайте, почему Google запрашивает подтверждение того, что вы не робот, и изучите решения, такие как использование API CapSolver для эффективного решения задач CAPTCHA.

Nikolai Smirnov

27-Feb-2025

Как извлечь данные с сайта, защищенного Cloudflare

В этом руководстве мы рассмотрим этичные и эффективные методы извлечения данных с веб-сайтов, защищенных Cloudflare.

Cloudflare

Ethan Collins

20-Feb-2025

Почему сайты считают меня ботом? И как это исправить

Поймите, почему веб-сайты помечают вас как бота, и как избежать обнаружения. Ключевыми триггерами являются задачи CAPTCHA, подозрительные IP-адреса и необычное поведение браузера.

Nikolai Smirnov

20-Feb-2025

Как решать задачи веб-скрапинга с помощью Scrapy и Playwright в 2025 году

Что такое Scrapy-Playwright?

Зачем использовать Scrapy-Playwright?

Преимущества использования Scrapy-Playwright

Установка

Начало работы

Настройка нового проекта Scrapy

Настройка Playwright

Базовое использование

Создание паука

Обработка контента, отрисованного JavaScript

Решение капчи с помощью CapSolver

Что такое CapSolver?

Интеграция CapSolver с Scrapy-Playwright

Пример реализации на Python

1. Получите расширение CapSolver для браузера

2. Настройка расширения:

3. Обновите настройки Scrapy для загрузки расширения

4. Создайте паука, который обрабатывает капчи

5. Запуск паука

Дополнительные функции

Обработка нескольких страниц

Использование контекстов Playwright

Интеграция с промежуточным ПО

Рекомендации

Бонусный код

Заключение

Ещеe

Лучшие User Agent'ы для веб-скрапинга и как их использовать

Как обойти защиту Cloudflare JS при веб-скрапинге и автоматизации

Отпечатки TLS Cloudflare: что это и как это решить

Почему меня постоянно просят подтвердить, что я не робот?

Как извлечь данные с сайта, защищенного Cloudflare

Почему сайты считают меня ботом? И как это исправить