CAPSOLVER
Blog
Cómo resolver Cloudflare Turnstile en Crawl4AI con integración de CapSolver

Cómo resolver Cloudflare Turnstile en Crawl4AI con integración de CapSolver

Logo of CapSolver

Adélia Cruz

Neural Network Developer

21-Oct-2025

Introducción

Cloudflare Turnstile es una alternativa inteligente a CAPTCHA diseñada para verificar usuarios legítimos sin desafíos intrusivos. Funciona ejecutando una serie de desafíos de JavaScript no interactivos en segundo plano, con el objetivo de distinguir visitantes humanos de bots de forma fluida. Aunque ofrece una mejor experiencia de usuario, su naturaleza invisible y proceso de verificación dinámica pueden representar obstáculos significativos para las herramientas de raspado web y extracción de datos.

Este artículo proporciona una guía detallada sobre cómo integrar Crawl4AI, un raspador web avanzado, con CapSolver, un servicio líder en soluciones de CAPTCHA y anti-bot, para evitar eficazmente las protecciones de Cloudflare Turnstile. Cubriremos tanto los métodos de integración basados en API como en extensiones de navegador, ofreciendo ejemplos de código prácticos y explicaciones para garantizar que sus tareas de automatización web puedan proseguir sin interrupciones.

Comprensión de Cloudflare Turnstile y sus desafíos para el raspado web

Cloudflare Turnstile funciona evaluando el comportamiento del visitante y las características del navegador para emitir un token, que luego se envía al servidor para su verificación. Tiene como objetivo ser respetuoso con la privacidad y amigable con el usuario, pero para los raspadores web, esto significa:

  • Verificación invisible: No se requiere interacción explícita del usuario (como hacer clic en casillas de verificación o resolver acertijos), lo que dificulta que los bots detecten y respondan al desafío.
  • Ejecución dinámica de JavaScript: El proceso de verificación depende en gran medida de la ejecución de JavaScript dentro del navegador, lo cual los navegadores headless utilizados por los raspadores deben manejar correctamente.
  • Inyección de token: Debe inyectarse un token válido en un campo de entrada específico (normalmente cf-turnstile-response) antes de enviar el formulario o continuar con el siguiente paso.

CapSolver ofrece una solución de alta precisión y respuesta rápida para Cloudflare Turnstile mediante algoritmos de inteligencia artificial avanzada. Al integrarse con Crawl4AI, transforma este mecanismo anti-bot sofisticado en un paso manejable, asegurando que sus tareas de automatización web permanezcan fluidas y productivas.

💡 Bonificación exclusiva para usuarios de integración con Crawl4AI:
Para celebrar esta integración, ofrecemos un código de bonificación exclusivo de 6% — CRAWL4 para todos los usuarios de CapSolver que se registren a través de este tutorial.
Simplemente ingrese el código durante el recarga en Panel de control para recibir créditos adicionales de 6% de inmediato.

Método de integración 1: Integración de la API de CapSolver con Crawl4AI

El método de integración de API proporciona un control preciso y suele preferirse por su flexibilidad. Involucra el uso de CapSolver para obtener el token de Turnstile y luego inyectar este token en el elemento de entrada adecuado en la página web objetivo utilizando la funcionalidad js_code de Crawl4AI.

¿Cómo funciona:

  1. Navegación inicial: Crawl4AI accede a la página web objetivo que contiene Cloudflare Turnstile.
  2. Obtener token de Turnstile: En su script de Python, llame a la API de CapSolver utilizando su SDK, especificando el tipo AntiTurnstileTaskProxyLess junto con websiteURL y websiteKey. CapSolver devolverá el token necesario de Turnstile.
  3. Inyectar token y enviar: Utilice el parámetro js_code de Crawl4AI dentro de CrawlerRunConfig para inyectar el token obtenido en el elemento de entrada llamado cf-turnstile-response. Después de la inyección, simule un clic en el botón de envío o active la siguiente acción que dependa del token.
  4. Continuar operaciones: Con el token de Turnstile válido correctamente colocado, Crawl4AI puede proseguir con las acciones posteriores, evitando eficazmente Cloudflare Turnstile.

Ejemplo de código: Integración de API para Cloudflare Turnstile

El siguiente código de Python demuestra cómo integrar la API de CapSolver con Crawl4AI para resolver Cloudflare Turnstile. Este ejemplo apunta a la página de demostración de Cloudflare Turnstile.

python Copy
import asyncio
import capsolver
from crawl4ai import *


# TODO: configure su configuración
api_key = "CAP-xxxxxxxxxxxxxxxxxxxxx"  # su clave de API de CapSolver
site_key = "0x4AAAAAAAGlwMzq_9z6S9Mh"                             # clave del sitio de su sitio objetivo
site_url = "https://clifford.io/demo/cloudflare-turnstile"         # URL de la página de su sitio objetivo
captcha_type = "AntiTurnstileTaskProxyLess"                                         # tipo de CAPTCHA de su sitio objetivo
capsolver.api_key = api_key


async def main():
    browser_config = BrowserConfig(
        verbose=True,
        headless=False,
        use_persistent_context=True,
    )

    async with AsyncWebCrawler(config=browser_config) as crawler:
        await crawler.arun(
            url=site_url,
            cache_mode=CacheMode.BYPASS,
            session_id="session_captcha_test"
        )

        # obtener token de Turnstile usando el SDK de capsolver
        solution = capsolver.solve({
            "type": captcha_type,
            "websiteURL": site_url,
            "websiteKey": site_key,
        })
        token = solution["token"]
        print("token de Turnstile:", token)

        js_code = """
            document.querySelector(\'input[name="cf-turnstile-response"]\').value = \'"""+token+"""\';
            document.querySelector(\'button[type="submit"]\').click();
        """

        wait_condition = """() => {
            const items = document.querySelectorAll(\'h1\');
            return items.length === 0;
        }"""

        run_config = CrawlerRunConfig(
            cache_mode=CacheMode.BYPASS,
            session_id="session_captcha_test",
            js_code=js_code,
            js_only=True,
            wait_for=f"js:{wait_condition}"
        )

        result_next = await crawler.arun(
            url=site_url,
            config=run_config,
        )
        print(result_next.markdown)


if __name__ == "__main__":
    asyncio.run(main())

Análisis del código:

  1. Llamada al SDK de CapSolver: El método capsolver.solve se invoca con el tipo AntiTurnstileTaskProxyLess, websiteURL y websiteKey para recuperar el token de Turnstile. Este token es la solución proporcionada por CapSolver.
  2. Inyección de JavaScript (js_code): La cadena js_code contiene JavaScript que localiza el elemento de entrada con name="cf-turnstile-response" en la página y asigna el token obtenido a su propiedad value. Posteriormente, simula un clic en el botón de envío, asegurando que el formulario se envíe con el token de Turnstile válido.
  3. Condición wait_for: Se define una wait_condition para garantizar que Crawl4AI espere un cambio específico en la página (por ejemplo, la desaparición de elementos h1, indicando un envío exitoso y navegación) antes de continuar.

La extensión de navegador de CapSolver ofrece un enfoque simplificado para manejar Cloudflare Turnstile, especialmente cuando se aprovecha sus capacidades de resolución automática dentro de un contexto de navegador persistente gestionado por Crawl4AI.

¿Cómo funciona:

  1. Contexto de navegador persistente: Configure Crawl4AI para usar user_data_dir y lanzar una instancia de navegador que conserve la extensión CapSolver instalada y sus configuraciones.
  2. Instalar y configurar la extensión: Instale manualmente la extensión CapSolver en este perfil de navegador y configure su clave de API de CapSolver. La extensión se puede configurar para resolver automáticamente los desafíos de Turnstile.
  3. Navegar a la página objetivo: Crawl4AI navega a la página protegida por Cloudflare Turnstile.
  4. Resolución automática: La extensión de CapSolver, que se ejecuta dentro del contexto del navegador, detecta el desafío de Turnstile y lo resuelve automáticamente. El token se inyecta luego en el campo cf-turnstile-response.
  5. Continuar con las acciones: Una vez que la extensión resuelve el Turnstile, Crawl4AI puede continuar con sus tareas de raspado, ya que el contexto del navegador ahora tendrá los tokens válidos necesarios para las solicitudes posteriores.

Ejemplo de código: Integración de extensión para Cloudflare Turnstile (Resolución automática)

Este ejemplo muestra cómo configurar Crawl4AI para usar un perfil de navegador con la extensión CapSolver para resolver automáticamente Cloudflare Turnstile.

python Copy
import asyncio
import time

from crawl4ai import *


# TODO: configure su configuración
user_data_dir = "/browser-profile/Default1" # Asegúrese de que esta ruta esté correctamente configurada y contenga su extensión configurada

browser_config = BrowserConfig(
    verbose=True,
    headless=False,
    user_data_dir=user_data_dir,
    use_persistent_context=True,
    proxy="http://127.0.0.1:13120", # Opcional: configure proxy si es necesario
)

async def main():
    async with AsyncWebCrawler(config=browser_config) as crawler:
        result_initial = await crawler.arun(
            url="https://clifford.io/demo/cloudflare-turnstile", # Use la URL de demostración de Cloudflare Turnstile
            cache_mode=CacheMode.BYPASS,
            session_id="session_captcha_test"
        )

        # La extensión resolverá automáticamente el CAPTCHA al cargar la página.
        # Es posible que necesite agregar una condición de espera o time.sleep para que el CAPTCHA se resuelva
        # antes de continuar con otras acciones.
        time.sleep(30) # Ejemplo de espera, ajuste según sea necesario para que la extensión funcione

        # Continuar con otras operaciones de Crawl4AI después de resolver el CAPTCHA
        # Por ejemplo, verificar elementos o contenido que aparezcan después de una verificación exitosa
        # print(result_initial.markdown) # Puede inspeccionar el contenido de la página después de la espera


if __name__ == "__main__":
    asyncio.run(main())

Análisis del código:

  1. user_data_dir: Este parámetro es esencial para que Crawl4AI lance una instancia de navegador que conserve la extensión CapSolver instalada y sus configuraciones. Asegúrese de que la ruta apunte a un directorio válido de perfil de navegador donde se haya instalado la extensión.
  2. Resolución automática: La extensión de CapSolver está diseñada para detectar y resolver automáticamente los desafíos de Cloudflare Turnstile. Se incluye un time.sleep como ejemplo general para permitir que la extensión complete sus operaciones en segundo plano. Para soluciones más robustas, considere usar la funcionalidad wait_for de Crawl4AI para verificar cambios específicos en la página que indiquen una resolución exitosa de Turnstile.

Conclusión

La integración de Crawl4AI con CapSolver ofrece una solución sólida y eficiente para evitar Cloudflare Turnstile, mejorando significativamente la fiabilidad de las operaciones de raspado web. Ya sea que prefiera el control preciso de la integración de API o la automatización simplificada ofrecida por la extensión del navegador, ambos métodos garantizan que Cloudflare Turnstile ya no obstaculice sus objetivos de recolección de datos.

Al automatizar la resolución de Turnstile, los desarrolladores pueden enfocarse en extraer datos valiosos, seguros de que sus raspadores navegarán de forma fluida por sitios web protegidos. Esta sinergia entre las capacidades avanzadas de raspado de Crawl4AI y la tecnología anti-bot robusta de CapSolver marca un avance significativo en la extracción automatizada de datos web.

Preguntas frecuentes (FAQ)

P1: ¿Qué es Cloudflare Turnstile y cómo se diferencia de los CAPTCHAs tradicionales?
R1: Cloudflare Turnstile es una alternativa a CAPTCHA que verifica usuarios legítimos sin desafíos intrusivos. A diferencia de los CAPTCHAs tradicionales que a menudo requieren que los usuarios resuelvan acertijos, Turnstile ejecuta desafíos de JavaScript no interactivos en segundo plano, buscando una experiencia de usuario fluida mientras distingue eficazmente a los humanos de los bots.

P2: ¿Por qué es difícil raspar sitios web protegidos por Cloudflare Turnstile?
R2: La naturaleza invisible de Turnstile, su dependencia de la ejecución dinámica de JavaScript y la necesidad de inyectar un token válido en un campo específico (cf-turnstile-response) dificultan el raspado web automatizado. Evalúa características del navegador y el comportamiento del usuario, bloqueando a menudo las solicitudes que no imitan la interacción humana real.

P3: ¿Cómo ayuda CapSolver a evitar Cloudflare Turnstile?
R3: CapSolver ofrece servicios especializados, como AntiTurnstileTaskProxyLess, para resolver desafíos de Cloudflare Turnstile. Obtiene el token necesario de Turnstile, que luego puede inyectar Crawl4AI en la página web objetivo para evitar la protección.

P4: ¿Cuáles son los dos principales métodos de integración de Cloudflare Turnstile con Crawl4AI y CapSolver?
R4: Los dos métodos principales son la integración de API, donde se llama a la API de CapSolver para obtener el token que luego se inyecta mediante js_code de Crawl4AI, y la integración de extensión de navegador, donde la extensión de CapSolver maneja automáticamente el desafío de Turnstile dentro de un contexto de navegador persistente.

P5: ¿Cuáles son los beneficios de integrar Crawl4AI y CapSolver para Cloudflare Turnstile?
R5: Esta integración permite el manejo automático de Turnstile, mejora la eficiencia del raspado, aumenta la robustez del raspador frente a mecanismos anti-bot y reduce los costos operativos minimizando la intervención manual, asegurando así una extracción de datos web sin interrupciones.

Referencias

Aviso de Cumplimiento: La información proporcionada en este blog es solo para fines informativos. CapSolver se compromete a cumplir con todas las leyes y regulaciones aplicables. El uso de la red de CapSolver para actividades ilegales, fraudulentas o abusivas está estrictamente prohibido y será investigado. Nuestras soluciones para la resolución de captcha mejoran la experiencia del usuario mientras garantizan un 100% de cumplimiento al ayudar a resolver las dificultades de captcha durante el rastreo de datos públicos. Fomentamos el uso responsable de nuestros servicios. Para obtener más información, visite nuestros Términos de Servicio y Política de Privacidad.

Máse

Cómo superar Cloudflare en 2026: Los 6 mejores métodos para una automatización ininterrumpida
Cómo superar Cloudflare en 2026: Los 6 mejores métodos para una automatización sin interrupciones

Descubre los 6 mejores métodos para resolver el Desafío 5s de Cloudflare en 2026 para el scraping de web y la automatización. Incluye estrategias detalladas, ejemplos de código y un análisis profundo de la solución CapSolver impulsada por IA.

Cloudflare
Logo of CapSolver

Aloísio Vítor

29-Oct-2025

Cómo resolver el Desafío de 5 segundos de Cloudflare: Una guía técnica para el scraping web
Cómo resolver el desafío 5s de Cloudflare: Una guía técnica para el scraping web

Aprende a resolver el desafío de 5 segundos de Cloudflare usando APIs avanzadas de resolución de CAPTCHA. Una guía paso a paso para desarrolladores sobre cómo superar los desafíos de JavaScript y gestionados de Cloudflare con CapSolver para una automatización estable de scraping web.

Cloudflare
Logo of CapSolver

Aloísio Vítor

28-Oct-2025

Cómo resolver Cloudflare Turnstile en Crawl4AI con integración de CapSolver
Cómo resolver Cloudflare Turnstile en Crawl4AI con integración de CapSolver

Una guía completa sobre la integración de Crawl4AI con CapSolver para evitar las protecciones de Cloudflare Turnstile usando métodos de API y extensión de navegador para una extracción de datos web fluida.

Cloudflare
Logo of CapSolver

Adélia Cruz

21-Oct-2025

Cómo resolver el desafío de Cloudflare en Crawl4AI con la integración de CapSolver
Cómo resolver el desafío de Cloudflare en Crawl4AI con la integración de CapSolver

Aprende a resolver el Desafío de Cloudflare en Crawl4AI usando la integración de la API de CapSolver. Este guía proporciona ejemplos de código para el scraping web efectivo y la extracción de datos.

Cloudflare
Logo of CapSolver

Adélia Cruz

21-Oct-2025

Cómo resolver el Turnstile de Cloudflare y los desafíos 5s en 2026 | Mejor solucionador de Cloudflare
Cómo resolver Cloudflare Turnstile y Challenge 5s en 2026 | Mejor Solucionador de Cloudflare

Principales casos de uso de web scraping y conoce cómo CapSolver mantiene la extracción de datos fluida e ininterrumpida.

Cloudflare
Logo of CapSolver

Adélia Cruz

17-Oct-2025

El Mejor Solucionador de CAPTCHA de Cloudflare
El Mejor Solucionador de CAPTCHA de Cloudflare | Solución Probada y Confiable

Evita ser bloqueado por los desafíos de Cloudflare. Descubre el solucionador de CAPTCHA de desafíos de Cloudflare probado e impulsado por IA, CapSolver, con una guía paso a paso de la API y ejemplos de código para automatización confiable y a gran escala.

Cloudflare
Logo of CapSolver

Aloísio Vítor

17-Oct-2025