Bypass 2
Last updated
Cloudflare es una empresa con sede en EE. UU. que brinda servicios de red de entrega de contenido (CDN), seguridad y una amplia gama de otros servicios para acelerar y proteger los sitios web. Cuando comenzó a operar de forma privada en 2010, Cloudflare no era lo que es ahora. Comenzó como una iniciativa de investigación para identificar las causas del correo electrónico no deseado.
Los fundadores de Project Honeypot, Lee Holloway y Matthew Prince, lo conceptualizaron y lo introdujeron en 2004. Su objetivo actual es ayudar en el desarrollo de una mejor Internet. Como resultado, entre los servicios proporcionados por Cloudflare se encuentran DNS, equilibrio de carga, aceleración de páginas móviles, opciones de caché, Firewall de aplicaciones web (WAF) , soporte SSL/TLS , protección DDoS , etc.
Poseen y administran una red de servidores considerable como una empresa de seguridad y CDN. Estos servidores aceleran las páginas web y protegen contra ataques dañinos como DDoS. Los clientes pueden usar un firewall de aplicaciones web proporcionado por Cloudflare, que pone énfasis en la seguridad (WAF). Básicamente, un WAF puede proteger las aplicaciones de una variedad de riesgos de seguridad, incluido el relleno de credenciales, los ataques DDoS y las secuencias de comandos entre sitios (XSS).
En general, los sitios web que utilizan servicios como Cloudflare son más seguros y brindan una mejor experiencia de navegación a sus visitantes. Con plataformas conocidas como WordPress, Google Cloud, IBM Cloud, etc., tienen una fuerte integración. Más de 26 millones de sitios web usan Cloudflare, que procesa más de mil millones de direcciones IP todos los días.
En una palabra, Cloudflare es una red mundial creada para hacer que todo lo que conecte a Internet sea seguro, privado, rápido y confiable. Esto incluye sus sitios web, API y aplicaciones web.
Entre un cliente y un servidor, Cloudflare sirve como intermediario, duplicando y almacenando en caché los sitios web a través de un proxy inverso. Representa el muro que los visitantes de su sitio deben atravesar más que cualquier otra cosa. Cloudflare también proporciona un grado de filtración para la seguridad a través de esta arquitectura intermediaria.
Puede bloquear el spam, detener los ataques de bots, detener los ataques distribuidos de denegación de servicio y detectar el tráfico malicioso interponiéndose entre el cliente y el servidor de alojamiento. Sin embargo, logra esto al escanear las solicitudes que se realizan a su sitio web o aplicación en línea.
En función de las direcciones IP cuestionables, los tipos de recursos a los que se accede, la carga útil de la solicitud y la frecuencia de las solicitudes, busca contenido malicioso. También tiene en cuenta un firewall con reglas definidas por el cliente. Por lo tanto, la detección pasiva y activa de bots son las dos grandes categorías en las que Cloudflare divide sus técnicas de detección.
Los métodos de detección de bots activos dependen de las pruebas realizadas en el lado del cliente, a diferencia de los métodos de detección de bots pasivos, que utilizan comprobaciones de huellas dactilares en el backend. Cloudflare utiliza una variedad de métodos pasivos de detección de bots, incluida la detección de botnets, la reputación de IP (puntuación de riesgo o fraude), encabezados de solicitudes HTTP y huellas dactilares TLS. Los métodos de detección de bots activos empleados por Cloudflare, por otro lado, incluyen CAPTCHA, seguimiento de eventos, huellas dactilares de lienzo y consultas de API de entorno.
Cloudflare es conocido por su rígido código de conducta. Utilizan métodos de detección de bots pasivos y activos, como ya se mencionó. Sin embargo, la pregunta es, ¿se puede omitir Cloudflare? Puede ser un desafío, pero sí, se puede omitir Cloudflare. Esto se debe a que no todos los rastreadores son maliciosos. Muchos de estos bots tienen la misión de generar datos de sitios web.
Sin embargo, existen diferentes técnicas para lograr esto, pero en esta sesión, vamos a ver algunas de ellas.
El estándar exclusivo de robots o el protocolo de exclusión de robots también se conoce como robots.txt. Los sitios web con Cloudflare lo utilizan como una herramienta de comunicación para rastreadores web, raspadores y otros bots de automatización web. Si bien ciertas empresas de raspado en línea, incluidos algunos motores de búsqueda como Google y Bing, respetan el archivo robots.txt de un sitio, la mayoría de los raspadores web, como los recolectores de correo electrónico y muchos otros bots, no lo hacen. Además, los propietarios de sitios web tienen la autoridad para determinar si permiten o no el rastreo o el raspado de su sitio.
Mientras que otros sitios web pueden raspar algunas páginas web, algunos sitios web prohíben que los bots lo hagan. Los rastreadores web deben respetar el archivo robot.txt de un sitio web durante el raspado. Debe cumplir con las pautas de este archivo con respecto a la cantidad de veces que puede raspar y las páginas que puede raspar. Trate de abstenerse de abrumar constantemente a los sitios web con solicitudes en un corto período de tiempo.
Una técnica para eludir Cloudflare de forma pasiva al intentar raspar un sitio web protegido es usar proxies de calidad. Necesita una forma en la que no se revelen sus credenciales, especialmente si está participando en el raspado en un sitio web que tiene integrado Cloudflare. Por lo tanto, la mayoría de los sitios web registran las direcciones IP de sus visitantes.
Como resultado, mientras realiza las extensas operaciones de raspado en un sitio web importante, debe conservar una gran cantidad de direcciones IP. Para este propósito, los proveedores de proxy residenciales como BrightData son excelentes servicios de proxy. Tiene un grupo masivo de direcciones IP para el trabajo.
Red proxy residencial de Brightdat : elección del editor
Red de proxy móvil Soax : la opción más estable
Proxy residencial Smartproxy – Elección de presupuesto
También puede buscar proveedores de proxy privados como MyPrivateProxy para obtener el conjunto correcto de direcciones IP que enmascararían adecuadamente su identidad para evitar la detección de Cloudflare. En aras de la confiabilidad, los proxies residenciales y privados funcionarían mejor, aunque pueden costarle más de un centavo. La esencia de esto es que los proxies se aseguran de que la detección de Cloudflare no lo vea.
Tal vez te guste leer,
Usando encabezados de solicitud HTTP , Cloudflare puede saber si eres un robot. Un agente de usuario sin navegador, como python-requests/2.22.0, simplifica la identificación de un raspador como un bot. A través de las Reglas de modificación de encabezado de solicitud HTTP, puede cambiar los encabezados de las solicitudes HTTP entrantes. Esta colección de pautas le permitirá hacerlo. Establezca primero un valor de cadena literal como el valor del encabezado de la solicitud HTTP. Su valor anterior sería reemplazado por este, o la solicitud recibiría un nuevo encabezado.
En segundo lugar, cambie el valor de un encabezado de solicitud HTTP agregando un nuevo encabezado o sobrescribiendo uno existente de acuerdo con una expresión. Afortunadamente, es posible eliminar un encabezado HTTP de la solicitud. Sin embargo, puede hacerlo utilizando la API o el tablero para crear una regla de modificación de encabezado de solicitud HTTP.
Para las personas que no saben cómo rastrear un sitio web sin ser bloqueados, la inclusión en la lista negra cuando se raspa es un problema habitual. Los seres humanos suelen variar la tarea y no la realizan repetidamente. Demuestran un comportamiento irracional mientras raspan.
Por otro lado, debido a que están diseñados para hacerlo, los bots siempre se arrastran de la misma manera. A menos que se les indique específicamente que lo hagan, nunca alteran el patrón. En esencia, un patrón de rastreo describe cómo se configura su rastreador para navegar por la página.
Si continúa usando el mismo patrón de rastreo, Cloudflare lo identificará y lo bloqueará. Para que su rastreo parezca menos predecible, puede agregar clics esporádicos, desplazamientos y movimientos del mouse. Sin embargo, el comportamiento no debería ser totalmente impredecible. Considere cómo un usuario típico navegaría el sitio web al crear un patrón de rastreo y luego aplique esos principios a la herramienta correctamente.
Los sitios web toman precauciones extremas, como integrar Cloudflare para evitar piratas informáticos. Colocan trampas para atraer a los piratas informáticos y averiguar si se han realizado intentos de piratería en el sitio web. En el código HTML, los enlaces se denominan honeypots.
Aunque estos enlaces están ocultos para los usuarios orgánicos, los rastreadores web pueden verlos. Debido al hecho de que solo los robots harían clic en ese sitio, se emplean trampas para identificar y prevenir los rastreadores web. Establecer honeypots implica una cantidad considerable de trabajo.
Por lo tanto, no muchas personas eligen este método. Sin embargo, tenga en cuenta que su objetivo podría estar utilizando trampas trampa si su solicitud es denegada y se encuentra un rastreador. Está claro que esta detección es difícil y requiere mucho esfuerzo de programación para completarla correctamente. Como resultado, ni el lado del servidor ni el bot o el raspador de esta técnica se usan comúnmente.
El uso de navegadores autónomos es otra forma de sortear la verificación de Cloudflare. El contenido que aparece en los sitios web varía según el navegador que se utilice. El problema con esto es que cuando se realiza cualquier tipo de extracción de datos, el código JS, en lugar de la respuesta HTML sin procesar del servidor, representa el contenido. Se puede usar un navegador sin cabeza en esta situación para evitar la restricción. Incluso utilizar Chrome en modo autónomo es un método para evitar la detección de bots de Cloudflare.
Utilizar el controlador de cromo no detectado para configurar el contexto de navegación de Chrome es uno de los enfoques más efectivos. Undetected-chromedriver es un parche de Selenium Chromedriver que ha sido optimizado para que no active los servicios anti-bot como Distill Network, Imperva, DataDome o Botprotect.io. Pruebe Selenium o puppeteer-extra-plugin-stealth para mejorar las tasas de éxito.
Los elementos de JavaScript anidados dificultan la obtención de datos. Los sitios web utilizan numerosas funciones de JavaScript para mostrar contenido en respuesta a actividades específicas del usuario. Es un procedimiento estándar mostrar solo fotos de productos en los campos de búsqueda después de que el usuario haya ingresado alguna información.
JavaScript también puede provocar muchos otros problemas, incluidas pérdidas de memoria, inestabilidad de la aplicación y, en ocasiones, bloqueos completos. Las funciones dinámicas suelen ser una molestia. JavaScript solo debe usarse en casos extremos.
Una de las herramientas anti-scraping más populares es un captcha. Los sitios web piden a los usuarios que completen una variedad de acertijos para verificar si son humanos o no. Por lo tanto, los rastreadores normalmente no pueden sortear los captchas en los sitios web. Incluso los web scrapers más hábiles ocasionalmente encuentran un CAPTCHA.
Sin embargo, omitir la detección de Cloudflare con el uso de un solucionador de Captcha es otra opción. Por lo tanto, para asegurarse de que sus operaciones de extracción en un sitio web con integración de Cloudflare no se vean interferidas. Hay varios servicios de resolución de CAPTCHA disponibles para la tarea. Los solucionadores basados en aprendizaje automático o humanos son apropiados.
El complemento de Google Chrome 2Captcha Solver es una instancia de uno que lleva a cabo esto automáticamente. Sin embargo, no todos los CAPTCHA desafiantes pueden resolverse con él. En las páginas protegidas por Cloudflare, obviamente no hay una forma sencilla de sortear los captchas. Sin embargo, para hacer esto, debe comprender cómo el código Javascript cifra el token. Para que pueda inspeccionar el código de la función de devolución de llamada, puede usar el complemento 2Captcha Solver para Google Chrome.
Numerosos sitios web pueden cambiar su diseño además de la detección de bots de Cloudflare por varias razones. Los scrapers pueden tener problemas con los diseños dinámicos en algunos sitios web, ya que cambian con frecuencia. Los diseños se pueden ver en sitios web en lugares inesperados. Los grandes sitios web también emplean esta técnica.
Para continuar con el web scraping, su rastreador debe poder reconocer estos cambios continuos. Puede lograr esto fácilmente al realizar un seguimiento de la cantidad de solicitudes exitosas por rastreo. Con los selectores XPatga o CSS, también puede extraer información de estos sitios web.
Leer más,
Las soluciones automáticas se están volviendo cada vez más comunes, lo que permite a las personas convertir rápidamente los datos web en hojas de cálculo para resolver problemas a medida que más y más personas recurren al web scraping para la adquisición de datos. El sitio web de destino está bajo más presión como resultado del proceso de web scraping. El servidor de un sitio web puede fallar si un rastreador le envía un volumen excesivamente alto de solicitudes sin restricciones.
Debido a esto, los scrapers frecuentemente reciben prohibiciones. Se crean métodos anti-scraping para reconocer esta peculiar actividad y bloquear la IP. Reduzca la velocidad de algunas de sus solicitudes para evitar esto. El módulo de tiempo de Python es útil para esto, aunque una herramienta inteligente anti-raspado aún puede detectarlo. Por lo tanto, seleccione la opción aleatoria en el módulo de tiempo para simular el comportamiento humano.
Un sitio que usa Cloudflare como protección tendrá controles de seguridad que no podrá eludir. A veces, fallar estas pruebas puede resultar en la denegación del acceso. Las solicitudes provenientes de direcciones IP con mala reputación pueden hacer que se le redirija a la página de desafío de captcha.
Sin embargo, existen técnicas para evitar la detección de Cloudflare con el fin de deshacerse de todos estos. Algunos de los procesos involucrados en eludir la detección de Cloudflare incluyen el uso de solucionadores de Captcha, el uso de navegadores sin cabeza y prestar atención a robots.txt y honeypots, entre muchos otros. Para ver otros, revise los temas de este artículo.
Es perfectamente bueno si no necesita sortear la detección de Cloudflare. Además, el servicio de detección de bots de Cloudflare no es terrible en sí mismo. En pocas palabras, desfavorece las herramientas de minería de datos y las actividades de raspado. Otros rastreadores de bots se identifican como amenazas, además de los que se han incluido en la lista blanca. Si no lo solucionó, su programa de web scraping no recopilaría el tipo y la cantidad de datos que necesita.
Puede ser un tema muy difícil cuando se trata de legalidades. Sin embargo, si está eludiendo legalmente Cloudflare en un sitio web que no es de su propiedad o que no tiene autorización para realizar un ataque DDoS, está infringiendo la ley. Para ser claros, existen formas morales de evitar ser detectado por Cloudflare. Sus actos pueden considerarse criminales si no cumple. Por lo tanto, sería prudente estar al tanto de las implicaciones legales de un bypass antes de implementar uno.