Atrás

#crawler

2 APIs con esta etiqueta

API de Sitemap

Obtén y analiza un sitemap XML (protocolo sitemaps.org). Proporciona una URL de sitemap y el endpoint de análisis la obtiene —siguiendo redirecciones y descomprimiendo transparentemente sitemaps .gz— y devuelve su tipo: un urlset con cada URL y su lastmod, changefreq y priority, o un sitemapindex que lista los sitemaps hijos, con paginación offset/limit para archivos grandes. El endpoint de urls va más allá: cuando el sitemap es un índice, también obtiene los sitemaps hijos y aplana cada URL de página en una sola lista, con un límite configurable de URLs y sitemaps hijos y una bandera truncada para que mantengas el control. La solicitud se realiza del lado del servidor y los destinos privados o internos son rechazados (protegido contra SSRF). Diseñado para auditorías SEO, construcción de colas de rastreo e inventarios de contenido, monitoreo de cambios y verificaciones de migración. Un extractor y analizador de sitemaps —distinto de la conversión genérica de XML a JSON (xml), el evaluador de robots.txt (robots) y la auditoría SEO en página (seo). Sin clave upstream, sin caché.

api.oanor.com/sitemap-api

API de robots.txt

Obtén y evalúa el robots.txt de cualquier sitio web. Proporciona una URL y un agente de usuario, y el endpoint de verificación te indica si esa URL es rastreable: selecciona el grupo de agente de usuario más específico y aplica las reglas de coincidencia más larga de Allow/Disallow según RFC 9309 (con comodines * y $, donde Allow gana en empates), y devuelve la regla coincidente, el crawl-delay del grupo y los sitemaps que declara el sitio. El endpoint de análisis devuelve el archivo completo estructurado en grupos por agente de usuario (sus listas de allow y disallow y crawl-delay) más la lista de sitemaps. Un robots.txt faltante (404/403) significa que todo está permitido, exactamente como lo requiere la especificación. La solicitud se realiza del lado del servidor y se rechazan los destinos privados o internos (protegido contra SSRF). Diseñado para auditorías SEO, cumplimiento de rastreadores y scrapers, descubrimiento de sitemaps y verificaciones previas de "¿tengo permiso para obtener esto?". Un evaluador de robots.txt, distinto de la auditoría SEO en página (seo), el kit de herramientas XML (xml) y la previsualización de enlaces (url). Sin clave upstream, sin caché.

api.oanor.com/robots-api