#crawler
2 APIs avec cette balise
API Sitemap
Récupère et analyse un sitemap XML (protocole sitemaps.org). Passez une URL de sitemap et le point de terminaison parse la récupère — en suivant les redirections et en décompressant de manière transparente les sitemaps .gz — et renvoie son type : un urlset avec chaque URL et ses lastmod, changefreq et priority, ou un sitemapindex listant les sitemaps enfants, avec une pagination offset/limit pour les fichiers volumineux. Le point de terminaison urls va plus loin : lorsque le sitemap est un index, il récupère également les sitemaps enfants et aplatit chaque URL de page en une seule liste, avec un plafond configurable sur les URLs et les sitemaps enfants et un indicateur tronqué pour que vous restiez maître. La requête est effectuée côté serveur et les cibles privées ou internes sont refusées (protégé contre SSRF). Conçu pour les audits SEO, la construction de files d'attente de crawl et d'inventaires de contenu, la surveillance des modifications et les vérifications de migration. Un récupérateur et analyseur de sitemap — distinct de la conversion XML vers JSON générique (xml), de l'évaluateur robots.txt (robots) et de l'audit SEO sur page (seo). Pas de clé en amont, pas de cache.
api.oanor.com/sitemap-api
API robots.txt
Récupérez et évaluez le robots.txt de n'importe quel site web. Passez une URL et un user-agent, et le point de terminaison check vous indique si cette URL est explorable — en sélectionnant le groupe d'user-agent le plus spécifique et en appliquant les règles de correspondance la plus longue Allow/Disallow de la RFC 9309 (avec les wildcards * et $, où Allow l'emporte en cas d'égalité), et en renvoyant la règle correspondante, le crawl-delay du groupe et les sitemaps déclarés par le site. Le point de terminaison parse renvoie l'intégralité du fichier structuré en groupes par user-agent (leurs listes allow et disallow et crawl-delay) ainsi que la liste des sitemaps. Un robots.txt manquant (404/403) signifie que tout est autorisé, exactement comme le spécifie la norme. La requête est effectuée côté serveur et les cibles privées ou internes sont refusées (protégé contre les SSRF). Conçu pour les audits SEO, la conformité des crawlers et scrappers, la découverte de sitemaps et les vérifications préalables « suis-je autorisé à récupérer ceci ? ». Un évaluateur de robots.txt — distinct de l'audit SEO sur la page (seo), de la boîte à outils XML (xml) et du dépliage d'aperçu de lien (url). Pas de clé en amont, pas de cache.
api.oanor.com/robots-api