Zurück

#sitemap

2 APIs mit diesem Tag

Sitemap API

Rufen Sie eine XML-Sitemap ab und parsen Sie sie (das sitemaps.org-Protokoll). Übergeben Sie eine Sitemap-URL, und der Parse-Endpunkt ruft sie ab – folgt Weiterleitungen und entpackt transparent .gz-Sitemaps – und gibt ihren Typ zurück: ein urlset mit jeder URL und ihrem lastmod, changefreq und priority, oder ein sitemapindex, der die untergeordneten Sitemaps auflistet, mit offset/limit-Paginierung für große Dateien. Der urls-Endpunkt geht weiter: Wenn die Sitemap ein Index ist, ruft er auch die untergeordneten Sitemaps ab und fasst jede Seiten-URL in einer einzigen Liste zusammen, mit einer konfigurierbaren Obergrenze für URLs und untergeordnete Sitemaps und einem truncated-Flag, damit Sie die Kontrolle behalten. Die Anfrage wird serverseitig gestellt, und private oder interne Ziele werden abgelehnt (SSRF-geschützt). Entwickelt für SEO-Audits, das Erstellen von Crawl-Warteschlangen und Content-Inventaren, Änderungsüberwachung und Migrationsprüfungen. Ein Sitemap-Fetcher und -Parser – unterschieden von generischer XML-zu-JSON-Konvertierung (xml), dem robots.txt-Evaluator (robots) und dem On-Page-SEO-Audit (seo). Kein Upstream-Schlüssel, kein Cache.

api.oanor.com/sitemap-api

robots.txt API

Rufen Sie die robots.txt jeder Website ab und werten Sie sie aus. Übergeben Sie eine URL und einen User-Agent, und der Check-Endpunkt teilt Ihnen mit, ob diese URL crawlbar ist – dabei wird die spezifischste User-Agent-Gruppe ausgewählt und die RFC 9309 Longest-Match Allow/Disallow-Regeln (mit * und $ Platzhaltern, wobei Allow bei Gleichstand gewinnt) angewendet, und gibt die passende Regel, die Crawl-Delay der Gruppe und die Sitemaps zurück, die die Website deklariert. Der Parse-Endpunkt gibt die gesamte Datei strukturiert in Gruppen pro User-Agent (deren Allow- und Disallow-Listen sowie Crawl-Delay) plus die Liste der Sitemaps zurück. Eine fehlende robots.txt (404/403) bedeutet, dass alles erlaubt ist, genau wie es die Spezifikation verlangt. Die Anfrage wird serverseitig gestellt und private oder interne Ziele werden abgelehnt (SSRF-geschützt). Entwickelt für SEO-Audits, Crawler- und Scraper-Compliance, Sitemap-Erkennung und Pre-Flight-„Darf ich das abrufen?“-Prüfungen. Ein robots.txt-Evaluator – abgegrenzt vom On-Page-SEO-Audit (seo), dem XML-Toolkit (xml) und Link-Unfurling/Preview (url). Kein Upstream-Key, kein Cache.

api.oanor.com/robots-api