robots.txt API
Rufen Sie die robots.txt jeder Website ab und werten Sie sie aus. Übergeben Sie eine URL und einen User-Agent, und der Check-Endpunkt teilt Ihnen mit, ob diese URL crawlbar ist – dabei wird die spezifischste User-Agent-Gruppe ausgewählt und die RFC 9309 Longest-Match Allow/Disallow-Regeln (mit * und $ Platzhaltern, wobei Allow bei Gleichstand gewinnt) angewendet, und gibt die passende Regel, die Crawl-Delay der Gruppe und die Sitemaps zurück, die die Website deklariert. Der Parse-Endpunkt gibt die gesamte Datei strukturiert in Gruppen pro User-Agent (deren Allow- und Disallow-Listen sowie Crawl-Delay) plus die Liste der Sitemaps zurück. Eine fehlende robots.txt (404/403) bedeutet, dass alles erlaubt ist, genau wie es die Spezifikation verlangt. Die Anfrage wird serverseitig gestellt und private oder interne Ziele werden abgelehnt (SSRF-geschützt). Entwickelt für SEO-Audits, Crawler- und Scraper-Compliance, Sitemap-Erkennung und Pre-Flight-„Darf ich das abrufen?“-Prüfungen. Ein robots.txt-Evaluator – abgegrenzt vom On-Page-SEO-Audit (seo), dem XML-Toolkit (xml) und Link-Unfurling/Preview (url). Kein Upstream-Key, kein Cache.
api.oanor.com/robots-api