Rug

#sitemap

2 APIs met deze tag

Sitemap API

Haal een XML-sitemap op en parse deze (het sitemaps.org-protocol). Geef een sitemap-URL door en het parse-eindpunt haalt deze op — volgt redirects en decomprimeert transparant .gz-sitemaps — en retourneert het type: een urlset met elke URL en de lastmod, changefreq en priority, of een sitemapindex met de onderliggende sitemaps, met offset/limit-paginering voor grote bestanden. Het urls-eindpunt gaat verder: wanneer de sitemap een index is, haalt het ook de onderliggende sitemaps op en maakt elke pagina-URL plat in één lijst, met een configureerbare limiet op URL's en onderliggende sitemaps en een truncated-vlag zodat u de controle behoudt. Het verzoek wordt server-side uitgevoerd en privé- of interne doelen worden geweigerd (SSRF-beveiligd). Gebouwd voor SEO-audits, het opbouwen van crawl-wachtrijen en contentinventarissen, wijzigingsmonitoring en migratiecontroles. Een sitemap-fetcher en parser — anders dan generieke XML-naar-JSON-conversie (xml), de robots.txt-evaluator (robots) en de on-page SEO-audit (seo). Geen upstream-sleutel, geen cache.

api.oanor.com/sitemap-api

robots.txt API

Haal de robots.txt van elke website op en evalueer deze. Geef een URL en een user-agent door en het check-eindpunt vertelt je of die URL crawlbaar is — waarbij de meest specifieke user-agentgroep wordt geselecteerd en de RFC 9309 langste-match Allow/Disallow-regels worden toegepast (met * en $ jokertekens, waarbij Allow wint bij gelijke stand), en de overeenkomende regel, de crawl-delay van de groep en de sitemaps die de site declareert worden geretourneerd. Het parse-eindpunt retourneert het hele bestand gestructureerd in per-user-agentgroepen (hun allow- en disallow-lijsten en crawl-delay) plus de lijst met sitemaps. Een ontbrekende robots.txt (404/403) betekent dat alles is toegestaan, precies zoals de specificatie vereist. Het verzoek wordt server-side gedaan en privé- of interne doelen worden geweigerd (SSRF-beveiligd). Gebouwd voor SEO-audits, crawler- en scraper-compliance, sitemap-ontdekking en pre-flight "mag ik dit ophalen?"-controles. Een robots.txt-evaluator — te onderscheiden van de on-page SEO-audit (seo), de XML-toolkit (xml) en link-unfurling/preview (url). Geen upstream-sleutel, geen cache.

api.oanor.com/robots-api