Rug

#deduplication

4 APIs met deze tag

Soundex & Fuzzy Match API

Fonetische en fuzzy string-matching wiskunde als een API, lokaal en deterministisch berekend. Het soundex-eindpunt berekent de Amerikaanse Soundex-code van een woord — de eerste letter gevolgd door drie cijfers die de medeklinkerklanken coderen, waarbij hoofdlettergevoeligheid en niet-letters worden genegeerd en de klinker-reset- en aangrenzende-duplicaatregels worden toegepast — dus Robert en Rupert coderen beide naar R163, Smith en Smyth naar S530, en de klassieke lastige gevallen Ashcraft (A261), Tymczak (T522) en Pfister (P236) komen correct uit. Het levenshtein-eindpunt berekent de bewerkingsafstand tussen twee strings (het minimum aantal invoegingen, verwijderingen en substituties, optioneel hoofdlettergevoelig) en een 0–100% gelijkenis, dus kitten → sitting is drie bewerkingen en ongeveer 57% gelijk. Het compare-eindpunt combineert beide: het rapporteert of twee strings dezelfde Soundex-code delen (klinken hetzelfde) en hun Levenshtein-gelijkenis (spelling hetzelfde), en markeert een waarschijnlijke overeenkomst wanneer de codes overeenkomen of de gelijkenis ten minste 80% is. Alles wordt lokaal en deterministisch berekend, dus het is onmiddellijk en privé. Ideaal voor data-deduplicatie, CRM, fuzzy-search, automatisch aanvullen, genealogie en data-opschoning app-ontwikkelaars, naam-matching en record-koppeling tools, en zoeksoftware. Pure lokale berekening — geen sleutel, geen externe dienst, onmiddellijk. Live, niets opgeslagen. 3 eindpunten. Dit is fonetische en bewerkingsafstand matching; voor full-text zoekopdrachten gebruik een zoek-API.

api.oanor.com/soundex-api

URL Canonicalize API

Normaliseer URL's naar een canonieke vorm zodat u ze kunt dedupliceren, vergelijken en opschonen. Het canonicalize-eindpunt zet het schema en de host om naar kleine letters, verwijdert de standaardpoort (80 voor http, 443 voor https), lost ./ en ../ padsegmenten op en herstelt percent-encoding met behulp van de standaard WHATWG URL-parser, en past vervolgens de door u gekozen opschoningen toe: verwijder marketing- en analysetrackingparameters (alle utm_* plus gclid, fbclid, msclkid, yclid, mc_eid en vele andere), sorteer de overige queryparameters in een stabiele volgorde, verwijder optioneel de #fragment, en voeg de slash aan het einde toe of verwijder deze. Het retourneert de canonieke URL, de volledig geparseerde componenten en de exacte lijst van wijzigingen die het heeft aangebracht. Het compare-eindpunt canonicaliseert twee URL's en vertelt u of ze naar dezelfde bron verwijzen — perfect voor het opsporen van dubbele links die alleen verschillen door trackingcodes, hoofdlettergebruik, poort of parametervolgorde. Alles wordt lokaal berekend zonder netwerkaanroepen, dus het is onmiddellijk, privé en veilig. Ideaal voor crawlers en SEO-tooling, linkdeduplicatie en -analyse, cache-sleutels, bladwijzers en contentpijplijnen. Pure lokale berekening — geen sleutel, geen externe service, onmiddellijk. Live, niets opgeslagen. 3 eindpunten. Dit canonicaliseert de URL-string; het haalt deze niet op of volgt geen omleidingen — voor linkvoorbeelden en het verkorten van URL's gebruikt u een URL-unfurl API.

api.oanor.com/urlcanon-api

Email Normalize API

Canonicaliseer e-mailadressen zodat u accounts kunt dedupliceren en verschillende aliassen van dezelfde inbox kunt opvangen. Het normalize-eindpunt zet het adres om naar kleine letters en past provider-specifieke regels toe: het verwijdert punten uit Gmail- en Googlemail-lokale delen (omdat Gmail deze negeert) en wijst googlemail.com toe aan gmail.com, verwijdert +tag sub-adressering voor Gmail en de vele providers die dit ondersteunen — Outlook, Hotmail, Live, iCloud, Fastmail, Proton, Yandex, Zoho, GMX en meer — en standaard voor elk domein, zodat duplicaten nooit onopgemerkt blijven, terwijl precies wordt gerapporteerd welke wijzigingen zijn aangebracht en welke provider is gedetecteerd. Het compare-eindpunt normaliseert twee adressen en vertelt u of ze naar dezelfde mailbox verwijzen. Alles wordt lokaal en deterministisch berekend, zonder DNS- of netwerkaanroepen, dus het is direct en privé. Ideaal voor deduplicatie bij aanmelding en registratie, fraudepreventie en misbruikpreventie (één persoon, vele aliassen), CRM- en mailinglijst-hygiëne, en het samenvoegen van klantgegevens. Pure lokale berekening — geen sleutel, geen externe dienst, direct. Live, niets opgeslagen. 3 eindpunten. Dit normaliseert adressen voor vergelijking; om te verifiëren of een adres daadwerkelijk bestaat en e-mail kan ontvangen (MX, disposable, role accounts), gebruik een e-mailverificatie-API.

api.oanor.com/emailnormalize-api

Perceptual Image Hash API

Vingerafdrukafbeeldingen voor bijna-duplicaatdetectie en gelijkenis. Bereken de drie klassieke perceptuele hashes — aHash (gemiddelde), dHash (verschil) en pHash (DCT-gebaseerd) — als 64-bits hex-waarden voor elke afbeelding (via URL of base64), vergelijk vervolgens twee afbeeldingen om de Hamming-afstand en een 0-100 gelijkenisscore per algoritme te krijgen, met een waarschijnlijk-hetzelfde-vlag. In tegenstelling tot een cryptografische hash blijven perceptuele hashes dichtbij wanneer afbeeldingen worden geschaald, opnieuw gecomprimeerd of licht bewerkt — zodat u duplicaten kunt opsporen, heruploads kunt vinden, vergelijkbare afbeeldingen kunt clusteren en omgekeerde afbeeldingsmatching kunt ondersteunen. Volledig lokaal (geen externe dienst), niets opgeslagen. Ondersteunt PNG, JPEG, BMP, TIFF en GIF. Live. 3 endpoints. Anders dan basis afbeeldingsinfo/herschalen en string-gelijkenis tools.

api.oanor.com/imghash-api