#deduplication
4 APIs avec cette balise
API Soundex et Fuzzy Match
Mathématiques de correspondance phonétique et floue de chaînes sous forme d'API, calculées localement et de manière déterministe. Le point de terminaison soundex calcule le code Soundex américain d'un mot — la première lettre suivie de trois chiffres qui encodent ses consonnes, ignorant la casse et les non-lettres et appliquant les règles de réinitialisation des voyelles et de duplication adjacente — donc Robert et Rupert codent tous deux R163, Smith et Smyth S530, et les cas délicats classiques Ashcraft (A261), Tymczak (T522) et Pfister (P236) sont corrects. Le point de terminaison levenshtein calcule la distance d'édition entre deux chaînes (le nombre minimum d'insertions, suppressions et substitutions, éventuellement sensible à la casse) et une similarité de 0 à 100 %, donc kitten → sitting nécessite trois modifications et est similaire à environ 57 %. Le point de terminaison compare combine les deux : il indique si deux chaînes partagent un code Soundex (sonnent de la même manière) et leur similarité Levenshtein (s'écrivent de la même manière), et signale une correspondance probable lorsque les codes concordent ou que la similarité est d'au moins 80 %. Tout est calculé localement et de manière déterministe, donc c'est instantané et privé. Idéal pour la déduplication de données, CRM, la recherche floue, la saisie automatique, la généalogie et les développeurs d'applications de nettoyage de données, les outils de correspondance de noms et de liaison d'enregistrements, et les logiciels de recherche. Calcul local pur — pas de clé, pas de service tiers, instantané. En direct, rien n'est stocké. 3 points de terminaison. Il s'agit de correspondance phonétique et de distance d'édition ; pour la recherche en texte intégral, utilisez une API de recherche.
api.oanor.com/soundex-api
API de Canonicalisation d'URL
Normalisez les URL sous une forme canonique pour dédupliquer, comparer et nettoyer. Le point de terminaison canonicalize met en minuscule le schéma et l'hôte, supprime le port par défaut (80 pour http, 443 pour https), résout les segments de chemin ./ et ../ et corrige l'encodage des pourcentages en utilisant l'analyseur d'URL standard WHATWG, puis applique les nettoyages que vous choisissez : supprimer les paramètres de suivi marketing et analytique (tous les utm_* plus gclid, fbclid, msclkid, yclid, mc_eid et bien d'autres), trier les paramètres de requête restants dans un ordre stable, éventuellement supprimer le #fragment, et ajouter ou supprimer la barre oblique finale. Il renvoie l'URL canonique, les composants entièrement analysés et la liste exacte des modifications effectuées. Le point de terminaison compare canonicalise deux URL et vous indique si elles pointent vers la même ressource — parfait pour détecter les liens en double qui diffèrent uniquement par les codes de suivi, la casse, le port ou l'ordre des paramètres. Tout est calculé localement sans appels réseau, donc c'est instantané, privé et sûr. Idéal pour les robots d'exploration et les outils SEO, la déduplication de liens et l'analyse, les clés de cache, les signets et les pipelines de contenu. Calcul purement local — pas de clé, pas de service tiers, instantané. En direct, rien n'est stocké. 3 points de terminaison. Cela canonicalise la chaîne d'URL ; il ne la récupère pas ni ne suit les redirections — pour les aperçus de liens et le désabréviation, utilisez une API de dépliage d'URL.
api.oanor.com/urlcanon-api
API de Normalisation d'Email
Canonicalisez les adresses e-mail pour dédupliquer les comptes et détecter différents alias d'une même boîte de réception. Le point de terminaison normalize met l'adresse en minuscules et applique des règles spécifiques au fournisseur : il supprime les points des parties locales de Gmail et Googlemail (car Gmail les ignore) et mappe googlemail.com vers gmail.com, supprime les sous-adressages +tag pour Gmail et les nombreux fournisseurs qui le supportent — Outlook, Hotmail, Live, iCloud, Fastmail, Proton, Yandex, Zoho, GMX et plus — et, par défaut, pour chaque domaine afin que les doublons ne passent jamais inaperçus, tout en signalant exactement les modifications effectuées et le fournisseur détecté. Le point de terminaison compare normalise deux adresses et vous indique si elles correspondent à la même boîte aux lettres. Tout est calculé localement et de manière déterministe, sans appel DNS ou réseau, donc c'est instantané et privé. Idéal pour la déduplication lors de l'inscription et de l'enregistrement, la prévention de la fraude et des abus (une personne, plusieurs alias), l'hygiène des CRM et des listes de diffusion, et la fusion des enregistrements clients. Calcul purement local — aucune clé, aucun service tiers, instantané. En direct, rien n'est stocké. 3 points de terminaison. Ceci normalise les adresses pour comparaison ; pour vérifier qu'une adresse existe réellement et peut recevoir des e-mails (MX, jetable, comptes de rôle), utilisez une API de vérification d'e-mail.
api.oanor.com/emailnormalize-api
API de hachage perceptuel d'image
Empreinte numérique des images pour la détection de quasi-doublons et la similarité. Calculez les trois hachages perceptuels classiques — aHash (moyenne), dHash (différence) et pHash (basé sur DCT) — sous forme de valeurs hexadécimales 64 bits pour toute image (par URL ou base64), puis comparez deux images pour obtenir la distance de Hamming et un score de similarité de 0 à 100 par algorithme, avec un indicateur de probable identité. Contrairement à un hachage cryptographique, les hachages perceptuels restent proches lorsque les images sont redimensionnées, recompressées ou légèrement modifiées — vous pouvez donc repérer les doublons, trouver les réimportations, regrouper des images similaires et alimenter la recherche d'image inversée. Entièrement local (aucun service tiers), rien n'est stocké. Prend en charge PNG, JPEG, BMP, TIFF et GIF. En direct. 3 points de terminaison. Distinct des outils de base d'information/redimensionnement d'image et des outils de similarité de chaînes.
api.oanor.com/imghash-api