Atrás

#deduplication

4 APIs con esta etiqueta

API de Soundex y Coincidencia Difusa

Matemáticas de coincidencia de cadenas fonética y difusa como una API, calculadas local y deterministicamente. El endpoint soundex calcula el código Soundex americano de una palabra: la primera letra seguida de tres dígitos que codifican sus sonidos consonánticos, ignorando mayúsculas/minúsculas y no letras, y aplicando las reglas de reinicio de vocales y duplicados adyacentes, por lo que Robert y Rupert ambos codifican como R163, Smith y Smyth como S530, y los casos difíciles clásicos Ashcraft (A261), Tymczak (T522) y Pfister (P236) resultan correctos. El endpoint levenshtein calcula la distancia de edición entre dos cadenas (el mínimo de inserciones, eliminaciones y sustituciones, opcionalmente sensible a mayúsculas/minúsculas) y una similitud del 0–100 %, por lo que kitten → sitting son tres ediciones y aproximadamente un 57 % de similitud. El endpoint compare combina ambos: informa si dos cadenas comparten un código Soundex (suenan igual) y su similitud de Levenshtein (se escriben igual), y marca una posible coincidencia cuando los códigos coinciden o la similitud es al menos del 80 %. Todo se calcula local y deterministicamente, por lo que es instantáneo y privado. Ideal para desarrolladores de aplicaciones de deduplicación de datos, CRM, búsqueda difusa, autocompletado, genealogía y limpieza de datos, herramientas de coincidencia de nombres y vinculación de registros, y software de búsqueda. Cálculo puramente local: sin clave, sin servicio de terceros, instantáneo. En vivo, nada se almacena. 3 endpoints. Esto es coincidencia fonética y de distancia de edición; para búsqueda de texto completo use una API de búsqueda.

api.oanor.com/soundex-api

API de Canonicalización de URL

Normaliza URLs a una forma canónica para que puedas deduplicar, comparar y limpiarlas. El endpoint canonicalize convierte a minúsculas el esquema y el host, elimina el puerto predeterminado (80 para http, 443 para https), resuelve segmentos de ruta ./ y ../ y corrige la codificación de porcentaje usando el analizador estándar WHATWG URL, luego aplica las limpiezas que elijas: elimina parámetros de seguimiento de marketing y análisis (todos utm_* más gclid, fbclid, msclkid, yclid, mc_eid y muchos más), ordena los parámetros de consulta restantes en un orden estable, opcionalmente elimina el #fragmento, y agrega o elimina la barra inclinada final. Devuelve la URL canónica, los componentes completamente analizados y la lista exacta de cambios realizados. El endpoint compare canonicaliza dos URLs y te dice si apuntan al mismo recurso, perfecto para detectar enlaces duplicados que solo difieren por códigos de seguimiento, mayúsculas/minúsculas, puerto u orden de parámetros. Todo se calcula localmente sin llamadas de red, por lo que es instantáneo, privado y seguro. Ideal para rastreadores y herramientas SEO, deduplicación y análisis de enlaces, claves de caché, marcadores y canalizaciones de contenido. Cálculo puramente local: sin clave, sin servicio de terceros, instantáneo. En vivo, nada almacenado. 3 endpoints. Esto canonicaliza la cadena de URL; no la obtiene ni sigue redirecciones; para vistas previas de enlaces y desacortamiento, usa una API de URL-unfurl.

api.oanor.com/urlcanon-api

API de Normalización de Correo Electrónico

Canonicaliza direcciones de correo electrónico para que puedas deduplicar cuentas y detectar diferentes alias de la misma bandeja de entrada. El endpoint de normalización convierte la dirección a minúsculas y aplica reglas específicas del proveedor: elimina los puntos de las partes locales de Gmail y Googlemail (porque Gmail los ignora) y mapea googlemail.com a gmail.com, elimina el subdireccionamiento +tag para Gmail y los muchos proveedores que lo soportan — Outlook, Hotmail, Live, iCloud, Fastmail, Proton, Yandex, Zoho, GMX y más — y, por defecto, para cada dominio para que nunca se escapen duplicados, mientras informa exactamente qué cambios realizó y qué proveedor detectó. El endpoint de comparación normaliza dos direcciones y te dice si resuelven al mismo buzón. Todo se calcula local y determinísticamente, sin llamadas DNS o de red, por lo que es instantáneo y privado. Ideal para deduplicación en registro y suscripción, prevención de fraude y abuso (una persona, muchos alias), higiene de CRM y listas de correo, y fusión de registros de clientes. Cálculo puramente local — sin clave, sin servicio de terceros, instantáneo. En vivo, nada almacenado. 3 endpoints. Esto normaliza direcciones para comparación; para verificar que una dirección realmente existe y puede recibir correo (MX, desechable, cuentas de rol) usa una API de verificación de correo electrónico.

api.oanor.com/emailnormalize-api

API de Hash de Imagen Perceptual

Huellas digitales de imágenes para detección de casi duplicados y similitud. Calcula los tres hashes perceptuales clásicos — aHash (promedio), dHash (diferencia) y pHash (basado en DCT) — como valores hexadecimales de 64 bits para cualquier imagen (por URL o base64), luego compara dos imágenes para obtener la distancia de Hamming y una puntuación de similitud de 0-100 por algoritmo, con un indicador de probablemente igual. A diferencia de un hash criptográfico, los hashes perceptuales se mantienen cercanos cuando las imágenes se redimensionan, recomprimen o editan ligeramente, por lo que puedes detectar duplicados, encontrar re-subidas, agrupar imágenes similares y potenciar la búsqueda inversa de imágenes. Completamente local (sin servicio de terceros), nada se almacena. Soporta PNG, JPEG, BMP, TIFF y GIF. En vivo. 3 endpoints. Distinto de las herramientas básicas de información/redimensionamiento de imágenes y de las herramientas de similitud de cadenas.

api.oanor.com/imghash-api