N-gram API
Genera n-gramas a partir de texto, con recuentos de frecuencia, completamente local. El endpoint ngrams divide el texto en secuencias contiguas de n tokens y devuelve cada n-grama distinto con la frecuencia con la que aparece, ordenado por frecuencia: n-gramas de palabras (unigramas, bigramas, trigramas y más) para análisis de frases y colocaciones, o n-gramas de caracteres (shingles) para coincidencias aproximadas, detección de idioma e indexación. El endpoint range produce todos los tamaños desde un mínimo hasta un máximo en una sola llamada (por ejemplo, gramos 1–3), que es exactamente lo que necesitas para construir vectores de características. Elige modo de palabra o carácter, si convertir a minúsculas primero, y un límite top-N para conservar solo los más frecuentes. La tokenización de palabras es compatible con Unicode y mantiene apóstrofes y guiones internos (don't, well-known) como tokens individuales. Todo se ejecuta local y determinísticamente, por lo que es rápido y privado. Ideal para minería de texto y extracción de características de PNL, modelado de lenguaje y autocompletado, indexación de búsqueda y shingling, detección de plagio y similitud, y análisis de palabras clave y colocaciones. Cálculo puramente local: sin clave, sin servicio de terceros, instantáneo. En vivo, nada almacenado. 3 endpoints. Esto produce n-gramas y recuentos; para resúmenes extractivos y palabras clave usa una API de resumen y para el recuento de grafemas/caracteres usa una API de segmentación de texto.
api.oanor.com/ngram-api