Atrás

#text-mining

1 APIs con esta etiqueta

API de N-gramas

Genera n-gramas a partir de texto, con recuentos de frecuencia, completamente local. El endpoint ngrams divide el texto en secuencias contiguas de n tokens y devuelve cada n-grama distinto con la frecuencia con la que aparece, ordenado por frecuencia: n-gramas de palabras (unigramas, bigramas, trigramas y más) para análisis de frases y colocaciones, o n-gramas de caracteres (shingles) para coincidencias aproximadas, detección de idioma e indexación. El endpoint range produce todos los tamaños desde un mínimo hasta un máximo en una sola llamada (por ejemplo, gramas de 1 a 3), que es exactamente lo que necesitas para construir vectores de características. Elige modo de palabra o carácter, si convertir a minúsculas primero, y un límite top-N para conservar solo los más frecuentes. La tokenización de palabras es consciente de Unicode y mantiene apóstrofes y guiones internos (don't, well-known) como tokens individuales. Todo se ejecuta local y determinísticamente, por lo que es rápido y privado. Ideal para minería de texto y extracción de características de PNL, modelado de lenguaje y autocompletado, indexación de búsqueda y shingling, detección de plagio y similitud, y análisis de palabras clave y colocaciones. Cálculo puramente local: sin clave, sin servicio de terceros, instantáneo. En vivo, nada almacenado. 3 endpoints. Esto produce n-gramas y recuentos; para resúmenes extractivos y palabras clave, usa una API de resumen y para contar grafemas/caracteres, usa una API de segmentación de texto.

api.oanor.com/ngram-api