Indietro

#tokenize

2 APIs con questa etichetta

N-gram API

Genera n-gramas a partir de texto, con recuentos de frecuencia, completamente local. El endpoint ngrams divide el texto en secuencias contiguas de n tokens y devuelve cada n-grama distinto con la frecuencia con la que aparece, ordenado por frecuencia: n-gramas de palabras (unigramas, bigramas, trigramas y más) para análisis de frases y colocaciones, o n-gramas de caracteres (shingles) para coincidencias aproximadas, detección de idioma e indexación. El endpoint range produce todos los tamaños desde un mínimo hasta un máximo en una sola llamada (por ejemplo, gramos 1–3), que es exactamente lo que necesitas para construir vectores de características. Elige modo de palabra o carácter, si convertir a minúsculas primero, y un límite top-N para conservar solo los más frecuentes. La tokenización de palabras es compatible con Unicode y mantiene apóstrofes y guiones internos (don't, well-known) como tokens individuales. Todo se ejecuta local y determinísticamente, por lo que es rápido y privado. Ideal para minería de texto y extracción de características de PNL, modelado de lenguaje y autocompletado, indexación de búsqueda y shingling, detección de plagio y similitud, y análisis de palabras clave y colocaciones. Cálculo puramente local: sin clave, sin servicio de terceros, instantáneo. En vivo, nada almacenado. 3 endpoints. Esto produce n-gramas y recuentos; para resúmenes extractivos y palabras clave usa una API de resumen y para el recuento de grafemas/caracteres usa una API de segmentación de texto.

api.oanor.com/ngram-api

Case Detect API

Detect which case convention a string uses, and split identifiers into their constituent words. The detect endpoint classifies any value as camelCase, PascalCase, snake_case, CONSTANT_CASE, kebab-case, COBOL-CASE, Train-Case, dot.case, Title Case, Sentence case, lowercase or UPPERCASE — or mixed when it does not fit — and reports the separator it found and the words it is built from. The split endpoint tokenizes any identifier into words: it breaks camelCase humps, handles acronym boundaries correctly (HTTPServer → HTTP, Server; XMLHttpRequest → XML, Http, Request), and splits on digits and on underscores, dashes, dots and spaces, returning both the original-case tokens and lower-cased words ready to feed into a converter. Ideal for linters and code-mod tools, refactoring, API and schema validators, autocomplete and search, and any pipeline that needs to understand identifier naming. Pure local computation — no key, no third-party service, instant. Live, nothing stored. 3 endpoints. This DETECTS and tokenizes a case convention; to CONVERT a string between case styles use a text-case API.

api.oanor.com/casedetect-api