Atrás

#tokenize

2 APIs con esta etiqueta

API de N-gramas

Genera n-gramas a partir de texto, con recuentos de frecuencia, completamente local. El endpoint ngrams divide el texto en secuencias contiguas de n tokens y devuelve cada n-grama distinto con la frecuencia con la que aparece, ordenado por frecuencia: n-gramas de palabras (unigramas, bigramas, trigramas y más) para análisis de frases y colocaciones, o n-gramas de caracteres (shingles) para coincidencias aproximadas, detección de idioma e indexación. El endpoint range produce todos los tamaños desde un mínimo hasta un máximo en una sola llamada (por ejemplo, gramas de 1 a 3), que es exactamente lo que necesitas para construir vectores de características. Elige modo de palabra o carácter, si convertir a minúsculas primero, y un límite top-N para conservar solo los más frecuentes. La tokenización de palabras es consciente de Unicode y mantiene apóstrofes y guiones internos (don't, well-known) como tokens individuales. Todo se ejecuta local y determinísticamente, por lo que es rápido y privado. Ideal para minería de texto y extracción de características de PNL, modelado de lenguaje y autocompletado, indexación de búsqueda y shingling, detección de plagio y similitud, y análisis de palabras clave y colocaciones. Cálculo puramente local: sin clave, sin servicio de terceros, instantáneo. En vivo, nada almacenado. 3 endpoints. Esto produce n-gramas y recuentos; para resúmenes extractivos y palabras clave, usa una API de resumen y para contar grafemas/caracteres, usa una API de segmentación de texto.

api.oanor.com/ngram-api

API Case Detect

Detecta qué convención de mayúsculas/minúsculas usa una cadena y divide los identificadores en sus palabras constituyentes. El endpoint detect clasifica cualquier valor como camelCase, PascalCase, snake_case, CONSTANT_CASE, kebab-case, COBOL-CASE, Train-Case, dot.case, Title Case, Sentence case, lowercase o UPPERCASE — o mixed cuando no encaja — e informa el separador encontrado y las palabras que lo componen. El endpoint split tokeniza cualquier identificador en palabras: rompe las jorobas de camelCase, maneja correctamente los límites de acrónimos (HTTPServer → HTTP, Server; XMLHttpRequest → XML, Http, Request), y divide en dígitos y en guiones bajos, guiones, puntos y espacios, devolviendo tanto los tokens en mayúsculas/minúsculas originales como las palabras en minúsculas listas para alimentar a un convertidor. Ideal para linters y herramientas de modificación de código, refactorización, validadores de API y esquemas, autocompletado y búsqueda, y cualquier pipeline que necesite entender la nomenclatura de identificadores. Cómputo local puro — sin clave, sin servicio de terceros, instantáneo. En vivo, nada almacenado. 3 endpoints. Esto DETECTA y tokeniza una convención de mayúsculas/minúsculas; para CONVERTIR una cadena entre estilos de mayúsculas/minúsculas use una API text-case.

api.oanor.com/casedetect-api