#tokenize
2 APIs met deze tag
N-gram API
Genereer n-grammen uit tekst, met frequentietellingen — volledig lokaal. Het ngrams-eindpunt splitst tekst in aaneengesloten reeksen van n tokens en retourneert elk afzonderlijk n-gram met hoe vaak het voorkomt, gerangschikt op frequentie: woord-n-grammen (unigrams, bigrams, trigrams en verder) voor frase- en collocatieanalyse, of karakter-n-grammen (shingles) voor fuzzy matching, taaldetectie en indexering. Het range-eindpunt produceert elke grootte van een minimum tot een maximum in één enkele aanroep (bijvoorbeeld 1–3 gram), wat precies is wat je nodig hebt om featurevectoren te bouwen. Kies woord- of karaktermodus, of er eerst in kleine letters moet worden omgezet, en een top-N-limiet om alleen de meest frequente te behouden. Woordtokenisatie is Unicode-bewust en behoudt interne apostroffen en koppeltekens (don't, well-known) als afzonderlijke tokens. Alles draait lokaal en deterministisch, dus het is snel en privé. Ideaal voor tekstmining en NLP-feature-extractie, taalmodellering en automatisch aanvullen, zoekindexering en shingling, plagiaat- en gelijkenisdetectie, en trefwoord- en collocatieanalyse. Pure lokale berekening — geen sleutel, geen externe dienst, onmiddellijk. Live, niets opgeslagen. 3 eindpunten. Dit produceert n-grammen en tellingen; voor extractieve samenvattingen en trefwoorden gebruik je een summarize API en voor grafeem-/karaktertelling een text-segmentation API.
api.oanor.com/ngram-api
Case Detect API
Detecteer welke schrijfwijze een string gebruikt en splits identifiers op in de samenstellende woorden. Het detect-eindpunt classificeert elke waarde als camelCase, PascalCase, snake_case, CONSTANT_CASE, kebab-case, COBOL-CASE, Train-Case, dot.case, Title Case, Sentence case, lowercase of UPPERCASE — of mixed als het niet past — en rapporteert het gevonden scheidingsteken en de woorden waaruit het is opgebouwd. Het split-eindpunt tokeniseert elke identifier in woorden: het breekt camelCase-hobbels, behandelt acroniemgrenzen correct (HTTPServer → HTTP, Server; XMLHttpRequest → XML, Http, Request), en splitst op cijfers en op underscores, streepjes, punten en spaties, en retourneert zowel de tokens in de oorspronkelijke schrijfwijze als woorden in kleine letters die klaar zijn om aan een converter te voeren. Ideaal voor linters en code-mod-tools, refactoring, API- en schemavalidators, automatisch aanvullen en zoeken, en elke pijplijn die identifier-naamgeving moet begrijpen. Pure lokale berekening — geen sleutel, geen externe service, direct. Live, niets opgeslagen. 3 eindpunten. Dit DETECTEERT en tokeniseert een schrijfwijze; om een string tussen schrijfwijzen te CONVERTEREN gebruik je een text-case API.
api.oanor.com/casedetect-api