Zurück

#tokenize

2 APIs mit diesem Tag

N-gram API

Generieren Sie N-Gramme aus Text mit Häufigkeitszählungen – vollständig lokal. Der ngrams-Endpunkt zerlegt Text in zusammenhängende Sequenzen von n Token und gibt jedes einzelne N-Gramm mit seiner Häufigkeit zurück, sortiert nach Frequenz: Wort-N-Gramme (Unigramme, Bigramme, Trigramme und mehr) für Phrasen- und Kollokationsanalyse, oder Zeichen-N-Gramme (Shingles) für Fuzzy-Matching, Spracherkennung und Indexierung. Der range-Endpunkt erzeugt jede Größe von einem Minimum bis zu einem Maximum in einem einzigen Aufruf (z. B. 1–3 Gramme), was genau das ist, was Sie zum Erstellen von Merkmalsvektoren benötigen. Wählen Sie Wort- oder Zeichenmodus, ob zuerst kleingeschrieben werden soll, und ein Top-N-Limit, um nur die häufigsten zu behalten. Die Wort-Tokenisierung ist Unicode-bewusst und behält interne Apostrophe und Bindestriche (don't, well-known) als einzelne Token. Alles läuft lokal und deterministisch, daher ist es schnell und privat. Ideal für Text Mining und NLP-Merkmalsextraktion, Sprachmodellierung und Autovervollständigung, Suchindexierung und Shingling, Plagiats- und Ähnlichkeitserkennung sowie Schlüsselwort- und Kollokationsanalyse. Reine lokale Berechnung – kein Schlüssel, kein Drittanbieterdienst, sofort. Live, nichts wird gespeichert. 3 Endpunkte. Dies erzeugt N-Gramme und Zählungen; für extraktive Zusammenfassungen und Schlüsselwörter verwenden Sie eine summarize API und für Graphem-/Zeichenzählung eine text-segmentation API.

api.oanor.com/ngram-api

Case Detect API

Erkennen, welche Schreibkonvention ein String verwendet, und Identifikatoren in ihre Bestandteile zerlegen. Der Detect-Endpunkt klassifiziert jeden Wert als camelCase, PascalCase, snake_case, CONSTANT_CASE, kebab-case, COBOL-CASE, Train-Case, dot.case, Title Case, Sentence case, lowercase oder UPPERCASE – oder mixed, wenn er in keine Kategorie passt – und meldet das gefundene Trennzeichen sowie die Wörter, aus denen er besteht. Der Split-Endpunkt tokenisiert jeden Identifikator in Wörter: Er trennt camelCase-Höcker, behandelt Akronymgrenzen korrekt (HTTPServer → HTTP, Server; XMLHttpRequest → XML, Http, Request) und teilt an Ziffern sowie an Unterstrichen, Bindestrichen, Punkten und Leerzeichen. Er gibt sowohl die Token in der Originalschreibweise als auch in Kleinbuchstaben zurück, bereit für einen Konverter. Ideal für Linter und Code-Mod-Tools, Refactoring, API- und Schema-Validatoren, Autovervollständigung und Suche sowie für jede Pipeline, die Identifikatornamen verstehen muss. Reine lokale Berechnung – kein Schlüssel, kein Drittanbieterdienst, sofort. Live, nichts wird gespeichert. 3 Endpunkte. Dies ERKENNT und tokenisiert eine Schreibkonvention; zum KONVERTIEREN eines Strings zwischen Schreibstilen verwenden Sie eine text-case API.

api.oanor.com/casedetect-api