Dos

#ngram

1 APIs avec cette balise

API N-gram

Génère des n-grammes à partir de texte, avec des comptages de fréquence — entièrement localement. Le point de terminaison ngrams décompose le texte en séquences contiguës de n jetons et renvoie chaque n-gramme distinct avec sa fréquence d'apparition, classé par fréquence : n-grammes de mots (unigrammes, bigrammes, trigrammes et au-delà) pour l'analyse de phrases et de collocations, ou n-grammes de caractères (shingles) pour la correspondance floue, la détection de langue et l'indexation. Le point de terminaison range produit toutes les tailles d'un minimum à un maximum en un seul appel (par exemple 1 à 3 grammes), ce qui est exactement ce dont vous avez besoin pour construire des vecteurs de caractéristiques. Choisissez le mode mot ou caractère, la mise en minuscule préalable, et une limite top-N pour ne conserver que les plus fréquents. La tokenisation des mots est compatible Unicode et conserve les apostrophes et traits d'union internes (don't, well-known) comme des jetons uniques. Tout s'exécute localement et de manière déterministe, donc c'est rapide et privé. Idéal pour l'exploration de texte et l'extraction de caractéristiques NLP, la modélisation du langage et l'autocomplétion, l'indexation de recherche et le shingling, la détection de plagiat et de similarité, et l'analyse de mots-clés et de collocations. Calcul local pur — pas de clé, pas de service tiers, instantané. En direct, rien n'est stocké. 3 points de terminaison. Cela produit des n-grammes et des comptages ; pour les résumés extractifs et les mots-clés, utilisez une API summarize et pour le comptage de graphèmes/caractères, utilisez une API text-segmentation.

api.oanor.com/ngram-api