#deduplication
4 API με αυτήν την ετικέτα
Soundex & Fuzzy Match API
Φωνητική και ασαφής αντιστοίχιση συμβολοσειρών ως API, υπολογιζόμενη τοπικά και ντετερμινιστικά. Το endpoint soundex υπολογίζει τον αμερικανικό κώδικα Soundex μιας λέξης — το πρώτο γράμμα ακολουθούμενο από τρία ψηφία που κωδικοποιούν τα σύμφωνά της, αγνοώντας πεζά/κεφαλαία και μη γράμματα και εφαρμόζοντας τους κανόνες επαναφοράς φωνηέντων και διπλών γειτονικών — οπότε τα Robert και Rupert κωδικοποιούνται και τα δύο ως R163, τα Smith και Smyth ως S530, και οι κλασικές δύσκολες περιπτώσεις Ashcraft (A261), Tymczak (T522) και Pfister (P236) βγαίνουν σωστά. Το endpoint levenshtein υπολογίζει την απόσταση επεξεργασίας μεταξύ δύο συμβολοσειρών (τις ελάχιστες εισαγωγές, διαγραφές και αντικαταστάσεις, προαιρετικά με διάκριση πεζών/κεφαλαίων) και μια ομοιότητα 0–100%, οπότε kitten → sitting είναι τρεις επεξεργασίες και περίπου 57% όμοιες. Το endpoint compare συνδυάζει και τα δύο: αναφέρει αν δύο συμβολοσειρές μοιράζονται έναν κώδικα Soundex (ακούγονται ίδιες) και την ομοιότητα Levenshtein (γράφονται ίδιες), και επισημαίνει μια πιθανή αντιστοιχία όταν οι κώδικες συμφωνούν ή η ομοιότητα είναι τουλάχιστον 80%. Όλα υπολογίζονται τοπικά και ντετερμινιστικά, οπότε είναι άμεσα και ιδιωτικά. Ιδανικό για προγραμματιστές εφαρμογών αφαίρεσης διπλότυπων δεδομένων, CRM, ασαφούς αναζήτησης, αυτόματης συμπλήρωσης, γενεαλογίας και καθαρισμού δεδομένων, εργαλεία αντιστοίχισης ονομάτων και σύνδεσης εγγραφών, και λογισμικό αναζήτησης. Καθαρός τοπικός υπολογισμός — χωρίς κλειδί, χωρίς υπηρεσία τρίτου, άμεσο. Ζωντανό, τίποτα δεν αποθηκεύεται. 3 endpoints. Πρόκειται για φωνητική αντιστοίχιση και αντιστοίχιση απόστασης επεξεργασίας· για αναζήτηση πλήρους κειμένου χρησιμοποιήστε ένα search API.
api.oanor.com/soundex-api
API Κανονικοποίησης URL
Κανονικοποιήστε URLs σε κανονική μορφή ώστε να μπορείτε να αφαιρείτε διπλότυπα, να συγκρίνετε και να τα καθαρίζετε. Το τελικό σημείο κανονικοποίησης μετατρέπει σε πεζά το σχήμα και τον κεντρικό υπολογιστή, αφαιρεί την προεπιλεγμένη θύρα (80 για http, 443 για https), επιλύει τα τμήματα διαδρομής ./ και ../ και διορθώνει την κωδικοποίηση ποσοστού χρησιμοποιώντας τον τυπικό αναλυτή WHATWG URL, στη συνέχεια εφαρμόζει τις καθαρίσεις που επιλέγετε: αφαιρεί παραμέτρους παρακολούθησης μάρκετινγκ και αναλυτικών στοιχείων (όλες utm_* συν gclid, fbclid, msclkid, yclid, mc_eid και πολλές άλλες), ταξινομεί τις υπόλοιπες παραμέτρους ερωτήματος σε σταθερή σειρά, προαιρετικά αφαιρεί το #fragment και προσθέτει ή αφαιρεί την τελική κάθετο. Επιστρέφει το κανονικό URL, τα πλήρως αναλυμένα στοιχεία και την ακριβή λίστα των αλλαγών που έκανε. Το τελικό σημείο σύγκρισης κανονικοποιεί δύο URLs και σας λέει αν δείχνουν στον ίδιο πόρο — ιδανικό για τον εντοπισμό διπλότυπων συνδέσμων που διαφέρουν μόνο από κωδικούς παρακολούθησης, πεζά/κεφαλαία, θύρα ή σειρά παραμέτρων. Όλα υπολογίζονται τοπικά χωρίς κλήσεις δικτύου, επομένως είναι άμεσο, ιδιωτικό και ασφαλές. Ιδανικό για ανιχνευτές και εργαλεία SEO, αφαίρεση διπλότυπων συνδέσμων και αναλυτικά στοιχεία, κλειδιά προσωρινής αποθήκευσης, σελιδοδείκτες και αγωγούς περιεχομένου. Καθαρός τοπικός υπολογισμός — χωρίς κλειδί, χωρίς υπηρεσία τρίτου μέρους, άμεσο. Ζωντανό, τίποτα δεν αποθηκεύεται. 3 τελικά σημεία. Αυτό κανονικοποιεί τη συμβολοσειρά URL· δεν την ανακτά ούτε ακολουθεί ανακατευθύνσεις — για προεπισκοπήσεις συνδέσμων και αποσυμπίεση χρησιμοποιήστε ένα API URL-unfurl.
api.oanor.com/urlcanon-api
Email Normalize API
Κανονικοποιήστε διευθύνσεις email ώστε να μπορείτε να αφαιρέσετε διπλότυπους λογαριασμούς και να εντοπίσετε διαφορετικά ψευδώνυμα του ίδιου γραμματοκιβωτίου. Το τελικό σημείο normalize μετατρέπει σε πεζά τη διεύθυνση και εφαρμόζει κανόνες βάσει παρόχου: αφαιρεί τις τελείες από τα τοπικά μέρη Gmail και Googlemail (επειδή το Gmail τις αγνοεί) και αντιστοιχίζει το googlemail.com σε gmail.com, αφαιρεί την υποδιεύθυνση +tag για το Gmail και τους πολλούς παρόχους που την υποστηρίζουν — Outlook, Hotmail, Live, iCloud, Fastmail, Proton, Yandex, Zoho, GMX και άλλα — και, από προεπιλογή, για κάθε τομέα ώστε τα διπλότυπα να μην ξεφεύγουν ποτέ, ενώ αναφέρει ακριβώς ποιες αλλαγές έκανε και ποιον πάροχο εντόπισε. Το τελικό σημείο compare κανονικοποιεί δύο διευθύνσεις και σας λέει αν αντιστοιχούν στο ίδιο γραμματοκιβώτιο. Όλα υπολογίζονται τοπικά και ντετερμινιστικά, χωρίς κλήσεις DNS ή δικτύου, επομένως είναι άμεσα και ιδιωτικά. Ιδανικό για αφαίρεση διπλότυπων κατά την εγγραφή, πρόληψη απάτης και κατάχρησης (ένα άτομο, πολλά ψευδώνυμα), υγιεινή CRM και λιστών αλληλογραφίας, και συγχώνευση εγγραφών πελατών. Καθαρός τοπικός υπολογισμός — χωρίς κλειδί, χωρίς υπηρεσία τρίτου, άμεσο. Live, τίποτα δεν αποθηκεύεται. 3 τελικά σημεία. Αυτό κανονικοποιεί διευθύνσεις για σύγκριση· για να επαληθεύσετε ότι μια διεύθυνση υπάρχει πραγματικά και μπορεί να λάβει μηνύματα (MX, αναλώσιμες, λογαριασμοί ρόλου) χρησιμοποιήστε ένα API επαλήθευσης email.
api.oanor.com/emailnormalize-api
Perceptual Image Hash API
Δημιουργήστε αποτυπώματα εικόνων για ανίχνευση σχεδόν διπλότυπων και ομοιότητας. Υπολογίστε τους τρεις κλασικούς αντιληπτικούς hashes — aHash (μέσος όρος), dHash (διαφορά) και pHash (βασισμένο σε DCT) — ως 64-bit δεκαεξαδικές τιμές για οποιαδήποτε εικόνα (μέσω URL ή base64), στη συνέχεια συγκρίνετε δύο εικόνες για να λάβετε την απόσταση Hamming και μια βαθμολογία ομοιότητας 0-100 ανά αλγόριθμο, με μια ένδειξη πιθανής ταύτισης. Σε αντίθεση με ένα κρυπτογραφικό hash, τα αντιληπτικά hashes παραμένουν κοντά όταν οι εικόνες αλλάζουν μέγεθος, συμπιέζονται ξανά ή υποβάλλονται σε ελαφριά επεξεργασία — έτσι μπορείτε να εντοπίσετε διπλότυπα, να βρείτε επαναφορτώσεις, να ομαδοποιήσετε παρόμοιες εικόνες και να τροφοδοτήσετε αντίστροφη αναζήτηση εικόνων. Πλήρως τοπικό (χωρίς υπηρεσία τρίτου μέρους), τίποτα δεν αποθηκεύεται. Υποστηρίζει PNG, JPEG, BMP, TIFF και GIF. Live. 3 endpoints. Διακρίνεται από τα βασικά εργαλεία πληροφοριών/αλλαγής μεγέθους εικόνας και από τα εργαλεία ομοιότητας συμβολοσειρών.
api.oanor.com/imghash-api