Mis on telefoninumbrite ekstraheerimise?

Telefoninumbrite ekstraheerimise on protsess, mille käigus tuvastatakse ja eraldatakse telefoninumbrid automaatselt struktureerimata tekstist. Telefoninumbrid esinevad maailmas paljudes formaatides – mõned kasutavad sulge, teised kriipse või tühikuid, ja rahvusvahelised numbrid sisaldavad riigikoodid plussmärgiga. See mitmekesisus teeb käsitsi ekstraheerimise tüütuks ja vigadele altis, eriti kui tegemist on suurte tekstihulkadega e-mailides, dokumentides või veebilehtedel.

Kaasaegne telefoninumbrite ekstraheerimise tugineb keerukale parsimise algoritmidele, mis mõistavad telefoninumbrite struktuuri erinevates riikides. Need algoritmid suudavad eristada kehtivaid telefoninumbreid juhuslikest numbrijadatest, tunnevad ära riigispetsiifilisi vormingreegleid ja valideerivad numbreid rahvusvaheliste telekommunikatsiooni standardite, nagu E.164, alusel.

Tööriista kirjeldus

See tööriist ekstraheerib telefoninumbrid mis tahes tekstist, mille te esitate, olenemata nende vormingust. Lihtsalt kleepige oma teksti, mis sisaldab telefoninumbreid, ja tööriist tuvastab, parsib ja loetleb kõik leitud kehtivad telefoninumbrid. Saate valida oma eelistatud väljundvormingu ja soovi korral määrata vaikimisi riigi numbrite jaoks, millel puudub riigikood.

Näited

Sisendtekst:

Võtke meiega ühendust:
USA müük: (555) 123-4567
UK tugi: +44 20 7946 0958
Hädaabi: 911
Saatke e-mail john@example.com või helistage 1-800-555-0199
Saatke meile SMS-i numbril 555.867.5309 lisateabe saamiseks.

Väljund (E.164 vorming):

(555) 123-4567
+44 20 7946 0958
1-800-555-0199
555.867.5309

Väljund (rahvusvaheline vorming):

+1 555 123 4567
+44 20 7946 0958
+1 800 555 0199
+1 555 867 5309

Funktsioonid

  • Mitmed väljundvormingud: Valige rahvusvahelise, riikliku, E.164, RFC3966 või säilitage algne vorming, nagu see tekstis leiti
  • Riigi automaatne tuvastamine: Tuvastab automaatselt rahvusvaheliste numbrite riigikoodid või määrab vaikimisi riigi kohalikele numbritele
  • Duplikaatide eemaldamine: Soovi korral filtreerige välja duplikaattelefoni numbrid, mis esinevad teie tekstis mitu korda
  • Reaalajas ekstraheerimise: Numbrid ekstraheeritakse koheselt, kui tippite või kleepite teksti
  • Valideerimine: Tagastab ainult kehtivad telefoninumbrid, mis vastavad rahvusvaheliste telekommunikatsiooni standarditele

Väljundvormingute selgitus

Vorming Kirjeldus Näide
Rahvusvaheline Inimloetav vorming tühikutega +1 555 123 4567
Riiklik Kohalik vorming ilma riigikoodita (555) 123-4567
E.164 Standardne masinloetav vorming +15551234567
RFC3966 URI vorming klõpsatavate helistamise linkide jaoks tel:+1-555-123-4567
Algne Säilitab täpse vormingu lähtetekstist 555.123.4567

Kasutamise juhtumid

  • CRM-i andmete puhastamine: Ekstraheerige telefoninumbrid segastest kliendi andmetest, e-posti jutustustest või imporditud arvutustabelitest, et luua puhas, standardiseeritud kontaktide loend
  • Potentsiaalsete klientide genereerimine: Tõmmake telefoninumbrid ärikaustikest, veebist kraabitust või turundusmaterjalist väljundkampaaniate jaoks
  • Andmete ülekandmine: Teisendage telefoninumbrid E.164 vormingusse, kui migreerite süsteemide vahel, mis nõuavad standardiseeritud numbrivorminguid

Kuidas see toimib

Tööriist kasutab libphonenumber teeki, mille töötas algselt välja Google Androidi jaoks. See skaneerib teie teksti märk märgi järgi, tuvastades jadad, mis võiksid olla telefoninumbrid pikkuse, numbrimustrite ja vormingumärkide alusel. Seejärel valideeritakse iga kandidaat riigispetsiifiliste telefoninumbrite reeglite põhjaliku andmebaasi vastu, sealhulgas kehtivad piirkonnanumbrid, numbrite pikkused ja vormingukokkuleppeid.

Kui riigikood puudub, kasutab tööriist numbri tõlgendamiseks teie valitud vaikimisi riiki. Näiteks "555-123-4567" parsitakse USA numbriks, kui Ameerika Ühendriigid on valitud, või teie valiku alusel mõne muu riigi numbriks.

Näpunäited

  • Määrake vaikimisi riik kohalike numbrite ekstraheerimiseks ilma riigikoodita, et parandada täpsust
  • Kasutage E.164 vormingut numbrite salvestamisel andmebaasidesse või API-desse – see on rahvusvaheline standard masinlõimiseks
  • RFC3966 vorming on ideaalne klõpsatavate telefoninumbrite linkide loomiseks HTML-is või markdown-dokumentides
  • Lubage "Eemalda duplikaadid", kui töötlete teksti, mis võib sisaldada sama numbrit mitu korda