I dati di testo disordinati sono una delle maggiori perdite di tempo nel lavoro con i dati
Ricevi un'esportazione di dati da un database clienti. Metà dei nomi hanno spazi extra. Alcuni indirizzi email hanno caratteri accidentali. I numeri di telefono sono in cinque formati diversi. Gli indirizzi hanno maiuscole/minuscole incoerenti. Prima di poter utilizzare questi dati per qualsiasi cosa - campagne email, analisi, importazioni - devono essere puliti. Questa guida copre i metodi più efficaci e gli strumenti gratuiti per pulire i dati di testo.
I problemi più comuni dei dati di testo
- Spazi bianchi extra: Spazi iniziali, spazi finali, doppi spazi tra le parole
- Maiuscole/minuscole incoerenti: MAIUSCOLO, minuscolo, Iniziali Maiuscole misti nello stesso campo
- Caratteri speciali: Simboli inaspettati, entità HTML (& ), caratteri invisibili
- Problemi di codifica: Caratteri che appaiono come ’ o á invece di ' o á - causati da mancata corrispondenza del set di caratteri
- Voci duplicate: Lo stesso valore che appare più volte
- Formati incoerenti: Numeri di telefono, date e identificatori in formati multipli
- Incoerenze di interruzione di riga: Terminazioni di riga miste Windows (CRLF), Mac (CR) e Unix (LF)
Strumenti online gratuiti per la pulizia dei dati di testo
- Strumenti di testo di iloveimg: Rimuovi spazi extra, converti maiuscole/minuscole, rimuovi righe duplicate, codifica/decodifica testo e altro - tutto nel tuo browser
- TextMechanic.com: Raccolta completa di strumenti di manipolazione del testo inclusi trova-sostituisci, ordinamento e formattazione
- CyberChef: Potente strumento di trasformazione dati di GCHQ - combina più operazioni insieme per flussi di lavoro di pulizia complessi
- Regex101.com: Testa e costruisci espressioni regolari per la pulizia basata su pattern
Pulire i dati di testo in Excel
Excel ha diverse funzioni utili per la pulizia del testo:
=TRIM(A1)- rimuove spazi iniziali, finali e doppi=CLEAN(A1)- rimuove caratteri non stampabili=UPPER(A1),=LOWER(A1),=PROPER(A1)- conversione maiuscole/minuscole=SUBSTITUTE(A1, CHAR(160), " ")- sostituisce gli spazi unificatori con spazi regolari- Combina con
=TRIM(CLEAN(SUBSTITUTE(A1, CHAR(160), " ")))per una pulizia approfondita in una sola formula
Pulire i dati di testo con Python
Per grandi set di dati, Python con pandas è l'approccio più efficiente:
df['column'].str.strip()- rimuove spazi iniziali e finalidf['column'].str.lower()- converte in minuscolodf['column'].str.replace(r'\s+', ' ', regex=True)- comprime spazi multiplidf['column'].str.replace(r'[^\w\s]', '', regex=True)- rimuove caratteri specialidf.drop_duplicates(subset=['column'])- rimuove righe duplicate- La libreria
ftfycorregge automaticamente i problemi di codifica
Correggere i problemi di codifica nei dati di testo
La corruzione della codifica (che appare come ’ invece di ') è solitamente causata dalla lettura di un file UTF-8 come Latin-1 o viceversa. Correzioni comuni:
- In Python:
text.encode('latin-1').decode('utf-8')per il comune pattern mojibake - Apri il file in un editor di testo, specifica la codifica corretta all'apertura, poi salva come UTF-8
- In Excel: usa Dati → Da testo/CSV con selezione esplicita della codifica durante l'importazione
- La libreria Python ftfy rileva e corregge automaticamente la maggior parte delle corruzioni di codifica comuni
Costruire un flusso di lavoro di pulizia del testo
Per una pulizia dei dati ripetibile, crea una checklist standard:
- Rimuovi spazi iniziali e finali
- Comprimi spazi interni multipli in spazi singoli
- Standardizza maiuscole/minuscole (coerente tra tutti i record nel campo)
- Rimuovi o sostituisci caratteri speciali non appropriati per il tipo di dato
- Correggi problemi di codifica
- Standardizza formati (date, numeri di telefono, codici postali)
- Rimuovi duplicati
- Convalida rispetto a formati attesi o intervalli di valori
Conclusione
La pulizia dei dati di testo è un'abilità fondamentale per chiunque lavori con i dati. Per attività di pulizia rapide e una tantum, strumenti online gratuiti come iloveimg gestiscono i problemi più comuni istantaneamente. Per una pulizia ripetibile o su larga scala, le formule di Excel o gli script Python forniscono soluzioni efficienti e automatizzabili. La chiave è costruire un flusso di lavoro standard piuttosto che affrontare ogni set di dati disordinato come un problema unico - la maggior parte dei problemi dei dati di testo si ripetono in modo prevedibile tra i vari set di dati.