Salta al contenuto principale
Developer Tools 7 min di lettura

Come pulire facilmente i dati di testo - Strumenti e metodi gratuiti

Pulisci rapidamente dati di testo disordinati - rimuovi spazi, correggi maiuscole/minuscole, elimina caratteri speciali e altro.

Alessandro

Sejda Editorial · Mar 28, 2026

I dati di testo disordinati sono una delle maggiori perdite di tempo nel lavoro con i dati

Ricevi un'esportazione di dati da un database clienti. Metà dei nomi hanno spazi extra. Alcuni indirizzi email hanno caratteri accidentali. I numeri di telefono sono in cinque formati diversi. Gli indirizzi hanno maiuscole/minuscole incoerenti. Prima di poter utilizzare questi dati per qualsiasi cosa - campagne email, analisi, importazioni - devono essere puliti. Questa guida copre i metodi più efficaci e gli strumenti gratuiti per pulire i dati di testo.

I problemi più comuni dei dati di testo

  • Spazi bianchi extra: Spazi iniziali, spazi finali, doppi spazi tra le parole
  • Maiuscole/minuscole incoerenti: MAIUSCOLO, minuscolo, Iniziali Maiuscole misti nello stesso campo
  • Caratteri speciali: Simboli inaspettati, entità HTML (&  ), caratteri invisibili
  • Problemi di codifica: Caratteri che appaiono come ’ o á invece di ' o á - causati da mancata corrispondenza del set di caratteri
  • Voci duplicate: Lo stesso valore che appare più volte
  • Formati incoerenti: Numeri di telefono, date e identificatori in formati multipli
  • Incoerenze di interruzione di riga: Terminazioni di riga miste Windows (CRLF), Mac (CR) e Unix (LF)

Strumenti online gratuiti per la pulizia dei dati di testo

  • Strumenti di testo di iloveimg: Rimuovi spazi extra, converti maiuscole/minuscole, rimuovi righe duplicate, codifica/decodifica testo e altro - tutto nel tuo browser
  • TextMechanic.com: Raccolta completa di strumenti di manipolazione del testo inclusi trova-sostituisci, ordinamento e formattazione
  • CyberChef: Potente strumento di trasformazione dati di GCHQ - combina più operazioni insieme per flussi di lavoro di pulizia complessi
  • Regex101.com: Testa e costruisci espressioni regolari per la pulizia basata su pattern

Pulire i dati di testo in Excel

Excel ha diverse funzioni utili per la pulizia del testo:

  • =TRIM(A1) - rimuove spazi iniziali, finali e doppi
  • =CLEAN(A1) - rimuove caratteri non stampabili
  • =UPPER(A1), =LOWER(A1), =PROPER(A1) - conversione maiuscole/minuscole
  • =SUBSTITUTE(A1, CHAR(160), " ") - sostituisce gli spazi unificatori con spazi regolari
  • Combina con =TRIM(CLEAN(SUBSTITUTE(A1, CHAR(160), " "))) per una pulizia approfondita in una sola formula

Pulire i dati di testo con Python

Per grandi set di dati, Python con pandas è l'approccio più efficiente:

  • df['column'].str.strip() - rimuove spazi iniziali e finali
  • df['column'].str.lower() - converte in minuscolo
  • df['column'].str.replace(r'\s+', ' ', regex=True) - comprime spazi multipli
  • df['column'].str.replace(r'[^\w\s]', '', regex=True) - rimuove caratteri speciali
  • df.drop_duplicates(subset=['column']) - rimuove righe duplicate
  • La libreria ftfy corregge automaticamente i problemi di codifica

Correggere i problemi di codifica nei dati di testo

La corruzione della codifica (che appare come ’ invece di ') è solitamente causata dalla lettura di un file UTF-8 come Latin-1 o viceversa. Correzioni comuni:

  • In Python: text.encode('latin-1').decode('utf-8') per il comune pattern mojibake
  • Apri il file in un editor di testo, specifica la codifica corretta all'apertura, poi salva come UTF-8
  • In Excel: usa Dati → Da testo/CSV con selezione esplicita della codifica durante l'importazione
  • La libreria Python ftfy rileva e corregge automaticamente la maggior parte delle corruzioni di codifica comuni

Costruire un flusso di lavoro di pulizia del testo

Per una pulizia dei dati ripetibile, crea una checklist standard:

  • Rimuovi spazi iniziali e finali
  • Comprimi spazi interni multipli in spazi singoli
  • Standardizza maiuscole/minuscole (coerente tra tutti i record nel campo)
  • Rimuovi o sostituisci caratteri speciali non appropriati per il tipo di dato
  • Correggi problemi di codifica
  • Standardizza formati (date, numeri di telefono, codici postali)
  • Rimuovi duplicati
  • Convalida rispetto a formati attesi o intervalli di valori

Conclusione

La pulizia dei dati di testo è un'abilità fondamentale per chiunque lavori con i dati. Per attività di pulizia rapide e una tantum, strumenti online gratuiti come iloveimg gestiscono i problemi più comuni istantaneamente. Per una pulizia ripetibile o su larga scala, le formule di Excel o gli script Python forniscono soluzioni efficienti e automatizzabili. La chiave è costruire un flusso di lavoro standard piuttosto che affrontare ogni set di dati disordinato come un problema unico - la maggior parte dei problemi dei dati di testo si ripetono in modo prevedibile tra i vari set di dati.

Try Regex Tester - Free

Test and debug regular expressions visually.

Try it free