Categorie
Automazione Excel

Individuare i duplicati in un foglio Excel di grandi dimensioni

Lidentificazione dei duplicati in fogli di lavoro Excel di grandi dimensioni può rappresentare una sfida. In primo luogo, il numero elevato di righe di dati può rendere difficile lanalisi manuale.

Oltre a questo, le regole per identificare i duplicati possono essere difficili da gestire e soggette a cambiamenti, mentre le formule complesse possono essere difficili da codificare e da mantenere per lesecuzione ripetuta.

Un ulteriore problema è quello della rilevazione dei duplicati con record leggermente diversi ma riferiti alla stessa istanza (ad esempio, record che presentano diverse abbreviazioni o contenuto che differiscono di una virgola o di un carattere). Tale problema richiede la creazione di algoritmi di confronto flessibile che tenga conto del contesto e dei diversi tipi di differenze. I fogli di dati di grandi dimensioni hanno spesso centinaia o addirittura migliaia di righe che possono contenere dati duplicati. L’identificazione, la rimozione o l’aggregazione di tali dati può richiedere molto tempo.

Il problema principale dell’identificazione di duplicati in un foglio excel di grandi dimensioni è la dimensione del file. Quando l’istanza contiene decine di migliaia di righe, diventa difficile isolare i duplicati dalle righe uniche.

Per risolvere il problema dei duplicati in un foglio excel di grandi dimensioni, si consiglia di utilizzare una combinazione di strumenti di analisi perchè una verifica manuale di tutte le possibili combinazioni e corrispondenze può essere impegnativa se non impossibile.

Per risolvere questo problema, si può utilizzare la funzione CONTA.SE. CONTA.SE è una funzione che conta quante volte un determinato valore compare in un intervallo di celle specificato. Essa può essere utilizzata per contare quante volte un valore si ripropone in una tabella di dati. Per utilizzarla, basta inserire la formula: = CONTARE.A (intervallo, valore da cercare), dove intervallo è l’intervallo di celle (per esempio A1: A5) dove il valore da cercare è il valore che si desidera ricercare, come una parola, numero o cifra.

Vediamo con un esempio come si utilizza la funzione CONTA.SE per individuare duplicati.

Consideriamo il foglio seguente con un elenco degli accorpamenti dei comuni di Alessandria dove abbiamo inserito in modo casuale tre righe duplicate

Si tratta di sole 27 righe e già individuare i tre duplicati a colpo d’occhio non è semplice, eppure ci sono e si trovano esattamente nelle righe 11,19 e 24

Si procede quindi con il nominare una terza colonna ‘# occorrenze’ e ad inserire nella prima cella la formula CONTA.SE con intervallo tutta la colonna ‘DESCRIZIONE UNIONE’ e criterio il contenuto della prima cella della colonna.

La formula CONTA.SE in Excel è utilizzata per contare quante volte un valore è presente in un intervallo di celle specificato. Nel caso sopra, la formula CONTA.SE sta contando il numero di volte che un valore presente nella cella C2 è presente nel range di celle C2:C27.

Dando invio otteniamo il primo risultato nella colonna ‘# occorrenze’ e propagando a formula con il trascinamento fino alla ultima cella avremo questo risultato

Ora che tutte le righe hanno il numero di occorrenze impostiamo il filtro sulle intestazioni selezioniamo in corrispondenza della colonna ‘# occorrenze’ tutti i valori maggiori di 1 (nel nostro caso selezioniamo 2 perchè abbiamo inserito solo una volta i duplicati)

Dando OK otteniamo tutti i duplicati che possiamo ordinare sulla prima colonna per ottenere una visione immediata dei duplicati

Notiamo che se ordiniamo i risultati abbiamo una visualizzazione comoda ma perdiamo l’ informazione sul numero di riga dove è presente il duplicato.