Repérer les doublons
- 1 Sélectionnez la variable dont vous souhaitez repérer et/ou supprimer les éventuels doublons, (vous pouvez également sélectionner plusieurs variables : par exemple « email » et « nom » si l’on considère que plusieurs personnes peuvent avoir la même adresse email)
- 2 Choisissez le type d’action à effectuer, Repérer les doublons ou Supprimer les doublons,
- 3 Déterminer la position des doublons trouvés.
Si vous avez choisi de déterminer la position des doublons par rapport à l’ordre d’enregistrement des observations, une variable IDEM sera créée, dans laquelle apparaîtra le numéro de la première observation identique par rapport à la variable sélectionnée. Une deuxième variable POSITION vous indiquera « l’état » de chaque observation. Cette variable a quatre valeurs possibles :
- Unique : signifie que l’observation ne possède aucun doublon
- Mini : signifie que l’observation est la première observation d’une liste de doublons
- Inter : l’observation est un doublon intermédiaire de la liste de doublons
- Maxi : l’observation est la dernière observation d’une liste de doublons
A noter que vous pouvez lister les doublons soit par l’ordre d’enregistrement des observations (pour trois doublons, l’observation qui contiendra la modalité MINI sera donc celle ayant été enregistrée en premier) soit par la valeur d’une variable à sélectionner, par exemple la variable CLE, ainsi les doublons seront classés selon la valeur de cette variable.
Supprimer les doublons
Dans notre exemple, nous souhaitons démarrer une phase d’e-mailing. Cependant, il est possible que notre jeu de données contienne plusieurs fois la même adresse e-mail ce qui engendrerait plusieurs envois à la même personne. Afin d’éviter cela, nous allons supprimer tous les doublons sur la variable email afin de s’assurer que notre jeu de données contient une seule fois chaque email, et ainsi que chaque personne soit consultée une seule fois.
Dans le cas de deux doublons, il est possible soit de conserver la première réponse (Mini), soit la dernière (Maxi) lors de la suppression des doublons. Lorsque vous cliquez sur ok, cela générera un nouveau fichier .sphx afin de ne pas écraser vos données actuelles. Dans le cas ou il existe au moins trois doublons (le même email est par exemple présent trois fois dans la base de données), alors il est nécessaire de supprimer toutes les observations mentionnées comme « Inter » et de supprimer l’observation « Mini » ou « Maxi ».