Muligheden for automatiseret strukturering styres av hvor regelmæsigt rådataene er sat op. Det er godt mulig at den bedste løsning er, at du strukturerer dine data manuelt. Vurder arbejdsmengden i at skabe (herunder teste) et automatisk system, op imod arbejdsmengden ved manuell strukturering. Forsøg om
CSVed er til nogen hjælp.
For at data skal struktureres maskinelt, skal det være regler for hvilke data som er hvor. Ud fra de givne eksempler kan nogen regler formuleres:
- Hvert enkelt element er opgivet på en linje for sig selv, med undtag for postnummer og by.
- Hver gruppe er adskilt med en blank linje.
- Første linje i en gruppe indeholder kundeemnenavn
- siste linje indeholder telefonnummer
Nogen av reglene herover er måske ufullstendige, og vil give fejl. Uden at kænde til det hele udvalg mulige formater, kan man heller ikke lave et fulstændigt regelsæt. Et sådant regelsæt vil også blive meget mere omfattende, end listen herover.
Om det findes lister over mulige verdier (som f.eks. postnummerlister som begrænser mulige bynavne og postnummer), kan opslag mod disse bruges til at identificere by/postnummer. Dette er den simpleste form for analyse, man kan kalle det "lexikal analyse".
Om man ved at postnummer altid er efter adresse og før telefonnummer, har man avgrænset de mulige datafelter. Dette er et element i "syntaksanalyse", som ofte er noget mer kompliceret end den rent lexikale analyse, men som også reducerer fejl.
On data findes som "fri tekst", skal man gøre en "semantisk analyse". Da skal det mennesker til (
eller måske ...).