Registrering og sortering af uformaterede data

root66 · Post by **root66** » 23. Sep 2010 09:09

Jeg får ofte store mængder data fra andre, som skal registreres og sorteres.

Det er ikke formateret på nogen måde, så man kan bruge det direkte i database eller regneark.

"Formatet" er følgende:

kundeemnenavn
kundeemnetype
adresse
postnummer og by
telefonnummer

kundeemnenavn
kundeemnetype
adresse
postnummer og by
telefonnummer

(Der er ikke komma, semikolon, tabulator eller andre kolonne- eller celle-separeringer)

Andre gange er "formatet" anderledes, for eksempel

kundeemnenavn
adresse
postnummer
by
telefonnummer

Forskellige mennesker som sender data i flere forskellige formater, dog alle uden formatering.

Hvordan får jeg styr på alle disse data?

MVH root66

root66 · Post by **root66** » 28. Sep 2010 08:42

root66 wrote:Jeg får ofte store mængder data fra andre, som skal registreres og sorteres.

Det er ikke formateret på nogen måde, så man kan bruge det direkte i database eller regneark.

"Formatet" er følgende:
kundeemnenavn
kundeemnetype
adresse
postnummer og by
telefonnummer

kundeemnenavn
kundeemnetype
adresse
postnummer og by
telefonnummer
(Der er ikke komma, semikolon, tabulator eller andre kolonne- eller celle-separeringer)

Andre gange er "formatet" anderledes, for eksempel

kundeemnenavn
adresse
postnummer
by
telefonnummer
Forskellige mennesker som sender data i flere forskellige formater, dog alle uden formatering.

Hvordan får jeg styr på alle disse data?

MVH root66

Er opgaven for svær?
Mon der findes et andet sted på nettet hvor ekspertisen findes?

keme · Post by **keme** » 28. Sep 2010 10:14

Muligheden for automatiseret strukturering styres av hvor regelmæsigt rådataene er sat op. Det er godt mulig at den bedste løsning er, at du strukturerer dine data manuelt. Vurder arbejdsmengden i at skabe (herunder teste) et automatisk system, op imod arbejdsmengden ved manuell strukturering. Forsøg om CSVed er til nogen hjælp.

For at data skal struktureres maskinelt, skal det være regler for hvilke data som er hvor. Ud fra de givne eksempler kan nogen regler formuleres:

Hvert enkelt element er opgivet på en linje for sig selv, med undtag for postnummer og by.
Hver gruppe er adskilt med en blank linje.
Første linje i en gruppe indeholder kundeemnenavn
siste linje indeholder telefonnummer

Nogen av reglene herover er måske ufullstendige, og vil give fejl. Uden at kænde til det hele udvalg mulige formater, kan man heller ikke lave et fulstændigt regelsæt. Et sådant regelsæt vil også blive meget mere omfattende, end listen herover.

Om det findes lister over mulige verdier (som f.eks. postnummerlister som begrænser mulige bynavne og postnummer), kan opslag mod disse bruges til at identificere by/postnummer. Dette er den simpleste form for analyse, man kan kalle det "lexikal analyse".

Om man ved at postnummer altid er efter adresse og før telefonnummer, har man avgrænset de mulige datafelter. Dette er et element i "syntaksanalyse", som ofte er noget mer kompliceret end den rent lexikale analyse, men som også reducerer fejl.

On data findes som "fri tekst", skal man gøre en "semantisk analyse". Da skal det mennesker til (eller måske ...).

root66 · Post by **root66** » 28. Sep 2010 10:30

Att. keme: Tak for dit svar.

Jeg vil gerne illustrerer et af de mest benyttede dataformater jeg får (Alle disse tabulator og lineskift er med når jeg får data og telefonnummer er som du kan se 2 gange lige efter hinanden):

TV 2 BIB A/S
- Radio- og TV-stationer

Rugårdsvej 25
5000 Odense C

Tel. 70 11 90 00 70 11 90 00

TV 2 DANMARK A/S
- Radio- og TV-stationer

Rugårdsvej 25
5100 Odense

Tel. 65 91 91 91 65 91 91 91

Tv 2 Lorry
- Radio- og TV-stationer

Allégade 7
2000 Frederiksberg

Tel. 38 38 55 55 38 38 55 55

Tv 2 World A/S
- Ukendt kategori

Rugårdsvej 25
5000 Odense C

Tel. 65 21 22 23 65 21 22 23

Dansk LibreOffice Forum

Registrering og sortering af uformaterede data

Registrering og sortering af uformaterede data

Re: Registrering og sortering af uformaterede data

Dataformat