Registrering og sortering af uformaterede data

Brugerhjælp og support til databaser i LibreOffice Base

Moderator: Lodahl

Post Reply
root66
Posts: 9
Joined: 19. Sep 2010 15:44

Registrering og sortering af uformaterede data

Post by root66 »

Jeg får ofte store mængder data fra andre, som skal registreres og sorteres.

Det er ikke formateret på nogen måde, så man kan bruge det direkte i database eller regneark.

"Formatet" er følgende:
kundeemnenavn
kundeemnetype
adresse
postnummer og by
telefonnummer

kundeemnenavn
kundeemnetype
adresse
postnummer og by
telefonnummer
(Der er ikke komma, semikolon, tabulator eller andre kolonne- eller celle-separeringer)

Andre gange er "formatet" anderledes, for eksempel
kundeemnenavn
adresse
postnummer
by
telefonnummer
Forskellige mennesker som sender data i flere forskellige formater, dog alle uden formatering.

Hvordan får jeg styr på alle disse data?

MVH root66 :?
MVH root66
root66
Posts: 9
Joined: 19. Sep 2010 15:44

Re: Registrering og sortering af uformaterede data

Post by root66 »

root66 wrote:Jeg får ofte store mængder data fra andre, som skal registreres og sorteres.

Det er ikke formateret på nogen måde, så man kan bruge det direkte i database eller regneark.

"Formatet" er følgende:
kundeemnenavn
kundeemnetype
adresse
postnummer og by
telefonnummer

kundeemnenavn
kundeemnetype
adresse
postnummer og by
telefonnummer
(Der er ikke komma, semikolon, tabulator eller andre kolonne- eller celle-separeringer)

Andre gange er "formatet" anderledes, for eksempel
kundeemnenavn
adresse
postnummer
by
telefonnummer
Forskellige mennesker som sender data i flere forskellige formater, dog alle uden formatering.

Hvordan får jeg styr på alle disse data?

MVH root66 :?
Er opgaven for svær?
Mon der findes et andet sted på nettet hvor ekspertisen findes?
MVH root66
keme
Posts: 56
Joined: 7. Jul 2010 14:23
Location: Egersund, Norge

Post by keme »

Muligheden for automatiseret strukturering styres av hvor regelmæsigt rådataene er sat op. Det er godt mulig at den bedste løsning er, at du strukturerer dine data manuelt. Vurder arbejdsmengden i at skabe (herunder teste) et automatisk system, op imod arbejdsmengden ved manuell strukturering. Forsøg om CSVed er til nogen hjælp.

For at data skal struktureres maskinelt, skal det være regler for hvilke data som er hvor. Ud fra de givne eksempler kan nogen regler formuleres:
  • Hvert enkelt element er opgivet på en linje for sig selv, med undtag for postnummer og by.
  • Hver gruppe er adskilt med en blank linje.
  • Første linje i en gruppe indeholder kundeemnenavn
  • siste linje indeholder telefonnummer
Nogen av reglene herover er måske ufullstendige, og vil give fejl. Uden at kænde til det hele udvalg mulige formater, kan man heller ikke lave et fulstændigt regelsæt. Et sådant regelsæt vil også blive meget mere omfattende, end listen herover.

Om det findes lister over mulige verdier (som f.eks. postnummerlister som begrænser mulige bynavne og postnummer), kan opslag mod disse bruges til at identificere by/postnummer. Dette er den simpleste form for analyse, man kan kalle det "lexikal analyse".

Om man ved at postnummer altid er efter adresse og før telefonnummer, har man avgrænset de mulige datafelter. Dette er et element i "syntaksanalyse", som ofte er noget mer kompliceret end den rent lexikale analyse, men som også reducerer fejl.

On data findes som "fri tekst", skal man gøre en "semantisk analyse". Da skal det mennesker til (eller måske ...).
root66
Posts: 9
Joined: 19. Sep 2010 15:44

Dataformat

Post by root66 »

Att. keme: Tak for dit svar.

Jeg vil gerne illustrerer et af de mest benyttede dataformater jeg får (Alle disse tabulator og lineskift er med når jeg får data og telefonnummer er som du kan se 2 gange lige efter hinanden):


TV 2 BIB A/S
- Radio- og TV-stationer

Rugårdsvej 25
5000 Odense C

Tel. 70 11 90 00 70 11 90 00















TV 2 DANMARK A/S
- Radio- og TV-stationer

Rugårdsvej 25
5100 Odense

Tel. 65 91 91 91 65 91 91 91
















Tv 2 Lorry
- Radio- og TV-stationer

Allégade 7
2000 Frederiksberg

Tel. 38 38 55 55 38 38 55 55
















Tv 2 World A/S
- Ukendt kategori

Rugårdsvej 25
5000 Odense C

Tel. 65 21 22 23 65 21 22 23
MVH root66
Post Reply