Navigation:  DPS Diagnoseliste - Ekstern anvendelse >

Tekstbaserede datafiler

Previous pageReturn to chapter overviewNext page

Generelt om tekstbaserede datafiler

Separerede tekstdatafiler - opbygning

Databaser i dette format ligger som navnet antyder i ren tekstformat, og kan som sådan også (men mindre egnet) læses af selv simple tekstbehandlere.

Hver datapost (record) er defineret som een linje afsluttet med linjeskift (ANSI tegn #13#10)*.

Datafelterne i hver linje adskilles indbyrdes af en feltseparator (eng.: delimiter eller separator), der oftest vil være et (usynligt) tabulator-tegn (ANSI tegn #9), semikolon ( ; ), komma ( , ) eller pipe-tegnet ( | ). Hvis der anvendes komma som separator, vil man kunne se betegnelsen Comma Separated Value (CSV) File.

Hvis feltseparatoren er semikolon eller komma vil man omgive data i hvert datafelt med en tekstafgrænser (eng.: text qualifier eller quote character) som f.eks. dobbelt anførselstegn ( "tekst1";"tekst2";"etc." ) for at kunne adskille semikolon eller komma indeholdt i data fra den funktionelle feltseparator.
Denne tekstafgrænser kan evt. være begrænset til kun at blive anvendt på dataværdier, der i sig selv indeholder separatortegnet, afgrænsertegnet, mellemrum, komma ell. lign.

Programmer vil i kraft af en veldefineret feltseparator kunne læse datafelter af varierende bredde og vil dermed heller ikke have problemer med evt. ændret datamængde indenfor de enkelte kolonner (modsat fastbredde tabeller).

*) Linjeskift-syntaksen er lidt forskellig afhængig af operativsystemet:

PC:          ANSI #13#10        (DOS, Windows & OS/2)
UNIX:        ANSI #10            (UNIX- & Linux-varianter)
Mac:        ANSI #13            (Apple MacIntosh præ-Unix)
Mac:        ANSI #10            (Apple MacIntosh Unix-baserede)

ANSI #13 =Carriage Return (CR)
ANSI #10 =Line Feed (LF)

 

 Fordele, brug under andre systemer

Simpel opbygning.

Kan datahåndteres af stort set ethvert program, der kan modtage data, såsom tekstbehandlere (MS Word, WordPerfect, Word Pro, m.fl.), regneark (MS Excel, Quattro Pro, Lotus 1-2-3, m.fl.), databaser (MS Access, Paradox, Oracle, Sybase, InterBase, DB2, Approach, FileMaker Pro, m.fl.) og statistikprogrammer (SPSS, Stata, m.fl.).

Kan anvendes også under helt andre systemer inklusiv i håndholdte organizers - se Listens brug i tekstbehandler m.v.

Enkelt at designe simple specialprogrammer til datahåndtering.

Er ikke bundet op af specifikke dataformat-versioner og vil grundlæggende kunne læses langt ud i fremtiden.

 

 Ulemper

Datafelter med omfangsrig tekst kan ikke indeholde linjeskift (som ANSI-tegn #13#10 ell. tilsvarende) (selvom feltet i dataprogrammet godt kan håndteres med flydende linjeombrydning) og tekstindholdet kan heller ikke indeholde tabuleringer (som ANSI-tegn #9).
Linieombrydning vil dog kunne lagres i enkelt-liniede poster, hvis ombrydningen kodes med almindelige tekst-karakterer som en veldefineret tegn-kombination, f.eks. som i HTML/XHTML, hvor koden for linieombrydning er tegnkombinationen <br>.

Datafiler kan ikke indeholde billeder.

Datafiler kan ikke password-beskyttes.

Fastbredde tekstdatafiler

I enkelte tilfælde ses tekstdatafiler defineret uden feltseparator, hvor hvert datafelt til gengæld fra kolonne til kolonne defineres ved et fast antal tegn, der derved dels noget upraktisk sætter en fast øvre grænse for feltets tekstlængde, dels kræver at feltet indeholder det specifikke antal tegn, som herved ofte må tilføjes i form af en pladskrævende række informationsløse mellemrumstegn.
En anden ulempe ved denne opbygning er, at feltbredden ikke ligger angivet i datafilen og programmer derved ikke længere vil kunne læse et datasæt korrekt, hvis feltbredden er ændret for en eller flere af tabellens kolonner.

Af de nævnte grunde bruges denne form for tekstdatabase sjældent.

Formatet findes under forskellige betegnelser som: System Data Format (SDF), Fixed Width ASCII text, m.v.

Tegnsæt anvendt i tekstfiler

Det anvendte tegnsæt i tekstfiler vil normalt være bestemt af den regionalt definerede tegnsætskode - f.eks. Windows-1252 (Western), der for anvendelse i vesteuropæisk og amerikansk sammenhæng definerer f.eks. tegn nummer 216 er et 'Ø' og tegn nummer 248 er et 'ø'. Windows-1252 specifikationen inkl. €-tegnet har været anvendt siden 1998.
Ved Unicode eller UTF-8 kodede text-filer, vil tegnsættet fremgå af filen uanset lokal systemopsætning.

___________________________________________________  

Online hjælp 13. januar 2024  -  DPS Diagnoseliste program  -  © 1999 - 2024 Niels Knabe