Typer av data

Av Svein Hansen ( 20.01.2012 08:44 )

Det finnes en rekke måter å kategorisere data på. De er alle nyttige for å avklare databegrepet ytterligere:

Digitale og analoge data

  • Digitale data vil si data som er representert som heltall. For eksempel kan vanlige skrifttegn kodes som tall ved hjelp av standarder som Unicode eller dets forløpere ISO 8859-1 og ASCII. Data i moderne dataystemer er nesten alltid digitale.
  • Analoge data vil si data som varierer langs en trinnløs (eller kontinuerlig) skala. Analoge data var den vanlige datatypen i telefon, radio og TV før disse teknologiene gradvis ble digitalisert fra 1980-tallet og frem til i dag.

Binærdata

  • Binære data er digitale data som er representert i det binære tallsystem, dvs i form av biter eller av tallene "0" og "1".

Når vi snakker om "digitale data" tar vi det vanligvis for gitt at dataene er både digitale og binære, selv om digitale data strengt tatt kan representeres i andre tallsystem enn det binære.

Primære og sekundære data

  • Primære data er tilstedeværelsen av en forskjell, f eks trykksverte på et avisark som former et skrifttegn, elektrisk spenning i en kobberkabel som angir biten "1", den lysende oljevarsellampen i en bil eller en årring i en trestamme. Se også Floridis definisjon lenger oppe på siden.
  • Sekundære data er fraværet av en forskjell (som kanskje var forventet), f eks at samtalen vår ikke blir besvart når vi ringer en venn, at en lampe ikke begynner å lyse når vi slår den på, at skjermen på en mobiltelefon ikke gir respons når vi trykker på en tast eller at hunden i en kriminalroman ikke bjeffer på et bestemt punkt i fortellingen.

Siden Floridis definisjon kun dekker primærdata, kan vi definere sekundærdata slik:

  • x er ikke forskjellig fra y i en situasjon hvor vi forventer at x og y skal være forskjellige, der x og y er to variabler vi ikke tolker og der også relasjonen "er forskjellige fra" og domenet er åpent for tolkning.

Tamme og ville data

  • Tamdata er skapt av mennesker som med hensikt ønsker å overføre informasjon (kommunisere) til seg selv eller til andre mennesker. Vi sier at tamdata er intensjonelle fordi de er laget med en hensikt og at de har semantisk innhold fordi de overfører informasjon mellom mennesker. Eksempler er skrifttegnene som utgjør en avissartikkel og de digitale bitene som utgjør et program, regneark eller database.
  • Villdata er data som ikke skapt av mennesker i den hensikt å overføre informasjon. Eksempler er igjen årringene i et tre eller varsellampen som lyser når en bil snart er tom for olje. (Men når en forsker registrerer antallet årringer i et regneark eller en bileier registrerer varsellampen i bilens logg er registreringene i stedet blitt tamdata.)

Tamdata kan være representasjoner, mens villdata ikke er det. Tamdata kan altså representere villdata, men behøver ikke å gjøre det. Tamdata kan dessuten være språklige uttrykk, som ikke nødvendigvis må representere noe.

Vi kan skille mellom to typer villdata:

  • Naturlige villdata kommer fra naturen, slik som årringene i treet. Her har det ikke vært noen menneskelige intensjoner inne i bildet.
  • Kunstige villdata kommer fra menneskeskapte innretninger (eller mekanismer), slik som varsellampen i bilen. Her er innretningen skapt av mennesker med hensikt, men dataene er i sin tur laget av innretningen uten menneskelig kontroll.

Kunstige villdata grenser dermed mot tamdata som er laget ved hjelp av innretninger, som et tekstbehandlingsprogram. Tamdata skapes imidlertid mens innretningen er under kontroll av et menneske, mens kunstige villdata skapes av innretningen mens den er overlatt til seg selv. Vi kommer inn i en gråsone når tamdata i betydelig grad blir viderebehandlet av en datainnretning etter at de først er skapt av et menneske.

Av og til kan data som opprinnelig var tamdata også bli brukt som villdata, for eksempel når en stor tekstsamling blir brukt til analyse av ordforekomster eller når Google analyserer innholdet på internettet for å finne trender i ordhyppighet osv.

Sist oppdatert: 20.01.2012 08:45