Google bliver stadig bedre: Indekserer nu scannede dokumenter!
For bare lidt over en måned siden annoncerede Google af de kunne indeksere lyd med GAudi (Google Audio Indexing).
Nu har Google så annonceret at de har udvidet deres søgemuligheder endnu engang. Denne gang handler det om scannede dokumenter i PDF-format.
Man har i noget tid kunnet finde resultater i Google som bestod af PDF-filer, og det kan man stadigvæk. Men før i tiden var det kun PDF-filer som var skrevet på en computer der kunne læses, da det jo var ”rigtig” digital tekst som stod i dem.
Med en ny metode kaldet Optical character recognition (OCR), kan Google ny tyde de tegn som er skrevet ind via et scannet dokument. Når man scanner et dokument ind, bliver den skrevne tekst jo ikke gemt som digital tekst, men derimod som et billede. Derfor har Googles robotter stort besvær med at tyde disse billeder, og fiske noget brugbart tekst ud af dem.
Men det er lykkedes nu vha. OCR, og det må siges, endnu engang, at give nye muligheder. For folk har i lang tid scannet dokumenter ind og lagt på nettet, men først nu kan de altså blive fundet i søgeresultaterne.
Se et par eksempler på at det rent faktisk virker herunder:
repairing aluminum wiring
spin lock performance
Jeg har lånt eksemplerne fra Google blog, men prøv at se de resultater som kommer op I søgeresultaterne. Hvis du klikker på de PDF-resultater som kommer frem, kan du nemt se at det er et scannet dokument og ikke et som er skrevet direkte i Acrobat eller Word. Du kan også vælge at se dokumentet som HTML, og her kan vi virkelig se at Google får fisket de rigtige ord ud, da de er markeret med forskellige farver.
Det er sku da imponerende er det ik? 😀
Må indrømme at de imponerer sgu mig hver gang, men
Johnny Krogsgård | 31. oktober 2008 | 12:42Må indrømme at de imponerer sgu mig hver gang, men samtidigt er det første jeg tænker “BIGBROTHER”. Jeg kan ikke gennemskue om jeg har nogen grund til at tænke det, men det er altså hvad jeg tænker 🙂
Hehe, ja BigBrother kan man godt få sine tanker hen
Kim Andersen | 31. oktober 2008 | 21:29Hehe, ja BigBrother kan man godt få sine tanker hen på når vi snakker om Google. Men samtidig kan vi jo ikke leve uden 😀