Online ocr

Text aus PDF und Bildern auslesen

Bei PDFs gilt es zuerst herauszufinden, ob Text markiert werden kann. Ist dies nämlich der Fall, lässt sich der Text ganz einfach mit Copy&Paste entnehmen und anderswo einsetzen und bearbeiten; sofern kein Kopierschutz vorhanden ist.

Handelt es sich aber beispielsweise um einen gescannten Text oder um ein Bild mit Text, muss der enthaltene Text mit einer OCR-Software (optical character recognition) extrahiert werden.

Mittlerweile gibt es solche Tools auch online, wo man das PDF hochladen und den Text auslesen lassen kann.

Mit dem Free Online OCR lassen sich neben PDFs auch andere Dateiformate wir JPEG, PNG, GIF, BMP oder TIFF auslesen. Zuerst lädt man die Datei hoch, wählt anschliessend die Zielsprache und grenzt den auszulesenden Bereich ein. Schliesslich führt ein Klick auf den Button „OCR“ zum Extrahieren des Textes, der dann gleich unten in einem Fenster angezeigt wird. Und von da geht es dann wieder mit Copy&Paste weiter.

Eine Alternative ist Free OCR API and Online OCR, wobei hier ein Limit für die Dateigrösse (5MB) gilt. Auch beim KOSTENLOSEN ONLINE OCR SERVICE gibt es eine Begrenzung: 15 MB.

Wer das Office-Paket von Microsoft nutzt, braucht keine weitere Software, um Text aus PDFs auszulesen. Hier kommt OneNote zum Einsatz. Ist das PDF als Ausdruck nach OneNote übertragen, gelangt man über das Kontext-Menü zum Auslesen des Textes. Wobei hier nicht wie beim Free Online OCR ein eingegrenzter Bereich bestimmt werden kann.

Durchgeknallte Algorithmen 

Carl Gustav Jung sagte einmal sinngemäss, in jedem normalen Menschen schlummere ein wahnsinniger. Der Wahnsinn ist quasi ein nicht auszuschliessender Zustand unserer neuronalen Apparatur – technisch ausgedrückt: ein Defekt oder „Bug“ im System. Jungs Aussage lässt sich genereller so formulieren: Jedes funktionierende System hat sein Nicht-Funktionieren, möglicherweise seinen Kollaps, eingebaut.

Digitale Literatur

Googles Creative Lab in Sydney gründete 2016 zusammen mit dem Visual Editions Verlag in London den Online-Shop Editions at Play für Bücher, die nicht gedruckt werden können. Sie erforschen in diesem Projekt neue Möglichkeiten eines Buchs, das von der Dynamik und Magie des Internets getrieben ist und deshalb nicht ins Analoge übertragen werden kann. Multimedial angereicherte (enhanced) E-Books  sind mehr als Text. Digitale Geschichten bieten andere Möglichkeiten des Erzählens, sie haben dynamische Qualitäten: «For instance books which are written for the web can be: data-led, locative, generative, algorithmic, sensor-based, fluid, non-linear, expandable, cookie-ish, personalised, proximal, augmented, real-time, time-sensitive, adaptive, collaborative, and share-y.» (Editions at Play: About us)     Youtube: Editions at Play   Editions at Play sucht neue Wege, das Buch der Zukunft zu erforschen und möchte reizvolle und überraschende Leseerlebnisse schaffen. Solche Bücher wollen mehr sein als nur digitalisiert, mehr als nur Text. Sie können Elemente enthalten wie Bildergalerien, Videos, Links, Karten, 3D-Modelle oder HTML-Widgets. Sie beziehen die Umgebung des Lesers mit ein und entwickeln damit neue Lesekontexte. Im Roman A Universe Explodes wird die Blockchain für die Veröffentlichung genutzt, um ein digitales Buch in limitierter Auflage zu schaffen und gemeinsam zu besitzen. Das Buch soll durch die Besitzer umgeschrieben und erweitert werden, es verändert sich also dynamisch über das Internet.   In Entrances and Exits wird eine Liebesgeschichte in der Google Street View Umgebung erzählt. Der Erzähler findet einen geheimnisvollen Schlüssel, mit dem er Türen auf der ganzen Welt öffnen und schliessen kann.  Dem Roadtrip The Shape of Clouds liegt eine Zusammenarbeit mit Mercedes Benz zugrunde. Der Leser nimmt die dynamische Perspektive des Fahrers ein, die Schauplätze passen sich seiner realen Umgebung, seiner Zeit und seinem Ort an. Die Geschichte verändert sich mit dem Standort des Lesers. Erzählt werden auch Geschichten, für die es nicht den einen richtigen Weg der Lektüre gibt. In The Truth About Cats & Dogs kann der Leser zwischen den Tagebüchern und Gedichten der Co-Autoren beliebig hin- und herwechseln. Die Bücher sind webbasiert und werden von einem mobilen Publikum im Browser oder auf dem Tablet  gelesen. E-Reader sind dafür ungeeignet. Zum Lesen und Kaufen muss man sich mit einem Google Account einloggen. Das Bücherregal Googles Bücherregal Our Books enthält momentan 8 Bücher mit Lesezeiten zwischen 20 und 300 Minuten. Die Bücher können kostenlos angelesen werden, müssen für die Restlektüre aber meist gekauft werden: Breathe von Kate Pullinger: The book that comes to you. 20 Minuten Lesezeit.   Seed von Joanna Walsh: The story that blooms, wilts, and grows. 300 Min.  STRATA von Tommy Lee Edwards & I Speak Machine: The book that constructs a world. 180 Min. The Shape of Clouds von Gianrico Carofiglio: The book that drives. 20 Min. A Universe Explodes von Tea Uglow: The book that is passed on. 30 Min. The Truth About Cats & Dogs von Sam Riviere and Joe Dunthorne:  The book that takes sides. 30 Min. 4.43 CHF. Entrances & Exits von Reif Larsen: The book that travels the world. Eine in Google Street View eingebettete Liebesgeschichte. 60 Min. 4.43 CHF. All This Rotting von Alan Trotter: The book that loses its memory. 30 Min. 4.43 CHF.   Beispiele Beispiel 1: A Universe Explodes von Tea Uglow Autorin ist die Kreativdirektorin des Google Creative Lab in Sydney. Dies ist ein digitales Buch in limitierter Auflage. Jeder kann das Buch zwar lesen, aber nur 100 können das Buch besitzen. Diese müssen auf jeder Seite ein Wort hinzufügen und zwei Wörter löschen, bevor sie ihre Version an 100 Leser weitergeben. Dank der Blockchain lassen sich die Änderungen jedes Nutzers nachvolliehen.  Der Leser kann so auswählen, welchen Text der 100 Versionen er sich ansehen möchte, und er kann jede Seite auch mit dem Textoriginal vergleichen und sehen, was andere mit der Geschichte gemacht haben. Youtube: A Universe Explodes   Beispiel 2: Breathe von Kate Pullinger Eine personalisierte Geistergeschichte über Floh, eine junge Frau, die mit dem Geist ihrer Mutter spricht. Wenn man auf dem Smartphone oder Tablet vor dem Beginn der Lektüre den Standort und die Kamera aktiviert, passt sich die Geschichte der Umgebung des Lesers an und bezieht Ort, Wetter und Zeit mit ein, was die unheimliche Erfahrung verstärkt. Die digitale und die reale Welt kommen im Buch zusammen. Breathe from DCRC on Vimeo.   Fazit Spannende Ansätze zur Zukunft des digitalen Publizierens. Neue Möglichkeiten des Lesens: mehr Spontaneität, mehr Interaktivität. Die Linearität des Lesens wird aufgebrochen. Neue Leseerlebnisse und Setti

Quelle: Digitale Literatur

Lust und Frust mit ICT im Unterricht und andere Kinkerlitzchen