Microsoft Edge maakt gebruik van Windows 11 OCR voor het extraheren van tekst uit gescande PDF’s en afbeeldingen

2024/12/12

Microsoft Edge wordt voortdurend verbeterd en we hebben een intrigerende nieuwe functionaliteit ontdekt die momenteel intern wordt geëvalueerd. Deze functie staat bekend als “OCR voor PDF”. Wanneer gebruikers momenteel een gescand PDF-document openen, dat voornamelijk uit afbeeldingen bestaat, kunnen ze geen tekst selecteren, kopiëren of zoeken.

Deze beperking brengt uitdagingen met zich mee bij het proberen om tekst uit gescande materialen te halen, waardoor veel gebruikers hun toevlucht nemen tot interne tools voor tekstextractie, of vertrouwen op onbetrouwbare online services die “tekst uit gescande PDF extraheren”-mogelijkheden bieden. Gelukkig lijkt het erop dat dit gedoe binnenkort kan worden opgelost, aangezien Windows Latest heeft gerapporteerd over een experimentele functie in Edge die OCR integreert in de PDF-lezer.

Voor degenen die er misschien niet bekend mee zijn, OCR staat voor Optical Character Recognition. In hun observaties identificeerde Windows Latest een vlag in Microsoft Edge met het label “msPdfWindowsOcrCoverage”, wat suggereert dat er mogelijk een ingebouwde OCR-engine kan worden gebruikt om tekst uit afbeeldingen op te halen.

Deze ontwikkeling maakt gebruik van de OCR-functionaliteit die bij Windows 10 werd geleverd, ook onderdeel van het Universal Windows Platform (UWP), waardoor toepassingen tekst- en lay-outinformatie uit Windows 10 en latere versies kunnen extraheren.

Hoewel Microsoft de integratie van Windows OCR in de PDF-lezer van Microsoft Edge nog moet bevestigen, hebben bronnen aangegeven dat de OCR-technologie in Windows 11 zeer goed is in het herkennen van tekst in verschillende afbeeldingstypen.

Deze afbeeldingen omvatten niet alleen ‘gescande documenten (.pdf)’, maar ook standaardfoto’s.

Bovendien werkt de OCR-functie in Windows 11 native op uw apparaat, wat betekent dat het uw gegevens niet naar Microsoft verzendt en ook geen internetverbinding nodig heeft om te functioneren. Deze functie ondersteunt ook tot 25 verschillende talen.

Veel populaire applicaties, zoals Word, OneNote, Bing en OneDrive, maken al jaren gebruik van de Windows OCR API. Nu is deze eindelijk beschikbaar in Microsoft Edge.

De bedoeling lijkt te zijn om het nut van PDF-documenten te vergroten door gebruikers in staat te stellen eenvoudig tekst te kopiëren en de toegankelijkheid te verbeteren. Omdat dit nog een experimentele functie is, aangegeven door de status als een vlag, is het mogelijk nog niet volledig functioneel voor alle gebruikers. Om het uit te testen, kunt u de vlag vinden in Edge-instellingen op edge://flags, deze inschakelen en vervolgens de browser opnieuw opstarten.

Dit zou de mogelijkheden van Edge voor het beheren van niet-doorzoekbare PDF’s aanzienlijk kunnen verbeteren.

Hoewel we nog geen specifieke tijdlijn hebben voor wanneer PDF OCR-ondersteuning in Microsoft Edge wordt uitgerold, is dit zeker niet de enige interessante verbetering die op komst is voor de browser.

Edge compose box vergelijking in webui 2.0

Volgens eerdere rapporten van Windows Latest richt Microsoft zich ook op het verbeteren van de prestatiesnelheid van de Edge-browser. Inzichten suggereren dat er verbeteringen op komst zijn voor het downloadmenu, het extensiemenu, het tabblad geschiedenis, het menu met drie stippen en zelfs het rechtsklikmenu dat bekendstaat als “Ask Copilot”, die allemaal beloven aanzienlijk sneller te zijn.

Geef een reactie Reactie annuleren