Microsoft Edge wykorzystuje technologię OCR systemu Windows 11 do wyodrębniania tekstu z zeskanowanych plików PDF i obrazów

2024/12/12

Microsoft Edge jest stale udoskonalany i odkryliśmy intrygującą nową funkcjonalność, która jest obecnie oceniana wewnętrznie. Ta funkcja jest znana jako „OCR dla PDF”. Obecnie, gdy użytkownicy otwierają zeskanowany dokument PDF, który składa się głównie z obrazów, nie mogą wybierać, kopiować ani wyszukiwać tekstu w nim.

To ograniczenie stwarza wyzwania podczas próby wyodrębnienia tekstu z zeskanowanych materiałów, co sprawia, że wielu użytkowników ucieka się do wewnętrznych narzędzi do wyodrębniania tekstu lub polega na niepewnych usługach online, które oferują możliwości „wyodrębniania tekstu ze zeskanowanych plików PDF”. Na szczęście wydaje się, że ten problem może wkrótce zostać wyeliminowany, ponieważ Windows Latest poinformował o eksperymentalnej funkcji w Edge, która integruje OCR z czytnikiem PDF.

Dla tych, którzy mogą nie być zaznajomieni, OCR odnosi się do optycznego rozpoznawania znaków. W swoich obserwacjach Windows Latest zidentyfikował flagę w Microsoft Edge oznaczoną jako „msPdfWindowsOcrCoverage”, co sugeruje potencjalne użycie wbudowanego silnika OCR do pobierania tekstu z obrazów.

W tym rozwiązaniu wykorzystano funkcjonalność OCR dostępną w systemie Windows 10, który jest również częścią platformy UWP (Uniwersalnej platformy systemu Windows), umożliwiającą aplikacjom wyodrębnianie tekstu i informacji o układzie w systemie Windows 10 i nowszych wersjach.

Chociaż firma Microsoft nie potwierdziła jeszcze integracji funkcji Windows OCR z czytnikiem PDF w przeglądarce Microsoft Edge, źródła wskazują, że technologia OCR w systemie Windows 11 doskonale radzi sobie z rozpoznawaniem tekstu w różnych typach obrazów.

Obrazy te obejmują nie tylko „skanowane dokumenty (.pdf)”, ale także standardowe fotografie.

Ponadto funkcja OCR w systemie Windows 11 działa natywnie na Twoim urządzeniu, co oznacza, że nie przesyła Twoich danych do Microsoft, ani nie wymaga połączenia internetowego, aby działać. Ta funkcja obsługuje również do 25 różnych języków.

Wiele popularnych aplikacji, takich jak Word, OneNote, Bing i OneDrive, od lat korzysta z interfejsu API Windows OCR, a teraz w końcu trafia on do przeglądarki Microsoft Edge.

Wydaje się, że intencją jest zwiększenie użyteczności dokumentów PDF poprzez umożliwienie użytkownikom łatwego kopiowania tekstu i poprawę dostępności. Ponieważ jest to nadal funkcja eksperymentalna, wskazywana przez jej status flagi, może nie być jeszcze w pełni funkcjonalna dla wszystkich użytkowników. Aby ją przetestować, możesz zlokalizować flagę w ustawieniach Edge na edge://flags, włączyć ją, a następnie ponownie uruchomić przeglądarkę.

Może to znacznie zwiększyć możliwości przeglądarki Edge w zakresie zarządzania plikami PDF, których nie można przeszukiwać.

Chociaż nie znamy dokładnego terminu wprowadzenia obsługi PDF OCR w przeglądarce Microsoft Edge, to z pewnością nie jest to jedyne ekscytujące udoskonalenie, jakie pojawi się w tej przeglądarce.

Według poprzednich raportów Windows Latest, Microsoft koncentruje się również na poprawie szybkości działania przeglądarki Edge. Spostrzeżenia sugerują, że w drodze są ulepszenia menu pobierania, menu rozszerzeń, karty historii, menu z trzema kropkami, a nawet menu prawego przycisku myszy znanego jako „Ask Copilot”, wszystkie obiecujące być znacznie szybsze.

Dodaj komentarz Anuluj pisanie odpowiedzi