Извуците текст из ПДФ и сликовних датотека
Имате ПДФ(PDF) документ из којег желите да издвојите сав текст? Шта је са сликовним датотекама скенираног документа које желите да конвертујете у текст који се може уређивати? Ово су неки од најчешћих проблема које сам видео на радном месту при раду са датотекама.
У овом чланку ћу говорити о неколико различитих начина на које можете покушати да издвојите текст из ПДФ(PDF) -а или слике. Резултати екстракције ће се разликовати у зависности од врсте и квалитета текста у ПДФ(PDF) -у или слици. Такође, ваши резултати ће се разликовати у зависности од алата који користите, тако да је најбоље да испробате што је могуће више опција у наставку да бисте добили најбоље резултате.
Извуците текст из слике или ПДФ-а
Најједноставнији и најбржи начин да почнете је да испробате онлајн услугу извлачења ПДФ(PDF) текста. Они су обично бесплатни и могу вам дати тачно оно што тражите без потребе да било шта инсталирате на рачунар. Ево два која сам користио са веома добрим до одличним резултатима:
ЕктрацтПДФ
ЕктрацтПДФ(ExtractPDF) је бесплатна алатка за преузимање слика, текста и фонтова из ПДФ(PDF) датотеке. Једино ограничење је што је максимална величина ПДФ(PDF) датотеке 10 МБ. То је мало; па ако имате већу датотеку, испробајте неке од других метода у наставку. Изаберите датотеку, а затим кликните на дугме Пошаљи датотеку(Send file) . Резултати су обично веома брзи и требало би да видите преглед текста када кликнете на картицу Текст(Text) .
Такође је лепа додатна предност што извлачи слике и из ПДФ(PDF) датотеке, само у случају да вам затребају! Све у свему, алатка на мрежи ради одлично, али наишао сам на неколико ПДФ(PDF) докумената који ми дају смешне резултате. Текст је добро извучен, али ће из неког разлога имати прелом реда после сваке речи! Није велики проблем за кратку ПДФ(PDF) датотеку, али свакако проблем за датотеке са пуно текста. Ако вам се то догоди, испробајте следећи алат.
Онлине ОЦР
ОЦР на мрежи(Online OCR) обично ради за документе који се нису правилно конвертовали са ЕктрацтПДФ(ExtractPDF) , тако да је добра идеја да испробате обе услуге да бисте видели који вам дају бољи излаз. Онлине ОЦР(Online OCR) такође има неке лепше функције које се могу показати корисним за свакога ко има велику ПДФ(PDF) датотеку која треба да конвертује само текст на неколико страница, а не на цео документ.
Прва ствар коју желите да урадите је да направите бесплатан налог. Мало је досадно, али ако не направите бесплатни налог, он ће само делимично конвертовати ваш ПДФ(PDF) , а не цео документ. Такође, уместо да можете да отпремите само документ од 5 МБ, можете да отпремите до 100 МБ по датотеци помоћу налога.
Прво изаберите језик, а затим изаберите врсту излазних формата које желите за конвертовану датотеку. Имате неколико опција и можете изабрати више од једне ако желите. Под документом(Multipage document) са више страница можете да изаберете Бројеви страница(Page numbers) , а затим да изаберете само странице које желите да конвертујете. Затим изаберите датотеку и кликните на Претвори(Convert) !
Након конверзије, бићете пребачени у одељак Документи(Documents) (ако сте пријављени) где можете видети колико вам је доступних бесплатних страница остало и везе за преузимање конвертованих датотека. Чини се да имате само 25 бесплатних страница дневно, па ако вам треба више од тога, мораћете или да сачекате мало или да купите више страница.
Онлине ОЦР(Online OCR) је одлично конвертовао моје ПДФ(PDF) - ове јер је могао да одржи стварни изглед текста. У свом тесту, узео сам Ворд(Word) документ који је користио метке, различите величине фонта итд. и конвертовао га у ПДФ(PDF) . Затим сам користио онлајн ОЦР(Online OCR) да га поново конвертујем у Ворд(Word) формат и био је око 95% исти као оригинал. То је прилично импресивно за мене.
Осим тога, ако желите да претворите слику у текст, онда Онлине ОЦР(Online OCR) то може учинити једнако лако као и издвајање текста из ПДФ(PDF) датотека.
Фрее Онлине ОЦР
Пошто смо говорили о ОЦР(OCR) -у слика у текст , дозволите ми да поменем још једну добру веб страницу која заиста добро функционише на сликама. Бесплатни онлајн ОЦР(Free Online OCR) је био веома добар и веома прецизан када је извлачио текст из мојих тестних слика. Узео сам неколико фотографија са свог иПхоне-а са страницама из књига, памфлета итд. и био сам изненађен колико је добро могао да конвертује текст.
Изаберите своју датотеку, а затим кликните на дугме Уплоад(Upload) . На следећем екрану постоји неколико опција и преглед слике. Можете га исећи ако не желите да ОЦР(OCR) целу ствар. Затим само кликните на дугме ОЦР(OCR) и ваш конвертовани текст ће се појавити испод прегледа слике. Такође нема никаквих ограничења, што је заиста лепо.
Поред услуга на мрежи, постоје два бесплатна ПДФ(PDF) конвертора која желим да поменем у случају да вам је потребан софтвер који ради локално на вашем рачунару да бисте извршили конверзије. Са онлајн услугама, увек ће вам требати интернет(Internet) веза, а то можда није могуће за све. Међутим, приметио сам да је квалитет конверзија из бесплатних програма био знатно лошији од оних на веб локацијама.
А-ПДФ Тект Ектрацтор
А-ПДФ Тект Ектрацтор(A-PDF Text Extractor) је бесплатан софтвер који ради прилично добар посао издвајања текста из ПДФ(PDF) датотека. Када га преузмете и инсталирате, кликните на дугме Отвори(Open) да бисте изабрали своју ПДФ(PDF) датотеку. Затим кликните на Издвоји(Extract) текст да бисте започели процес.
Питаће вас локацију за складиштење текстуалне излазне датотеке, а затим ће почети да извлачи. Такође можете кликнути на дугме Опција(Option) , које вам омогућава да изаберете само одређене странице за издвајање и тип екстракције. Друга опција је занимљива јер издваја текст у различитим распоредима и вреди испробати све три да бисте видели који вам даје најбољи излаз.
ПДФ2Тект Пилот
ПДФ2Тект Пилот(PDF2Text Pilot) добро обавља посао екстракције текста. Нема опција; само додајете датотеке или фасцикле, конвертујете и надате се најбољем. Добро је функционисао на неким ПДФ(PDFs) -овима , али за већину њих било је бројних проблема.
Само кликните на Додај датотеке(Add Files) , а затим кликните на Претвори(Convert) . Када се конверзија заврши, кликните на Бровсе(Browse) да отворите датотеку. Ваша километража ће варирати коришћењем овог програма, тако да не очекујте много.
Такође, вреди напоменути да ако сте у корпоративном окружењу или можете да добијете копију Адобе Ацробат(Adobe Acrobat) -а са посла, онда заиста можете постићи много боље резултате. Ацробат(Acrobat) очигледно није бесплатан, али има опције за претварање ПДФ(PDF) - а у Ворд(Word) , Екцел(Excel) и ХТМЛ(HTML) формат. Такође најбоље обавља посао одржавања структуре оригиналног документа и претварања компликованог текста.
Related posts
Како комбиновати или спојити више текстуалних датотека
Најбољи бесплатни алтернативни ПДФ прегледач за Адобе Реадер
Претворите Виндовс рачунар у виртуелну машину користећи Хипер-В
Како променити боју иконе фасцикле у Виндовс-у
Најбоља бесплатна алатка за дефрагментацију за Виндовс је сама
ХТМЛ код за премотавање текста око слике
Поделите или поделите екран радне површине на више делова
Како препознати музику или песме по звуку
Брзо прегледајте историју претраге у свим прегледачима у Виндовс-у
Како закачити текст и слику у историју међуспремника у оперативном систему Виндовс 11/10
Брже копирајте велике датотеке преко мреже уз ТераЦопи
Како комбиновати више ПоверПоинт презентација
Како издвојити иконе из ЕКСЕ, ДЛЛ, ОЦКС и ЦПЛ датотека
3 најбоље апликације за коришћење Инстаграма на рачунару
Како уклонити лозинку из ПДФ-а помоћу бесплатног софтвера или онлајн алата
Делите велике датотеке подешавањем кућног сервера датотека
Како делити датотеке између рачунара, паметних телефона и таблета
7 најбољих апликација за отварање ЈАР датотека на Виндовс-у
Најбољи бесплатни онлајн алати за уређивач ПДФ-а који су засновани на облаку
Откључајте ЗИП датотеке заштићене лозинком