Kilalanin ang teksto sa isang file na PDF online

Pin
Send
Share
Send


Malayo ito sa laging posible upang kunin ang teksto mula sa isang file na PDF gamit ang regular na pagkopya. Kadalasan ang mga pahina ng naturang mga dokumento ay na-scan ang mga nilalaman ng kanilang mga bersyon ng papel. Upang mai-convert ang mga nasabing file sa ganap na mai-edit na data ng teksto, ginagamit ang mga espesyal na programa na may function na Optical Character Recognition (OCR).

Ang mga nasabing desisyon ay napakahirap ipatupad at, samakatuwid, nagkakahalaga ng maraming pera. Kung kailangan mong kilalanin ang teksto mula sa PDF nang regular, maipapayo na bilhin ang naaangkop na programa. Para sa mga bihirang kaso, magiging mas lohikal na gamitin ang isa sa mga magagamit na serbisyo sa online na may mga katulad na pag-andar.

Paano makilala ang teksto mula sa PDF online

Siyempre, ang hanay ng mga tampok ng mga serbisyo sa online na OCR, kung ihahambing sa mga kumpletong solusyon sa desktop, ay mas limitado. Ngunit maaari ka ring magtrabaho kasama ang gayong mga mapagkukunan alinman nang libre o para sa isang nominal na bayad. Ang pangunahing bagay ay sa kanilang pangunahing gawain, lalo na sa pagkilala sa teksto, ang kaukulang mga aplikasyon ng web ay makaya rin.

Pamamaraan 1: ABBYY FineReader Online

Ang kumpanya ng pagpapaunlad ng serbisyo ay isa sa mga pinuno sa larangan ng pagkilala sa optical na dokumento. Ang ABBYY FineReader para sa Windows at Mac ay isang malakas na solusyon para sa pag-convert ng PDF sa teksto at karagdagang trabaho sa mga ito.

Ang analogue na batay sa web ng programa, siyempre, ay mas mababa sa pag-andar nito. Gayunpaman, makikilala ng serbisyo ang teksto mula sa mga pag-scan at mga larawan sa higit sa 190 na wika. I-convert ang mga file na PDF sa Word, Excel, atbp.

ABBYY FineReader Online Online na Serbisyo

  1. Bago ka magsimulang magtrabaho sa tool, lumikha ng isang account sa site o mag-log in gamit ang iyong Facebook, Google o Microsoft account.

    Upang pumunta sa window ng pahintulot, mag-click sa pindutan "Pagpasok" sa tuktok na menu bar.
  2. Pagkatapos mag-log in, i-import ang nais na PDF-dokumento sa FineReader gamit ang pindutan "Mag-upload ng mga file".

    Pagkatapos ay mag-click "Pumili ng mga numero ng pahina" at tukuyin ang nais na agwat para sa pagkilala sa teksto.
  3. Susunod, piliin ang mga wika na naroroon sa dokumento, ang format ng nagresultang file, at mag-click sa pindutan "Kilalanin".
  4. Matapos ang pagproseso, ang tagal ng kung saan nakasalalay sa kabuuan ng dami ng dokumento, maaari mong i-download ang natapos na file na may data ng teksto sa pamamagitan lamang ng pag-click sa pangalan nito.

    O kaya, i-export ito sa isa sa mga magagamit na serbisyo sa ulap.

Ang serbisyo ay marahil nakikilala sa pamamagitan ng pinaka tumpak na mga algorithm ng pagkilala ng teksto sa mga imahe at mga file na PDF. Ngunit, sa kasamaang palad, ang libreng paggamit nito ay limitado sa limang mga pahina na naproseso bawat buwan. Upang gumana sa mas maraming mga dokumento, kailangan mong bumili ng isang taunang subscription.

Gayunpaman, kung ang OCR ay bihirang kinakailangan, ang ABBYY FineReader Online ay isang mahusay na pagpipilian para sa pagkuha ng teksto mula sa maliit na mga file na PDF.

Paraan 2: Libreng Online OCR

Simple at maginhawang serbisyo para sa pag-digitize ng teksto. Nang walang pagrehistro, pinapayagan ka ng mapagkukunan na makilala ang 15 buong mga pahina ng PDF bawat oras. Ang Libreng Online OCR ay ganap na gumagana sa mga dokumento sa 46 na wika at nang walang pahintulot ay sumusuporta sa tatlong mga format ng pag-export ng teksto - DOCX, XLSX at TXT.

Kapag nagrerehistro, ang gumagamit ay nakakakuha ng pagkakataon na iproseso ang mga dokumento na maraming pahina, ngunit ang libreng bilang ng mga parehong pahina ay limitado sa 50 mga yunit.

Libreng Serbisyo Online Online OCR

  1. Upang makilala ang teksto mula sa PDF bilang isang "panauhin", nang walang pahintulot sa mapagkukunan, gamitin ang naaangkop na form sa pangunahing pahina ng site.

    Piliin ang nais na dokumento gamit ang pindutan File, tukuyin ang pangunahing wika ng teksto, ang format ng output, pagkatapos maghintay para sa file na mai-load at mag-click I-convert.
  2. Sa pagtatapos ng proseso ng pag-digit, mag-click "I-download ang output file" upang mai-save ang natapos na dokumento na may teksto sa computer.

Para sa mga awtorisadong gumagamit, ang pagkakasunud-sunod ng mga aksyon ay medyo naiiba.

  1. Gamitin ang pindutan "Pagrehistro" o "Pagpasok" sa tuktok na menu bar na, nang naaayon, lumikha ng isang Libreng Online na OCR account o mag-log in dito.
  2. Matapos ang pahintulot sa panel ng pagkilala, idaan ang susi CTRL, pumili ng hanggang sa dalawang wika ng dokumento ng mapagkukunan mula sa ibinigay na listahan.
  3. Tukuyin ang karagdagang mga pagpipilian para sa pagkuha ng teksto mula sa PDF at mag-click Piliin ang file upang mag-upload ng isang dokumento sa serbisyo.

    Pagkatapos, upang simulan ang pagkilala, i-click I-convert.
  4. Sa pagtatapos ng pagproseso ng dokumento, mag-click sa link na may pangalan ng output file sa kaukulang haligi.

    Ang resulta ng pagkilala ay mai-save kaagad sa memorya ng iyong computer.

Kung kailangan mong kunin ang teksto mula sa isang maliit na PDF-dokumento, maaari mong ligtas na magamit ang paggamit ng tool sa itaas. Upang gumana sa mga malalaking file, kakailanganin mong bumili ng karagdagang mga character sa Free Online OCR o gumamit ng isa pang solusyon.

Pamamaraan 3: NewOCR

Ganap na libre ang OCR-service na nagbibigay-daan sa iyo upang kunin ang teksto mula sa halos anumang mga graphic at electronic na dokumento tulad ng DjVu at PDF. Ang mapagkukunan ay hindi nagpapataw ng mga paghihigpit sa laki at bilang ng mga kinikilalang mga file, ay hindi nangangailangan ng pagrehistro at nag-aalok ng isang malawak na hanay ng mga kaugnay na pag-andar.

Sinusuportahan ng NewOCR ang 106 na wika at maaaring maayos na maiproseso ang kahit na may mababang kalidad na mga scan ng dokumento. Posible na manu-manong piliin ang lugar para sa pagkilala sa teksto sa pahina ng file.

Bagong Serbisyo sa OnlineOCR

  1. Kaya, maaari mong simulan ang pagtatrabaho sa isang mapagkukunan kaagad, nang walang pangangailangan upang maisagawa ang mga hindi kinakailangang aksyon.

    Sa kanan sa pangunahing pahina mayroong isang form para sa pag-import ng isang dokumento sa site. Upang mag-upload ng file sa NewOCR, gamitin ang pindutan "Piliin ang file" sa seksyon "Piliin ang iyong file". Tapos sa bukid "Mga (wika) ng pagkilala" tukuyin ang isa o higit pang mga wika ng pinagmulang dokumento, pagkatapos ay mag-click "Mag-upload + OCR".
  2. Itakda ang iyong ginustong mga setting ng pagkilala, piliin ang pahinang nais mong kunin ang teksto mula at mag-click sa pindutan OCR.
  3. Mag-scroll pababa sa pahina nang kaunti at hanapin ang pindutan "I-download".

    Mag-click dito at sa drop-down list piliin ang kinakailangang format ng dokumento para sa pag-download. Pagkatapos nito, ang natapos na file na may nakuha na teksto ay mai-download sa iyong computer.

Ang tool ay maginhawa at medyo mataas na kalidad na kinikilala ang lahat ng mga character. Gayunpaman, ang pagproseso ng bawat pahina ng na-import na dokumento ng PDF ay dapat na magsimula nang nakapag-iisa at ipinapakita ito sa isang hiwalay na file. Maaari mong, siyempre, agad na kopyahin ang mga resulta ng pagkilala sa clipboard at pagsamahin ang mga ito sa iba.

Gayunpaman, dahil sa nabanggit na nuance na inilarawan sa itaas, napakahirap makuha ang malaking halaga ng teksto gamit ang NewOCR. Sa pamamagitan ng maliliit na mga file, ang serbisyo ay nakakaharap sa isang putok.

Pamamaraan 4: OCR.Space

Ang isang simple at nauunawaan na mapagkukunan para sa pag-digit ng teksto, pinapayagan ka nitong makilala ang mga dokumento ng PDF at output ang resulta sa isang file ng TXT. Walang mga limitasyon sa bilang ng mga pahina na ibinigay. Ang tanging limitasyon ay ang laki ng dokumento ng pag-input ay hindi dapat lumagpas sa 5 megabytes.

OCR.Space Online Service

  1. Magrehistro upang gumana sa tool ay hindi kinakailangan.

    Sundin lamang ang link sa itaas at i-upload ang dokumento na PDF sa website mula sa computer gamit ang pindutan "Piliin ang file" o mula sa network - sa pamamagitan ng sanggunian.
  2. Sa listahan ng drop down "Piliin ang wika ng OCR" Piliin ang wika ng na-import na dokumento.

    Pagkatapos simulan ang proseso ng pagkilala sa teksto sa pamamagitan ng pag-click sa pindutan "Simulan ang OCR!".
  3. Sa pagtatapos ng pagproseso ng file, basahin ang resulta sa larangan Mga Resulta ng OCR'ed at i-click "I-download"upang i-download ang natapos na dokumento sa TXT.

Kung kailangan mo lamang kunin ang teksto mula sa PDF at sa parehong oras na ang pangwakas na pag-format na ito ay hindi mahalaga sa lahat, ang OCR.Space ay isang mahusay na pagpipilian. Ang tanging bagay ay ang dokumento ay dapat na "monolingual", dahil ang pagkilala sa dalawa o higit pang mga wika nang sabay ay hindi ibinigay para sa serbisyo.

Tingnan din: Libreng mga analogue ng FineReader

Pagtatasa ng mga online na tool na ipinakita sa artikulo, dapat tandaan na ang FineReader Online mula sa ABBYY ay pinangangasiwaan ang function na OCR nang tumpak at mahusay. Kung ang maximum na kawastuhan ng pagkilala sa teksto ay mahalaga para sa iyo, pinakamahusay na isaalang-alang ang partikular na pagpipilian na ito. Ngunit malamang, kailangan mo ring magbayad para dito.

Kung kailangan mong i-digitize ang maliliit na dokumento at handa ka nang nakapag-iisa na iwasto ang mga error sa serbisyo, ipinapayong gamitin ang NewOCR, OCR.Space o Libreng Online OCR.

Pin
Send
Share
Send