반응형

1. 텍스트추출 서론


텍스트추출 추천 1가지 OCR 글자 이미지 사진 pdf 무설치 초간편 캡쳐 도구 윈도우11 관련 포스팅을 합니다.

 

 

정말 세상이 나날이 발전하고 있지만 이렇게 초간편하고 간단할줄은 몰랐네요.

 

시대 적응을 못하고 있는 것 같아 조금은 창피하기도 합니다.

 

 

예전에는 텍스트 인식을 하려면 별도의 프로그램 설치가 필요로 했던 시기가 있었는데

 

이젠 윈도우11에서는 내장되어 있네요

 

 

pdf 파일이나 스캔 뜬 파일에 인식되지 않는 글자 때문에

 

일일이 타이핑을 해야 하기에 작업량이 많아 힘들고 골머리 썩어 본 경험 한번쯤은 있으실 것 같네요

 

 

윈도우11의 캡쳐도구 라는 기본 내장 프로그램인데요

 

윈도우11 23h2 부터 적용된 기능인 것 같습니다.

 

 

그전에 우리가 무심코 불러 왔던

 

텍스트 인식 글자 인식의 영어 약자인

 

OCR에 대해서 조금만 살펴보겠습니다.

 


OCR은 Optical Character Recognition의 약자로, 광학 문자 인식을 의미합니다.

 

OCR은 이미지나 문서의 스캔된 복사본을 컴퓨터가 이해할 수 있는 텍스트로 변환하는 기술입니다.

 

이를 통해 인쇄된 텍스트가 포함된 문서를 디지털 형식으로 변환하여 저장하거나 검색할 수 있습니다.

 

OCR 시스템은 다음과 같은 주요 단계로 작동합니다

 

이미지 스캔 또는 디지털 이미지 입력: OCR은 일반적으로 스캐너로 스캔된 문서나 디지털 이미지를 입력으로 받습니다.

 

전처리: 입력 이미지에서 잡음 제거, 대비 조정 및 이미지 보정과 같은 전처리 단계를 수행하여 텍스트 인식의 정확성을 향상시킵니다.

 

문자 인식: OCR 엔진은 이미지에서 문자를 인식하고, 각 문자의 형태와 유사성에 기반하여 문자를 구별합니다. 이 단계에서 기계 학습 알고리즘과 패턴 인식 기술이 사용됩니다.

 

후처리: 문자 인식 결과를 정제하고, 오류를 수정하며, 필요에 따라 추가적인 언어 처리를 수행하여 최종 텍스트 결과를 생성합니다. OCR은 다양한 산업 분야에서 활용됩니다. 예를 들어, 문서 관리, 출판, 은행 업무, 운송 및 물류 등에서 종종 사용됩니다.

 

또한, OCR은 인공지능 기술과 결합하여 번역, 자동 요약, 정보 추출 등과 같은 고급 기능을 수행하는 데에도 활용됩니다. OCR 기술은 지속적으로 발전하고 있으며, 최신 기술은 더 나은 정확성과 다국어 지원, 손글씨 및 인쇄체 인식 등을 제공합니다.

 

OCR은 문자를 인식하기 위해 다양한 기술과 알고리즘을 사용합니다.

 

주요한 기술과 알고리즘은 다음과 같습니다.

 

특징 추출(Feature Extraction): OCR은 이미지에서 문자의 특징을 추출하여 인식합니다. 이를 위해 주로 컴퓨터 비전 기술을 사용합니다. 흑백 이미지의 경우, 문자의 경계선, 선명도, 굵기 등과 같은 특징을 추출합니다. 컬러 이미지의 경우에는 색상 정보도 고려할 수 있습니다.

 

패턴 인식(Pattern Recognition): 추출된 문자 특징을 기반으로 패턴 인식 기술을 사용하여 문자를 식별합니다. 기계 학습 알고리즘을 사용하여 문자의 형태와 유사성을 학습하고, 추출된 특징과 비교하여 문자를 구별합니다. 예를 들어, 신경망(Neural Network)이나 결정 트리(Decision Tree)와 같은 알고리즘을 사용할 수 있습니다.

 

언어 모델(Language Model): OCR은 언어 모델을 활용하여 인식된 문자를 보정하고 정제합니다. 언어 모델은 텍스트의 문법, 어휘, 문맥 등을 고려하여 인식된 문자를 검증하고 오류를 수정합니다. 이를 통해 최종 텍스트 결과의 일관성과 정확성을 향상시킵니다.

 

OCR 시스템은 이러한 기술과 알고리즘을 조합하여 문자 인식을 수행합니다. 이미지에서 문자를 인식하기 위해 전처리, 특징 추출, 패턴 인식, 후처리 등의 단계를 거치며, 각 단계에서 오류를 최소화하고 정확성을 높이기 위해 다양한 기술과 알고리즘이 사용됩니다.

 

OCR 기술은 지속적으로 발전하고 있으며, 딥러닝과 같은 인공지능 기술의 발전으로 더욱 정확한 문자 인식이 가능해졌습니다. 이를 통해 다양한 종류의 문서와 다국어 텍스트에 대한 인식 품질이 향상되었습니다.


 

 

 

2. 텍스트추출 본론


윈도우의 스크린샷 단축키인 windows + shift + s 

 

버튼을 눌러 스크린샷을 찍고,

 

활성화되는 캡쳐도구 창을 열면

 

자르기 버튼 옆에 텍스트 작업이라는 네모에 줄 그어진 버튼이 있고,

 

그것을 누르면

 

사진의 글자가 곧바로 인식 가능한 상태로 바뀌어 드래그가 가능해진다.

 

아니면 모든 텍스트 복사 버튼을 눌러 모든 텍스트를 복사할 수 있다.

 

윈도우11 캡쳐도구 OCR
윈도우11 캡쳐도구 OCR

 

 

 

3. 텍스트추출 결론


소량의 내용을 OCR 하는 방법은 쉽지만

 

대량의 내용을 OCR 하기 위한 파일 업로드 방식의 OCR은 아직 지원하지 않고 있다.

 

파일 업로드 방식의 OCR은 각종 사이트 또는 구글드라이브, 알 pdf 등을 활용하여야 한다.

 

모쪼록 도움 되기를 바라며..

 

↓ 캡쳐도구 캡처 및 스케치 다운로드 공식페이지

 

https://apps.microsoft.com/detail/9MZ95KL8MR0L?ocid=pdpshare&hl=ko-kr&gl=ko

 

캡처 및 스케치 - Microsoft Store 공식 앱

펜, 터치 또는 마우스를 사용하여 스크린샷, 사진 및 기타 이미지에 신속하게 주석을 추가하고 다른 앱으로 저장, 붙여넣기 또는 공유할 수 있습니다.

apps.microsoft.com

 

 

 


광고 클릭 및 제휴 링크의 구매는 마케팅 활동의 일환으로
수수료를 지급받아 콘텐츠를 제작하는데 큰 도움이 됩니다.

 

도움이 되셨다면, 구독 • 공감 ♡ • 댓글이나
소중한 커피 한 잔 부탁드려도 될까요?

반응형