본문 바로가기

유용한 정보

이미지 파일 텍스트 변환 이미지 파일 글자추출

이미지 파일 텍스트 변환 추출 이미지 파일 글자추출 하는 방법

이번 포스팅은 이미지안에 있는 텍스트를 추출해주는 사이트 OCR 문자 인식 사이트 에 대해 알려드리겠습니다.

스캔된 문서는 편집 가능한 문서 파일이 아닌 이미지 파일의 형식으로 저장됩니다.
예를 들어 JPG, TIFF와 같은 그림 파일 또는 PDF와 같은 (그림 형식의) 문서 파일로 저장됩니다.
이처럼 스캔된 그림파일은 문서 내에 문자가 편집가능한 폰트가 아니기 때문에 이를 특정 형식의 폰트로 변경해 주어야 합니다. OCR 프로그램은 이와 같은 변경을 가능하게 해주지만, 인식률에 있어서 제약이 따릅니다.
인식률의 제약이라는 것은 원본 그림 파일에 포함된 문자를 OCR 프로그램이 폰트로 인식하여 변경하는 과정에서 일부 오류가 발생하는 정도를 말합니다.
인터넷에서 OCR 프로그램을 다운로드 하거나  사이트를  이용하여, 스캔된 이미지 파일을 문서파일로 변경할 수는 있지만, 인식률은 원본 그림파일의 해상도나 품질에 따라 다르므로 한 번 시대해 보실 수는 있습니다

 

스캔한 이미지가 몇 장 되지 않는다면 그냥 타이핑하시는 것이 빠를 겁니다.

따라서,
몇 페이지 안되고. 중요한 것이라면,
그냥 타이핑이 더 빠를 수도 있고.. OCR 프로그램을 이용한 방법과
시간상으로 큰 차이는 보이지 않을 겁니다. 

그런데 스캔한 이미지가 몇십장, 몇백장이 된다면  일일이  타이핑을 하기에는 좀 무리겠죠?

그림에서 텍스트를 뽑아내는 OCR 문자사이트 , 프로그램이 있기는 합니다만.
그림의 품질, 텍스트의 글꼴, 해상도 등등에 따라서, 인식률이 차이가 납니다.
그리고,
현재 아무리 좋은 OCR 사이트 프로그램 이라도 인식률 100% 는 없습니다.
이말은,
항상 인식된 텍스트를 처음부터 끝까지 다시 읽어봐야 한다는 의미입니다.
그리고, 오자와 탈자를 찾아서 수정해줘야 하구요..

이미지 문자 인식(OCR, Optical Character Recognition) 이란,
스캐닝한 이미지 문서에 포함된 한글, 영문, 숫자 폰트를 편집 가능한
텍스트로 변환하고 저장할 수 있게 해 주는 서비스 입니다

 

서론이 너무 길어졌으니 본론으로 넘어 가도록 하겠습니다

 

첫번째 방법

imagetotext 라는 사이트을 이용해서 변환을 합니다. 

이미지를 텍스트로 변환기는 몇 번의 클릭으로 이미지에서 텍스트 추출할 수 있는 무료 온라인 OCR 도구입니다

얼마전에 알게된 이미지 텍스트 추출 사이트인데 테스트삼아 몇개 변환 해보니 인식률이 꽤 좋았습니다.

가입필요없고 , 설치도 필요없고, 제가  종종 이용하는 사이트에요.

일단 무려 한글 입니다. 외국사이트인데도 불구하고, 여러언어를 지원하고 있더군요~ 

사용법은 사이트에 접속후 변환할 이미지 파일을 불어오면됩니다.

 

 

 

https://www.imagetotext.info/ko/image-to-text 로 접속하면 아래와 같은 사이트가 나옵니다.

 

 

사이트에 접속했으면 가장 먼저 할 일은 '로봇이 아닙니다' 체크를 해주세요.
 체크후 이후   Browse 버튼을 눌러  변환할 이미지 파일을  불러 오거나 [Enter a URL] 부분에 추출할 이미지 주소 링크를 입력합니다.

 

 

 

예제로 사용될 이미지 입니다.

 

 

이미지 파일을 불러왔으면 위와같이 목록에 보일거에요..

Submit  버튼을 클릭합니다.

 

uploading 동안 잠시 기다리고

 

변환을 마치면 화면에 변환된 글자가 보여지고
Copy To Clipboard 를 클릭하면 바로 복사 됩니다.

텍스트 파일로 받으려면 Download Text File 를 클릭하면 txt 파일로 다운 됩니다.

 

저장은 txt 파일로 다운 받았습니다.

 

만약 변환된 텍스트를  워드나, PDF 파일로 변환하고 싶으면

우측에 Text to Word 를 클릭하면 워드로 변환 워드로 변환할 수있어요.

PDF로 변환하려면 Text to PDF 를 클릭하면 PDF로 변환 할 수 있답니다.

 

 

 

 

두번째 방법

무료 OCR 문자 인식 사이트 newocr 라는 외국 사이트입니다. 

저도 종종이용하는 사이트인데요. 가입 혹은 프로그램 설치할 필요 없고 무료 이용 가능해요

이미지에 텍스트를 추출할때 매우 유용하게 사용할 수 있구요.

이사이트는  2년전부터 사용했는데  인식률이 꽤 좋습니다. 

가볍게 이미지를 텍스트로 변환할때 사용합니다.

 


먼저, 아래 링크를 통해 newocr 사이트에 접속합니다.
https://www.newocr.com/

 

 

그러면  다음과같은 화면이나타나게 됩니다. 

상단에 보시면 지원하는 이미지 형식은 JPEG, PNG, GIF, BMP, TIFF, PDF, DjWu to Text 명시되어 있으니 사용시 참고하시길 바랍니다. 이 사이트는 장점은 PDF 파일도 지원을 해요

[찾아보기] 를 눌러 변환할 이미지나 PDF 파일을 불러옵니다.

 

 

그다음  [Preview]을 눌러줍니다.

 

그러면 위에 그림처럼 업로드된 이미지가 뜹니다.

Recognition language(s) (you can select multiple) 밑에 

이미지의 텍스트 언어를 선택 하고,  추출할 범위를 선택후 [OCR] 버튼을 눌러줍니다.

 

그런다음 스크롤바를 맨 아래로 쭉 내려보시면 변환된 텍스트가 보이는데 드래그해서 복사하거나 Download 를 누르면

 

 txt, doc, pdf, 등 파일로 다운로드 받을 수 있습니다.

 

 

 

 

 

 

세번째 방법는 검색엔진으로 유명한 구글 keep을 이용해 이미지에서 텍스트 추출 할 수 있습니다.

아시는분들은 아시겠지만 구글 keep에서도 가능합니다. 구글계정만 있으면 되구요.

https://keep.google.com/

구글 keep으로 들어갑니다. 

 

메모작성에서 이미지추가로 그림 파일을 불러옵니다

 

 

그림파일을 불러왔으면 점 3개 더보기 메뉴에서 이미지에서 텍스트 가져오기를 실행합니다.

 

스크롤바 아래로 내려보시면 변환된 텍스트가 있습니다.
복사해서 사용하면 됩니다.

 

 

 

 

마지막 소개할 ocr 문자 인식 사이트는 cardscanner 라는 사이트 입니다.

사용법은 위에서 소개해드린 첫번째 사이트와 두번째 사이트랑 비슷합니다.

 

https://www.cardscanner.co/image-to-text

 

 먼저 Upload or Drag File here 를 눌러 이미지 이미지 파일을 불러옵니다.

 

 

이미지파일을 불어왔으면 로봇 아닙니다. 체크해줍니다.

그리고 Convert 를 눌러주면 됩니다.

그럼 요렇게 변환이 됩니다.

txt, doc, pdf, html 파일 형식으로 저장할 수 있습니다..

복사하려면 백지모양 아이콘을 누르면 복사됩니다.

 

이외에도 ocr 문자 인식 프로그램도 있지만 

오늘은 시간상 여기까지 하고 다음에 다시 쓰도록 하겠습니다.