pdf파일 전문(Full-Text) 검색 방법

매출이 오르면 내리는 수수료! 지금 수수료센터에서 전자결제(PG)수수료 비교견적 신청해 보세요!
pdf파일 전문(Full-Text) 검색 방법

QA

pdf파일 전문(Full-Text) 검색 방법

본문

안녕하세요

 

게시판에 등록된 pdf파일 전문 검색이 가능할까요??

 

방법이 있으면 수정할 부분과 코드 부탁 드립니다,

 

감사 합니다 ㅠㅠ

이 질문에 댓글 쓰기 :

답변 4

방법이 없지는 않지만 쉬운 작업이 아닙니다. 제작의뢰로 의뢰 해 보는것이 좋을 듯 합니다
검색해 본 결과인데 참고해 보세요

https://coronasdk.tistory.com/582

 

PDF 추출하는 api 가 많이 있습니다. 

추출 성능이 높아야 하는 경우라면,  업스테이지 도큐먼트 파서나, claude api 를 쓰는 방법이 있습니다.

(추출 성능이 높으면 가격이 비싸다고 생각하시면 됩니다.)

 

단순하게 pdf에서 텍스트만 추출한다면, python 이나 java 로 된 라이브러리를 통해 추출한것을 db 에 저장하는 방식이 적당할것 같네요.

 

데이타를 추출한뒤에 전문 검색을 할수 있겠죠.  

기본 로직만 설명 드리자면 여러 콤포넌트가 있겠지만

smalot/pdfparser 를 예를 들어...

 

컴포저로 해당 콤포넌트 설치하시고.

composer require smalot/pdfparser

 


<?php
require 'vendor/autoload.php';
use Smalot\PdfParser\Parser;
// PDF 파일 경로
$pdfFile = 'example.pdf'; //첨부파일 경로를 대입.
// PDF 파서 생성
$parser = new Parser();
$pdf = $parser->parseFile($pdfFile);
// PDF 내용 추출
$text = $pdf->getText();
// 검색할 텍스트
$searchText = '특정 텍스트'; //검색어
// 검색 수행
if (strpos($text, $searchText) !== false) {
    echo "텍스트가 발견되었습니다!";
} else {
    echo "텍스트를 찾을 수 없습니다.";
}
?>

 

요런식으로 간단히 설명 드립니다.

pdf 텍스트가 에디터에서 긁히는 방식이면 사용가능 하고 이미지 형식이면

Tesseract 를 통해 ocr 인식하셔야 합니다.

답변을 작성하시기 전에 로그인 해주세요.
전체 0
QA 내용 검색

회원로그인

(주)에스아이알소프트 / 대표:홍석명 / (06211) 서울특별시 강남구 역삼동 707-34 한신인터밸리24 서관 1404호 / E-Mail: admin@sir.kr
사업자등록번호: 217-81-36347 / 통신판매업신고번호:2014-서울강남-02098호 / 개인정보보호책임자:김민섭(minsup@sir.kr)
© SIRSOFT