새소식

Project

[RAG 프로젝트][데이콘] 재정정보 AI 검색 알고리즘 경진대회 3

  • -

Strategy

 

PDF에서 아래와 같은 내용을 LLM을 이용해서 자연어로 DB화 하자.

 

예를 들어 위 내용은 자연어로 Doc에 넣으면

 

"사업 집행절차는 다음과 같다. 첫째, 보건복지부에서 지원기준 마련 및 국고보조금 교부. 둘째, 시.도에서 국고보조금에 지방비(시.도비)를 가산하여 시.군.구에 보조금 교부. 마지막으로 시.군.구에서 지원대상자 선정, 급여액 확정 및 지금 및 정산"

 

마찬가지로 아래와 같은 내용도 하나의 문단으로 Doc에 넣으면 될거 같다.

 

Colab

 

Colab_dacon 폴더 공유

https://drive.google.com/drive/folders/1-CPiGeFo-StPT9A9G5nVRbm9amnMGEiL?usp=sharing

자신의 구글 드라이브의 Colab Notebooks에 Colab_dacon 폴더를 넣는다.

 

 

 

안을 살펴보면 두 폴더 밖에 없다.

참고로 나는 구글 드라이브랑 연동해서 local처럼 사용하는데 그렇게 하는거 추천한다.

https://www.google.com/intl/ko_kr/drive/download/

Colab Notebooks 폴더에 아래 공유한 colab notbook을 열어준다.

https://colab.research.google.com/drive/1OiJ2vQHmDXYXSbWv68x70AMIWKaK1sxJ?usp=drive_link

 

 

 

 

데이터에 접근

 

자신의 전략대로 자르고 DB화해서 저장

 

 

저장이 잘됨

이제 2.ipynb부터는 임베딩모델 사용하면서 컴퓨팅 안써도 됨.

이후부터는 모델과 리트리버 파라메타만 조절하면 된다.

그럼 내 데이터 처리 전략은 어디서 수정하냐?

로컬에서 utils/utils.py의 process_pdfs_from_dataframe_faiss 부분을 직접 수정하고 Colab에서 load하고 실행

 

 

https://www.youtube.com/watch?v=pzvAN4W1ojM

 

14:36

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.