Machine Learning
-
이번 포스팅에서는 PEFT 방법 중 가장 핵심이 되는 QLoRA에 대해 실제코드를 살펴보고 학습 결과를 확인해 보겠습니다. 1부 되짚어 보기지난 포스팅에서는 거대 언어 모델(LLM)을 조정하는 세 가지 방법에 대해 살펴보았습니다.https://hyundoil.tistory.com/400 PEFT (LoRA와 QLoRA)에 대해서 알아보자 1부LLM을 그냥 쓰는 것에 대해 LLM은 일반적인 지식에는 강하지만, 특정 도메인에 대한 깊이 있는 전문성을 가지기는 어렵다는 한계를 보여준다.그러므로 어떤 도메인이나 작업에 특화된 모델을 만hyundoil.tistory.com In-context Learning은 프롬프트 입력 시 연관된 예시를 함께 제공하여 모델의 가중치를 업데이트하지 않고 프롬프트 엔지니어링..
PEFT (LoRA와 QLoRA)에 대해서 알아보자 2부, 실전 훈련이번 포스팅에서는 PEFT 방법 중 가장 핵심이 되는 QLoRA에 대해 실제코드를 살펴보고 학습 결과를 확인해 보겠습니다. 1부 되짚어 보기지난 포스팅에서는 거대 언어 모델(LLM)을 조정하는 세 가지 방법에 대해 살펴보았습니다.https://hyundoil.tistory.com/400 PEFT (LoRA와 QLoRA)에 대해서 알아보자 1부LLM을 그냥 쓰는 것에 대해 LLM은 일반적인 지식에는 강하지만, 특정 도메인에 대한 깊이 있는 전문성을 가지기는 어렵다는 한계를 보여준다.그러므로 어떤 도메인이나 작업에 특화된 모델을 만hyundoil.tistory.com In-context Learning은 프롬프트 입력 시 연관된 예시를 함께 제공하여 모델의 가중치를 업데이트하지 않고 프롬프트 엔지니어링..
2024.11.11 -
LLM을 그냥 쓰는 것에 대해 LLM은 일반적인 지식에는 강하지만, 특정 도메인에 대한 깊이 있는 전문성을 가지기는 어렵다는 한계를 보여준다.그러므로 어떤 도메인이나 작업에 특화된 모델을 만들기 위해서는 기존의 사전 학습된 모델을 적절히 '조정'하여 사용해야 한다. 모델 조정의 대표적인 방법In-context Learning: 프롬프트 입력 시 관련 예시를 함께 제공. 이 방법에는 모델의 파라미터(가중치, 편향)는 업데이트되지 않음Full Fine-tuning: 모델의 모든 파라미터를 재학습하여 업데이트 함장점 적은 데이터로도 효과적인 학습 가능 정확도 향상단점 높은 계산 비용 엄청난 GPU 메모리 요구량 급격한 망각 현상 (이전에 학습하였던 정보를 급격하게 잊어버리는 현상)PEFT (P..
PEFT (LoRA와 QLoRA)에 대해서 알아보자 1부LLM을 그냥 쓰는 것에 대해 LLM은 일반적인 지식에는 강하지만, 특정 도메인에 대한 깊이 있는 전문성을 가지기는 어렵다는 한계를 보여준다.그러므로 어떤 도메인이나 작업에 특화된 모델을 만들기 위해서는 기존의 사전 학습된 모델을 적절히 '조정'하여 사용해야 한다. 모델 조정의 대표적인 방법In-context Learning: 프롬프트 입력 시 관련 예시를 함께 제공. 이 방법에는 모델의 파라미터(가중치, 편향)는 업데이트되지 않음Full Fine-tuning: 모델의 모든 파라미터를 재학습하여 업데이트 함장점 적은 데이터로도 효과적인 학습 가능 정확도 향상단점 높은 계산 비용 엄청난 GPU 메모리 요구량 급격한 망각 현상 (이전에 학습하였던 정보를 급격하게 잊어버리는 현상)PEFT (P..
2024.11.11 -
정의최근에는 더 성능이 높은 머신러닝과 딥러닝 모형을 만들기 위해 더 복잡한 구조를 가져오거나 훨씬 많은 Parameter 수를 추가하고 있습니다. 이에 따라 상당한 양의 연산 처리가 필요해졌고, 메모리 한계, 추론 시간 증가 등의 문제가 발생하게 됩니다. 따라서 조금 더 실용적이고 빠르고 가벼우면서 성능을 뒤쳐지지 않는 모델의 필요성이 대두되었고, 모델 압축, 모델 구조 변경 등의 기법들이 등장했습니다.이 중 지식 증류(Knowledge Distillation)는 알고리즘 경량화 기법 중 하나로, 잘 학습된 모델(Teacher model)의 지식을 받은 단순한 모델(Student model)을 통해 빠른 학습 시간과 높은 성능을 유지하는 기법입니다.Teacher model : 정확도 96%, 추론 시간..
[Modeling] Knowledge Distillation 알아보기정의최근에는 더 성능이 높은 머신러닝과 딥러닝 모형을 만들기 위해 더 복잡한 구조를 가져오거나 훨씬 많은 Parameter 수를 추가하고 있습니다. 이에 따라 상당한 양의 연산 처리가 필요해졌고, 메모리 한계, 추론 시간 증가 등의 문제가 발생하게 됩니다. 따라서 조금 더 실용적이고 빠르고 가벼우면서 성능을 뒤쳐지지 않는 모델의 필요성이 대두되었고, 모델 압축, 모델 구조 변경 등의 기법들이 등장했습니다.이 중 지식 증류(Knowledge Distillation)는 알고리즘 경량화 기법 중 하나로, 잘 학습된 모델(Teacher model)의 지식을 받은 단순한 모델(Student model)을 통해 빠른 학습 시간과 높은 성능을 유지하는 기법입니다.Teacher model : 정확도 96%, 추론 시간..
2024.09.21 -
일단 내가 이미 알고 있는 선에서 가장 대표적인 멀티모달은 CLIP이다. 졸업하고 빨리 입사하여 멀티모달 부분을 연구 개발하고 싶었는데 취업이 2년이나 길어졌다. 더 이상 채용과정(코테, 인적성, 면접) 공부 준비만 할 수는 없다. 멀티모달 공부를 하자. AutoGluon이라는게 있더라, 알아보자. 아래 링크는 데모 실현 영상이다.https://www.youtube.com/watch?v=9JUK7oRV2RY MONAI라는 라이브러리도 있더라https://jedemanfangwohnteinzauberinne.tistory.com/13 CVPR2024에 의료 이미지와 tabular 데이터를 이용한 멀티모달 논문도 있다. https://github.com/paulhager/MMCL-Tabular-Imagi..
멀티모달 역량 및 경험을 쌓아보자일단 내가 이미 알고 있는 선에서 가장 대표적인 멀티모달은 CLIP이다. 졸업하고 빨리 입사하여 멀티모달 부분을 연구 개발하고 싶었는데 취업이 2년이나 길어졌다. 더 이상 채용과정(코테, 인적성, 면접) 공부 준비만 할 수는 없다. 멀티모달 공부를 하자. AutoGluon이라는게 있더라, 알아보자. 아래 링크는 데모 실현 영상이다.https://www.youtube.com/watch?v=9JUK7oRV2RY MONAI라는 라이브러리도 있더라https://jedemanfangwohnteinzauberinne.tistory.com/13 CVPR2024에 의료 이미지와 tabular 데이터를 이용한 멀티모달 논문도 있다. https://github.com/paulhager/MMCL-Tabular-Imagi..
2024.09.17 -
연산 최적화와 달리 모델 경량화는 학습 과정에서 이루어진다.모델을 경량화하여 학습시킬 경우, GPU resource, 메모리 등의 측면에서 이점이 있기 때문에 최근 많이 연구되고 있다.모델 경량화에는 크게 세가지 방법이 있다. Pruning (가지치기)신경망 학습에서 중요도가 떨어지는 node를 제거하고 재학습하는 과정을 반복하여 모델의 크기를 줄여나가는 방식이 방식을 통해, Deep Compression (2015) 논문에서는 VGG-16 model을 약 49배 경량화 하였으며, Clip-q (2018)에서는 ResNet-50 model을 약 15배 경량화하였다고 한다.Knowledge Distillation (지식 증류)학습이 잘된 큰 딥러닝 모델(Teacher model)의 지식을 학습되지 않은 ..
모델 경량화연산 최적화와 달리 모델 경량화는 학습 과정에서 이루어진다.모델을 경량화하여 학습시킬 경우, GPU resource, 메모리 등의 측면에서 이점이 있기 때문에 최근 많이 연구되고 있다.모델 경량화에는 크게 세가지 방법이 있다. Pruning (가지치기)신경망 학습에서 중요도가 떨어지는 node를 제거하고 재학습하는 과정을 반복하여 모델의 크기를 줄여나가는 방식이 방식을 통해, Deep Compression (2015) 논문에서는 VGG-16 model을 약 49배 경량화 하였으며, Clip-q (2018)에서는 ResNet-50 model을 약 15배 경량화하였다고 한다.Knowledge Distillation (지식 증류)학습이 잘된 큰 딥러닝 모델(Teacher model)의 지식을 학습되지 않은 ..
2024.09.14 -
Vision Transformer (ViT)는 이미지 데이터를 처리하는 데 있어 Transformer 모델을 사용하는 방법으로, 전통적인 CNN과는 다른 방식으로 이미지를 처리합니다. CNN이 이미지에서 로컬 특징(local features)을 추출하는 것과 달리, ViT는 이미지를 패치(patch) 단위로 나누어 각각의 패치를 토큰(token)으로 처리하고, 이 토큰 간의 관계를 학습합니다.CNN이 로컬 특징을 학습하는 것과 달리, ViT는 모든 패치 간의 글로벌 관계를 학습하는 데 초점을 둡니다.1. Vision Transformer의 구조ViT의 핵심 구조는 일반적인 Transformer 모델과 유사합니다. Transformer는 원래 자연어 처리(NLP)에서 사용되었으며, 각 단어의 관계를 학습하..
ViT 훈련 원리 요약, 질문에 대답하기Vision Transformer (ViT)는 이미지 데이터를 처리하는 데 있어 Transformer 모델을 사용하는 방법으로, 전통적인 CNN과는 다른 방식으로 이미지를 처리합니다. CNN이 이미지에서 로컬 특징(local features)을 추출하는 것과 달리, ViT는 이미지를 패치(patch) 단위로 나누어 각각의 패치를 토큰(token)으로 처리하고, 이 토큰 간의 관계를 학습합니다.CNN이 로컬 특징을 학습하는 것과 달리, ViT는 모든 패치 간의 글로벌 관계를 학습하는 데 초점을 둡니다.1. Vision Transformer의 구조ViT의 핵심 구조는 일반적인 Transformer 모델과 유사합니다. Transformer는 원래 자연어 처리(NLP)에서 사용되었으며, 각 단어의 관계를 학습하..
2024.09.13