peft, timm 기반 InternViT-300M-448px-V2.5 모델 lora 적용 코드 예시

티스토리 뷰

Deep Learning

peft, timm 기반 InternViT-300M-448px-V2.5 모델 lora 적용 코드 예시

developer0hye 2025. 6. 3. 15:28

import torch.nn as nn
from timm import create_model
from peft import LoraConfig, get_peft_model

# 1) 사전학습 ViT 로드
model = create_model('vit_intern300m_patch14_448.ogvl_2pt5', pretrained=False)

# 2) 어떤 Linear 층이 있는지 확인 (타깃 모듈 결정)
for n, m in model.named_modules():
    if isinstance(m, nn.Linear):
        print(n)                 # 예) blocks.0.attn.qkv, blocks.0.attn.proj ...

# 3) LoRA 설정
config = LoraConfig(
    r=8,  # LoRA rank
    lora_alpha=16, # LoRA alpha
    target_modules=r"blocks\.\d+\.attn\.(qkv|proj)", # 정규표현식으로 타겟 모듈 지정
    lora_dropout=0.0,
    bias="none"  # 일반적으로 bias는 파인튜닝하지 않음
)

# 4) 모델에 LoRA 적용
lora_model = get_peft_model(model, config)

# 5) 학습 가능한 파라미터 수 확인
trainable_params = sum(p.numel() for p in lora_model.parameters() if p.requires_grad)
total_params = sum(p.numel() for p in lora_model.parameters())
print(f"Trainable LORA parameters: {trainable_params}")
print(f"Total parameters: {total_params}")
print(f"Percentage of trainable parameters: {100 * trainable_params / total_params:.2f}%")

# 예시: LoRA가 적용된 모델의 특정 레이어 확인
print(lora_model.blocks[0].attn.qkv)

이렇게 쉽게 적용할 수 있게 구현해놓았다니... peft 라이브러리 놀랍다.

예시 코드는 lora 논문에서 권장한대로 q, k, v, o 에만 lora 적용되게 구현해놨다.

왜 mlp에 적용하는 거는 future work로 남기신거죠 ㅜㅜ

실제 적용시에는 mlp layer까지 적용한 결과를 봐야할 거 같다.

'Deep Learning' 카테고리의 다른 글

AWS a10g, l40s 4~8x gpus 세팅으로 20일 가까이 학습 돌리면 발생하는 비용 (1)	2025.06.06
a10g 4x vs l40s 4x gpu 비교 (1)	2025.06.06
LORA, Adapter, Prompt Tuning 등 PEFT를 ViT에 적용 및 제안한 논문 (0)	2025.06.01
8x A10G (g5.48xlarge) vs 4x A5000 학습 뭐가 더 빠를까? (4)	2025.05.10
internvl3 이 나왔었네 (0)	2025.05.04

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

글 보관함

지속 가능한 꾸준함

티스토리 뷰

peft, timm 기반 InternViT-300M-448px-V2.5 모델 lora 적용 코드 예시

'Deep Learning' 카테고리의 다른 글

티스토리툴바