티스토리 뷰
https://developer0hye.tistory.com/784
이런 글을 올렸었다.
이래서... 데이터를 처음부터 Parquet으로 올려야되구나! 하며 Parquet 공부하고 Parquet포맷으로 변환해서 꾸역 꾸역 올렸는데 Dataset Viewer에서 이미지 출력이 제대로 안됐다.
대체 왜!!! 하며 몇시간을 삽질하다가 대충 읽고 넘긴 튜토리얼이 갑자기 눈에 밟혔다.
https://huggingface.co/docs/datasets/image_dataset
튜토리얼 대로 차근 차근 하니까 잘됐다. Parquet은 내가 변환하는 게 아니라 허깅페이스에 업로드 될때 알아서 자동변환되는거고!!!!!! README 도 업로드할때 자동으로 작성되는거다!!!!!!
수동으로 할 필요가 없었다!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
만약에 정말 제대로 한 거 같은데 업로드가 잘 안된다면 .gitattributes 를 제외하고 huggingface에 올라가 있는 파일, 폴더를 모두 제거하고 업로드 코드를 실행해보자
아... 다음번에는 데이터셋 업로드 방법에 대한 글을 작성해야겠다.
아래는 내가 성공적으로 업로드한 데이터셋 링크이다.
https://huggingface.co/datasets/developer0hye/korocr
VLM 파인튜닝을 위한 데이터셋은 이제 허깅페이스에 업로드하는데 성공했다!
https://developer0hye.tistory.com/785
'Deep Learning' 카테고리의 다른 글
unsloth/LaTeX_OCR 로 1 에폭 파인튜닝 시킨 Qwen2VL7b 는 아쉬울 따름 (0) | 2024.11.30 |
---|---|
unsloth/LaTeX_OCR 데이터셋 주의사항...? (1) | 2024.11.30 |
Hugging Face Datasets 에 이미지, 텍스트 멀티모달 데이터셋을 업로드 해보"자이아파트" (2) | 2024.11.27 |
VLM 성능 파악하기 좋은 리더 보드 사이트 (0) | 2024.11.26 |
runpod network storage 용량 수정 방법 (0) | 2024.11.22 |
- Total
- Today
- Yesterday
- FairMOT
- PyCharm
- 백준 1766
- 자료구조
- 이분탐색
- 백준 11437
- 문제집
- Lowest Common Ancestor
- MOT
- 조합
- 단축키
- 위상 정렬 알고리즘
- 파이참
- 백트래킹
- 순열
- LCA
- 가장 긴 증가하는 부분 수열
- cosine
- 백준 11053
- ㅂ
- C++ Deploy
- 인공지능을 위한 선형대수
- 백준
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |