티스토리 뷰
https://huggingface.co/docs/hub/datasets-adding#which-file-format-should-i-use
Uploading datasets
Uploading datasets The Hub is home to an extensive collection of community-curated and research datasets. We encourage you to share your dataset to the Hub to help grow the ML community and accelerate progress for everyone. All contributions are welcome; a
huggingface.co

huggingface dataset 보면 .parquet 이라는 파일로 데이터셋이 관리되는 경우가 있다.
https://huggingface.co/datasets/HuggingFaceM4/ChartQA
HuggingFaceM4/ChartQA · Datasets at Hugging Face
🔥 sergiopaniego/Qwen2-VL-7B-trl-sft-ChartQA
huggingface.co


https://huggingface.co/datasets/philschmid/amazon-product-descriptions-vlm/tree/main/data
philschmid/amazon-product-descriptions-vlm at main
huggingface.co

Parquet? 팟캐스트는 들어봤는데 Parquet은 생전 처음 보는 포맷이다.
19년도에도 존재했나보다. 헉... 이제야 알았다니
https://butter-shower.tistory.com/245
[pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란?
파케이(parquet)이란 하둡에서 칼럼방식으로 저장하는 저장 포맷을 말합니다. 파케이는 프로그래밍 언어, 데이터 모델 혹은 데이터 처리 엔진과 독립적으로 엔진과 하둡 생태계에 속한 프로젝트
butter-shower.tistory.com
Parquet란 무엇이고, 왜 사용하는가 | LIM
Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터를 처리할 때는 많은 시간과 비용이 들어가기 때문에 빠르게 읽고, 압축률이 좋아야
amazelimi.tistory.com
- Total
- Today
- Yesterday
- LCA
- C++ Deploy
- PyCharm
- FairMOT
- 백준
- 파이참
- 백준 11437
- 위상 정렬 알고리즘
- 가장 긴 증가하는 부분 수열
- Lowest Common Ancestor
- ㅂ
- 백트래킹
- cosine
- 문제집
- 자료구조
- MOT
- 백준 11053
- 이분탐색
- 백준 1766
- 인공지능을 위한 선형대수
- 단축키
- 순열
- 조합
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |