티스토리 뷰

카테고리 없음

처음 보는 Parquet

developer0hye 2024. 11. 27. 13:17

https://huggingface.co/docs/hub/datasets-adding#which-file-format-should-i-use

 

Uploading datasets

Uploading datasets The Hub is home to an extensive collection of community-curated and research datasets. We encourage you to share your dataset to the Hub to help grow the ML community and accelerate progress for everyone. All contributions are welcome; a

huggingface.co

 

huggingface dataset 보면 .parquet 이라는 파일로 데이터셋이 관리되는 경우가 있다.

 

https://huggingface.co/datasets/HuggingFaceM4/ChartQA

 

HuggingFaceM4/ChartQA · Datasets at Hugging Face

🔥 sergiopaniego/Qwen2-VL-7B-trl-sft-ChartQA

huggingface.co

 

https://huggingface.co/datasets/philschmid/amazon-product-descriptions-vlm/tree/main/data

 

philschmid/amazon-product-descriptions-vlm at main

 

huggingface.co

 

Parquet? 팟캐스트는 들어봤는데 Parquet은 생전 처음 보는 포맷이다.

 

https://youtu.be/0Vm9Yi_ig58

 

19년도에도 존재했나보다. 헉... 이제야 알았다니

 

https://butter-shower.tistory.com/245

 

[pyspark/빅데이터기초] Parquet(파케이) 파일 형식이란?

파케이(parquet)이란 하둡에서 칼럼방식으로 저장하는 저장 포맷을 말합니다. 파케이는 프로그래밍 언어, 데이터 모델 혹은 데이터 처리 엔진과 독립적으로 엔진과 하둡 생태계에 속한 프로젝트

butter-shower.tistory.com

https://amazelimi.tistory.com/entry/Parquet%EC%97%90-%EB%8C%80%ED%95%B4-%EC%95%8C%EC%95%84%EB%B3%B4%EC%9E%90

 

Parquet란 무엇이고, 왜 사용하는가 | LIM

Parquet (파케이) 데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다. 빅데이터를 처리할 때는 많은 시간과 비용이 들어가기 때문에 빠르게 읽고, 압축률이 좋아야

amazelimi.tistory.com

 

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함