[nlp] KLUE STS 데이터셋 다운로드 오류

오류 발생

아래 코드로 데이터 다운로드 시 오류가 발생했다.

from datasets import load_dataset

load_dataset('klue', 'ynat', split='train')

# ValueError: Couldn't find cache for klue for config 'ynat'
# Available configs in the cache: ['mrc']
# Using the latest cached version of the dataset since klue couldn't be found on the Hugging Face Hub

원인

load_dataset 함수를 제공하고 있는 dataset 라이브러리와 huggingface_hub 라이브러리의 버전이 안맞아서 생기는 오류였다.
dataset 라이브러리 내에서 huggingface_hub 라이브러리의 함수를 호출하는데 이때 발생하였다. 오류가 발생한 버전은 아래와 같다.

!pip install sentence-transformers==2.7.0 datasets==2.19.0 huggingface_hub==0.23.0 faiss-cpu==1.8.0 -qqq

해결

huggingface_hub의 버전을 업데이트 하여 해결

!pip install --upgrade huggingface_hub