기계 학습에 가장 적합한 공개 데이터세트 11선

Kaggle, Registry of Open Data, UC Irvine ML, Microsoft Azure Open Datasets, DevGov, OpenML, Sigma AI, Meta AI를 포함한 많은 플랫폼은 연구자와 개발자에게 기계 학습에 활용할 수 있는 가치 있는 공개 데이터 세트를 대량으로 제공합니다.

기계 학습 데이터셋은 공통된 특징과 속성을 가진 인스턴스들의 집합입니다. 이는 훈련 데이터셋일 수 있으며, 데이터가 기계 학습 알고리즘에 입력되어 학습에 사용됩니다. 또한 테스트 데이터셋일 수도 있으며, 기계 학습 모델을 평가하고 테스트하는 데 사용됩니다.

기계 학습 알고리즘은 데이터 속의 추세와 관계를 식별하고, 대량으로 제공된 데이터를 기반으로 예측함으로써 데이터로부터 학습합니다. 정확한 훈련 데이터는 기계 학습 모델의 성능 정확성을 보장합니다.

이 글에서는 머신러닝에서 최고의 공개 데이터세트 몇 가지를 소개합니다.

1. Bright Data

Brightdata는 머신러닝용 공개 데이터세트도 제공합니다. 정교하게 큐레이션된 200개 이상의 데이터세트를 보유하고 있어 AI 학습이나 머신러닝에 활용할 수 있습니다. 더 이상 직접 데이터를 추출할 필요 없이 이러한 준비된 데이터세트를 손쉽게 얻을 수 있습니다. 제공되는 데이터는 Amazon, LinkedIn, Instagram, CrunchBase, Zillow 부동산, Google Maps, X, TikTok, Facebook, Shopee, Indeed, Walmart, YouTube, Glassdoor, Shein 등의 플랫폼을 포괄합니다.

이러한 고품질 데이터세트는 비디오, 이미지, 오디오, 텍스트 형태로 제공되며, 세심하게 선별되어 당신의 요구에 완전히 부합합니다. 또한 Brightdata의 솔루션을 통해 차단될 걱정 없이 웹을 쉽게 검색하고, 크롤링하고, 상호작용할 수 있습니다. 해당 시스템은 LLM(대규모 언어 모델)에 적합한 텍스트를 추출하도록 최적화되어 있습니다.

또한 Brightdata를 통해 어떤 질의에 대해서도 관련 데이터 소스를 찾고, 페이지를 크롤링하고, 콘텐츠를 추출하며, LLM에 적합한 출력 결과를 얻을 수 있습니다. 완전 관리형 원격 브라우저에서 AI 에이전트를 실행하는 것도 매우 편리합니다. 다행히 Brightdata를 통해 통합된 구조화 및 비구조화 데이터와 과거 및 실시간 데이터에 접근할 수 있어 기계 학습 모델 개발 과정을 간소화할 수 있습니다.

특징

단일 API 호출로 정제된 데이터를 가져옵니다.

귀하의 AI 애플리케이션과 에이전트를 위해 전용 데이터 파이프라인을 배포하세요.

수십억 개의 HTML 페이지를 보유한 대규모 웹 아카이브에서 데이터를 검색합니다.

비디오와 이미지의 URL, 그리고 100개 이상의 언어로 된 텍스트를 찾을 수 있습니다.

BrightData 모델 컨텍스트 프로토콜을 활용하여 귀하의 AI 모델과 에이전트를 강화하세요.

Brightdata는 SSE, MCP 또는 Node.js 설치를 통해 호스팅형 및 자체 호스팅형 MCP 구성을 지원합니다.

출력 형식: JSON, Excel, CSV, Parquet, 사용자 정의.

가격

데이터셋 - 기록 1,000건당 2.5달러부터 - 10만 건 기록 패키지.

Bright Data 데이터세트 체험하기

2. Kaggle

Kaggle은 기계 학습에 매우 적합한 방대한 공개 데이터세트 라이브러리를 보유하고 있습니다. 컴퓨터 과학, 교육, 분류, 컴퓨터 비전, 자연어 처리(NLP), 데이터 시각화, 사전 학습 모델 등 보고 싶은 데이터세트 유형에 따라 필터링할 수 있습니다. 현재 가장 관련성이 높거나 가장 인기 있는 데이터세트를 기준으로 선택할 수도 있습니다.

이 사이트는 매우 상세합니다. 각 데이터셋마다 무엇이 포함되어 있는지, 이를 통해 무엇을 달성할 수 있는지, 그리고 누가 가장 큰 혜택을 받을 수 있는지에 대한 생생한 설명을 얻을 수 있습니다. 또한 데이터셋의 작성자, 협력자, 적용 범위, 인용 현황 및 기타 중요한 세부 정보도 확인할 수 있습니다.

Kaggle은 관련 머신러닝 모델, 대회, 그리고 토론을 제공합니다. 대회에서는 직접 대회를 열거나 참가하여 자신의 역량이 충분한지 확인할 수 있습니다. 공개 데이터셋을 머신러닝에 제공하는 가장 상호작용적인 플랫폼 중 하나입니다.

특징

Kagglehub, Kaggle CLI, cURL 또는 croissant를 통해 다운로드하세요.

데이터셋을 zip 파일로 다운로드하거나 메타데이터를 croissant 형식으로 내보낼 수도 있습니다.

데이터세트의 상세 설명과 기여자 정보를 제공합니다.

코드를 통해 데이터에 접근할 수 있습니다.

가격

MIT 기반

3. UC Irvine Machine Learning Repository

UC Irvine Machine Learning Repository는 폭넓고 다양한 공개 데이터세트를 보유한 또 다른 이상적인 플랫폼입니다. 이러한 데이터세트를 다운로드할 수도 있고, 자신의 데이터세트를 기여할 수도 있습니다. 각 데이터세트에 대해 특성, 속성 유형, 주제 분야, 인스턴스, 관련 작업, 특징, 변수 표, 생성자 등의 정보를 얻을 수 있습니다.

또한 로그인한 후에는 데이터세트를 쉽게 평가할 수 있습니다. 데이터세트의 형태에는 이미지, 다변량, 직렬화, 시공간, 표 형식, 텍스트, 시계열 등이 포함됩니다. 이러한 데이터세트는 생물학, 비즈니스, 기후, 환경, 공학, 게임, 건강 및 의학, 법률, 물리학, 화학, 사회과학 등 여러 학문 분야를 포괄합니다.

또한 키워드, 속성, 데이터 유형, 주제 분야, 작업, 인스턴스, 특징, 속성 유형 및 Python 등의 조건에 따라 필터링할 수도 있습니다.

특징

데이터세트 다운로드 또는 업로드를 허용합니다.

각 데이터세트에는 자세한 설명이 제공되어 사용자가 현명한 결정을 내릴 수 있도록 돕습니다.

사용하기 쉬운 플랫폼입니다.

가격

라이선스 계약 기반

4. Registry of Open Data on AWS

AWS 오픈 데이터 레지스트리(Registry of Open Data on AWS)는 AWS 리소스를 통해 이용 가능한 데이터세트를 사람들이 발견하고 공유할 수 있도록 돕는 등록 시스템을 제공합니다. 사용자는 데이터세트를 레지스트리에 쉽게 추가하거나 데이터세트 활용 방법에 대한 예시를 추가할 수 있습니다. 또한 제공되는 데이터세트는 AWS가 제공하거나 유지 관리하는 것이 아니라 제3자가 제공하는 것입니다. 따라서 사용자는 각 데이터세트를 검토하고, 이를 가장 적절하게 활용하는 방법, 허용되는 사항과 허용되지 않는 사항, 그리고 관련 라이선스 계약을 확인해야 합니다.

AWS 공개 데이터 레지스트리는 이미 등록된 데이터세트와 관련된 프로젝트를 보유한 사람들도 환영하며, 이러한 프로젝트는 블로그 게시물의 사례로 소개될 수 있습니다. 각 데이터세트에 대해 라이선스, 업데이트 빈도, 관리, 문서, 인용 방법, 연락처, 출판물, 도구 및 애플리케이션, 사용 예시 등에 관한 정보를 얻을 수 있습니다.

특징

머신러닝을 위한 방대한 공용 데이터세트 라이브러리를 보유하세요.

특정 데이터세트의 상세 설명과 사용 예시를 제공합니다.

데이터세트 레지스트리에 데이터세트를 추가할 수 있습니다.

데이터 분석과 처리를 돕는 도구와 서비스를 제공합니다.

가격

라이선스 계약 기반

5. Microsoft Azure Open Datasets

기계 학습용 공개 데이터 세트를 찾고 있다면 Microsoft Azure Open Datasets도 고려할 수 있습니다. 이러한 데이터 세트는 기계 학습 워크플로에서 사용할 수 있으며 예측 정확도를 높이는 데 도움이 됩니다. 또한 계속 성장하는 데이터 과학자 및 개발자 커뮤니티와 데이터 세트를 매우 쉽게 공유할 수 있습니다. 공개 데이터 세트를 사용해 기계 학습 모델을 훈련하는 방법도 배울 수 있습니다.

특징

머신러닝을 위한 방대한 공용 데이터세트 라이브러리를 보유하세요.

데이터세트에 적용할 수 있는 다양한 오픈 라이선스 계약을 제공합니다.

이러한 공개 데이터 세트를 사용하려면 Azure 계정이 있어야 합니다.

가격

오픈 데이터 세트 자체를 사용하는 데에는 추가 비용이 없으며, 오픈 데이터 세트를 사용할 때 소비한 Azure 서비스 비용만 지불하면 됩니다.

6. OpenML

OpenML은 전 세계적인 기계 학습 실험실입니다. 이를 통해 사용자는 기계 학습 연구에 쉽게 접근하고 필요에 따라 재사용할 수 있습니다. OpenML은 사용자가 데이터세트, 알고리즘, 실험을 공유하고 접근하는 데 사용하는 플랫폼입니다. 모든 데이터세트는 통일된 형식으로 정리되어 있으며 일관된 메타데이터를 갖추고 있어, 당신이 선호하는 작업 환경으로 쉽게 직접 불러올 수 있습니다.

또한 파이프라인과 모델은 당신이 가장 좋아하는 기계 학습 라이브러리에서 직접 공유할 수 있습니다. 동시에 수백만 개의 재현 가능한 기계 학습 실험으로부터 학습하는 것도 매우 쉽습니다. OpenML은 어떤 데이터셋과 라이브러리 버전이 사용되었는지 정확하게 기록합니다.

머신러닝 전문가로서 당신은 자신의 작업을 쉽게 공유할 수 있습니다. 데이터 소유자는 머신러닝 커뮤니티에 도전 과제를 제시하고 협업하기 위해 자신의 데이터를 공유할 수 있으며, 알고리즘 개발자는 당신의 도구를 OpenML과 통합하여 데이터와 실험을 쉽게 가져오고 내보낼 수 있습니다.

특징

인공지능에 적합한 데이터.

머신러닝 라이브러리 통합.

데이터세트, 파이프라인, 실험의 가져오기와 내보내기가 매우 편리합니다.

머신러닝 데이터가 체계적으로 잘 정리되어 있습니다.

XML, JSON 및 croissant 형식으로 쉽게 다운로드할 수 있습니다.

가격

라이선스 계약 기반

7. Sigma AI open datasets

Sigma AI 공개 데이터셋은 무료 오픈소스 데이터셋 모음을 제공하며, 이를 머신러닝 실험과 프로젝트에 사용할 수 있습니다. 그들에게 연락하면 머신러닝용 공개 데이터셋을 데이터베이스에 자유롭게 추가할 수도 있습니다.

이 플랫폼에서 데이터셋을 찾는 것은 복잡하지 않습니다. 항목을 하나 클릭하고, 다양한 매개변수에 따라 필터링하며, 특정 단어 또는 구문을 기반으로 데이터셋을 검색하기만 하면 됩니다. 완료되면 오른쪽 아래에서 CSV 파일을 다운로드하면 됩니다.

특징

데이터세트를 검색하고 다운로드하기가 매우 편리합니다.

CSV 파일 형식으로 다운로드할 수 있습니다.

600개 이상의 언어를 지원합니다.

가격

데이터세트 - 무료, 맞춤형 서비스 제공

8. Allen AI Open datasets for machine learning

AllenAI는 인공지능과 머신러닝 훈련에 사용할 수 있는 방대한 공개 데이터셋 데이터베이스를 보유하고 있습니다. 이러한 데이터에 접근함으로써 사용자는 최고의 모델이 어떻게 작동하는지와 이를 어떻게 개선해 더 유용하게 만들 수 있는지를 이해할 수 있습니다.

다행히도 모든 데이터셋은 윤리적인 방식으로 수집되었으며 안전하게 사용할 수 있습니다. Hugging Face 플랫폼에서는 데이터셋의 수집 현황과 팀 구성원을 확인할 수 있습니다. 최신 업데이트를 확인하기 위해 둘러볼 수 있으며, 관심 있는 주제에 따라 데이터셋에 접근할 수 있습니다.

AllenAI는 언어 모델, 멀티모달 모델, 평가 프레임워크, 그리고 공개 데이터셋을 제공합니다. 그 다양성 덕분에 많은 사람들이 가장 먼저 찾는 사이트 중 하나입니다. 이러한 데이터셋에는 WildChat, S2ORC, Self-instruct, Kiwi, Chime, Drop, Qasper 등이 포함됩니다.

특징

머신러닝을 위한 방대한 공용 데이터세트 라이브러리를 보유하세요.

데이터 출처는 윤리 기준을 준수하며 안전하게 사용할 수 있습니다.

웹사이트 탐색이 매우 편리합니다.

협업할 수 있는 신뢰할 만한 커뮤니티를 보유하세요.

가격

라이선스 계약 기반

커뮤니티 기반

9. Data Gov Open Data

Data.gov에는 318,500개가 넘는 사용 가능한 데이터 세트가 있습니다. 가장 많이 조회된 항목, 최근 추가된 항목, 기관별 데이터 세트 또는 지리공간 데이터를 기준으로 필터링할 수 있습니다. 이러한 분류를 통해 원하는 데이터 세트를 쉽게 찾을 수 있습니다. Data.gov는 2009년에 시작된 미국의 공공 데이터 허브로, 처음에는 47개의 데이터 세트만 있었지만 시간이 지나면서 그 수가 30만 개를 넘도록 증가했습니다.

이 공개 데이터 웹사이트의 주요 목표는 이러한 가치 있는 데이터를 쉽게 이용할 수 있도록 보장하는 것입니다. 여기에는 지방 정부, 기후, 노인, 에너지, 북극, 수자원, 인간 건강, 생태계, 교통, 식량 회복탄력성 등 여러 범주가 포함됩니다. 이러한 데이터를 사용해 연구를 수행하고, 웹 및 모바일 애플리케이션을 개발하며, 데이터 시각화를 설계하는 등의 작업을 할 수 있습니다.

특징

데이터세트 분류가 명확하여 접근이 쉽습니다.

미국 기반의 리소스와 데이터를 제공합니다.

이용 약관을 준수하는 한 누구나 해당 플랫폼에 접근하여 데이터를 활용할 수 있습니다.

기록의 출처가 윤리 기준에 부합합니다.

필터링 시스템과 분류 기능은 일류라고 할 만합니다.

가격

Public access and use

10. Datarade.Ai

Datarade.ai는 기계 학습이나 인공지능 학습에 사용할 공개 데이터세트를 얻을 수 있는 또 다른 플랫폼입니다. 이는 전적으로 당신이 수집하려는 데이터에 달려 있습니다. 몰입감 있는 검색창이 있어 기계 학습 데이터세트와 같이 원하는 모든 데이터세트 유형을 검색할 수 있습니다. 각 데이터세트에는 무료 샘플 미리보기가 제공되어 사용자가 구매 전에 데이터세트의 내용을 확인할 수 있습니다.

무료 샘플, 속성, 데이터 제공업체, 국가 커버리지, 카테고리, 전달 방식 등의 조건으로 손쉽게 필터링할 수 있습니다. S3 버킷, 이메일, SFTP, REST API, UI 내보내기, Feed API, SOAP API, 스트리밍 API, 압축 파일, Azure Blob Storage, Google Cloud Storage, Google BigQuery, Snowflake 공유, Databricks Delta 공유, FIX API, WebSocket 등을 통해 데이터세트를 받을 수 있습니다.

특징

방대한 머신러닝 데이터셋 라이브러리를 보유하고 있습니다.

다양한 데이터셋을 생생하게 설명했습니다.

다양한 제공 방식을 지원합니다.

가격

데이터세트 - 맞춤형 가격 책정.

라이선스 계약에 기반합니다.

11. Meta AI

Meta AI 역시 관련 분야의 발전을 촉진하기 위해 인공지능 및 머신러닝 모델을 학습, 평가, 테스트하는 데 사용되는 방대한 데이터세트와 벤치마크를 제공합니다. 데이터세트 유형도 매우 다양하며 FACET, Ego TV 데이터세트, MMCSG 데이터세트, 음성 공정성 데이터세트, 일상 대화, 3D 속 일반 물체, Segment Anything, DISC21 데이터세트, Ego Objects 데이터세트, Flores 벤치마크 데이터세트, Ego4d 등이 포함되며 그 외에도 더 많습니다. 구체적인 선택은 당신이 수행 중인 작업과 필요한 리소스에 따라 달라집니다.

특징

방대한 데이터세트 라이브러리를 보유하고 있습니다.

그 목표는 원활한 협업을 보장하고 인공지능과 머신러닝의 발전을 가속화하는 것입니다.

최신 연구 돌파구를 직접 체험하고자 하는 사용자를 위해 이용 가능한 데모를 제공합니다.

가격

구독 모델 기반

마무리

대부분의 머신러닝 데이터 소스는 풍부하고 다양한 데이터를 제공하므로 필요한 데이터를 실시간으로 쉽게 얻을 수 있습니다. 이러한 데이터는 주로 다양한 분야와 산업에서 오기 때문에 여러 변수가 생성됩니다.

또한, 머신러닝에 사용되는 대부분의 공개 데이터셋 사이트는 매우 사용자 친화적이어서 사용자, 개발자, 연구자 등이 필요한 내용을 쉽게 찾을 수 있습니다. 더불어 대부분의 사이트는 커뮤니티 지원도 제공하므로, 사람들은 토론에 참여하고 다른 사람들의 경험에서 배우며 프로젝트 도움을 받을 수 있습니다.