機械学習データセットとは、共通の特徴や属性を持つインスタンスの集合です。学習用データセットとして機械学習アルゴリズムに入力して学習に使用することも、機械学習モデルの評価やテストに使用するテスト用データセットとすることもできます。

機械学習アルゴリズムは、データ内の傾向や関係を識別し、大量に提供されたデータに基づいて予測を行うことで、データから学習します。正確な学習データは、機械学習モデルの性能の正確さを確保します。

この記事では、機械学習における優れた公開データセットをいくつか紹介します。

1. Bright Data

Bright Data Managed Service Overview

Brightdataは、機械学習向けの公開データセットも提供しています。200件を超える厳選されたデータセットを備えており、AIトレーニングや機械学習に利用できます。自分でデータを抽出する必要はなく、これらの既製データセットを簡単に入手できます。利用可能なデータには、Amazon、LinkedIn、Instagram、CrunchBase、Zillow不動産、Googleマップ、X、TikTok、Facebook、Shopee、Indeed、Walmart、YouTube、Glassdoor、Shein などのプラットフォームが含まれます。

これらの高品質なデータセットは、動画、画像、音声、テキストの形式で提供され、丁寧にキュレーションされており、あなたのニーズに完全に適合します。さらに、Brightdataのソリューションを使えば、ブロックされる心配をせずに、簡単に検索、クロール、そしてWebとのインタラクションを行えます。そのシステムは、LLM(大規模言語モデル)に適したテキストの抽出向けにも最適化されています。

さらに、Brightdataを通じて、あらゆるクエリに関連するデータソースを見つけ、ページをクロールし、コンテンツを抽出し、LLMに適した出力結果を得ることができます。完全に管理されたリモートブラウザ上でAIエージェントを実行することも非常に容易です。幸いにも、Brightdataを利用すれば、統一された構造化データと非構造化データ、さらに過去データとリアルタイムデータにアクセスでき、機械学習モデルの開発プロセスを簡素化できます。

特徴

  • 単一のAPI呼び出しでクリーンなデータを取得します。
  • AIアプリケーションとエージェント向けの専用データパイプラインを導入します。
  • 数十億のHTMLページを保有する大規模なウェブアーカイブからデータを取得します。
  • 動画や画像のURL、および100以上の言語のテキストを見つけます。
  • BrightDataモデルコンテキストプロトコルを活用して、AIモデルとエージェントを強化します。
  • Brightdataは、SSE、MCP、またはNode.jsインストールを通じて、ホスト型およびセルフホスト型のMCP構成をサポートしています。
  • 出力形式:JSON、Excel、CSV、Parquet、カスタム。
  • 価格

  • データセット。価格は1,000レコードあたり2.5米ドルから。10万レコードのパッケージ。
  • 2. Kaggle

    Bright Data Managed Service Overview

    Kaggleは、機械学習に非常に適した巨大な公開データセットライブラリを備えています。見たいデータセットの種類に応じて、コンピュータサイエンス、教育、分類、コンピュータビジョン、自然言語処理(NLP)、データ可視化、事前学習済みモデルなどで絞り込めます。また、現在最も関連性が高い、または最も人気のあるデータセットに基づいて選ぶこともできます。

    このサイトは非常に詳細です。各データセットについて、それに含まれる内容、それによって達成できる目標、そして誰が最も恩恵を受けるのかについて、生き生きとした説明を得ることができます。さらに、データセットの著者、共同作成者、対象範囲、引用状況、その他の重要な詳細についても知ることができます。

    Kaggleは、関連する機械学習モデル、コンペティション、ディスカッションを提供しています。コンペティションでは、自分で開催することも参加することもでき、自分に十分な実力があるか試すことができます。これは、機械学習向けの公開データセットを提供する、最もインタラクティブなプラットフォームの1つです。

    特徴

  • Kagglehub、Kaggle CLI、cURL、またはcroissantでダウンロード。
  • データセットをzipファイルとしてダウンロードしたり、メタデータをcroissant形式でエクスポートしたりすることもできます。
  • データセットの詳細な説明とその提供者情報を提供します。
  • コードを通じてデータにアクセスできます。
  • 価格

  • MITベース
  • 3. UC Irvine Machine Learning Repository

    Bright Data Managed Service Overview

    UC Irvine Machine Learning Repositoryは、幅広く多様な公開データセットを備えた、もう1つの理想的なプラットフォームです。これらのデータセットをダウンロードすることも、自分のデータセットを提供することもできます。各データセットについて、特徴、属性タイプ、テーマ分野、インスタンス、関連タスク、特性、変数表、作成者などの情報を取得できます。

    さらに、ログイン後は、データセットを簡単に評価できます。データセットの形式には、画像、多変量、シリアライズ、時空間、表形式、テキスト、時系列などがあります。これらのデータセットは、生物学、ビジネス、気候、環境、工学、ゲーム、健康と医学、法律、物理学、化学、そして社会科学など、複数の学術分野をカバーしています。

    さらに、キーワード、属性、データ型、テーマ領域、タスク、インスタンス、特徴量、属性タイプ、およびPythonなどの条件に基づいて絞り込むこともできます。

    特徴

  • データセットのダウンロードまたはアップロードが可能です。
  • 各データセットには詳細な説明があり、ユーザーが十分な情報に基づいて判断できるよう支援します。
  • 使いやすいプラットフォーム。
  • 価格

  • ライセンス契約ベース
  • 4. Registry of Open Data on AWS

    Bright Data Managed Service Overview

    AWSオープンデータ登録簿(Registry of Open Data on AWS)は、AWSリソースを通じて利用可能なデータセットを人々が発見し共有できるよう支援する登録簿を提供しています。これにより、ユーザーはデータセットそのものや、データセットの利用方法に関するサンプルを登録簿に簡単に追加できます。また、提供されるデータセットはAWSが提供または保守しているものではなく、第三者によって提供されています。そのため、ユーザーは各データセットを確認し、最適な利用方法、許可されていること、許可されていないこと、関連するライセンス契約を判断する必要があります。

    AWSオープンデータレジストリは、掲載済みデータセットに関連するプロジェクトを持つ人々も歓迎しており、それらのプロジェクトはブログ記事内の事例として紹介できます。各データセットについて、ライセンス、更新頻度、管理、ドキュメント、引用方法、連絡先、出版物、ツールとアプリケーション、使用例などの情報を取得できます。

    特徴

  • 機械学習向けの大規模な公開データセットライブラリを備えています。
  • 特定のデータセットの詳細な説明と使用例を提供します。
  • データセットをデータセット登録簿に追加できます。
  • データの分析と処理を支援するツールとサービスを提供します。
  • 価格

  • ライセンス契約ベース
  • 5. Microsoft Azure Open Datasets

    Bright Data Managed Service Overview

    機械学習向けの公開データセットを探しているなら、Microsoft Azure Open Datasets も検討できます。これらのデータセットは機械学習ワークフローで使用でき、予測精度の向上にも役立ちます。さらに、拡大を続けるデータサイエンティストや開発者コミュニティとデータセットを共有するのも非常に簡単です。オープンデータセットを使って機械学習モデルを訓練する方法を学ぶこともできます。

    特徴

  • 機械学習向けの大規模な公開データセットライブラリを備えています。
  • 一連のオープンライセンス契約が提供されており、これをあなたのデータセットに適用できます。
  • これらのオープンデータセットを利用するには、Azureアカウントが必要です。
  • 価格

  • オープンデータセット自体の使用に追加料金はかかりません。オープンデータセットの使用時に消費されるAzureサービスの料金のみを支払う必要があります。
  • 6. OpenML

    Bright Data Managed Service Overview

    OpenMLは、世界的な機械学習ラボです。これにより、ユーザーは機械学習研究に簡単にアクセスし、必要に応じて再利用できます。OpenMLは、ユーザーがデータセット、アルゴリズム、実験を共有および利用するためのプラットフォームです。すべてのデータセットは統一された形式で整備され、一貫性のあるメタデータを備えているため、お気に入りの作業環境に直接簡単に読み込めます。

    さらに、パイプラインやモデルは、あなたのお気に入りの機械学習ライブラリから直接共有できます。同時に、数百万件の再現可能な機械学習実験から学ぶことも非常に簡単です。OpenMLは、どのデータセットとライブラリのバージョンが使用されたかを正確に記録します。

    機械学習の専門家として、自分の成果を簡単に共有できます。データ所有者は、自分のデータを共有して機械学習コミュニティに課題を提示し、協力を進めることができます。アルゴリズム開発者は、自分のツールをOpenMLと統合して、データや実験を簡単にインポートおよびエクスポートできるようにすることができます。

    特徴

  • AI対応のデータ。
  • 機械学習ライブラリとの統合。
  • データセット、パイプライン、実験のインポートとエクスポートは非常に便利です。
  • 機械学習データが整然と整理されています。
  • XML、JSON、croissant形式で簡単にダウンロードできます。
  • 価格

  • ライセンス契約ベース
  • 7. Sigma AI open datasets

    Bright Data Managed Service Overview

    Sigma AIオープンデータセットは、無料でオープンソースのデータセットを一連で提供しており、機械学習の実験やプロジェクトに利用できます。連絡を取れば、機械学習向けの公開データセットをデータベースに自由に追加することもできます。

    このプラットフォームでデータセットを探すのは複雑ではありません。項目をクリックし、さまざまなパラメータで絞り込み、特定の単語やフレーズに基づいてデータセットを検索するだけです。完了したら、右下でCSVファイルをダウンロードできます。

    特徴

  • データセットの検索とダウンロードが非常に便利です。
  • CSVファイル形式でダウンロードできます。
  • 600以上の言語をサポートしています。
  • 価格

  • データセット——無料ですが、カスタマイズサービスを提供しています
  • 8. Allen AI Open datasets for machine learning

    Bright Data Managed Service Overview

    AllenAIは、人工知能と機械学習の訓練に利用できる大規模な公開データセットデータベースを保有しています。これらのデータにアクセスすることで、ユーザーは最良のモデルがどのように機能するのか、またそれらをどのように改善してより有用にできるのかを理解できます。

    幸いなことに、すべてのデータセットは倫理的な方法で取得されており、安全に利用できます。Hugging Faceプラットフォームでは、データセットの収集状況やチームメンバーを確認できます。最新の更新を閲覧し、関心のあるテーマに応じてデータセットにアクセスできます。

    AllenAIは、言語モデル、マルチモーダルモデル、評価フレームワーク、オープンデータセットを提供しています。その多様性により、多くの人にとって第一選択のサイトとなっています。これらのデータセットには、WildChat、S2ORC、Self-instruct、Kiwi、Chime、Drop、Qasperなどがあります。

    特徴

  • 機械学習向けの大規模な公開データセットライブラリを備えています。
  • データソースは倫理規範に準拠しており、安全に利用できます。
  • ウェブサイトのナビゲーションが非常に便利です。
  • 信頼できるコミュニティを持ち、そこで協力できます。
  • 価格

  • ライセンス契約ベース
  • コミュニティベース
  • 9. Data Gov Open Data

    Bright Data Managed Service Overview

    Data.govには、利用可能なデータセットが318,500件以上あります。閲覧数の多い順、最近追加されたもの、組織別のデータセット、または地理空間データで絞り込むことができます。こうした分類により、目的のデータセットを簡単に見つけられます。Data.govは米国のデータリソースセンターで、2009年に開始され、当初は47件のデータセットしかありませんでしたが、時間の経過とともにその数は30万件以上に増加しました。

    このオープンデータサイトの主な目標は、これらの貴重なデータを容易に入手できるようにすることです。地方自治体、気候、高齢者、エネルギー、北極、水資源、人間の健康、生態系、交通、食料レジリエンスなど、複数のカテゴリを網羅しています。これらのデータは、研究、Webおよびモバイルアプリケーションの開発、データ可視化の設計などに利用できます。

    特徴

  • データセットの分類が明確で、アクセスしやすいです。
  • 米国ベースのリソースとデータを提供します。
  • 利用規約に適合している限り、誰でもこのプラットフォームにアクセスしてデータを活用できます。
  • その記録の出所は倫理規範に適合しています。
  • 絞り込みシステムと分類は一流です。
  • 価格

  • Public access and use
  • 10. Datarade.Ai

    Bright Data Managed Service Overview

    Datarade.aiは、機械学習や人工知能のトレーニングに使用できる公開データセットを取得できる、もう1つのプラットフォームです。これは、収集したいデータによって完全に異なります。没入感のある検索バーがあり、機械学習データセットなど、欲しいあらゆる種類のデータセットを検索できます。各データセットには無料のサンプルプレビューがあり、ユーザーは購入前にデータセットの内容を確認できます。

    無料サンプル、属性、データプロバイダー、国別カバレッジ、カテゴリー、配信方法などの条件で、簡単に絞り込むことができます。データセットは、S3バケット、メール、SFTP、REST API、UIエクスポート、Feed API、SOAP API、ストリーミングAPI、圧縮ファイル、Azure Blob Storage、Google Cloud Storage、Google BigQuery、Snowflake共有、Databricks Delta共有、FIX API、WebSocket などを通じて取得できます。

    特徴

  • 膨大な機械学習データセットのライブラリを備えています。
  • さまざまなデータセットについて生き生きと説明しています。
  • 複数の提供方法を用意しています。
  • 価格

  • データセット——カスタム価格設定。
  • ライセンス契約に基づいています。
  • 11. Meta AI

    Bright Data Managed Service Overview

    Meta AIも、人工知能および機械学習モデルの訓練、評価、テストに用いるための多数のデータセットとベンチマークを提供しており、関連分野の進歩を後押ししています。データセットの種類は非常に豊富で、FACET、Ego TVデータセット、MMCSGデータセット、音声公平性データセット、日常会話、3Dにおける一般物体、Segment Anything、DISC21データセット、Ego Objectsデータセット、Floresベンチマークデータセット、Ego4d など、さらに多くが含まれます。具体的な選択は、あなたが取り組んでいる内容と必要なリソースによって異なります。

    特徴

  • 膨大なデータセットライブラリを備えています。
  • その目的は、良好な協業を確保し、人工知能と機械学習の発展を加速することです。
  • 最新の研究成果を実際に体験したいユーザー向けに、利用可能なデモが提供されています。
  • 価格

  • サブスクリプションベース
  • 末尾

    ほとんどの機械学習データソースは、豊富で多様なデータを提供しているため、必要なデータをリアルタイムで簡単に取得できます。これらのデータは主にさまざまな分野や業界から来ており、その結果として多様な変数が生まれます。

    さらに、機械学習向けの公開データセットサイトの大半は非常に使いやすく、ユーザー、開発者、研究者などが必要な内容を見つけやすくなっています。また、多くのサイトではコミュニティサポートも提供されており、人々は議論に参加し、他者の経験から学び、プロジェクトの支援を受けることができます。