機器学习数据集是一组具有共同特征和属性的實例集合。它可以是训练数据集,数据被输入到機器学习算法中用於训练;也可以是测试数据集,用於评估和测试機器学习模型。

機器学习算法通過识别数据中的趋势、關系,並基於大量提供的数据進行预测,從而從数据中学习。准确的训练数据能够确保機器学习模型的性能准确。

在本文中,我們將提供一些機器学习中最佳的公共数据集。

1. Bright Data

Bright Data Managed Service Overview

Brightdata也提供用於機器学习的公共数据集。它拥有超過200個經過精心策划的数据集,可用於人工智能训练或機器学习。你無需再自行提取数据,而是可以轻松获取這些現成的数据集。可用的数据涵盖了亚马逊、领英、Instagram、CrunchBase、Zillow房产、谷歌地图、X、TikTok、Facebook、Shopee、Indeed、沃尔玛、YouTube、Glassdoor、Shein等平台。

這些高质量的数据集以视频、图像、音频和文本的形式呈現,且經過精心策划,完全符合你的需求。此外,借助Brightdata的解决方案,你可以轻松地搜索、爬取和與网络互动,而不用担心被封禁。其系统還针對提取适合LLM(大型语言模型)的文本進行了优化。

此外,通過Brightdata,你可以為任何查询發現相關数据源,爬取页面、提取内容,並获得适合LLM的输出结果。在完全托管的远程浏览器上运行人工智能代理也非常方便。幸运的是,通過Brightdata,你可以访問统一的结构化和非结构化数据,以及历史和實時数据,從而简化機器学习模型的開發過程。

特點

  • 通過单次API调用获取干净的数据。
  • 為您的AI應用和代理部署专用数据管道。
  • 從拥有数十亿HTML页面的大型网络档案中检索数据。
  • 發現视频和图片的URL,以及100多种语言的文本。
  • 利用BrightData模型上下文协议來增强您的AI模型和代理。
  • Brightdata支持通過SSE、MCP或Node.js安装實現托管和自托管的MCP配置。
  • 输出格式:JSON、Excel、CSV、Parquet、自定义。
  • 价格

  • 数据集——起价為每1000条记录2.5美元——10万条记录套餐。
  • 2. Kaggle

    Bright Data Managed Service Overview

    Kaggle拥有一個庞大的公共数据集库,非常适合用於機器学习。你可以根据想要查看的数据集类型進行筛选,例如计算機科学、教育、分类、计算機视覺、自然语言处理(NLP)、数据可视化、预训练模型等。你也可以根据当前最相關或最热门的数据集進行选择。

    該网站非常详细;對於每個数据集,你都能获得生动的描述,了解它包含的内容、通過它可以實現的目标,以及谁將從中受益最多。此外,你還可以了解数据集的作者、合作者、覆盖范围、引用情况以及其他重要细节。

    Kaggle提供了相關的機器学习模型、竞赛和讨论。在竞赛中,你可以發起一场竞赛或参與其中,看看自己是否具备足够的能力。它是提供公共数据集用於機器学习的最具互动性的平台之一。

    特點

  • 通過Kagglehub、Kaggle CLI、cURL或croissant下载。
  • 你也可以將数据集下载為zip文件,或將元数据导出為croissant格式。
  • 提供数据集的详细描述及其贡献者信息。
  • 能够通過代码访問数据。
  • 价格

  • 基於MIT
  • 3. UC Irvine Machine Learning Repository

    Bright Data Managed Service Overview

    UC Irvine Machine Learning Repository是另一個理想的平台,拥有廣泛多樣的公共数据集。你可以下载這些数据集,也可以贡献自己的数据集。對於每個数据集,你可以获取其特征、属性类型、主题领域、實例、相關任务、特征、變量表以及创建者等信息。

    此外,登录後,你可以轻松地對数据集進行评价。数据集的形式包括图像、多變量、序列化、時空、表格、文本和時間序列等。這些数据集涵盖了生物学、商业、气候、环境、工程学、游戏、健康與医学、法律、物理学、化学以及社会科学等多個学科领域。

    此外,你還可以根据關键词、属性、数据类型、主题领域、任务、實例、特征、属性类型以及Python等条件進行筛选。

    特點

  • 允许下载或上传数据集。
  • 每個数据集都有详细的描述,帮助用户做出明智的决策。
  • 易於使用的平台。
  • 价格

  • 基於许可协议
  • 4. Registry of Open Data on AWS

    Bright Data Managed Service Overview

    AWS開放数据注册表(Registry of Open Data on AWS)提供了一個帮助人們發現和共享通過AWS资源可用的数据集的注册表。它允许用户轻松地向注册表中添加数据集或關於如何使用数据集的示例。此外,提供的数据集並非由AWS提供或维护,而是由第三方提供的。因此,用户需要检查每個数据集,並确定如何最好地使用它,允许做什麼,不允许做什麼,以及相關的许可协议。

    AWS開放数据注册表也歡迎那些拥有與已列出数据集相關的项目的人,這些项目可以作為博客文章中的项目進行展示。對於每個数据集,你可以获取有關许可、更新频率、管理、文档、如何引用、联系人、出版物、工具與應用程序以及使用示例等信息。

    特點

  • 拥有用於機器学习的庞大公共数据集库。
  • 提供特定数据集的详细描述和使用示例。
  • 能够將数据集添加到数据集注册表中。
  • 提供工具和服务以帮助分析和处理数据。
  • 价格

  • 基於许可协议
  • 5. Microsoft Azure Open Datasets

    Bright Data Managed Service Overview

    如果你正在寻找用於機器学习的公共数据集,也可以考虑微软Azure開放数据集(Microsoft Azure Open Datasets)。你可以在機器学习工作流中使用這些数据集,並提高预测的准确性。此外,與不断壮大的数据科学家和開發人员社区分享数据集也非常容易。你還可以学习如何使用開放数据集來训练機器学习模型。

    特點

  • 拥有用於機器学习的庞大公共数据集库。
  • 提供一系列開放许可协议,你可以將其應用於你的数据集。
  • 你需要拥有一個Azure账户才能使用這些開放数据集。
  • 价格

  • 使用開放数据集本身無需额外费用,你只需支付在使用開放数据集時所消耗的Azure服务的费用。
  • 6. OpenML

    Bright Data Managed Service Overview

    OpenML是一個全球性的機器学习實验室。它讓用户能够轻松地访問機器学习研究,並根据需要進行重用。OpenML是一個用户用來共享和访問数据集、算法和實验的平台。所有数据集都统一格式化,並具有连贯的元数据,可以轻松地直接加载到你最喜歡的工作环境中。

    此外,管道和模型可以直接從你最喜歡的機器学习库中共享。同時,從数百万可复現的機器学习實验中学习也非常容易。OpenML会准确记录使用了哪些数据集和库版本。

    作為機器学习专家,你可以轻松地共享你的工作;数据所有者可以共享他們的数据,以向機器学习社区發起挑战並進行合作;算法開發者可以將你的工具與OpenML集成,以便轻松导入和导出数据及實验。

    特點

  • 人工智能就绪的数据。
  • 機器学习库集成。
  • 数据集、管道和實验的导入和导出非常方便。
  • 機器学习数据组织得井井有条。
  • 可以轻松下载為XML、JSON和croissant格式。
  • 价格

  • 基於许可协议
  • 7. Sigma AI open datasets

    Bright Data Managed Service Overview

    Sigma AI開放数据集提供了一系列免费的、開源的数据集,你可以將它們用於機器学习實验和项目。当你联系他們時,你還可以自由地向数据库添加用於機器学习的公共数据集。

    在該平台上查找数据集並不复杂;你只需點击一個条目,根据各种参数進行筛选,並基於某個单词或短语搜索数据集。完成後,在右下角下载CSV文件即可。

    特點

  • 搜索和下载数据集非常方便。
  • 可以下载為CSV文件格式。
  • 支持超過600种语言。
  • 价格

  • 数据集——免费,但提供定制化服务
  • 8. Allen AI Open datasets for machine learning

    Bright Data Managed Service Overview

    AllenAI拥有一個庞大的公共数据集数据库,可用於训练人工智能和機器学习。通過访問這些数据,用户可以了解最佳模型的工作原理以及如何改進它們,使它們更有用。

    幸运的是,所有数据集都是通過道德方式获取的,並且可以安全使用。在Hugging Face平台上,你可以查看数据集的收集情况以及团队成员。你可以浏览以查看最新更新,並根据感兴趣的主题访問数据集。

    AllenAI提供语言模型、多模态模型、评估框架和開放数据集。其多樣性使其成為许多人的首选网站。其中一些数据集包括WildChat、S2ORC、Self-instruct、Kiwi、Chime、Drop、Qasper等。

    特點

  • 拥有用於機器学习的庞大公共数据集库。
  • 数据來源符合道德规范,使用安全。
  • 网站导航非常便捷。
  • 拥有一個可靠的社区,你可以與之合作。
  • 价格

  • 基於许可协议
  • 基於社区
  • 9. Data Gov Open Data

    Bright Data Managed Service Overview

    Data.gov拥有超過318,500個可用的数据集。你可以根据查看次数最多、最近添加、按组织划分的数据集或地理空間数据進行筛选。通過這些分类,你可以轻松找到自己想要的数据集。Data.gov是一個美国资源数据中心,於2009年启动,最初仅有47個数据集,随着時間的推移,数据集数量已增长到超過30万。

    該開放数据网站的主要目标是确保這些有价值的数据易於获取。它涵盖了多個类别,如地方政府、气候、老年人、能源、北极、水资源、人类健康、生态系统、交通、粮食韧性等。你可以使用這些数据進行研究、開發网络和移动應用程序、设计数据可视化等。

    特點

  • 数据集分类清晰,便於访問。
  • 提供基於美国的资源和数据。
  • 只要符合使用条款,任何人都可以访問該平台並利用数据。
  • 其记录來源符合道德规范。
  • 筛选系统和分类堪称一流。
  • 价格

  • Public access and use
  • 10. Datarade.Ai

    Bright Data Managed Service Overview

    Datarade.ai是另一個可以获取用於機器学习或人工智能训练的公共数据集的平台。這完全取决於你想要收集的数据。它有一個沉浸式的搜索栏,允许你搜索任何你想要的数据集类型,例如機器学习数据集。在每個数据集上,都有一個免费的樣本预览,允许用户在购买之前检查数据集的内容。

    你可以轻松地通過免费樣本、属性、数据提供商、国家覆盖范围、类别和交付方式等条件進行筛选。你可以通過S3存储桶、电子邮件、SFTP、REST API、UI导出、Feed API、SOAP API、流式API、压缩文件、Azure Blob存储、Google Cloud存储、Google BigQuery、Snowflake共享、Databricks Delta共享、FIX API、WebSocket等方式获取数据集。

    特點

  • 拥有庞大的機器学习数据集库。
  • 對各种数据集進行了生动的描述。
  • 提供多种交付方式。
  • 价格

  • 数据集——定制化定价。
  • 基於许可协议。
  • 11. Meta AI

    Bright Data Managed Service Overview

    Meta AI也提供了大量的数据集和基准测试,用於训练、评估和测试人工智能和機器学习模型,以推动相關领域的進步。其数据集类型丰富多樣,包括FACET、Ego TV数据集、MMCSG数据集、语音公平性数据集、日常對话、3D中的常見物体、分割一切、DISC21数据集、Ego Objects数据集、Flores基准测试数据集、Ego4d等,還有更多。具体取决於你正在從事的工作以及你需要的资源。

    特點

  • 拥有庞大的数据集库。
  • 其目标是确保良好的协作並加速人工智能和機器学习的發展。
  • 為想要亲身体验最新研究突破的用户提供了可用的演示。
  • 价格

  • 基於订阅模式
  • 结尾

    大多数機器学习数据源提供了丰富多樣化的数据,因此可以轻松地實時获取你需要的数据。這些数据主要來自各個领域和行业,從而产生了各种變量。

    此外,大多数用於機器学习的公共数据集网站都非常用户友好,方便用户、開發人员和研究人员等找到他們需要的内容。此外,大多数网站還提供社区支持,人們可以参與讨论,從他人的經验中学习,並获得项目帮助。