机器学习数据集是一组具有共同特征和属性的实例集合。它可以是训练数据集,数据被输入到机器学习算法中用于训练;也可以是测试数据集,用于评估和测试机器学习模型。

机器学习算法通过识别数据中的趋势、关系,并基于大量提供的数据进行预测,从而从数据中学习。准确的训练数据能够确保机器学习模型的性能准确。

在本文中,我们将提供一些机器学习中最佳的公共数据集。

1. Bright Data

Bright Data Managed Service Overview

Brightdata也提供用于机器学习的公共数据集。它拥有超过200个经过精心策划的数据集,可用于人工智能训练或机器学习。你无需再自行提取数据,而是可以轻松获取这些现成的数据集。可用的数据涵盖了亚马逊、领英、Instagram、CrunchBase、Zillow房产、谷歌地图、X、TikTok、Facebook、Shopee、Indeed、沃尔玛、YouTube、Glassdoor、Shein等平台。

这些高质量的数据集以视频、图像、音频和文本的形式呈现,且经过精心策划,完全符合你的需求。此外,借助Brightdata的解决方案,你可以轻松地搜索、爬取和与网络互动,而不用担心被封禁。其系统还针对提取适合LLM(大型语言模型)的文本进行了优化。

此外,通过Brightdata,你可以为任何查询发现相关数据源,爬取页面、提取内容,并获得适合LLM的输出结果。在完全托管的远程浏览器上运行人工智能代理也非常方便。幸运的是,通过Brightdata,你可以访问统一的结构化和非结构化数据,以及历史和实时数据,从而简化机器学习模型的开发过程。

特点

  • 通过单次API调用获取干净的数据。
  • 为您的AI应用和代理部署专用数据管道。
  • 从拥有数十亿HTML页面的大型网络档案中检索数据。
  • 发现视频和图片的URL,以及100多种语言的文本。
  • 利用BrightData模型上下文协议来增强您的AI模型和代理。
  • Brightdata支持通过SSE、MCP或Node.js安装实现托管和自托管的MCP配置。
  • 输出格式:JSON、Excel、CSV、Parquet、自定义。
  • 价格

  • 数据集——起价为每1000条记录2.5美元——10万条记录套餐。
  • 2. Kaggle

    Bright Data Managed Service Overview

    Kaggle拥有一个庞大的公共数据集库,非常适合用于机器学习。你可以根据想要查看的数据集类型进行筛选,例如计算机科学、教育、分类、计算机视觉、自然语言处理(NLP)、数据可视化、预训练模型等。你也可以根据当前最相关或最热门的数据集进行选择。

    该网站非常详细;对于每个数据集,你都能获得生动的描述,了解它包含的内容、通过它可以实现的目标,以及谁将从中受益最多。此外,你还可以了解数据集的作者、合作者、覆盖范围、引用情况以及其他重要细节。

    Kaggle提供了相关的机器学习模型、竞赛和讨论。在竞赛中,你可以发起一场竞赛或参与其中,看看自己是否具备足够的能力。它是提供公共数据集用于机器学习的最具互动性的平台之一。

    特点

  • 通过Kagglehub、Kaggle CLI、cURL或croissant下载。
  • 你也可以将数据集下载为zip文件,或将元数据导出为croissant格式。
  • 提供数据集的详细描述及其贡献者信息。
  • 能够通过代码访问数据。
  • 价格

  • 基于MIT
  • 3. UC Irvine Machine Learning Repository

    Bright Data Managed Service Overview

    UC Irvine Machine Learning Repository是另一个理想的平台,拥有广泛多样的公共数据集。你可以下载这些数据集,也可以贡献自己的数据集。对于每个数据集,你可以获取其特征、属性类型、主题领域、实例、相关任务、特征、变量表以及创建者等信息。

    此外,登录后,你可以轻松地对数据集进行评价。数据集的形式包括图像、多变量、序列化、时空、表格、文本和时间序列等。这些数据集涵盖了生物学、商业、气候、环境、工程学、游戏、健康与医学、法律、物理学、化学以及社会科学等多个学科领域。

    此外,你还可以根据关键词、属性、数据类型、主题领域、任务、实例、特征、属性类型以及Python等条件进行筛选。

    特点

  • 允许下载或上传数据集。
  • 每个数据集都有详细的描述,帮助用户做出明智的决策。
  • 易于使用的平台。
  • 价格

  • 基于许可协议
  • 4. Registry of Open Data on AWS

    Bright Data Managed Service Overview

    AWS开放数据注册表(Registry of Open Data on AWS)提供了一个帮助人们发现和共享通过AWS资源可用的数据集的注册表。它允许用户轻松地向注册表中添加数据集或关于如何使用数据集的示例。此外,提供的数据集并非由AWS提供或维护,而是由第三方提供的。因此,用户需要检查每个数据集,并确定如何最好地使用它,允许做什么,不允许做什么,以及相关的许可协议。

    AWS开放数据注册表也欢迎那些拥有与已列出数据集相关的项目的人,这些项目可以作为博客文章中的项目进行展示。对于每个数据集,你可以获取有关许可、更新频率、管理、文档、如何引用、联系人、出版物、工具与应用程序以及使用示例等信息。

    特点

  • 拥有用于机器学习的庞大公共数据集库。
  • 提供特定数据集的详细描述和使用示例。
  • 能够将数据集添加到数据集注册表中。
  • 提供工具和服务以帮助分析和处理数据。
  • 价格

  • 基于许可协议
  • 5. Microsoft Azure Open Datasets

    Bright Data Managed Service Overview

    如果你正在寻找用于机器学习的公共数据集,也可以考虑微软Azure开放数据集(Microsoft Azure Open Datasets)。你可以在机器学习工作流中使用这些数据集,并提高预测的准确性。此外,与不断壮大的数据科学家和开发人员社区分享数据集也非常容易。你还可以学习如何使用开放数据集来训练机器学习模型。

    特点

  • 拥有用于机器学习的庞大公共数据集库。
  • 提供一系列开放许可协议,你可以将其应用于你的数据集。
  • 你需要拥有一个Azure账户才能使用这些开放数据集。
  • 价格

  • 使用开放数据集本身无需额外费用,你只需支付在使用开放数据集时所消耗的Azure服务的费用。
  • 6. OpenML

    Bright Data Managed Service Overview

    OpenML是一个全球性的机器学习实验室。它让用户能够轻松地访问机器学习研究,并根据需要进行重用。OpenML是一个用户用来共享和访问数据集、算法和实验的平台。所有数据集都统一格式化,并具有连贯的元数据,可以轻松地直接加载到你最喜欢的工作环境中。

    此外,管道和模型可以直接从你最喜欢的机器学习库中共享。同时,从数百万可复现的机器学习实验中学习也非常容易。OpenML会准确记录使用了哪些数据集和库版本。

    作为机器学习专家,你可以轻松地共享你的工作;数据所有者可以共享他们的数据,以向机器学习社区发起挑战并进行合作;算法开发者可以将你的工具与OpenML集成,以便轻松导入和导出数据及实验。

    特点

  • 人工智能就绪的数据。
  • 机器学习库集成。
  • 数据集、管道和实验的导入和导出非常方便。
  • 机器学习数据组织得井井有条。
  • 可以轻松下载为XML、JSON和croissant格式。
  • 价格

  • 基于许可协议
  • 7. Sigma AI open datasets

    Bright Data Managed Service Overview

    Sigma AI开放数据集提供了一系列免费的、开源的数据集,你可以将它们用于机器学习实验和项目。当你联系他们时,你还可以自由地向数据库添加用于机器学习的公共数据集。

    在该平台上查找数据集并不复杂;你只需点击一个条目,根据各种参数进行筛选,并基于某个单词或短语搜索数据集。完成后,在右下角下载CSV文件即可。

    特点

  • 搜索和下载数据集非常方便。
  • 可以下载为CSV文件格式。
  • 支持超过600种语言。
  • 价格

  • 数据集——免费,但提供定制化服务
  • 8. Allen AI Open datasets for machine learning

    Bright Data Managed Service Overview

    AllenAI拥有一个庞大的公共数据集数据库,可用于训练人工智能和机器学习。通过访问这些数据,用户可以了解最佳模型的工作原理以及如何改进它们,使它们更有用。

    幸运的是,所有数据集都是通过道德方式获取的,并且可以安全使用。在Hugging Face平台上,你可以查看数据集的收集情况以及团队成员。你可以浏览以查看最新更新,并根据感兴趣的主题访问数据集。

    AllenAI提供语言模型、多模态模型、评估框架和开放数据集。其多样性使其成为许多人的首选网站。其中一些数据集包括WildChat、S2ORC、Self-instruct、Kiwi、Chime、Drop、Qasper等。

    特点

  • 拥有用于机器学习的庞大公共数据集库。
  • 数据来源符合道德规范,使用安全。
  • 网站导航非常便捷。
  • 拥有一个可靠的社区,你可以与之合作。
  • 价格

  • 基于许可协议
  • 基于社区
  • 9. Data Gov Open Data

    Bright Data Managed Service Overview

    Data.gov拥有超过318,500个可用的数据集。你可以根据查看次数最多、最近添加、按组织划分的数据集或地理空间数据进行筛选。通过这些分类,你可以轻松找到自己想要的数据集。Data.gov是一个美国资源数据中心,于2009年启动,最初仅有47个数据集,随着时间的推移,数据集数量已增长到超过30万。

    该开放数据网站的主要目标是确保这些有价值的数据易于获取。它涵盖了多个类别,如地方政府、气候、老年人、能源、北极、水资源、人类健康、生态系统、交通、粮食韧性等。你可以使用这些数据进行研究、开发网络和移动应用程序、设计数据可视化等。

    特点

  • 数据集分类清晰,便于访问。
  • 提供基于美国的资源和数据。
  • 只要符合使用条款,任何人都可以访问该平台并利用数据。
  • 其记录来源符合道德规范。
  • 筛选系统和分类堪称一流。
  • 价格

  • Public access and use
  • 10. Datarade.Ai

    Bright Data Managed Service Overview

    Datarade.ai是另一个可以获取用于机器学习或人工智能训练的公共数据集的平台。这完全取决于你想要收集的数据。它有一个沉浸式的搜索栏,允许你搜索任何你想要的数据集类型,例如机器学习数据集。在每个数据集上,都有一个免费的样本预览,允许用户在购买之前检查数据集的内容。

    你可以轻松地通过免费样本、属性、数据提供商、国家覆盖范围、类别和交付方式等条件进行筛选。你可以通过S3存储桶、电子邮件、SFTP、REST API、UI导出、Feed API、SOAP API、流式API、压缩文件、Azure Blob存储、Google Cloud存储、Google BigQuery、Snowflake共享、Databricks Delta共享、FIX API、WebSocket等方式获取数据集。

    特点

  • 拥有庞大的机器学习数据集库。
  • 对各种数据集进行了生动的描述。
  • 提供多种交付方式。
  • 价格

  • 数据集——定制化定价。
  • 基于许可协议。
  • 11. Meta AI

    Bright Data Managed Service Overview

    Meta AI也提供了大量的数据集和基准测试,用于训练、评估和测试人工智能和机器学习模型,以推动相关领域的进步。其数据集类型丰富多样,包括FACET、Ego TV数据集、MMCSG数据集、语音公平性数据集、日常对话、3D中的常见物体、分割一切、DISC21数据集、Ego Objects数据集、Flores基准测试数据集、Ego4d等,还有更多。具体取决于你正在从事的工作以及你需要的资源。

    特点

  • 拥有庞大的数据集库。
  • 其目标是确保良好的协作并加速人工智能和机器学习的发展。
  • 为想要亲身体验最新研究突破的用户提供了可用的演示。
  • 价格

  • 基于订阅模式
  • 结尾

    大多数机器学习数据源提供了丰富多样化的数据,因此可以轻松地实时获取你需要的数据。这些数据主要来自各个领域和行业,从而产生了各种变量。

    此外,大多数用于机器学习的公共数据集网站都非常用户友好,方便用户、开发人员和研究人员等找到他们需要的内容。此外,大多数网站还提供社区支持,人们可以参与讨论,从他人的经验中学习,并获得项目帮助。