11 mejores conjuntos de datos públicos para aprendizaje automático

Plataformas como Kaggle, Registry of Open Data, UC Irvine ML, Microsoft Azure Open Data, DevGov, OpenML, Sigma AI y Meta AI, entre muchas otras, ofrecen a investigadores y desarrolladores una gran cantidad de conjuntos de datos públicos valiosos para machine learning.

Un conjunto de datos de machine learning es una colección de ejemplos con características y atributos comunes. Puede ser un conjunto de datos de entrenamiento, en el que los datos se introducen en un algoritmo de machine learning para entrenarlo; o un conjunto de datos de prueba, que se utiliza para evaluar y probar modelos de machine learning.

Los algoritmos de machine learning aprenden de los datos identificando tendencias, relaciones y haciendo predicciones basadas en grandes volúmenes de datos proporcionados. Unos datos de entrenamiento precisos garantizan un rendimiento exacto del modelo de machine learning.

En este artículo, presentamos algunos de los mejores conjuntos de datos públicos para el aprendizaje automático.

1. Bright Data

Brightdata también ofrece conjuntos de datos públicos para machine learning. Cuenta con más de 200 conjuntos de datos cuidadosamente seleccionados que pueden usarse para el entrenamiento de IA o machine learning. Ya no necesitas extraer los datos por tu cuenta; puedes acceder fácilmente a estos conjuntos de datos listos para usar. Los datos disponibles cubren plataformas como Amazon, LinkedIn, Instagram, CrunchBase, Zillow propiedades, Google Maps, X, TikTok, Facebook, Shopee, Indeed, Walmart, YouTube, Glassdoor, Shein, entre otras.

Estos conjuntos de datos de alta calidad se presentan en forma de video, imagen, audio y texto, y están cuidadosamente seleccionados para ajustarse perfectamente a tus necesidades. Además, con las soluciones de Brightdata, puedes buscar, rastrear e interactuar con la web fácilmente sin preocuparte por bloqueos. Su sistema también está optimizado para extraer texto adecuado para LLM (modelos de lenguaje grandes).

Además, con Brightdata puedes descubrir fuentes de datos relevantes para cualquier consulta, rastrear páginas, extraer contenido y obtener resultados aptos para LLM. También es muy cómodo ejecutar agentes de IA en navegadores remotos totalmente gestionados. Por suerte, con Brightdata puedes acceder a datos estructurados y no estructurados unificados, así como a datos históricos y en tiempo real, lo que simplifica el proceso de desarrollo de modelos de machine learning.

Características

Obtén datos limpios con una sola llamada a la API.

Un canal de datos dedicado para sus aplicaciones de IA y despliegues de proxies.

Recupera datos de un gran archivo web con miles de millones de páginas HTML.

Descubre las URL de videos e imágenes, así como texto en más de 100 idiomas.

Aprovecha el protocolo de contexto de modelos de BrightData para potenciar tus modelos y agentes de IA.

Brightdata admite configuraciones de MCP gestionadas y autogestionadas mediante la instalación de SSE, MCP o Node.js.

Formatos de salida: JSON, Excel, CSV, Parquet, personalizado.

Precio

Conjuntos de datos: desde 2,5 dólares por cada 1000 registros, paquete de 100.000 registros.

Probar los conjuntos de datos de Bright Data

2. Kaggle

Kaggle cuenta con una enorme biblioteca de conjuntos de datos públicos, ideal para aprendizaje automático. Puedes filtrar según el tipo de conjunto de datos que quieras ver, como informática, educación, clasificación, visión por computadora, procesamiento de lenguaje natural (NLP), visualización de datos, modelos preentrenados, etc. También puedes elegir según los conjuntos de datos más relevantes o populares del momento.

Este sitio es muy detallado; para cada conjunto de datos, puedes obtener descripciones claras que explican qué contiene, qué se puede lograr con él y quién se beneficiará más. Además, también puedes conocer al autor del conjunto de datos, los colaboradores, el alcance, las citas y otros detalles importantes.

Kaggle ofrece modelos de aprendizaje automático, competiciones y debates relacionados. En las competiciones, puedes iniciar una o participar en una para ver si tienes suficiente capacidad. Es una de las plataformas más interactivas para ofrecer conjuntos de datos públicos para aprendizaje automático.

Características

Descarga mediante Kagglehub, Kaggle CLI, cURL o croissant.

También puedes descargar el conjunto de datos como archivo zip o exportar los metadatos en formato croissant.

Proporcionar descripciones detalladas de los conjuntos de datos y la información de sus contribuidores.

Permite acceder a los datos mediante código.

Precio

Basado en MIT

3. UC Irvine Machine Learning Repository

UC Irvine Machine Learning Repository es otra plataforma ideal, con una amplia y diversa colección de conjuntos de datos públicos. Puedes descargar estos conjuntos de datos o contribuir con los tuyos propios. Para cada conjunto de datos, puedes obtener información sobre sus características, tipo de atributos, área temática, instancias, tareas relacionadas, características, tabla de variables y creador, entre otros datos.

Además, después de iniciar sesión, puedes calificar los conjuntos de datos fácilmente. Los formatos de los conjuntos de datos incluyen imagen, multivariante, secuencial, espacio-temporal, tabular, texto y series temporales, entre otros. Estos conjuntos de datos abarcan múltiples disciplinas, como biología, negocios, clima, medio ambiente, ingeniería, juegos, salud y medicina, derecho, física, química y ciencias sociales.

Además, también puedes filtrar por palabras clave, atributos, tipo de datos, dominio temático, tarea, instancia, característica, tipo de atributo y Python.

Características

Permite descargar o subir conjuntos de datos.

Cada conjunto de datos cuenta con una descripción detallada para ayudar a los usuarios a tomar decisiones informadas.

Una plataforma fácil de usar.

Precio

Basado en licencia

4. Registry of Open Data on AWS

El Registro de Datos Abiertos de AWS (Registry of Open Data on AWS) ofrece un registro que ayuda a las personas a descubrir y compartir conjuntos de datos disponibles a través de recursos de AWS. Permite a los usuarios añadir fácilmente conjuntos de datos al registro o ejemplos de cómo usar los conjuntos de datos. Además, los conjuntos de datos proporcionados no son ofrecidos ni mantenidos por AWS, sino por terceros. Por ello, los usuarios deben revisar cada conjunto de datos y determinar cuál es la mejor forma de usarlo, qué está permitido, qué no, y los acuerdos de licencia correspondientes.

El registro de datos abiertos de AWS también da la bienvenida a quienes tengan proyectos relacionados con conjuntos de datos ya তালلistados, y estos proyectos pueden mostrarse como entradas en publicaciones de blog. Para cada conjunto de datos, puedes obtener información sobre licencias, frecuencia de actualización, administración, documentación, cómo citarlo, contacto, publicaciones, herramientas y aplicaciones, y ejemplos de uso.

Características

Disponer de una amplia biblioteca de conjuntos de datos públicos para aprendizaje automático.

Proporcionar descripciones detalladas de conjuntos de datos específicos y ejemplos de uso.

Poder añadir conjuntos de datos al registro de conjuntos de datos.

Ofrecer herramientas y servicios para ayudar a analizar y procesar datos.

Precio

Basado en licencia

5. Microsoft Azure Open Datasets

Si buscas conjuntos de datos públicos para machine learning, también puedes considerar Microsoft Azure Open Datasets. Puedes usar estos conjuntos de datos en flujos de trabajo de machine learning y mejorar la precisión de las predicciones. Además, es muy fácil compartir conjuntos de datos con la creciente comunidad de científicos de datos y desarrolladores. También puedes aprender a usar conjuntos de datos abiertos para entrenar modelos de machine learning.

Características

Disponer de una amplia biblioteca de conjuntos de datos públicos para aprendizaje automático.

Ofrece una serie de licencias abiertas que puedes aplicar a tus conjuntos de datos.

Necesitas tener una cuenta de Azure para usar estos conjuntos de datos abiertos.

Precio

Usar el conjunto de datos abierto en sí no tiene costo adicional; solo pagas por los servicios de Azure que consumes al usar el conjunto de datos abierto.

6. OpenML

OpenML es un laboratorio global de aprendizaje automático. Permite a los usuarios acceder fácilmente a la investigación en aprendizaje automático y reutilizarla según sea necesario. OpenML es una plataforma que los usuarios utilizan para compartir y acceder a conjuntos de datos, algoritmos y experimentos. Todos los conjuntos de datos están estandarizados y cuentan con metadatos coherentes, lo que facilita cargarlos directamente en tu entorno de trabajo favorito.

Además, los pipelines y modelos se pueden compartir directamente desde tu biblioteca de machine learning favorita. Al mismo tiempo, también es muy fácil aprender de millones de experimentos de machine learning reproducibles. OpenML registra con precisión qué conjuntos de datos y qué versiones de biblioteca se usaron.

Como experto en aprendizaje automático, puedes compartir fácilmente tu trabajo; los propietarios de datos pueden compartir sus datos para plantear desafíos y colaborar con la comunidad de aprendizaje automático; los desarrolladores de algoritmos pueden integrar tus herramientas con OpenML para importar y exportar fácilmente datos y experimentos.

Características

Datos listos para IA.

Integración de bibliotecas de aprendizaje automático.

La importación y exportación de conjuntos de datos, canalizaciones y experimentos es muy sencilla.

Los datos de machine learning están organizados de forma ordenada.

Se puede descargar fácilmente en formatos XML, JSON y croissant.

Precio

Basado en licencia

7. Sigma AI open datasets

Sigma AI Open Datasets ofrece una serie de conjuntos de datos gratuitos y de código abierto que puedes usar para experimentos y proyectos de aprendizaje automático. Cuando te pongas en contacto con ellos, también puedes añadir libremente a la base de datos conjuntos de datos públicos para aprendizaje automático.

Encontrar conjuntos de datos en esta plataforma no es complicado; solo tienes que hacer clic en una entrada, filtrar según distintos parámetros y buscar conjuntos de datos por una palabra o frase. Cuando termines, descarga el archivo CSV en la esquina inferior derecha.

Características

Buscar y descargar conjuntos de datos es muy fácil.

Se puede descargar en formato CSV.

Compatible con más de 600 idiomas.

Precio

Conjuntos de datos: gratuitos, pero con servicios personalizados.

8. Allen AI Open datasets for machine learning

AllenAI cuenta con una enorme base de datos de conjuntos de datos públicos, utilizables para entrenar inteligencia artificial y aprendizaje automático. Al acceder a estos datos, los usuarios pueden entender cómo funcionan los mejores modelos y cómo mejorarlos para que sean más útiles.

Afortunadamente, todos los conjuntos de datos se obtienen de forma ética y pueden usarse con seguridad. En la plataforma de Hugging Face, puedes ver cómo se recopilaron los conjuntos de datos y quiénes son los miembros del equipo. Puedes explorarlos para ver las últimas actualizaciones y acceder a los conjuntos de datos según el tema que te interese.

AllenAI ofrece modelos de lenguaje, modelos multimodales, marcos de evaluación y conjuntos de datos abiertos. Su diversidad lo convierte en el sitio preferido de muchos. Algunos de estos conjuntos de datos incluyen WildChat, S2ORC, Self-instruct, Kiwi, Chime, Drop, Qasper, entre otros.

Características

Disponer de una amplia biblioteca de conjuntos de datos públicos para aprendizaje automático.

Las fuentes de datos cumplen normas éticas y son seguras de usar.

La navegación del sitio es muy cómoda.

Tener una comunidad confiable con la que puedes colaborar.

Precio

Basado en licencia

Basado en la comunidad

9. Data Gov Open Data

Data.gov tiene más de 318,500 conjuntos de datos disponibles. Puedes filtrarlos por más vistos, añadidos recientemente, por organización o por datos geoespaciales. Con estas categorías, puedes encontrar fácilmente el conjunto de datos que buscas. Data.gov es un centro de datos de recursos de EE. UU., lanzado en 2009 con solo 47 conjuntos de datos, y con el tiempo ha crecido hasta superar los 300,000.

El objetivo principal de este sitio de datos abiertos es garantizar que estos datos valiosos sean fáciles de acceder. Cubre múltiples categorías, como gobiernos locales, clima, personas mayores, energía, Ártico, recursos hídricos, salud humana, ecosistemas, transporte, resiliencia alimentaria, entre otras. Puedes usar estos datos para investigación, desarrollo de aplicaciones web y móviles, diseño de visualizaciones de datos, etc.

Características

La clasificación de los conjuntos de datos es clara y facilita el acceso.

Ofrece recursos y datos basados en Estados Unidos.

Mientras cumpla los términos de uso, cualquiera puede acceder a la plataforma y aprovechar los datos.

El origen de sus registros cumple con normas éticas.

El sistema de filtrado y la categorización son de primer nivel.

Precio

Public access and use

10. Datarade.Ai

Datarade.ai es otra plataforma donde puedes obtener conjuntos de datos públicos para entrenamiento de aprendizaje automático o inteligencia artificial. Todo depende del tipo de datos que quieras recopilar. Tiene una barra de búsqueda inmersiva que te permite buscar cualquier tipo de conjunto de datos que quieras, como conjuntos de datos de aprendizaje automático. En cada conjunto de datos hay una vista previa de muestra gratuita, que permite a los usuarios revisar el contenido antes de comprarlo.

Puedes filtrar fácilmente por muestras gratuitas, atributos, proveedores de datos, cobertura por país, categorías y método de entrega. Puedes obtener los conjuntos de datos mediante un bucket de S3, correo electrónico, SFTP, REST API, exportación por UI, Feed API, SOAP API, API de streaming, archivos comprimidos, Azure Blob Storage, Google Cloud Storage, Google BigQuery, compartición de Snowflake, compartición de Databricks Delta, FIX API, WebSocket, entre otros.

Características

Cuenta con una enorme biblioteca de conjuntos de datos de machine learning.

Ofrece descripciones vívidas de diversos conjuntos de datos.

Ofrece múltiples métodos de entrega.

Precio

Conjuntos de datos: precios personalizados.

Basado en un acuerdo de licencia.

11. Meta AI

Meta AI también ofrece una amplia gama de conjuntos de datos y benchmarks para entrenar, evaluar y probar modelos de inteligencia artificial y machine learning, impulsando el avance en estos campos. Sus tipos de conjuntos de datos son muy variados, e incluyen FACET, el conjunto de datos Ego TV, el conjunto de datos MMCSG, el conjunto de datos de equidad del habla, conversaciones cotidianas, objetos comunes en 3D, segment everything, el conjunto de datos DISC21, el conjunto de datos Ego Objects, el conjunto de datos de benchmark Flores, Ego4d y muchos más. Depende de en qué estés trabajando y de los recursos que necesites.

Características

Cuenta con una gran biblioteca de conjuntos de datos.

Su objetivo es garantizar una buena colaboración y acelerar el desarrollo de la inteligencia artificial y el aprendizaje automático.

Proporciona demostraciones disponibles para los usuarios que quieren experimentar de primera mano los últimos avances de la investigación.

Precio

Basado en un modelo de suscripción

Final

La mayoría de las fuentes de datos de machine learning ofrecen datos amplios y variados, por lo que es fácil obtener en tiempo real los datos que necesitas. Estos datos proceden principalmente de distintos campos e industrias, lo que genera diversas variables.

Además, la mayoría de los sitios web de conjuntos de datos públicos para aprendizaje automático son muy fáciles de usar, lo que facilita que usuarios, desarrolladores e investigadores encuentren lo que necesitan. Asimismo, la mayoría de los sitios también ofrece apoyo comunitario, donde las personas pueden participar en debates, aprender de la experiencia de otros y obtener ayuda para sus proyectos.

24 proveedores globales de proxy destacados

11 mejores conjuntos de datos públicos para aprendizaje automático

Lecturas relacionadas

Patrocinador

Blog

Artículos populares

Tipos de proxy

11 mejores conjuntos de datos públicos para aprendizaje automático

Final

Lecturas relacionadas

2026 El mejor proxy residencial estático estadounidense IP

Proxy residencial estático de Hong Kong

Proxies residenciales estáticos de Europa