Un conjunto de datos de machine learning es una colección de ejemplos con características y atributos comunes. Puede ser un conjunto de datos de entrenamiento, en el que los datos se introducen en un algoritmo de machine learning para entrenarlo; o un conjunto de datos de prueba, que se utiliza para evaluar y probar modelos de machine learning.
Los algoritmos de machine learning aprenden de los datos identificando tendencias, relaciones y haciendo predicciones basadas en grandes volúmenes de datos proporcionados. Unos datos de entrenamiento precisos garantizan un rendimiento exacto del modelo de machine learning.
En este artículo, presentamos algunos de los mejores conjuntos de datos públicos para el aprendizaje automático.
1. Bright Data
Brightdata también ofrece conjuntos de datos públicos para machine learning. Cuenta con más de 200 conjuntos de datos cuidadosamente seleccionados que pueden usarse para el entrenamiento de IA o machine learning. Ya no necesitas extraer los datos por tu cuenta; puedes acceder fácilmente a estos conjuntos de datos listos para usar. Los datos disponibles cubren plataformas como Amazon, LinkedIn, Instagram, CrunchBase, Zillow propiedades, Google Maps, X, TikTok, Facebook, Shopee, Indeed, Walmart, YouTube, Glassdoor, Shein, entre otras.
Estos conjuntos de datos de alta calidad se presentan en forma de video, imagen, audio y texto, y están cuidadosamente seleccionados para ajustarse perfectamente a tus necesidades. Además, con las soluciones de Brightdata, puedes buscar, rastrear e interactuar con la web fácilmente sin preocuparte por bloqueos. Su sistema también está optimizado para extraer texto adecuado para LLM (modelos de lenguaje grandes).
Además, con Brightdata puedes descubrir fuentes de datos relevantes para cualquier consulta, rastrear páginas, extraer contenido y obtener resultados aptos para LLM. También es muy cómodo ejecutar agentes de IA en navegadores remotos totalmente gestionados. Por suerte, con Brightdata puedes acceder a datos estructurados y no estructurados unificados, así como a datos históricos y en tiempo real, lo que simplifica el proceso de desarrollo de modelos de machine learning.
Características
Precio
2. Kaggle
Kaggle cuenta con una enorme biblioteca de conjuntos de datos públicos, ideal para aprendizaje automático. Puedes filtrar según el tipo de conjunto de datos que quieras ver, como informática, educación, clasificación, visión por computadora, procesamiento de lenguaje natural (NLP), visualización de datos, modelos preentrenados, etc. También puedes elegir según los conjuntos de datos más relevantes o populares del momento.
Este sitio es muy detallado; para cada conjunto de datos, puedes obtener descripciones claras que explican qué contiene, qué se puede lograr con él y quién se beneficiará más. Además, también puedes conocer al autor del conjunto de datos, los colaboradores, el alcance, las citas y otros detalles importantes.
Kaggle ofrece modelos de aprendizaje automático, competiciones y debates relacionados. En las competiciones, puedes iniciar una o participar en una para ver si tienes suficiente capacidad. Es una de las plataformas más interactivas para ofrecer conjuntos de datos públicos para aprendizaje automático.
Características
Precio
3. UC Irvine Machine Learning Repository
UC Irvine Machine Learning Repository es otra plataforma ideal, con una amplia y diversa colección de conjuntos de datos públicos. Puedes descargar estos conjuntos de datos o contribuir con los tuyos propios. Para cada conjunto de datos, puedes obtener información sobre sus características, tipo de atributos, área temática, instancias, tareas relacionadas, características, tabla de variables y creador, entre otros datos.
Además, después de iniciar sesión, puedes calificar los conjuntos de datos fácilmente. Los formatos de los conjuntos de datos incluyen imagen, multivariante, secuencial, espacio-temporal, tabular, texto y series temporales, entre otros. Estos conjuntos de datos abarcan múltiples disciplinas, como biología, negocios, clima, medio ambiente, ingeniería, juegos, salud y medicina, derecho, física, química y ciencias sociales.
Además, también puedes filtrar por palabras clave, atributos, tipo de datos, dominio temático, tarea, instancia, característica, tipo de atributo y Python.
Características
Precio
4. Registry of Open Data on AWS
El Registro de Datos Abiertos de AWS (Registry of Open Data on AWS) ofrece un registro que ayuda a las personas a descubrir y compartir conjuntos de datos disponibles a través de recursos de AWS. Permite a los usuarios añadir fácilmente conjuntos de datos al registro o ejemplos de cómo usar los conjuntos de datos. Además, los conjuntos de datos proporcionados no son ofrecidos ni mantenidos por AWS, sino por terceros. Por ello, los usuarios deben revisar cada conjunto de datos y determinar cuál es la mejor forma de usarlo, qué está permitido, qué no, y los acuerdos de licencia correspondientes.
El registro de datos abiertos de AWS también da la bienvenida a quienes tengan proyectos relacionados con conjuntos de datos ya তালلistados, y estos proyectos pueden mostrarse como entradas en publicaciones de blog. Para cada conjunto de datos, puedes obtener información sobre licencias, frecuencia de actualización, administración, documentación, cómo citarlo, contacto, publicaciones, herramientas y aplicaciones, y ejemplos de uso.
Características
Precio
5. Microsoft Azure Open Datasets
Si buscas conjuntos de datos públicos para machine learning, también puedes considerar Microsoft Azure Open Datasets. Puedes usar estos conjuntos de datos en flujos de trabajo de machine learning y mejorar la precisión de las predicciones. Además, es muy fácil compartir conjuntos de datos con la creciente comunidad de científicos de datos y desarrolladores. También puedes aprender a usar conjuntos de datos abiertos para entrenar modelos de machine learning.
Características
Precio
6. OpenML
OpenML es un laboratorio global de aprendizaje automático. Permite a los usuarios acceder fácilmente a la investigación en aprendizaje automático y reutilizarla según sea necesario. OpenML es una plataforma que los usuarios utilizan para compartir y acceder a conjuntos de datos, algoritmos y experimentos. Todos los conjuntos de datos están estandarizados y cuentan con metadatos coherentes, lo que facilita cargarlos directamente en tu entorno de trabajo favorito.
Además, los pipelines y modelos se pueden compartir directamente desde tu biblioteca de machine learning favorita. Al mismo tiempo, también es muy fácil aprender de millones de experimentos de machine learning reproducibles. OpenML registra con precisión qué conjuntos de datos y qué versiones de biblioteca se usaron.
Como experto en aprendizaje automático, puedes compartir fácilmente tu trabajo; los propietarios de datos pueden compartir sus datos para plantear desafíos y colaborar con la comunidad de aprendizaje automático; los desarrolladores de algoritmos pueden integrar tus herramientas con OpenML para importar y exportar fácilmente datos y experimentos.
Características
Precio
7. Sigma AI open datasets
Sigma AI Open Datasets ofrece una serie de conjuntos de datos gratuitos y de código abierto que puedes usar para experimentos y proyectos de aprendizaje automático. Cuando te pongas en contacto con ellos, también puedes añadir libremente a la base de datos conjuntos de datos públicos para aprendizaje automático.
Encontrar conjuntos de datos en esta plataforma no es complicado; solo tienes que hacer clic en una entrada, filtrar según distintos parámetros y buscar conjuntos de datos por una palabra o frase. Cuando termines, descarga el archivo CSV en la esquina inferior derecha.
Características
Precio
8. Allen AI Open datasets for machine learning
AllenAI cuenta con una enorme base de datos de conjuntos de datos públicos, utilizables para entrenar inteligencia artificial y aprendizaje automático. Al acceder a estos datos, los usuarios pueden entender cómo funcionan los mejores modelos y cómo mejorarlos para que sean más útiles.
Afortunadamente, todos los conjuntos de datos se obtienen de forma ética y pueden usarse con seguridad. En la plataforma de Hugging Face, puedes ver cómo se recopilaron los conjuntos de datos y quiénes son los miembros del equipo. Puedes explorarlos para ver las últimas actualizaciones y acceder a los conjuntos de datos según el tema que te interese.
AllenAI ofrece modelos de lenguaje, modelos multimodales, marcos de evaluación y conjuntos de datos abiertos. Su diversidad lo convierte en el sitio preferido de muchos. Algunos de estos conjuntos de datos incluyen WildChat, S2ORC, Self-instruct, Kiwi, Chime, Drop, Qasper, entre otros.
Características
Precio
9. Data Gov Open Data
Data.gov tiene más de 318,500 conjuntos de datos disponibles. Puedes filtrarlos por más vistos, añadidos recientemente, por organización o por datos geoespaciales. Con estas categorías, puedes encontrar fácilmente el conjunto de datos que buscas. Data.gov es un centro de datos de recursos de EE. UU., lanzado en 2009 con solo 47 conjuntos de datos, y con el tiempo ha crecido hasta superar los 300,000.
El objetivo principal de este sitio de datos abiertos es garantizar que estos datos valiosos sean fáciles de acceder. Cubre múltiples categorías, como gobiernos locales, clima, personas mayores, energía, Ártico, recursos hídricos, salud humana, ecosistemas, transporte, resiliencia alimentaria, entre otras. Puedes usar estos datos para investigación, desarrollo de aplicaciones web y móviles, diseño de visualizaciones de datos, etc.
Características
Precio
10. Datarade.Ai
Datarade.ai es otra plataforma donde puedes obtener conjuntos de datos públicos para entrenamiento de aprendizaje automático o inteligencia artificial. Todo depende del tipo de datos que quieras recopilar. Tiene una barra de búsqueda inmersiva que te permite buscar cualquier tipo de conjunto de datos que quieras, como conjuntos de datos de aprendizaje automático. En cada conjunto de datos hay una vista previa de muestra gratuita, que permite a los usuarios revisar el contenido antes de comprarlo.
Puedes filtrar fácilmente por muestras gratuitas, atributos, proveedores de datos, cobertura por país, categorías y método de entrega. Puedes obtener los conjuntos de datos mediante un bucket de S3, correo electrónico, SFTP, REST API, exportación por UI, Feed API, SOAP API, API de streaming, archivos comprimidos, Azure Blob Storage, Google Cloud Storage, Google BigQuery, compartición de Snowflake, compartición de Databricks Delta, FIX API, WebSocket, entre otros.
Características
Precio
11. Meta AI
Meta AI también ofrece una amplia gama de conjuntos de datos y benchmarks para entrenar, evaluar y probar modelos de inteligencia artificial y machine learning, impulsando el avance en estos campos. Sus tipos de conjuntos de datos son muy variados, e incluyen FACET, el conjunto de datos Ego TV, el conjunto de datos MMCSG, el conjunto de datos de equidad del habla, conversaciones cotidianas, objetos comunes en 3D, segment everything, el conjunto de datos DISC21, el conjunto de datos Ego Objects, el conjunto de datos de benchmark Flores, Ego4d y muchos más. Depende de en qué estés trabajando y de los recursos que necesites.
Características
Precio
Final
La mayoría de las fuentes de datos de machine learning ofrecen datos amplios y variados, por lo que es fácil obtener en tiempo real los datos que necesitas. Estos datos proceden principalmente de distintos campos e industrias, lo que genera diversas variables.
Además, la mayoría de los sitios web de conjuntos de datos públicos para aprendizaje automático son muy fáciles de usar, lo que facilita que usuarios, desarrolladores e investigadores encuentren lo que necesitan. Asimismo, la mayoría de los sitios también ofrece apoyo comunitario, donde las personas pueden participar en debates, aprender de la experiencia de otros y obtener ayuda para sus proyectos.