Harvard releases massive public-domain book dataset for AI training, funded by tech giants. Harvard publica masivos conjuntos de datos de libros de dominio público para entrenamiento de IA, financiados por gigantes tecnológicos.
Harvard University, with funding from Microsoft and OpenAI, has released a dataset of nearly one million public-domain books for training AI models. La Universidad de Harvard, con fondos de Microsoft y OpenAI, ha publicado un conjunto de datos de casi un millón de libros de dominio público para la formación de modelos de IA. The Institutional Data Initiative aims to provide smaller developers with access to high-quality data, typically available only to tech giants, thereby leveling the playing field in AI development. La Iniciativa de Datos Institucionales tiene como objetivo proporcionar a los desarrolladores más pequeños acceso a datos de alta calidad, normalmente disponibles sólo para gigantes tecnológicos, nivelando así el campo de juego en el desarrollo de la IA. The dataset includes books from the Google Books project and can be used by anyone to train AI, from hobbyists to corporations. El conjunto de datos incluye libros del proyecto Google Books y puede ser utilizado por cualquier persona para entrenar IA, desde aficionados a corporaciones.