Умные вещи

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным для обучения ИИ-моделей.

Источник изображения: Oberon Copeland @veryinformed.com/unsplash.com

Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей».

На данный момент у Wikimedia есть соглашения об обмене контентом с Google и Internet Archive, но партнёрство с Kaggle позволит сделать данные более доступными для небольших компаний и независимых специалистов в сфере Data Science. «Являясь площадкой, к которой сообщество машинного обучения обращается за инструментами и тестами, Kaggle будет рада стать хостом для данных фонда Wikimedia», — сообщила Бренда Флинн (Brenda Flynn), руководитель по коммуникациям в Kaggle.

Источник

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Добавить комментарий Отменить ответ

Видеокарты GeForce RTX 5060 Ti всплыли в рознице до анонса — цена стартует с €489

Google показала живьём прототип AR-очков под управлением Android XR

Давно заблокированный в России пиратский сайт Rutracker вообще перестал открываться

iPhone 6s официально стал винтажным

Календарь релизов — 14–20 апреля: Mandragora: Whispers of the Witch Tree и Stygian: Outer Gods

Audio-Technica выпустила наушники за $6800 для фанатов «Звёздных войн»

AMD показала первые 2-нм чипы на Zen 6 и анонсировала производство процессоров в США

В ядре Млечного Пути происходит что-то непонятное — в этом замешана новая форма тёмной материи, решили учёные

Apple ускорила решение проблем с внедрением ИИ — поумневшая Siri может выйти уже осенью

Nvidia и Alphabet вложились в капитал стартапа одного из основателей OpenAI

MediaTek представила самый быстрый мобильный чип Dimensity 9400+ с поддержкой 10-км Bluetooth

В Death Stranding 2: On the Beach появится функция пропуска боссов — она превращает игру в визуальную новеллу

Бизнес Intel серьёзно пострадает от торговой войны с Китаем

Meta✴ уже несколько лет пытается вернуть Facebook✴ культурную ценность

Представлены доступные смартфоны Acer Super ZX и Super ZX Pro, которые на самом деле не Acer

Представлен смартфон Honor Power с мощным аккумулятором на 8000 мА·ч и тонким корпусом

Создатели следующей Battlefield рассказали о новом «языке разрушения» и показали его в деле

Аудитория ChatGPT приблизилась к миллиарду пользователей благодаря аниме-картинкам

ЕС пригрозил обложить американские компании налогами в случае провала переговоров с Трампом

Sony внезапно подняла цены на PlayStation 5 во многих странах по всему миру

Смартфон OnePlus 13T полностью рассекречен в официальном видео перед анонсом

Colorful представила GeForce RTX 5060 Ti и RTX 5060 в версиях Advanced, Ultra W, Ultra W Duo, NB-EX и NB Duo

Curiosity нашёл свидетельства того, что в древности на Марсе могла быть жизнь

В Windows 10 и 11 появилась загадочная пустая папка — Microsoft объяснила, зачем она нужна

Motorola представила свой первый ноутбук — компактный Moto Book 60 с OLED, Intel Core и Wi-Fi 7

Космический аппарат MEV-1 впервые в истории отстыковался от спутника, которому 5 лет продлевал жизнь

В WhatsApp появилась функция перевода сообщений в чатах и на каналах — есть поддержка русского языка

Самая большая структура во Вселенной оказалась больше и ближе к Земле, чем считалось

Huawei запустила первый в мире 10-гигабитный интернет — фильм в 8K скачается за минуту

Автор Loretta раскрыл дату выхода новой игры — хоррор-стратегии Anoxia Station про погоню за нефтью в недрах умирающей Земли

Статьи по теме