Как технологические гиганты оптимизируют сбор данных для искусственного интеллекта

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2024-04-28 15:19

ИИ проекты

Бум генеративного ИИ привел к конкурентной гонке за лучшую ИИ-систему между крупнейшими технологиями компаниями, такими как OpenAI, Google и Meta. Ключом к непрерывной борьбе за то, чтобы создать самый правдоподобный ИИ, стали размер, разнообразие и качество данных для машинного обучения. Очень быстро техно-гиганты осознали, что данных никогда не бывает достаточно, если мы ведем речь о создании, скажем, больших языковых моделей и тем более – мультимодальных ИИ-систем.

В The New York Times вышла статья с громким названием «Как технологические гиганты срезают углы для сбор данных для ИИ» (How Tech Giants Cut Corners to Harvest Data for A.I.). Авторами материала стали 5 ведущих технических репортеров.

Основной вывод, который был сделан в результате журналистского расследования, состоит в том крупнейшие американские технологические компании игнорируют этические аспекты, авторские правы и даже скорее всего нарушают законы для создания своих больших мульти-модальных и языковых моделей.

Авторы приводят следующие примеры:

1) OpenAi создала инструмент Whisper, который извлек аудио-дорожки из более чем 1 млн. роликов на YouTube, чтобы получить образцы диалогового текста для обучения GPT-4, хотя правила Google запрещают такое использование.

2) Мета обсуждала идею покупки издательства Simon & Schuster, чтобы получить доступ к текстам, защищенным авторскими правами, вплоть до готовности столкнуться с судебными исками. Это казалось проще и быстрее, чем договариваться с авторами книг, музыкальных произведений или новостного контента.

3) Google использовала данные пользователей своих сервисов, таких как YouTub, Google Docs или Google Maps, чтобы улучшить возможности своих ИИ-систем, при этом зная – что это нарушает их же правила хранения авторского контента.

4) Google и Meta, похоже, использовали данные из открытого Интернета, насчитывающие до 3 трлн. слов, например из Википедия и Reddit, поисковые запросы людей и их посты в социальных сетях, не спрашивая на это разрешение авторов этих материалов и вступая в конфликт с законами о конфиденциальности и собственными политиками использования пользовательского контента.

При этом авторы выделают еще одну серьезную проблему. Дело в том, что даже если техно-гиганты соберут и используют вообще всю доступную информацию, добытую правдами и неправдами – ее все равно будет недостаточно. В этой связи разработчики таких систем пытаются расширить границы и масштабы данных для обучения ИИ – они все более широко изучают и используют синтетические данные, созданные самими ИИ-моделями. Иными словами, теперь ИИ учится не на том, что создал человек – а на том, что создал сам ИИ. Учитывая галлюцинации и огромные скорости работы современных ИИ-моделей, объем таких сгенерированных данных может стать колоссальным и очень сильно повлиять на качество работы ИИ, что в конечном итоге действительно заставляет задуматься о том – контролируется ли процесс бесконечного улучшения ИИ достаточно или нет


Источник: www.nytimes.com

Комментарии: