Получи случайную криптовалюту за регистрацию!

Надважлива тема — боротьба за контроль над даними для навчання | Brodetskyi. Tech, VC, startups

Надважлива тема — боротьба за контроль над даними для навчання AI. Зараз найбільші моделі створені фактично на піратських датасетах — розробники можуть спарсити будь-який сайт, закачати в базу спірачені книги і безкоштовно використати їх для тренування моделі. Звісно що постійно це не може продовжуватись і сайти на кшталт Reddit протестують проти такого безоплатного використання їх контенту.

Ще одне питання — як менеджити дані користувачів (промпти, історію переписок) враховуючи GDPR, AI Act та інші регуляторні обмеження. Гарний ролик для знайомства з темою:



До речі, напередодні CEO Open AI Сем Альтман свідчив перед Сенатом, де обговорювали регулювання галузі AI. Сенатори хвилюються, як би не пропустити цей момент, як це сталось із індустрією соціальних медіа. Альтман погоджувався, що регулювання потрібне, виступав з пропозиціями — наприклад ліцензувати моделі і затверджувати стандарти тестування, але про обмеження на збір даних для навчання не згадував.