Дослідник ШІ збирає придатні для використання дані з 35-секундного запису екрана менш ніж за один цент через Google Gemini

Дослідник ШІ збирає придатні для використання дані з 35-секундного запису екрана менш ніж за один цент через Google Gemini

Це потенційно може заощадити тисячі годин ручної праці.
Дослідник штучного інтелекту та журналіст Саймон Віллісон використав інструмент Google AI Studio, щоб перетворити 35-секундний запис екрану з 12 електронних листів в одну електронну таблицю. Цей експеримент здивував Віллісона, який не очікував, що ШІ дасть точні результати за таку низьку вартість. Відповідно до його блогу, AI Studio стягнула з нього 11 018 токенів за цю дію, і з вартістю 7,5 центів за мільйон жетонів ця вправа становить менше 10% від 1 цента.

Сценарій Віллісона передбачав необхідність отримати числові значення для 12 різних електронних листів. Замість того, щоб витрачати час на копіювання та вставлення вихідних даних в електронну таблицю, вони заручилися допомогою штучного інтелекту, щоб переглянути знімки екрана їхніх електронних листів і отримати дані з відео. Підказка, яку Віллісон надав Google AI Studio, була простою: «Перетворіть це на масив JSON, де кожен елемент має дату рррр-мм-дд і суму в доларах з плаваючою комою для цієї дати».

Віллісон надав приклад вихідних даних у форматі JSON.
[
 {
 "дата": "01.01.2023",
 "сума": 2...
 },
 ...
]

Віллісон показує, що кінцева вартість становила 1/10 цента. Це розраховано AI Studio з використанням 11 018 токенів, з яких 10 326 для відео. Модель Gemini 1.5 Flash 002, дешевша модель, ніж Gemini 1.5 Pro, коштує $0,075 за один мільйон токенів. Віллісон корисно показує нам математику, яка привела до цього висновку.

11018/1000000 = 0,011018

0,011018 * $0,075 = $0,00082635

Але наразі Google AI Studio безкоштовна, тому Віллісон не витратив ні цента!
Хоча сканування даних із кількох повідомлень у вашій папці «Вхідні» може здатися легким завданням, яке не потребує жодної автоматичної допомоги, це буде інша історія, якщо вам доведеться знайти дані з сотні чи навіть тисячі електронних листів. Існують інші альтернативи запису екрану та передачі даних до штучного інтелекту, як-от використання API для сканування вашої папки "Вхідні" або використання власного інструменту Google Gemini у Gmail. Однак перший вимагає певних знань програмування, з якими більшість користувачів, ймовірно, не знайомі, тоді як другий має свої власні проблеми, які можуть змусити вас нервувати щодо надання Gemini повного доступу до вашої папки "Вхідні".

Що робить відеоскрейпінг таким потужним інструментом, так це те, що для його використання не потрібно багато зусиль — усе, що вам потрібно, це спосіб захопити ваш екран і мультимодальний інструмент (наприклад, Gemini 1.5), і він може створити базу даних з інформації, яку ви записали на екрані. Крім того, що вам не потрібні спеціальні знання, ви можете отримати дані з потенційно будь-якого джерела, включаючи веб-сторінки.

Насправді це та сама концепція суперечливого інструменту Recall, який Microsoft представила зі своїми ПК Copilot+ і стороннім інструментом Rewind AI, доступним для macOS. Однак, навіть якщо ці інструменти обробляють ваші дані лише локально на сумісних пристроях, вони все одно мають невід’ємну проблему конфіденційності, оскільки вони записують ваш екран увесь час, коли ви використовуєте комп’ютер, і зберігають їх у локальній папці. Навіть якщо знімки екрана не завантажено в хмару, той факт, що вони зберігаються в одному місці на вашому комп’ютері, робить ваші дані вразливими.

Процес Віллісона є інтригуючим і, безсумнівно, спонукає інших досліджувати, як ШІ можна використовувати для виконання інших подібних завдань.