Искусственный интеллект не будет выглядеть как чат

В апреле 2024 ко мне пришло странное вдохновение и я написал в Телеграме пост, текст которого оставляю и здесь.

За полтора года роста мощностей языковых моделей у меня не исчезло ощущение, что человечество всё не может органично внедрить их в свою жизнь.

Миллион стартапов пытается воткнуть искусственный интеллект в правильное место, чтобы облегчить чью-то работу. У них получаются чат-боты, встроенные в сайты с документацией, — такие продукты, хорошо, окей, помогают пользователям, но далеки от того интуитивного дополнения к рабочему процессу будущего, которого мы хотим достичь с помощью искусственного интеллекта.

Очевидный вектор развития — интеграция языковых моделей с ежедневной работой. Онлайн-инструменты как Google Docs и Notion уже напичкиваются ИИ-фичами, и модели вот-вот начнут работать офлайн, интегрироваться с системными приложениями и операционками. Как Google Assistant уже много лет выполняет команды «Включи фонарик» или «Переведи на французский» без сети, языковые модели будут точкой взаимодействия человека с операционной системой, ещё более мощного.

Мы привыкли мыслить взаимодействие с языковыми моделями как чат. Такой формат оказался эффективным при текущих возможностях моделей и привычках пользователей, но вряд ли является финальным и совершенным.

У дизайнеров, что любят пофилософствовать, есть такой принцип: лучший интерфейс — его отсутствие. В идеальном мире мостика между человеком и решением его задачи нет, потому что задача решена сразу. Формы для заказа дивана не существовало бы, если бы человек мог нажать на кнопку «Купить» и не вводить адрес и платёжные данные. Кнопки «Купить» тоже бы не существовало, если бы диван появлялся у человека дома, как только понадобился.

Кажется, чат с языковой моделью — это интерфейс, от которого мы можем избавиться. Это значит, что человек не будет печатать запрос, пытаясь сделать его как можно более понятным нейронке; нейронка сама будет погружаться в его контекст.

Звучит расплывчато, но движение в этом направлении вообразить несложно. Представьте такой прототип. Программа на Линуксе скриншотит систему каждую секунду и обрабатывает происходящее локальной моделью, а ответы модели отображает в строке состояния. Когда пользователь пытается выгрузить видео в облако, но Google Drive ругается, что видео слишком тяжёлое, — нейронка рисует кнопку: «Сжать видео ffmpeg’ом и снова выгрузить».

Такой скрипт-костыль заметно ускорит всю работу за компьютером, освободив мозг от рутины (как программисты любят, ага). А ведь здесь не требуется ничего сложного, кроме хороших локально работающих моделей, которые мы увидим совсем скоро.

В операционных системах на компьютерах и телефонах могут появиться похожие решения. Я надеюсь, что это будут не фичи-надстройки над продуктом, как в Notion и Google Docs, а новые способы взаимодействия между человеком и устройством.

Я жду, что в 2025 устройство будет осознавать контекст вашей работы и интегрировать между собой софт, чтобы сократить путь между возникновением и решением задачи.