Как я научил GPT-OSS-120B видеть: Google Lens, OpenCV и немного магии

Иногда кажется, что обучить модель видеть проще, чем убедить холодильник не глотать носки — но вот вам доказательство: текстовый GPT‑OSS‑120B заглянул в мир картинок через Google Lens и OpenCV, а я всего лишь устроил ему мостик между словами и пикселями.

Идея простая и немного хитрая: MCP‑сервер выступает диспетчером, который даёт любому локальному LLM доступ к реальному Google — поиску, новостям, картинкам и даже Google Lens — без нужды в ключах API. Новая фишка google_lens_detect использует OpenCV, чтобы найти объекты на изображении, аккуратно их вырезать и отправить в Google Lens для распознавания. Результат? Текстовая модель, формально не умеющая «видеть», правильно назвала на снимке NVIDIA DGX Spark и SanDisk USB‑накопитель. Да, выглядело как трюк, но трюк основан на инженерной сообразительности.

Проект предлагает целых 17 инструментов: Search, News, Shopping, Scholar, Maps, Finance, Weather, Flights, Hotels, Translate, Images, Trends и прочие — полный набор цифрового сыщика. Установка занимает секунды: pip install noapi-google-search-mcp && playwright install chromium, а исходники и пакет открыты на GitHub и PyPI (https://github.com/VincentKaufmann/noapi-google-search-mcp, https://pypi.org/project/noapi-google-search-mcp/).

Конечно, всё это не заменит нативной мультимодальности в модели: по сути GPT‑OSS получает извне ответы на визуальные вопросы, и это вызывает вопросы про надёжность, стабильность и, увы, правовые тонкости скрейпинга. Но с инженерной точки зрения решение остроумно — маленький домкрат, который поднимает большой текстовый мотор на ноги и даёт ему возможность смотреть по сторонам.

Если любите эксперименты и не боитесь ковыряться в коде — это то, что надо. А если хотите просто полюбоваться: представьте, как старый добрый текстовый LLM вдруг начинает комментировать фотографии так, будто у него новые очки.