Microsoft представила новую ИИ-модель под названием Kosmos-1. Это мультимодальная большая языковая модель (MLLM), которая может отвечать на текстовые запросы и воспринимать визуальные сигналы. Она может использоваться для решения различных задач, включая подписывание изображений и ответы на визуальные вопросы.
Kosmos-1 является проектом исключительно Microsoft. Исследователи называют свою работу «мультимодальной большой языковой моделью» (MLLM). Для понимания изображения по аналогии с ChatGPT новая система преобразует иллюстрацию в серию преимущественно текстовых «токенов», которые анализируются вычислительной машиной. В дальнейшем текст и другие элементы обрабатываются специальным декодером. Считается, что создание «общего искусственного интеллекта» позволит полностью заменить людей при выполнении любых интеллектуальных задач. Это является конечной целью OpenAI, ключевого партнера Microsoft в сфере ИИ. Kosmos-1 была обучена с использованием информации из глобальной сети и превосходит лучшие из существующих ИИ-моделей во многих тестах. В будущем ученые обещают масштабировать модель и добавить ей возможность вести беседы. Это может невероятно расширить возможности цифровых ассистентов. В настоящее время модель только начинает свой путь в области мультимодальной обработки данных. Однако можно предположить, что в будущем улучшения позволят достичь более значительных результатов и дать ИИ возможность работать с различными формами информации. Это означает, что ИИ сможет взаимодействовать с любыми типами данных и информации..