О новой революции - векторной, сравнимой с революцией письменности, высказался Сергей Лавриненко: вектор — это новое письмо, новый способ передачи "смысла". Революционный дух момента я наблюдаю и благоговение к накатывающемуся цунами разделяю, но стоит прицепиться к деталям.
"Вектор" каким-то образом попал в широкий обиход, но обычный узус технически ошибочен.
Вектор или кортеж - упорядоченная группа значений ограниченной и определённой длины, "блок сырых данных". "Эмбеддинг" в самой простой форме — низкоразмерностная репрезентация высокоразмерностных данных, упорядоченный набор чисел. Его можно считать атомарной репрезентацией "смысла", но по факту это математическая/статистическая проекция, суръективный кодомен для пакетов токенов (bag of words) из обучающего набора данных. То, что эмбеддинги хранят именно в векторах - это просто выбор эффективной вычислительной формы. Можно хранить и в словарях, и в списках, и в очередях, просто это в вычислительном плане избыточно и более затратно. Здесь "вектор" — метоним по отношению к "эмбеддингу".
Вектор — это очень локальная репрезентация, годная только для простых machine2machine протоколов коммуникации. Никакого контекста вектор сам по себе не несёт - как и обычное слово, которое тоже вектор из фонем/лексем. Эмбеддинг обобщает контекст, из которого он был получен, но для того, чтобы это обобщение можно было использовать, нужно вернуть эмбеддинг в нейросетку, откуда он появился, в виде запроса на какой-то инференс.
Репрезентации вообще не то, на что нужно обращать главное внимание, вектора или не вектора. Определяющи не объекты перед глазами (вектора-слова-документы), а контекст и протоколы их использования. Это и составляет ценность моделей, особенно больших (широкий контекст) и рассуждающих (сложный протокол). Мы, хомо сапиенсы в последние десятилетия а) начали видеть этот широкий контекст, до глобального и исторического и б) научились управлять контекстом, радикально удешевили доступ к нему, в том числе и через обобщающие инфраструктуры больших языковых моделей.
Протоколы коммуникации коэволюционируют с технологическим стеком , их поддерживающим. И однажды (сейчас) это превращается в революцию.
Вектор — понятие с нижних слоёв технологического стека, структура данных , т.е. хранения и обработки процессорами. А то, что "несёт смысл", т.е. упаковывает эпистемические координаты, вектор сам по себе не определяет. Эпистемические координаты, транслируемые из эмбеддингов через инференс, через "ответ на вопрос" — это то, что может быть опознано только агентами, их определившими в своей практики — людьми. Как назвать эту структуру, которая "несёт смысл", пока неясно. Возможно, просто "эмбеддинг", но тоже недостаточно высоко в стеке. Возможно, технологически-определяемый мем, что-то в этом докинзовском духе. Technologically-defined meme, аналогично распространённым понятиями типа software-defined networks.
Фреймы из теории фреймов Марвина Минского (1979) — этот тот же эмбеддинг, вид сбоку. Протокол упаковки "смысла" (эпистемических координат) во фрейм и далее, в какую-то графовую структуру, отличается от упаковки эпистемических координат в эмбеддинг и далее — в вектор, но не технически (фрейм - именованный словарь, эмбеддинг тоже можно так представить), а прагматически: фрейм человекомерен, туда упаковываются коммуникативные единицы из дискретного и малоразмерного человеческого дискурса, а не триллионы обработанных групп токенов.
Фреймы хороши для простых задач, они читаемы человеком, могут уместиться в его объём вимания; нейросети, натренированные на огромных контекстах — для сильно более сложных задач, поэтому и вытесняют фреймы.
Слово «смысл» в этом контексте очень неуклюже. Используется в дискурсе часто, но не потому что адекватно, а потому что эпистемологическая рефлексия, которая сейчас становится мастхэв при обсуждении взаимоотношения искусственных и естественных интеллектов, и широко распространённые интуиции на этот счёт, не имеют столь же распространённого более адекватного понятийного аппарата и подготовки. В УЭ я употребляю термины «эпистемическая координата» или «эпистемическая позиция»: некоторое в данном приближении различение, определяющее принятие решений («позиция», атомарная определённость или неопределённость) имеет протокол доступа в рамках данной когнитивной архитектуры («координата», контекстуальная определённость).