Предполагается, что обработка визуальной и вербальной информации требует наличие разных систем. Эти системы создают самостоятельные репрезентации (вербальные и визуальные коды). Визуальный код обеспечивает решение задач одномоментного пространственного плана. Вербальный код обеспечивает решение задач абстрактной символики, разворачивающихся во времени. Каждая подсистема организована иерархически, и включает в себя 4 уровня: первоначальной сенсорной обработки; контакта информации с системой долговременной памяти; ассоциативный уровень, активирующий похожие следы памяти; референционный уровень, предполагающий взаимодействие вербальной и визуальной систем, выражающееся в «референции».
В части поддержки своей теории Паивио ссылается на различные данные о дифференциации вербальных и невербальных (в том числе визуальных) процессов: психометрических шкал интеллекта, функциональной асимметрии полушарий головного мозга, данным картирования головного мозга. Эмпирически Паивио показал (Величковский, 2006), что однонаправленность действия визуального (просмотр) и вербального (закадровый комментарий) кодов могут увеличивать правильность воспроизведения выученного материала.