IBM Marvel будет прочесывать сеть в поисках видео и аудио [ Редагувати ]

IBM разрабатывает технологию интернет-поиска, которая позволит будущим поколениям архивировать важные выпуски теленовостей или просто выудить старые сцены из Flipper.
Исследователи Big Blue работают над поисковой машиной с кодовым названием Marvel, которая ищет видео и/или аудиоклипы, что в современном интернете в большинстве случаев затруднительно. В идеале человек будущего сможет кликнуть на кадре-образце, скажем, репортажа о предвыборных дебатах или описать сцену словами ("двое парней, трибуны") и получить подходящие фрагменты из тысяч часов аудио- и видеозаписей, генерируемых каждый год теле- и киностудиями, а то и любителями.
Существующие поисковые машины вроде Google и Yahoo могут работать с видеоклипами или фотографиями, но на самом деле они не ищут изображения, содержащиеся в файлах. Они ориентируются по текстовым подписям, которыми снабжены эти файлы, так что удается найти лишь небольшое число правильно идентифицированных файлов. "Сейчас, чтобы индексировать контент, требуется подписывать его вручную, - говорит старший менеджер по интеллектуальному управлению информацией IBM Research Джон Р. Смит. - Мы пытаемся индексировать его без использования текста или ручных аннотаций".
Ручное маркирование отнимает слишком много времени. Так, на разбор и классификацию 30-минутного видеоролика может уйти пять часов. Еще хуже то, что количество информации, нуждающейся в классификации, растет как снежный ком. Исследование How Much Information?, выполненное Калифорнийским университетом Беркли, определило, что в 2002 году все мировые телевизионные станции вместе взятые произвели около 123 млн часов телепередач. Из них 31 млн часов составляют оригинальные передачи, которые переводятся в 70 тыс. терабайт данных. И это без учета видеозаписей, сделанных видеокамерами наблюдения, и домашнего видео.
Вместо ручной маркировки, Marvel будет автоматически сортировать (и впоследствии выбирать) клипы по таким описывающим действие признакам, как "в помещении", "на открытом воздухе", "городской ландшафт" или "шум мотора". В конце августа на конференции в Кембриджском университете команда разработчиков, которая работает над проектом совместно с библиотеками и такими службами новостей, как CNN, продемонстрировала первый прототип Marvel. Система может просматривать базу данных из более чем 200 часов записей теленовостей и использует 100 разных признаков для классификации и идентификации сцен. К апрелю IBM надеется предложить список из 1000 идентифицирующих признаков.
Обработка запроса занимает две-три секунды. Marvel основана на формате данных MPEG-7, но может искать в любом стандартном видеоформате. (Примеры некоторых результатов поиска IBM разместила здесь.) IBM не говорит, каким образом Marvel можно превратить в коммерческий продукт, но более вероятным первым шагом представляется выпуск системы для внутреннего применения в телевизионной индустрии, а не продвижение ее как потребительского продукта.
Товарищи по поиску
Big Blue - одна из нескольких организаций, пытающихся раздвинуть границы технологии извлечения данных. В начале этого года Университет Пурду продемонстрировал поисковую машину, способную искать по 3D-эскизам. Другие работают над программным обеспечением, более эффективно извлекающим предметы из ограниченного числа категорий, таких как произведения искусства и антиквариат.
Marvel опирается главным образом на технологию, называемую поддерживающими векторными машинами, которую около десяти лет назад предложил Владимир Вапник из AT&T. Искусственный интеллект этого типа учится присваивать фрагментам данных значения, эквивалентные "да" и "нет". Иными словами, если компьютеру предлагают выбрать между сценами в помещении и на открытом воздухе, то деревья на снимке подскажут ему, что клип надо положить в корзину "на открытом воздухе". "Это статистический метод, который пытается провести границу между концепциями", - пояснил Смит.
Большинство других поисковых машин использует разновидность байесовских сетей, которые составляют спектр ответов от самых вероятных до самых невероятных. Гипотетически байесовский поиск изображений нашел бы снимок холла гостиницы с деревьями в кадках, тогда как поиск, основанный на поддерживающих векторных машинах, мог бы проглядеть его, отнеся деревья к категории "на открытом воздухе". К сожалению, даже короткие видеоклипы содержат массу данных. Группа Marvel выделила 166 разных измерений для поиска по цвету, и этот список отобран из гораздо более длинного перечня возможных цветовых измерений. "Традиционный подход сталкивается здесь с большими трудностями", - говорит Смит.
Зато Marvel будет выполнять многомодальный поиск, сканируя как аудио, так и видеодорожки. Некоторые ранние результаты выглядят многообещающе. Например, Смит и его группа провели поиск клипов о запуске ракет. Если искать только по видео, система, кроме сцен с ракетами, выдает снимки неба, самолетов, вертолетов и т.п. Поиск по аудио приносит самолеты и шум толпы. Когда же система опиралась на обе технологии, она предложила 70 фрагментов телевизионных новостей о запуске ракет.
В идеале Marvel сможет автоматически классифицировать видео- и аудиофайлы по своему усмотрению, но пока проект находится на этапе ручного труда. IBM создала совместный комитет с CNN, BBC и такими организациями, как библиотека Getty, для составления собрания видеофайлов. К апрелю группа надеется получить список из 1000 классифицированных клипов. Некоторые из них будут иметь относительно простые дискрипторы ("ландшафт"), но будет и много более конкретных ("теннис", "баскетбол" и т.п.).
"Одна тысяча не исчерпает всего семантического пространства", - говорит Смит. Для создания полноценной, функционирующей поисковой машины на базе Marvel может потребоваться еще три-пять лет.