Microsoft продолжает работу над распознаванием рукописных текстов [ Редагувати ]

Текущая версия операционной системы Tablet PC, которая позволяет управлять компьютером посредством цифрового пера, сравнивает закорючки пользователя с базой данных образцов, составленной самой компанией. Идея в том, чтобы распознать все многообразие вариантов написания, скажем, буквы Т, какое только может создать рука человека (а то и лапа курицы).
В базе данных ПО, устройства на основе которого должны появиться 7 ноября 2002 года, содержится множество разных типов письма, но оно не способно адаптироваться и запоминать почерк пользователя. Это стало предметом споров внутри компании. Главный архитектор ПО Билл Гейтс настаивает на том, чтобы ОС усваивала вводимые каракули, расширяя базу данных на конкретной машине. Но его оппоненты считают, что это принесет больше вреда, чем пользы, и лучше периодически обновлять главную базу данных операционной системы.
"Мы много спорили об этом, - рассказывает вице-президент Джефф Райкес. - С одной стороны, кажется очевидным, что надо позволить пользователям добавлять в базу данных образцы собственного почерка, но возникает вопрос, улучшится ли при этом качество распознавания. Или же оно только ухудшится?". Поддерживая централизованную базу данных, Microsoft может судить о том, улучшается ли качество распознавания почерка при добавлении того или иного образца, если же позволить пользователям дополнять базу данных самостоятельно, такая возможность исключается.
Другая проблема заключается в том, насколько строго программа должна придерживаться внутреннего словаря - набора слов, по которым она распознает, что именно написано. Текущая версия хорошо узнает уже знакомые слова, но с трудом экстраполирует, когда встречаются новые, например имена. Вопрос в том, должна ли ОС в таких случаях игнорировать словарь и опираться на отдельные буквы и их сочетания? "Если я что-то начеркал и ОС неправильно это распознала, в следующий раз она не должна искать это в словаре, - говорит Райкес. - По-моему, большой процент неудач при распознавании связан с тем, что то, что я написал, отсутствует в словаре". Многие из этих проблем софтверный гигант рассчитывает решить на специальном совещании, которое состоится в декабре.
Урок английского
Microsoft не первая компания, решающая вопрос, как лучше распознавать рукописный текст. В прежних устройствах на базе электронного пера использовались самые разнообразные подходы.
Перьевое устройство эры 1990-х Newton от Apple Computer содержало в составе ПО распознавания почерка программу, которая сканировала печатные буквы. Первая попытка оказалась не очень удачной, сделав Apple объектом шуток. Хотя энтузиасты утверждают, что за последующие поколения технология значительно улучшилась, потребители прочно укрепились во мнении, что она не готова к широкому применению. Newton больше не выпускается, однако Apple продолжает работу над механизмом распознавания рукописного текста, который теперь называется Inkwell и применяется в последней версии Mac OS X.
Одним из коммерчески наиболее успешных проектов в этой области стал Graffiti, специальный способ письма, разработанный основателем Palm Джеффом Хокинсом (Jeff Hawkins). Язык Graffiti основан на печатных английских буквах, но с некоторыми особенностями, облегчающими распознавание букв и минимизирующими число элементов, из которых они состоят. Graffiti требует определенного обучения, но позволяет устройствам с относительно слабым процессором довольно хорошо распознавать текст. Несмотря на первоначальную популярность Graffiti, компания Handspring, в которой теперь работает Хокинс, постепенно отказывается от перьевого ввода в пользу малогабаритных клавиатур - это говорит о том, что распознавание рукописного текста остается проблематичным.
Сама Microsoft применяла в своих карманных компьютерах разные методы распознавания почерка. Современное поколение устройств Pocket PC поддерживает язык Graffiti, а также еще один способ распознавания символов и содержит более мощную версию системы распознавания почерка, встроенной в Tablet PC.
Урок чистописания
Главный редактор Microprocessor Report Питер Глазковски, большой фанат Newton, который до сих пор пользуется одной из последних версий устройства Apple, отмечает, что современные компьютер должны были бы лучше справляться с распознаванием рукописного текста, чем снятый с производства карманный ПК, но чаще всего это не так. По его словам, ПО распознавания почерка не использует всех преимуществ современных мощных процессоров, как это делают лучшие системы распознавания голоса. "Мне кажется, что обучаться они тоже должны, однако и без обучения они должны уметь распознавать рукописный текст с хорошей точностью", - говорит Глазковски.
Впрочем, тем, кто хочет, чтобы их компьютер правильно узнавал, что они написали, тоже придется проделать подготовительную работу. "У меня не очень хорошо получалось с Newton до тех пор, пока я не изменил кое-что в своем почерке, - говорит Глазковски. - Надо не только брать, но и давать. Он учится чему-то у вас, но и вы чему-то должны научиться у него".
По мнению разработчика из IBM Джея Субрамониа, судить о том, способна ли современная технология адекватно распознавать рукописный текст, нужно в глобальном масштабе. В большинстве азиатских языков, чтобы ввести один символ, нужно ударить по клавиатуре много раз, а это делает людей гораздо более терпимыми к недостаткам ПО распознавания текста. "Люди (которые пишут на азиатских языках) готовы писать более аккуратно", - утверждает Субрамониа.
Лучше обстоят дела с распознаванием почерка и при решении специфических задач, таких как заполнение форм. Когда программа знает, чего нужно ждать, она работает гораздо точнее. В IBM уверены, что создание стандарта письма для цифрового распознавания будет способствовать сотрудничеству и улучшению ситуации в этой области. Компания активно продвигает формат, называемый InkXML. "Разные механизмы могут работать вместе, - говорит Субрамониа. - От этого выиграет технология в целом".
Один вывод, который многие компании, включая Microsoft, не станут оспаривать, заключается в том, что лучше, наверное, вообще не пытаться преобразовывать рукописный текст. "Люди поймут, что основная ценность остается в чернилах", - говорит Райкес из Microsoft, указывая на оцифрованные записки, не преобразованные в текст. Последние три месяца он хранит документы на своем устройстве на базе Tablet PC именно в таком виде.
IBM, которая прилагала ПО распознавания текста ко многим своим продуктам, включая снятый с производства лаптоп TransNote, тоже изменила свой подход. Сначала компания предлагала ПО, нацеленное на изучение и распознавание всего, что написано. В последнее же время IBM сосредоточилась на том, чтобы распознавать только отдельные слова с целью индексирования и архивирования рукописных документов. "Теперь мы склоняемся к тому, чтобы хранить рукописное как рукописное", - говорит Субрамониа.
Пока в Microsoft спорят, как улучшить распознавание почерка - и стоит ли вообще этим заниматься, несомненно одно: первая версия операционной системы Tablet PC будет распознавать рукописный текст на английском, французском, корейском, японском и китайском - как в сложном, так и в упрощенном варианте китайской грамоты. Все остальные языки остаются за бортом, включая испанский, один из наиболее распространенных языков на земле, на котором говорит почти миллиард человек. "Мы вкладываем большие средства в другие языки для будущих версий", - заверил генеральный менеджер проекта Tablet PC Александра Луб.