Голосовые программы?!!

D

DELirium [гость]

18:15, 10.08.2002

Snake, ты слегка превысил предел дозволенного. теперь я хочу с тобой увидеться. жду письма на е-mail.

0

Ответить

Y

Yuri [гость]

12:14, 12.08.2002

Алене, действительно, поворачиваюсь, так же лучше слышно :-)
если я правильно понял ваш пост, мозг должон сравнивать сигналы, пришедшие в разные ухи и сделать нечто вроде сравнения ? с целью выделить одинаковые сигналы ?
но опять же я не понимаю, как тогда можно слышать одним ухом ? и потом, разница в фазах сигналов с разных ух может использоваться и думаю используется - (направление я определять не могу), для определения направления сигнала. но сравнение.......

0

Ответить

S

Snake [гость]

13:45, 12.08.2002

Т.е. нужно сделать математическую модель двух ушей
+ среднего уха
+ мозга

и тогда заробит! тока не начнет ли выделываться прога?
"мол говорите помедленнее я типа не успеваю!"

0

Ответить

A

A/EHA [гость]

14:57, 12.08.2002

Yuri. да, я действиетльно, прочитав то, что я написала, заметила, что я не упомянула про то, что каждое ухо в отдельности улавливает дальность волн. в остальном ты прав.

Snake. прошу прощения за грубость, но тебе, программист-молокосос, есть еще много чему поучиться, прежде чем "умничать".

0

Ответить

S

Snake [гость]

15:04, 12.08.2002

Да хоть горшком называйте. только в печь не ставте плиз.
(видите - я не обиделся)

0

Ответить

S

Snake [гость]

15:04, 12.08.2002

а откуда вы знаете что я программист?
я ж вам резюме не высылал?

0

Ответить

S

Snake [гость]

15:37, 12.08.2002

О умныейшие из умнейших (понятно к кому обращаюсь?), прочитайте пожалуйста эту статейку:
http://www.induct.ru/outnews_02.asp?IDnews=78&page...

0

Ответить

S

Snake [гость]

15:38, 12.08.2002

Собственно никуда ходить не надо, вот:

[03.12.2001]

Intel и Cognitive подошли к созданию системы распознавания русской речи.

По материалам http://www.cnews.ru : 28 ноября компании Intel и Cognitive Technologies представили результаты реализации инвестиционного проекта по развитию систем распознавания русской речи. По словам представителей компаний, разработчики Cognitive вплотную подошли к созданию промышленной системы распознавания русской речи и разработке дальнейших направлений применения систем распознавания в мобильной связи, голосовых порталах и системах голосового управления. Год назад компания Intel выступила инвестором научно-исследовательского проекта в области речевых технологий. В результате реализации первого его этапа впервые в России создан обширный инструментарий для разработки систем распознавания речи, который включает крупный речевой корпус русского языка RuSpeech, достаточный для распознавания естественной речи говорящего в реальном времени. Сложность создания такого корпуса объясняется, в первую очередь, сложностью грамматики и фонетики русского языка, а его масштабность может конкурировать с лучшими мировыми речевыми корпусами, созданными для распознавания речи. По заявлению представителей Cognitive, RuSpeech является речевой базой данных, с которой компьютер сможет «сверять» естественную речь диктора, распознавая не только слова, уже присутствующие в базе, но и отдельные фонемы и последовательности фонем русского языка, что позволит минимизировать количество ошибок при распознавании новых, отсутствующих в корпусе слов. Тексты для речевого корпуса создавались 220 дикторами, каждый из которых прочел, в среднем, более 250 предложений. В состав речевого корпуса входит более 50 тыс. предложений с фонетической разметкой каждого произнесенного предложения. RuSpeech содержит порядка 50 часов непрерывной речи объемом 15 Гб, размещаемых на 30 c лишним компакт-дисках. Каждое из более 50.000 произнесенных предложений имеет фонетическую разметку (транскрипцию). Текстовый материал брался из российских газет, в частности, из «Известий», «АиФ», «МК», а также из онлайновых новостных порталов, причем тематика его разнообразна – политика, экономика, культура, искусство, медицина, спорт. Объем нового речевого корпуса в несколько раз превышает популярные речевые базы английского языка WSJ Speech и TIMIT. Фактически это означает, что впервые появился инструмент для создания дикторонезависимой системы распознавания русской речи. Интеграция созданного инструментария с имеющимися передовыми технологиями анализа и распознавания речи приведут к решению этой задачи в самое ближайшее время. Результаты этой разработки могут быть использованы для: · создания систем диктовки («электронная машинистка»); · доступа к данным по телефону; · сжатия данных при передаче и хранении речи; · полнотекстовой индексации голосом для поиска в аудио- и видеоархивах; · идентификации говорящего; · в телефонии (приоритетное направление), а именно: o голосовые порталы – голосовой доступ в Сеть по телефону; o телефонный доступ к электронной почте, факсу, банковскому счету; o справочные службы (расписание, бронирование, заказ билетов); o секретарь-коммутатор; o голосовой набор номера. Технологиями распознавания научный коллектив лаборатории искусственного интеллекта ИСА РАН, на базе которого была создана компания Cognitive Technologies, занимался еще с середины 70-х гг. в рамках исследования и создания систем искусственного интеллекта, а с 1993 г. активно вел разработки в области распознавания речи наряду с системами распознавания графических изображений. Компания сотрудничает с рядом ведущих российских университетов и академических институтов, в частности, МГУ, МФТИ, ВЦ РАН. Тем не менее, в связи с целым рядом существовавших технических проблем – необходимость обучать систему голосу конкретного пользователя, зависимость от оборудования, малый словарный запас - разработки носили скорее научный, перспективный характер и были далеки от промышленного применения, а сфера практического применения такого рода систем была не вполне ясна как в России, так и в мире в целом. За последние годы большая часть технических проблем, в том числе, дикторозависимости и аппаратных требований, была в значительной мере снята, а мировой объем рынка таких систем только в 2001 г. оценивается компанией Datamonitor (в отчете за октябрь этого года) в $650 млн. По прогнозам компании, в ближайшие 5 лет этот рынок увеличится почти в 10 раз и составит $5,6 млрд. Другая исследовательская компания, Radicati Group, оценивает сектор рынка голосовых порталов, одну из главных областей применения систем распознавания, в 2001 году – в $194 млн., в 2006 году его объем возрастет до $5 млрд. По оценкам департамента маркетинга компании Cognitive Technologies, объем рынка речевых технологий в России к 2006 г. может составить порядка $200 млн. Это обусловлено большой востребованностью данных технологий, в том числе в мобильной телефонии и голосовых порталах. Такое состояние рынка, перспективность разработок в области речевых технологий, а также отсутствие систем распознавания русской речи и побудило Intel, по словам Камиля Исаева, менеджера по академической программе компании в странах восточной Европы, инвестировать средства в проект создания русскоязычных речевых систем. Объем сделанных инвестиций не назывался, было только отмечено, что обычно на университетские проекты (для группы в 5-8 человек) выделяется $10 тыс. в квартал, однако проект с Cognitive носил коммерческий характер, и цифры, соответственно, несколько отличались. Права интеллектуальной собственности на RuSpeech принадлежат компании Intel, и, как отметил г-н Исаев, «логично было бы сделать базу данных доступной для русских разработчиков». Решение о том, кто же будет дальше продолжать работы по проекту – создавать сам «движок» системы распознавания русской речи – пока не принято. Cognitive обещает выпустить на рынок первые речевые навигаторы для осуществления голосового набора по телефону (к примеру, для набора добавочного номера через коммутатор) уже в течение ближайших месяцев.

0

Ответить

S

Snake [гость]

15:42, 12.08.2002

ну и повторим:

>Автор: A/EHA
>Дата: 28 Июля 2002 12:41

>такая программа существует в office XP, но, как и любой M$ софт она оч. сырая и пользоваться ей крайне не удобно. она к тебе должна привыкнуть - она не узнает каждое 3-е твое слово, и записывает его в память заново. не знаю, есть ли такие утилитки в россии. по идее, я бы могла такое написать, но это оч. трудоемкая работа, месяца на 1,5. если есть реальная необходимость в таком продукте, то советую купить такую утилитку на одном из американских сайтов. поскольку заказ такой программы обойдется не менее 2000$.

0

Ответить

Y

Yuri [гость]

16:57, 12.08.2002

Алена, дык я не понимаю тогда, что такое дальность волн..... удаление источника звука можно ИМХО определить по разности фаз параллаксу и учитывая скорость звука и расстояние между ухами - чисто эмпирически опредлить дальность источника. направление - по разности амплитуд и фаз в ухах..... но и все, что можно для повышения качества распознавания то придумать сюда ?

0

Ответить

S

Snake (программист-молокосос) [гость]

17:09, 12.08.2002

2Yuri

ИМХО и только ИМХО:

с большой точностью определить положение источника звука в пространстве можно только с помощью 4! - х приемников звука.
один из которых не находиться в одной плоскости с тремя остальными.

отсюда можно четко отфильтровать именно этот сигнал.

исходя из вышесказанного человеческое ухо - это не ДВА приемника сигнала.

что касается поворота головы на некоторый угол:
уменьшается компенсация давления через носовую полость, рот, кожу. поэтому слышимость лучше.

можете со мной поспорить, с удовольствием предприму попытки сказать что-либо связное.

0

Ответить

S

Snake (программист-молокосос) [гость]

17:15, 12.08.2002

Про поворот головы и открытый рот знают даже артилеристы.
чтоб перепонки не выплюнуть - надоть рот открывать.

0

Ответить

Y

Yuri [гость]

16:44, 13.08.2002

ФО сНаКе, действительно....... однако астрономы определяют расстояние от звезды до земли - следтно положение в пространстве относительно земли....или наоборот, че там из чего следует при помощи метода параллакса......... и все точки орбиты земли - при допущениях и учитывая отношение измеряемых расстояний и орбиты земли - лежат в одной плоскости... признаный метод знаетли...... про артеллиристов - при закорытом роте внутряз давление силно меньше стеновится чем снаружи - вот люди и глохнуть.....
и вообще фиг его знает, какова там направленность диаграммы приема или как ето назвать ? человеческого уха. я вот заметил, что слышимость лучше - ОДНИМ ухом - второе не работает, при направлении дыры в ухе на источник звука. причем лучше кардинально - субъективно заметно. и скока там приемников получается сигнала вы, СнАкЕ сказать не могете.. да и икто не могет.

0

Ответить

З

Задний ум [гость]

17:06, 13.08.2002

Звук – продольные колебания среды, свет – поперечные.
Свет имеет детерминированные одномоментно векторы для обеих компонент.
Звук характеризуется параметрами волнового фронта.

То, что и два уха, и два глаза, ещё не означает, что механизмы локации хотя бы похожи.

0

Ответить

Y

Yuri [гость]

17:14, 13.08.2002

Простите, задний ум, но
звуковые волны - колебания среды - продольные там или поперечные или в крапинку.
свет - не колебания среды..... если только не называть электромагнитное поле средой .......

0

Ответить

A

A/EHA [гость]

14:58, 14.08.2002

O biologii sporit' ne stanu - ia tolko perelojila spravo4nii material vkratse, a vot mr.Snake-a voobshe ne ponimaiu.... pri 4em tut statia i povtor moego soobshnia? mojet obiasnish? ili povtorim ves' forum sna4ala?

0

Ответить

S

Snake [гость]

15:13, 14.08.2002

2 A/EHA

Ты пыталась доказать что написать такую програмку раз плюнуть. и то что я тормоз-молокосос.

хотя ни одного аргумента привести не смогла ни по 1 ни по 2 пункту.

видимо ты оч.крутая программерша, раз за пару штук баксов за 1,5 месяца можешь сделать систему распознавания русской речи. о которой и написано в приведенной выше статье.

я не знаю как там у них в Америке, может и валяються подобные утилитки штабелями...

С уважением, Snake.

0

Ответить

S

Snake [гость]

15:16, 14.08.2002

2 2 A/EHA
ты удосужилась прочитать статью полностью?

0

Ответить

S

Snake [гость]

15:21, 14.08.2002

и разговоры про уши завела ты-же.

видимо спаять двухканальный-интеллектуальный микрофон - тоже не проблема.

если предположить что это возможно, что такой микрофон есть, и он выпуливает готовый текст в COM-порт... тогда да :-) цена той програмке - $2000.

0

Ответить

S

Snake [гость]

15:25, 14.08.2002

2 all (вне конфликта)

Реальный способ который выриовывается моей тупой башке:
1. Заюзать Интеловскую базу.
2. Описать исключения из правил (те что не пишуться как говоряться)
3. Остальное можно распознавать по буквам.

блин, дак этож ноу-хау! счас напишу в интел.
мож мне денег дадут? :-)

0

Ответить

Y

Yuri [гость]

10:24, 15.08.2002

Фо снаке.....
ну ты сказал.. всего лишь список исключениев..... и чего тока всякие граждане используют как там..... анализ по алофонной базе..... список исключений нарисовать - хотя бы для одного языка - русского литературного - есть же еще и диалекты, это вам не два пальца об асфальт уважаемый...

0

Ответить

S

Snake [гость]

11:56, 15.08.2002

2 Yuri
ага, работенка трудная ... так что я не возьмусь пожалуй

0

Ответить

A

A/EHA [гость]

13:32, 15.08.2002

4estnoe slovo, sovetuiu po4itat' vnimatel'no ves' forum sna4ala...
a cenu ia 4estno razdelila na 6 (raznica v otnositel'nom indexe cen na vse)

0

Ответить

S

Snake [гость]

14:36, 15.08.2002

Почитал
Короткие цитаты:
Михаил: есть ли голосовые проги надо чтоб вот-так и так
Smash: XP - тока нет русского
Aleksey: DD-тока глючный
Михаил: конкретнее
МИХАЛЫЧ: DD-но глючный
A/EHA: а сколько заплатить готов?
Михаил: моя благодарность не будет имет гарниц в разумных пределах
A/EHA: XP, либо утилитка с Американского сайта, либо $2000.
Snake: есть 10-прог и DD6 - по руски не робют, есть продаже отечественная разаботка.
Alex Apple: за 1,5 месца не реально! 1,5 года и куча народу.
Xpert: плевое дело - НО - только команды
Valera_: XP, да что-то про $2000 слышал
Snake: $2000 - секратаршу нанять
Yuri: опыт общения с DD и.т.п. - сделать Нормальную пргу пока не реально
weiss: text 2 speech и команды.
Snake: ребзя, бросте вы это дело ...

чё-продолжать?

0

Ответить

L

-=Lucky=- [гость]

14:47, 15.08.2002

Snake, ты тормоз-молокосос. :-) а как у интеловской базы с русским? =)

что перевод речи в текст, в контексте данной задачки это основная проблема?

0

Ответить

Голосовые программы?!!

Поделиться