[Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]

Atlantius · 10 фев 2026

ProPractic сказал(а): ↑

Я постараюсь перечитать эту тему и уже обсуждение ответа автора.

Сейчас допустим, в чат‑Gpt на подписке можно подключить Visual Studio Code через Cline. Там прямо появилась опция авторизоваться.
У Google Gemini, есть свой собственный плагин в VS Code.

Поэтому честно сказать: я не вижу смысла писать об этом — я так понимаю, это сделано через автоматизацию браузера, авторизацию через свои аккаунты и автоматическую отправку запросов. Это выполнено как агентская система, скорее всего.
Но они сейчас и так дают доступ туда. Я думаю, что через какое-то время мы сможем авторизоваться в любом приложении под своим аккаунтом.

В общем буду читать))
Нажмите, чтобы раскрыть...

спасибо,
было бы круто, если в WVM можно было подключать свои акки из веб-версий топовых ИИ вместо платного API.

ProPractic · 10 фев 2026

Anna555sumkina сказал(а): ↑

тут вопрос к скорости обработки. у меня виспер с нвидеа 3060 обрабатывает с локальной диаризацией со скоростью примерно 1час работы=24 часа видео, средняя нагрузка гпу 10%, вроде бы не грех бы было и ускорить. поэтому возник вопрос про многопоток.
Нажмите, чтобы раскрыть...

@Anna555sumkina
Прогнал часовую запись - транскрипция заняла 3 минуты на 5060ти
На моей 3080 это было около 1-2 минут... Но там была память быстрее... А теперь ее больше)

alexandra8090 · 11 фев 2026

Добрый день! Прошу прощения, если был вопрос, но мне это важно. У меня imac M4, на нем будет работать программа (не локально а с подключением к указанным Вами нейронкам). Благодарю Вас!!!

Reamb · 12 фев 2026

Недавно искал опенсорс решение для озвучки видеокурса с английского на русский.
Вытаскивать текст с тайм-кодами умею, проблема в озвучке. Планируется ли такой функционал?

MamZhan · 12 фев 2026

Присоединяюсь, тоже хотел задать такой вопрос по переводу и озвучке видео с английского на русский

Еще хотел уточнить по лицензии, т.к. используется видеокарта, а там еще играют частенько и бывает что система слетает в этом случае, если железо не менялось активация повторно пройдет при переустановке системы?
Думаю 1 себе 1 супруге на ноут и одна запасная будет лицензия, на случай замены железа.

ProPractic · 12 фев 2026

Reamb сказал(а): ↑

Недавно искал опенсорс решение для озвучки видеокурса с английского на русский.
Вытаскивать текст с тайм-кодами умею, проблема в озвучке. Планируется ли такой функционал?
Нажмите, чтобы раскрыть...

MamZhan сказал(а): ↑

Присоединяюсь, тоже хотел задать такой вопрос по переводу и озвучке видео с английского на русский

Еще хотел уточнить по лицензии, т.к. используется видеокарта, а там еще играют частенько и бывает что система слетает в этом случае, если железо не менялось активация повторно пройдет при переустановке системы?
Думаю 1 себе 1 супруге на ноут и одна запасная будет лицензия, на случай замены железа.
Нажмите, чтобы раскрыть...

@Reamb, @MamZhan Добрый день! Программа умеет локально на вашем компьютере распознавать речь с точными таймингами примерно 10 секунд на интервал. Потенциально из этого можно сделать субтитры, но потребуется доступ к какой-нибудь облачной модели или дополнительному софту.

Программа позиционируется как текст под курсор и диктовка под курсор, а также как возможность делать транскрипции массово для большого количества видео и аудиоматериалов. Транскрипция выполняется на том же языке, на котором записан сам материал.

Однако у программы есть функция постобработки. Это означает, что вы можете настроить процесс, где по 5000 символов текст будет обрабатываться определенным промтом циклом, пока не обработается весь объем. При этом есть опция передать сложный промт, делая запросы в облако или локально на вашей видеокарте.

Тогда вы можете получить перевод на любой язык, причем достаточно качественный. Есть возможность делать это частями, прикрепляя к каждому куску полный текст, чтобы модель понимала весь контекст. Иногда это значительно повышает качество итогового результата.

С переводом никаких проблем не будет, но это будет формат «Текстовая статья» или «Лонгрид». То есть это не будет перевод с озвучкой и жесткой привязкой к таймингам в текущем виде.

Если будет спрос, я могу сделать подобный софт и с озвучкой. Чтобы вы загружали, например, русскоязычное аудио и получали перевод на немецкий с озвучкой и привязкой к таймингам, по типу того, как это реализовано в Яндекс.Браузере.

---

Допустим, сейчас вы также видите результат постобработки. Я это не печатал, а просто надиктовал ответ.

Постобработка сделала свою работу: выделила ключевые мысли жирным, какие-то моменты курсивом и добавила смайлики. Очень мило.

Таким образом, большинство моих ответов в этой теме надиктованы, хотя иногда я все же вношу некоторые правки руками.

ProPractic · 12 фев 2026

alexandra8090 сказал(а): ↑

Добрый день! Прошу прощения, если был вопрос, но мне это важно. У меня imac M4, на нем будет работать программа (не локально а с подключением к указанным Вами нейронкам). Благодарю Вас!!!
Нажмите, чтобы раскрыть...

@alexandra8090,
Добрый день! Сейчас в этой теме планируется предложить только версию под Windows. Однако мне было бы очень приятно, если бы все владельцы MacBook и техники Apple, которые хотят версию под macOS, здесь же отметились.

Версия для Mac по сути уже готова, но её нужно упаковывать. Я не готов это делать, если не наберется хотя бы 3 или 5 человек. Это требует отдельных затрат времени и денег.

Денежные затраты связаны в первую очередь с организацией системы безопасности, чтобы вы могли запускать софт нормально и без танцев с бубном.

Скрытое содержимое.

ProPractic · 12 фев 2026

Reamb сказал(а): ↑

Недавно искал опенсорс решение для озвучки видеокурса с английского на русский.
Вытаскивать текст с тайм-кодами умею, проблема в озвучке. Планируется ли такой функционал?
Нажмите, чтобы раскрыть...

@Reamb @MamZhan

Скрытое содержимое.

alexandra8090 · 12 фев 2026

ProPractic сказал(а): ↑

@alexandra8090,
Добрый день! Сейчас в этой теме планируется предложить только версию под Windows. Однако мне было бы очень приятно, если бы все владельцы MacBook и техники Apple, которые хотят версию под macOS, здесь же отметились.

Версия для Mac по сути уже готова, но её нужно упаковывать. Я не готов это делать, если не наберется хотя бы 3 или 5 человек. Это требует отдельных затрат времени и денег.

Денежные затраты связаны в первую очередь с организацией системы безопасности, чтобы вы могли запускать софт нормально и без танцев с бубном.
Нажмите, чтобы раскрыть...

Благодарю Вас за ответ! Простите, неточно сформулировала вопрос. У меня на imac стоит Win 11 на Parallels, на такой системе программа будет работать???

Rizaco · 12 фев 2026

Привет @ProPractic!
Арабский и казахский языки можно распознавать? CapCut хорошо распознает казахский, но сейчас это на платной версий, прикрыли. Транскрибация с тайм-кодами отличная получалось.
Может транскрибацию с тайм-кодами прикрутишь нормальную?
На счет озвучки, есть хороший софт на форуме, только нужна транскрибция с тайм-кодами.

ProPractic · 12 фев 2026

alexandra8090 сказал(а): ↑

Благодарю Вас за ответ! Простите, неточно сформулировала вопрос. У меня на imac стоит Win 11 на Parallels, на такой системе программа будет работать???
Нажмите, чтобы раскрыть...

@alexandra8090 увы, тогда не уверен сможет ли хоть какая то версия хорошо работать...
Постараюсь уточнить и вернутся с ответом
Дело в том, что на чипах Apple есть собственное ускорение нейросетей, и под macOS оно будет замечательно работать.

Но если Windows запущена на виртуальной машине на macOS, я не уверен, как это будет происходить. Тем более, что для Windows предусмотрен вариант либо ускорения на процессоре, либо на видеокарте NVIDIA.

Так что здесь я даже не возьмусь сказать, какой из сценариев в программе отработает, постараюсь уточнить.

---

Rizaco сказал(а): ↑

Привет @ProPractic!
Арабский и казахский языки можно распознавать? CapCut хорошо распознает казахский, но сейчас это на платной версий, прикрыли. Транскрибация с тайм-кодами отличная получалось.
Может транскрибацию с тайм-кодами прикрутишь нормальную?
На счет озвучки, есть хороший софт на форуме, только нужна транскрибция с тайм-кодами.
Нажмите, чтобы раскрыть...

@Rizaco
Добрый день! Выше давал скриншот совместимости и поддержки разных языков. С казахским языком модель Whisper категорически не дружит, как и с китайским.

Это 99% ошибок. Насчет арабского не уверен, надо будет перепроверить. Я думаю, что для этих языков, вероятно, подойдет другой алгоритм распознавания.

Например, модели искусственного интеллекта, которые могут принимать аудио на вход — такие как Google Gemini 3.0 Pro и им подобные.

Rizaco · 12 фев 2026

ProPractic сказал(а): ↑

такие как Google Gemini 3.0 Pro и им подобные
Нажмите, чтобы раскрыть...

А его можно подключить к программе для распознавания? Или подключается только для постобработки? Знаю, что Gemini на Андройде отлично беседует на казахском.

ProPractic · 12 фев 2026

Rizaco сказал(а): ↑

А его можно подключить к программе для распознавания? Или подключается только для постобработки? Знаю, что Gemini на Андройде отлично беседует на казахском.
Нажмите, чтобы раскрыть...

Действительно, можно подключить эту модель или вариант попроще, например, 3.0 Flash, для распознавания аудио. Но нюанс в том, что Whisper и Google Gemini принципиально по-разному обрабатывают звук.

В модель Whisper можно без проблем поместить 10-часовую аудиодорожку и получить абсолютно точную транскрипцию с детальной разбивкой тайминга по 5–10 секунд. Это идеально подходит, если мы хотим сделать субтитры.

Однако если в записи невнятная речь или сложные термины, то Whisper может справиться не очень хорошо. Google Gemini сделает распознавание великолепно, но здесь мы ограничены длиной ответа модели.

По моим экспериментам, лимит составляет примерно 20–25 минут аудио. Плюс модели от Google не умеют давать точные тайминги. Таким образом, это совершенно разные подходы к работе со звуком.

Я пока не придумал, как их совместить в одном приложении, но технически это возможно. Эти модели могут гораздо лучше понимать как контекст, так и сложные языки, которые Whisper не всегда понимает корректно.

skayskan · 13 фев 2026

Лайтман сказал(а): ↑

Расскажите, кто знает пожалуйста, как сделать ссылку на конкретный пост? Как будто в некоторых ветках есть номера постов с решёткой - и там можно взять конкретную ссылку. Но в большинстве нет и приходится делать ссылку просто на страницу, где твою рекламу ещё поискать надо.
Нажмите, чтобы раскрыть...

На время поста нажмите(левый верхний угол) - там ссылка на пост будет

Styurva · 13 фев 2026

Добрый день, уважаемый Организатор, подскажите, пожалуйста, будет ли работать Ваша программа на моем простом компе: АмД райзен с встроенной картой, Оперативная память 16,0 ГБ Видеоадаптер AMD Radeon(TM) Vega 8 Graphics (2 GB). Требуется обрабатывать залежи складчика) какая будет примерно скорость, видео или аудио в текст, и пост обработка, скорость локальной интересует - она в моем случае возможна? или только облако?

ProPractic · 13 фев 2026

alexandra8090 сказал(а): ↑

Спасибо Вам огромное! Как я понимаю, если можно будет работать только на процессоре, тогда под виртуальную машину можно. Если программа требует обращения к видеокарте, тогда никак. Прошу Вас уточнить этот момент, уж больно хочется, чтобы такая мощная программа у меня работала)))
Нажмите, чтобы раскрыть...

@alexandra8090,
К сожалению, это несколько патовая ситуация. В таком режиме работы не будет доступно ускорение чипов Apple, а виртуализация Windows в Parallels будет отжирать часть ресурсов.

С другой стороны, версия для macOS должна на таком чипе замечательно работать. Но сейчас упор будет на Windows. С огромной вероятностью я сделаю повтор, где будет заявлено сразу две операционные системы — Windows и macOS, возможно, даже Linux.

Так что, к сожалению, пока что у вас не получится полноценно пользоваться этим.

ProPractic · 13 фев 2026

Styurva сказал(а): ↑

Добрый день, уважаемый Организатор, подскажите, пожалуйста, будет ли работать Ваша программа на моем простом компе: АмД райзен с встроенной картой, Оперативная память 16,0 ГБ Видеоадаптер AMD Radeon(TM) Vega 8 Graphics (2 GB). Требуется обрабатывать залежи складчика) какая будет примерно скорость, видео или аудио в текст, и пост обработка, скорость локальной интересует - она в моем случае возможна? или только облако?
Нажмите, чтобы раскрыть...

Добрый день, @Styurva
Буду максимально откровенным: для нормальной работы нужна видеокарта Nvidia или Apple Chip (для версии на macOS).

На процессоре это будет работать примерно в 1:1 или 2:1, в лучшем случае — 3:1. То есть час видеоматериала можно обработать, допустим, примерно за 20 минут.

Что, конечно же, никак нельзя сравнить со скоростями, достигаемыми даже на начальных видеокартах от Nvidia, где час материала можно обработать за считанные минуты.

Сейчас работаю над добавлением разных версий основной центральной модели Whisper для распознавания. Это позволит переключаться между ними и подобрать оптимальный режим даже на слабом процессоре.

Но повторюсь, чудес ждать не стоит. Для диктовки эта штука будет замечательно работать. Но для обработки часов видеоматериала я думаю, что это история, где вы просто будете оставлять эти задачи на ночь. Потому что даже если мы достигнем скорости 5 к 1, то час видеоматериала будет обработан за 12 минут.

И если говорить про часы материала, то наверное это действительно ночные марафоны.

FairOptimist · 14 фев 2026

ProPractic сказал(а): ↑

Постараюсь в ближайшее время обновить демонстрационное видео, сфокусировавшись на обновлениях.
Нажмите, чтобы раскрыть...

Как на счёт этого, получается? Хотелось бы увидеть до покупки.

Rizaco · 14 фев 2026

Привет @ProPractic!
А pdf для перевода и саммари можно закидывать? И промты для саммари, транскрибаций, перевода готовые будут от тебя? Как то у меня криво получается.

Rizaco · 14 фев 2026

ProPractic сказал(а): ↑

Привет! @Rizaco
С текстовыми документами мы пока не работаем, общую суммаризацию пока что по видеофайлу не делаем.
Смысл в том, чтобы получить полную транскрипцию и по необходимости гигантский лонгрид, постобработанный любым промтом на любую длину материала.
А потом вы сможете это экспортировать и закинуть в любую ИИшку, куда захотите. Возможно, в будущем я буду делать саммари, чтобы автоматически они заполнялись, но это уже другая история.
Нажмите, чтобы раскрыть...

Спасибо, что ответил честно, посмотрел видео, что выложил на Облако. Уже буду знать, что получу.