Доступно

[Windows] Whisper Voice Machine (голос → под курсор, видео → в конспект) [Lifetime] [ProPractic]

Тема в разделе "Бизнес и свое дело", создана пользователем ProPractic, 28 янв 2026.

Цена: 273240р.
Взнос: 4600р.
98%

Основной список: 67 участников

Статус обсуждения:
Комментирование ограничено.
  1. 10 фев 2026
    #81
    Atlantius
    Atlantius ЧКЧлен клуба
    спасибо,
    было бы круто, если в WVM можно было подключать свои акки из веб-версий топовых ИИ вместо платного API.
     
    2 пользователям это понравилось.
  2. 10 фев 2026
    #82
    ProPractic
    ProPractic ОргОрганизатор (А)
    @Anna555sumkina
    Прогнал часовую запись - транскрипция заняла 3 минуты на 5060ти
    На моей 3080 это было около 1-2 минут... Но там была память быстрее... А теперь ее больше)
     
    1 человеку нравится это.
  3. 11 фев 2026
    #83
    alexandra8090
    alexandra8090 ЧКЧлен клуба
    Добрый день! Прошу прощения, если был вопрос, но мне это важно. У меня imac M4, на нем будет работать программа (не локально а с подключением к указанным Вами нейронкам). Благодарю Вас!!!
     
    1 человеку нравится это.
  4. 12 фев 2026
    #84
    Reamb
    Reamb ЧКЧлен клуба
    Недавно искал опенсорс решение для озвучки видеокурса с английского на русский.
    Вытаскивать текст с тайм-кодами умею, проблема в озвучке. Планируется ли такой функционал?
     
    1 человеку нравится это.
  5. 12 фев 2026
    #85
    MamZhan
    MamZhan ЧКЧлен клуба
    Присоединяюсь, тоже хотел задать такой вопрос по переводу и озвучке видео с английского на русский

    Еще хотел уточнить по лицензии, т.к. используется видеокарта, а там еще играют частенько и бывает что система слетает в этом случае, если железо не менялось активация повторно пройдет при переустановке системы?
    Думаю 1 себе 1 супруге на ноут и одна запасная будет лицензия, на случай замены железа.
     
    1 человеку нравится это.
  6. 12 фев 2026
    #86
    ProPractic
    ProPractic ОргОрганизатор (А)
    @Reamb, @MamZhan Добрый день! Программа умеет локально на вашем компьютере распознавать речь с точными таймингами примерно 10 секунд на интервал. Потенциально из этого можно сделать субтитры, но потребуется доступ к какой-нибудь облачной модели или дополнительному софту.

    Программа позиционируется как текст под курсор и диктовка под курсор, а также как возможность делать транскрипции массово для большого количества видео и аудиоматериалов. Транскрипция выполняется на том же языке, на котором записан сам материал.

    Однако у программы есть функция постобработки. Это означает, что вы можете настроить процесс, где по 5000 символов текст будет обрабатываться определенным промтом циклом, пока не обработается весь объем. При этом есть опция передать сложный промт, делая запросы в облако или локально на вашей видеокарте.

    Тогда вы можете получить перевод на любой язык, причем достаточно качественный. Есть возможность делать это частями, прикрепляя к каждому куску полный текст, чтобы модель понимала весь контекст. Иногда это значительно повышает качество итогового результата.

    С переводом никаких проблем не будет, но это будет формат «Текстовая статья» или «Лонгрид». То есть это не будет перевод с озвучкой и жесткой привязкой к таймингам в текущем виде.

    Если будет спрос, я могу сделать подобный софт и с озвучкой. Чтобы вы загружали, например, русскоязычное аудио и получали перевод на немецкий с озвучкой и привязкой к таймингам, по типу того, как это реализовано в Яндекс.Браузере. :)

    ---

    Допустим, сейчас вы также видите результат постобработки. Я это не печатал, а просто надиктовал ответ.

    Постобработка сделала свою работу: выделила ключевые мысли жирным, какие-то моменты курсивом и добавила смайлики. Очень мило. :)

    Таким образом, большинство моих ответов в этой теме надиктованы, хотя иногда я все же вношу некоторые правки руками.
     
    Последнее редактирование: 12 фев 2026
    2 пользователям это понравилось.
  7. 12 фев 2026
    #87
    ProPractic
    ProPractic ОргОрганизатор (А)
    @alexandra8090,
    Добрый день! Сейчас в этой теме планируется предложить только версию под Windows. Однако мне было бы очень приятно, если бы все владельцы MacBook и техники Apple, которые хотят версию под macOS, здесь же отметились.

    Версия для Mac по сути уже готова, но её нужно упаковывать. Я не готов это делать, если не наберется хотя бы 3 или 5 человек. Это требует отдельных затрат времени и денег.

    Денежные затраты связаны в первую очередь с организацией системы безопасности, чтобы вы могли запускать софт нормально и без танцев с бубном. :)
     
    1 человеку нравится это.
  8. 12 фев 2026
    #88
    ProPractic
    ProPractic ОргОрганизатор (А)
    @Reamb @MamZhan
     
    1 человеку нравится это.
  9. 12 фев 2026
    #89
    alexandra8090
    alexandra8090 ЧКЧлен клуба
    Благодарю Вас за ответ! Простите, неточно сформулировала вопрос. У меня на imac стоит Win 11 на Parallels, на такой системе программа будет работать???
     
    1 человеку нравится это.
  10. 12 фев 2026
    #90
    Rizaco
    Rizaco ЧКЧлен клуба
    Привет @ProPractic!
    Арабский и казахский языки можно распознавать? CapCut хорошо распознает казахский, но сейчас это на платной версий, прикрыли. Транскрибация с тайм-кодами отличная получалось.
    Может транскрибацию с тайм-кодами прикрутишь нормальную?
    На счет озвучки, есть хороший софт на форуме, только нужна транскрибция с тайм-кодами.
     
    1 человеку нравится это.
  11. 12 фев 2026
    #91
    ProPractic
    ProPractic ОргОрганизатор (А)
    @alexandra8090 увы, тогда не уверен сможет ли хоть какая то версия хорошо работать...
    Постараюсь уточнить и вернутся с ответом
    Дело в том, что на чипах Apple есть собственное ускорение нейросетей, и под macOS оно будет замечательно работать.

    Но если Windows запущена на виртуальной машине на macOS, я не уверен, как это будет происходить. Тем более, что для Windows предусмотрен вариант либо ускорения на процессоре, либо на видеокарте NVIDIA.

    Так что здесь я даже не возьмусь сказать, какой из сценариев в программе отработает, постараюсь уточнить. :)

    ---
    @Rizaco
    Добрый день! Выше давал скриншот совместимости и поддержки разных языков. С казахским языком модель Whisper категорически не дружит, как и с китайским.

    Это 99% ошибок. Насчет арабского не уверен, надо будет перепроверить. Я думаю, что для этих языков, вероятно, подойдет другой алгоритм распознавания.

    Например, модели искусственного интеллекта, которые могут принимать аудио на вход — такие как Google Gemini 3.0 Pro и им подобные. :)
     
    1 человеку нравится это.
  12. 12 фев 2026
    #92
    Rizaco
    Rizaco ЧКЧлен клуба
    А его можно подключить к программе для распознавания? Или подключается только для постобработки? Знаю, что Gemini на Андройде отлично беседует на казахском.
     
    1 человеку нравится это.
  13. 12 фев 2026
    #93
    ProPractic
    ProPractic ОргОрганизатор (А)
    Действительно, можно подключить эту модель или вариант попроще, например, 3.0 Flash, для распознавания аудио. Но нюанс в том, что Whisper и Google Gemini принципиально по-разному обрабатывают звук.

    В модель Whisper можно без проблем поместить 10-часовую аудиодорожку и получить абсолютно точную транскрипцию с детальной разбивкой тайминга по 5–10 секунд. Это идеально подходит, если мы хотим сделать субтитры.

    Однако если в записи невнятная речь или сложные термины, то Whisper может справиться не очень хорошо. Google Gemini сделает распознавание великолепно, но здесь мы ограничены длиной ответа модели.

    По моим экспериментам, лимит составляет примерно 20–25 минут аудио. Плюс модели от Google не умеют давать точные тайминги. Таким образом, это совершенно разные подходы к работе со звуком.

    Я пока не придумал, как их совместить в одном приложении, но технически это возможно. Эти модели могут гораздо лучше понимать как контекст, так и сложные языки, которые Whisper не всегда понимает корректно. :)
     
    1 человеку нравится это.
  14. 13 фев 2026
    #94
    skayskan
    skayskan ЧКЧлен клуба
    На время поста нажмите(левый верхний угол) - там ссылка на пост будет
     
    4 пользователям это понравилось.
  15. 13 фев 2026
    #95
    Styurva
    Styurva ЧКЧлен клуба
    Добрый день, уважаемый Организатор, подскажите, пожалуйста, будет ли работать Ваша программа на моем простом компе: АмД райзен с встроенной картой, Оперативная память 16,0 ГБ Видеоадаптер AMD Radeon(TM) Vega 8 Graphics (2 GB). Требуется обрабатывать залежи складчика) какая будет примерно скорость, видео или аудио в текст, и пост обработка, скорость локальной интересует - она в моем случае возможна? или только облако?
     
    1 человеку нравится это.
  16. 13 фев 2026
    #96
    ProPractic
    ProPractic ОргОрганизатор (А)
    @alexandra8090,
    К сожалению, это несколько патовая ситуация. В таком режиме работы не будет доступно ускорение чипов Apple, а виртуализация Windows в Parallels будет отжирать часть ресурсов.

    С другой стороны, версия для macOS должна на таком чипе замечательно работать. Но сейчас упор будет на Windows. С огромной вероятностью я сделаю повтор, где будет заявлено сразу две операционные системы — Windows и macOS, возможно, даже Linux.

    Так что, к сожалению, пока что у вас не получится полноценно пользоваться этим.
     
    1 человеку нравится это.
  17. 13 фев 2026
    #97
    ProPractic
    ProPractic ОргОрганизатор (А)
    Добрый день, @Styurva
    Буду максимально откровенным: для нормальной работы нужна видеокарта Nvidia или Apple Chip (для версии на macOS).

    На процессоре это будет работать примерно в 1:1 или 2:1, в лучшем случае — 3:1. То есть час видеоматериала можно обработать, допустим, примерно за 20 минут.

    Что, конечно же, никак нельзя сравнить со скоростями, достигаемыми даже на начальных видеокартах от Nvidia, где час материала можно обработать за считанные минуты.

    Сейчас работаю над добавлением разных версий основной центральной модели Whisper для распознавания. Это позволит переключаться между ними и подобрать оптимальный режим даже на слабом процессоре.

    Но повторюсь, чудес ждать не стоит. Для диктовки эта штука будет замечательно работать. Но для обработки часов видеоматериала я думаю, что это история, где вы просто будете оставлять эти задачи на ночь. Потому что даже если мы достигнем скорости 5 к 1, то час видеоматериала будет обработан за 12 минут.

    И если говорить про часы материала, то наверное это действительно ночные марафоны.
     
    1 человеку нравится это.
  18. 14 фев 2026
    #98
    FairOptimist
    FairOptimist ЧКЧлен клуба
    Как на счёт этого, получается? Хотелось бы увидеть до покупки.
     
    2 пользователям это понравилось.
  19. 14 фев 2026
    #99
    Rizaco
    Rizaco ЧКЧлен клуба
    Привет @ProPractic!
    А pdf для перевода и саммари можно закидывать? И промты для саммари, транскрибаций, перевода готовые будут от тебя? Как то у меня криво получается.
     
    1 человеку нравится это.
  20. 14 фев 2026
    #100
    Rizaco
    Rizaco ЧКЧлен клуба
    Спасибо, что ответил честно, посмотрел видео, что выложил на Облако. Уже буду знать, что получу.
     
    1 человеку нравится это.
Статус обсуждения:
Комментирование ограничено.