Доступно

Инструмент для быстрой и качественной транскрибации аудио в текст на основе современной ИИ

Тема в разделе "Бизнес и свое дело", создана пользователем Goro25, 28 дек 2025.

Цена: 10 440р
Взнос: 1 450р
100%

Основной список: 8 участников

Статус обсуждения:
Комментирование ограничено.
  1. 28 дек 2025
    #1
    Goro25
    Goro25 ОргОрганизатор (А)

    Складчина: Инструмент для быстрой и качественной транскрибации аудио в текст на основе современной ИИ


    image_2025-12-25_19-27-52.png

    Приветствую коллег складчиков. Предлагаю вашему вниманию складчину на инструмент который может быть полезен многим. Он не разрабатывался специально на продажу для складчика. Потребность возникла спонтанно во время работы по своим направлениям. Но почему бы не поделиться эффективным решением с коллегами?

    Старые искатели методов заработка в интернет еще помнят те времена когда на сайтах фриланса были вакансии работы по транскрибации (превращение аудио в текст). Технический прогресс не стоит на месте. И теперь личного фрилансера транскрибатора можно поселить у себя в компьютере и нагружать его по полной.

    image_2025-12-25_19-27-36.png

    Предлагаю вашему вниманию софт с помощью которого можно, загрузив видео или аудио, получить качественную текстовую расшифровку. Чтобы понять о чем мы говорим, можно зайти на сервис turboscribe.ai и авторизировавшись с аккаунтом google попробовать 3 транскрибации которые бесплатно доступны в сутки. Мое решение это приблизительный аналог который разрабатывался для собственных нужд, без необходимости грузить файлы в интернет. Загрузка требует времени и может быть принципиальным фактором для скорости в работе. Софт использует Faster Whisper от OpenAI.

    Подробнее о функциях. В начале работы требуется добавить нужное количество видео или аудио файлов в исходную папку следующих доступных форматов, они будут обработаны по очереди:

    Видео: .mp4, .mov, .mkv, .webm, .avi, .flv, .wmv
    Аудио: .mp3, .wav, .m4a, .aac, .ogg, .flac

    Доступен такой формат вывода результатов:

    1. Обычный текст в файле .txt (без таймкодов).
    2. Текст с таймкодами фраз в файле .txt.
    3. Текст с таймкодами слов в файле .txt.
    4. SRT субтитры (для видеоплееров).
    5. Все форматы сразу (1, 2, 3, 4).

    Вывод доступен в одном из двух вариантов:

    1. В оригинальном языке видео или аудио.
    2. В переводе на английский язык.

    Для работы используется одна из моделей Faster-Whisper которую нужно выбрать. Она скачивается один раз и сохраняется в C:\Users\Username\.cache\huggingface\hub\
    где Username - имя пользователя компьютера (задается при установке системы). Во время следующего запуска, если модель уже скачана, то работа по транскрибации начинается сразу и не тратится время на скачивание.

    Доступны следующие модели и указано сколько места они занимают на диске:

    1. tiny - самая быстрая, базовое качество (~75MB)
    2. base - быстрая, хорошее качество (~140MB)
    3. small - средняя, отличное качество (~460MB)
    4. medium - медленная, превосходное качество (~1.5GB) [РЕКОМЕНДУЕТСЯ]
    5. large-v2 - очень медленная, лучшее качество (~3GB)
    6. large-v3 - новейшая, максимальное качество (~3GB)
    (если выбирать между large-v2 и large-v3, то стоит выбрать large-v3 так как она новее и работает лучше, при этом занимает места так же. Я на постоянной основе использую модель medium, которая мне подходит как по качеству так и скорости.

    Рассмотрим самый больной вопрос. Это быстродействие.

    Предлагаю два варианта софта:

    1. LITE. Занимает 1 Гб на диске. (Не считая модели которые будут скачиваться отдельно). Эта версия использует только процессор (CPU) для транскрибации.

    2. FULL. Занимает 4,9 Гб на диске. (Не считая модели которые будут скачиваться отдельно). Эта версия использует видеокарту NVIDIA для ускоренной транскрибации. Для ускорения используются только современные видеокарты NVIDIA. Это очень важно.

    Поддерживаемые видеокарты:

    Отлично работают:
    • RTX 50 серия (5050, 5060, 5070, 5080, 5090)
    • RTX 40 серия (4050, 4060, 4070, 4080, 4090)
    • RTX 30 серия (3050, 3060, 3070, 3080, 3090)
    • RTX 20 серия (2060, 2070, 2080)

    Работают хорошо (теоретически):
    • GTX 16 серия (1650, 1660)

    НЕ поддерживаются:
    • AMD/Radeon видеокарты
    • Intel встроенная графика
    • Apple M1/M2/M3/M4

    Естественно, что возможности тестирования на разных машинах с разными видеокартами нет. Поэтому гарантировать что FULL версия будет работать с вашей видеокартой я не могу. Точнее FULL версия будет работать в любом случае. Но если она не сможет задействовать видеокарту, то будет использовать только процессор и следовательно скорость обработки будет приблизительно в 5 раз меньше.

    LITE версия отличается от FULL только размерами. LITE версия для работы выбирается на случай если ваша видеокарта не подходит для FULL, но транскрибация нужна, и при этом не хочется чтобы на диске было занято лишнее место.

    Резюмирую еще раз. Для ускоренной транскрибации с FULL версией нужна современная видеокарта NVIDIA. Если у вас более менее современный и мощный процессор но нет дискретной видеокарты то LITE версия будет делать нужную работу, но приблизительно от 5 раз медленнее.

    Софт разрабатывался для личного использования и для машины которая есть в наличии.

    Приведу примеры характеристик своего железа и скорости обработки аудио файла:
    1. Проц - Core i7-13700HX 16 ядер
    2. Оператиная память - 32 ГБ
    3. Видеокарта - GeForce RTX 5050 8 ГБ

    Аудио файл длительностью 9.5 минут был обработан на модели medium:
    LITE версия - за 5 минут.
    FULL версия - за 1 минуту.

    Аудио файл длительностью 1 час был обработан на модели medium:
    LITE версия - за 32 минуты.
    FULL версия - за 6 минут.

    Также проведено тестирование Full версии на не намного более слабой машине с видеокартой GeForce RTX 4050 6 ГБ. Аудио файл длительностью 9.5 минут был обработан на модели medium Full версией также за 1 минуту. Результаты у вас могут значительно отличаться в зависимости от используемой модели и от железа вашей машины. Древние машины со слабым железом для работы софта рассматривать не следует.

    Чтобы максимально избежать не досказанности сейчас и избежать претензий и возврата средств после покупки было принято решение разработать Демо Full версию которой можно протестировать скорость обработки аудио или видео файлов.
    Для этого нужно: скачать софт - распаковать - добавить файл (ы) для обработки - скачать нужную модель во время первого запуска - протестировать как быстро происходит обработка.

    Для ДЕМО доступна обработка 5 файлов. Если кто желает тестировать перед покупкой, то прошу оставить заявку ниже в обсуждении. На этом описание заканчиваю. Кому интересен функционал и возможность экономии времени и денег милости просим.

    Уточнения:

    1. Привязка осуществляется на 2 компьютера. Перепривязка возможна по запросу.

    2. Работа тестировалась на Windows 10/11. На более ранних версиях и на Mac не тестировалась, поэтому гарантию по работе дать не могу.

    3. Поддержка осуществляется бессрочно, но с условием пока есть возможность использовать Faster-Whisper бесплатно.
     
    Последнее редактирование модератором: 13 фев 2026
    6 пользователям это понравилось.
  2. Последние события

    1. 7IMSAN
      7IMSAN оставил отзыв "Отлично".
      6 апр 2026
    2. 7IMSAN
      7IMSAN участвует в складчине.
      5 апр 2026
    3. anabay
      anabay участвует в складчине.
      22 мар 2026
    4. Vyacheslav2
      Vyacheslav2 оставил отзыв "Отлично".
      22 фев 2026

    Последние важные события

    1. skladchik.com
      Складчина доступна.
      16 фев 2026
    2. skladchik.com
      Складчина активна.
      16 фев 2026
    3. skladchik.com
      Сбор взносов начинается 16.02.2026.
      13 фев 2026
    4. skladchik.com
      Goro25 организатор складчины.
      13 фев 2026
  3. Отзывы участников

    5/5,
    • 5/5,
      круто, очень нравится. Особенно круто, что может сразу несколько видосов в очередь брать. Единственный минус, я бы еще добавил возможность, что бы оно могло считывать видосы в папках и под папках. Курсы часто разбиты и транскрибировать все сохранив структуру курса сложно
      6 апр 2026
      2 пользователям это понравилось.
    • 5/5,
      Благодарю автора за неоценимую помощь с программой. Было много проблем, но он проявил терпение и у меня все получилось
      22 фев 2026
      3 пользователям это понравилось.
  4. Обсуждение
  5. 28 дек 2025
    #2
    Владимир Маркин
    Владимир Маркин ОргОрганизатор (А)
    Заявка на тестирование.
     
    1 человеку нравится это.
  6. 28 дек 2025
    #3
    dobrii
    dobrii ЧКЧлен клуба
    Заявка на тест, в описании не нашел с какими языками работает на отлично.
     
    2 пользователям это понравилось.
  7. 28 дек 2025
    #4
    sinebok
    sinebok ОргОрганизатор
    Заявка на тестирование.
     
    1 человеку нравится это.
  8. 28 дек 2025
    #5
    Рома У
    Рома У ЧКЧлен клуба
    нужная вещь
     
  9. 28 дек 2025
    #6
    Снегоход
    Снегоход ОргОрганизатор
    Заявка на тестирование.
     
    1 человеку нравится это.
  10. 28 дек 2025
    #7
    ZevSua
    ZevSua ОргОрганизатор
    Могу протестировать. В наличии GTX 1060. Покупать не планирую говорю сразу. Просто могу протестировать. Как когдато давали на проверку.

    p.s. Нет случаем наоборот? чтобы из текста в аудио разными голосами? Именно, чтобы разными голосами в одном аудио.
     
    1 человеку нравится это.
  11. 28 дек 2025
    #8
    Чертополох
    Чертополох ЧКЧлен клуба
    Хотелось бы узнать, какие есть языки? Интересует русский и английский.
     
  12. 28 дек 2025
    #9
    Goro25
    Goro25 ОргОрганизатор (А)
    Все самые распространенные языки конечно же есть. Я лично работал с английским, испанским и русским. Устроило качество даже на medium.
    Если нужно можете закинуть видео или аудио на облако и дать ссылку. Я транскрибирую и выдам ссылку на текст. Увидите качество даже без теста.

    Полный список языков можно посмотреть здесь, он очень объемный:
    Скрытая ссылка
    По моему более чем достаточно если вам не нужна ну полная экзотика типа старогреческого.

    Все кто дал заявку на тест - всем выдам позже.
     
    1 человеку нравится это.
  13. 30 дек 2025
    #10
    Magua
    Magua ЧКЧлен клуба
    Вопрос по теме, скажем сервис turboscribe.ai не принимает файлы с ютуб, ругаясь на то что отсутствует звуковая дорожка, но нужна транскрибация именно с ютуб, ваш инструмент такие файлы будет обрабатывать?
     
  14. 30 дек 2025
    #11
    Goro25
    Goro25 ОргОрганизатор (А)
    я попробую скачать именно из ютуб видео специально и скажу результат.
     
    1 человеку нравится это.
  15. 30 дек 2025
    #12
    alexandra8090
    alexandra8090 ЧКЧлен клуба
    Очень жаль что не работает с apple на процессорах м серии
     
  16. 30 дек 2025
    #13
    dobrii
    dobrii ЧКЧлен клуба
    Удалось протестировать софт в демке, может кому будет интересны результаты:
    На вход видео скаченное с ютуба и парочку из курсов.

    1. 33 мин за 1 мин 35 секунд на 4963 слов, язык RU
    2. 29 мин за 1 мин 13 секунд на 4980 слов, язык EN
    3. 80 мин за 3 мин 31 секунд на 14025 слов, язык EN
    4. 100 мин за 3 мин 59 секунд на 13505 слов, язык RU
    5. 58 мин за 2 мин 0 секунд на 6438 слов, язык RU

    ✓ Использовался GPU: NVIDIA GeForce RTX 4070 Ti
    ✓ Макс. загрузка GPU: 91% (отличная утилизация!)
    ✓ Финальный статус GPU: VRAM: 4.57/12.0 GB | GPU загрузка: 86% | Темп: 53°C
     
    3 пользователям это понравилось.
  17. 30 дек 2025
    #14
    blogeonix
    blogeonix ЧКЧлен клуба
    Заявка на тест
     
    1 человеку нравится это.
  18. 31 дек 2025
    #15
    Goro25
    Goro25 ОргОрганизатор (А)
    На яблоках не тестировалось. Можете присоединиться к тестированию и попробовать. Видеокарта точно не будет использоваться. А вот просто работоспособность на процессоре было бы интересно узнать.
     
  19. 31 дек 2025
    #16
    Blastmor
    Blastmor ЧКЧлен клуба
    Записываюсь на тест к бро, он не подведет я уверен, и софт будет суперкачественным, не то что у кидалы Lordbots

    Видюха старенькая GTX1060 3Gb
     
    1 человеку нравится это.
  20. 2 янв 2026
    #17
    rabotasever
    rabotasever ЧКЧлен клуба
    Вопрос - может ли софт определять участников записи? Или он все в один текст транскрибирует? Простой пример: запись двух человек (рабочий созвон). Нужно транскрибировать так, чтобы было видно где говорит участник 1, а где говорит участник 2.
     
  21. 3 янв 2026
    #18
    Goro25
    Goro25 ОргОрганизатор (А)
    Нет, спикеров не разделяет.
     
  22. 3 янв 2026
    #19
    Goro25
    Goro25 ОргОрганизатор (А)
    Всем привет. Обратите пожалуйста внимание.
    Практическое тестирование показало, что FULL версия не работает с этой серией видеокарт:
    GTX 10 серия (1050, 1060, 1070, 1080)
    транскрибация производится только на процессоре.
     
    1 человеку нравится это.
  23. 3 янв 2026
    #20
    Рома У
    Рома У ЧКЧлен клуба
    Заявка на тест
     
    1 человеку нравится это.
Статус обсуждения:
Комментирование ограничено.