Многие приложения с использованием алгоритмов искусственного интеллекта основаны на открытом исходном коде и по этой причине полностью бесплатные. Первые подобные приложения появились в академических кругах, где бесплатные лицензии на ПО являются привычным делом для укрепления взаимодействия и развития.
В данном случае статья посвящена не фреймворкам и библиотекам для различных форм ИИ. Речь пойдёт о реально доступных и практичных приложениях ИИ для обычных персональных компьютеров. Термин «искусственный интеллект» охватывает множество понятий, в том числе нейронные сети, машинное обучение, глубокое обучение, обработку естественного языка. Все эти понятия представлены в описанных ниже приложениях.
Модель имеет значение
Разные варианты распознавания образов, машинная обработка древа решений и автоматизация задач создаются на готовых моделях и обучающих данных. Благодаря доступности этих данных и существует бесплатное программное обеспечение с применением ИИ.
Разработка моделей может занимать много лет, для её оценки требуются терабайты необработанных данных. Увеличение производительности современных компьютеров позволило ускорить создание моделей ИИ и анализ данных для обучения. Это делает возможной работу небольших исследовательских групп.
В нашей подборке описаны бесплатные приложения для Windows, благодаря которым можно оценить степень развития современных алгоритмов ИИ с минимальными затратами на доступ к ним. Этому поспособствовало использование открытого исходного кода. Доступная с 2016 года платформа глубокого обучения PyTorch хорошо зарекомендовала себя в исследованиях и при создании бесплатного ИИ за счёт своих интерфейсов прикладного программирования для языков Python и C++. Среди прочего на её основе был создан автопилот для автомобилей Tesla.
Второй по популярности бесплатный фреймворк называется Tensorflow. Его создала компания Google и он предлагает тесную связь с Google Cloud, а также многочисленные библиотеки для персонального применения.
Эти две платформы являются основой большинства описанных ниже приложений. Они отвечают за связь алгоритмов и моделей данных.
Final 2x – увеличение размера изображений
При масштабировании растровой графики за счёт увеличения пикселей всегда теряется качество. Эту проблему решает Final 2x. Программа способна масштабировать графику и сглаживать мельчайшие детали благодаря использованию нейронных сетей и предлагаемых моделей.
Алгоритмы Real Cugan, Real Esrgan, Waifu 2x и SRMD Final 2x приносят четыре метода масштабирования изображений, предлагая максимально качественные результаты. Программа способна заметно повысить качество пиксельных фотографий формата JPG, даже если на них есть артефакты и сильные шумы.
Установка. Final 2x очень легко установить на Windows и сразу начать работать. Серьёзных требований к аппаратным компонентам компьютера у неё нет. Нейронные сети и алгоритмы в этом приложении способны работать на процессорах Nvidia, AMD и Intel. Достаточно даже встроенной графики.
Как и в случае с любым другим инструментом ИИ и нейронными сетями, не помешает большой объём оперативной памяти. Создатели приложения на странице Github предлагают скачать установщик Final2x-windows-x64-setup.exe (260 МБ), после чего потребуется выполнить всего несколько щелчков мышью.
Как работает. После запуска программы появляется поле, куда перетаскиваются изображения в форматах JPG или PNG. Нажатие на иконку шестерёнки в левом нижнем углу раскрывает страницу настроек. В разделе «Устройство» выбираются процессор или видеокарта.
Далее модель определяет качество введённого изображения. Алгоритм Real-ESRGAN следует выбирать для фотографий, а Waifu 2x для рисунков. Поле «Пользовательский масштаб» определяет коэффициент масштабирования. Следует включить опцию TTA для качественного шумоподавления.
В главном окне программы нажатие на кнопку «Старт» запускает расчёты. Если изображение сложное, может потребоваться несколько минут.
Meshroom – 3D-сканер для смартфонов
Трёхмерный сканер работает с реальными объектами благодаря лазерам. Полученные данные позволяют создать файл, который можно использовать в САПР и анимационных программах. Для этого подойдут простые смартфоны или цифровые камеры, а также бесплатная программа Meshroom. В её основе лежат фотограмметрические библиотеки разработчика Alicevision, которые предлагаются по лицензии с открытым исходным кодом, в том числе и на Windows (64 бит). Выполняется анализ серии изображений, в рамках которого происходит вычисление формы сфотографированного объекта и создание файла сетки.
Установка. Для проведения вычислений нужен программный интерфейс Cuda. Это означает необходимость в видеокарте Nvidia с поддержкой версии минимум Cuda 2.0. Драйверы Nvidia Cuda для Windows имеют объём около 3 ГБ.
После настройки видеокарты Nvidia можно устанавливать приложение Meshroom (1,3 ГБ). Если у вас видеокарта AMD или процессор Intel, Meshroom может работать только в менее точном режиме эскиза. Если вы готовы подождать завершения расчётов дольше, есть альтернативная версия Meshroom без Cuda.
Как работает. При сканировании объекта он должен находиться в пустом помещении, подальше от других объектов. Требуется сделать десятки фотографий со всех сторон и с разных углов, без размытия и с большой глубиной резкости. Изображение должно быть размером не более 10 Мп. Файлы перетаскиваются в левую область приложения Meshroom, после чего начинаются расчёты. Даже на видеокартах Nvidia эти расчёты займут несколько часов.
Чтобы оптимизировать сетку, следует использовать программное обеспечение 3D, вроде бесплатного приложения Blender.
Kdenlive – отслеживание объектов с помощью ИИ
Бесплатный видеоредактор на протяжении последних двух лет обладает средствами ИИ. Автоматическое отслеживание движений в видеороликах позволяет распознавать фигуры и применять к ним эффекты. Например, можно закрыть пикселями определённые объекты на видеоролике.
Установка. Приложение с открытым исходным кодом предлагается для 64-разрядной версии Windows в виде файла размером 100 МБ. Ещё для него есть модель данных для работы алгоритма отслеживания движения. Они находятся в трёх файлах: «dasiamrpn_kernel_cls1.onnx», «dasiamrpn_kernel_r1.onnx» и «dasiamrpn_model.onnx». Эти файлы нужно поместить в папку, куда установлено приложение Kdenlive. В адресной строке проводника введите %AppData%/kdenlive и создайте подпапку под названием opencvmodels. Разместите там три вышеназванных файла.
Как работает. Kdenlive предлагает трекер движения в виде эффекта. Поместите видеоролик из списка в левом верхнем углу на временной ленте внизу. Откройте вкладку «Эффекты» в меню и выберите Alpha, Mask and Keying — Motion Tracker. Перетащив эффект на нужный видеоролик, вы откроете настройки эффекта и увидите красный квадрат в окне предварительного просмотра. В настройках выбирается тип алгоритма трекера DaSIAM. На временной ленте откройте первый кадр, разместите вокруг объекта красную рамку и нажмите на кнопку «Анализ». Будет произведён расчёт ключевых кадров вокруг объекта. Также здесь можно выбрать пикселизацию.
Spleeter – объединение музыки в треки
Благодаря этому приложению уже готовые музыкальные произведения можно превратить в отдельные треки. Spleeter способен разделять музыку в формате MP3 на две, четыре или пять отдельных дорожек. Для этого применяются заранее обученные модели.
Spleeter распознаёт категории вроде вокала, баса, ударных и ритм-секций. В инструменте командной строки применяется библиотека ИИ Tensorflow. Он отвечает за анализ потока данных в музыкальных фрагментах. Ещё используется кодировщик Ffmpeg, который разделяет изолированные треки на отдельные файлы MP3.
Это приложение создано французским сервисом потоковых трансляций Deezer. У него есть разрешение задействовать огромный лицензированный каталог поп-музыки для анализа с целью распознавания образов. Эти же данные для обучения бесплатно предлагаются для персонального применения, но устанавливать их нужно дополнительно.
Установка. Существует версия Spleeter для Windows, поэтому не придётся отдельно устанавливать каждый программный компонент Python. Используется менеджер пакетов Chocolately, который сначала нужно настроить. Чтобы сделать это, откройте в меню «Пуск» Windows Power Shell, нажав правой кнопкой мыши и выбрав команду «Запуск от имени администратора». В командной строке введите:
Set-ExecutionPolicy AllSigned
Далее введите
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))
Будет произведена установка менеджера пакетов Windows Chocolately.
Дальше менеджер пакетов позволяет установить Spleeter в Powershell. Введите следующую команду:
choco install spleeter-msvc-exe
Следом необходимо установить обучающие модели. В созданном каталоге «C:\ProgramData\chocolatey\lib\spleeter-msvc-exe\tools\models» запустите пакетный файл «download_models.bat», после чего будет скачано около 1,2 ГБ данных. В конце требуется установить Microsoft Visual C++.
Как работает. Работать можно как в Powershell, так и в окне командной строки. Команда
spleeter.exe datei.mp3
разделяет файл формата MP3 в текущей папке на вокал и инструменты, которые окажутся в этой папке в виде отдельных файлов MP3. Это простой пример работы приложения, на которую уходит несколько секунд на среднем компьютере. При работе с поп-музыкой Spleeter способен распознавать отдельные треки для изоляции, вроде ударных и басов.
Команда
spleeter.exe -m 4stems datei.mp3
использует шаблон распознавания для поиска четырёх отдельных треков в музыкальном файле: вокала, баса, ударных и ритма/аккомпанемента. Времени уходит чуть больше, в итоге эти треки будут сохранены в каталоге в виде разных файлов MP3.
Если у аккомпанемента есть уникальные черты, Spleeter может использовать следующие команды для его разделения на пять треков. Это лучшим образом подходит для вокала, басов, ударных, фортепиано и ритм-секций:
spleeter.exe -m 5stems datei.mp3
Spleeter представляет собой инструмент командной строки, применяющий ИИ и обширное моделирование для разделения файлов формата MP3 на отдельные треки с изоляцией инструментов.
Microsoft Edge – улучшение изображений
Microsoft стремится оснастить привычные приложения возможностями ИИ. Какие из этих возможностей в долгосрочной перспективе станут популярными, пока никто не знает. Новая функциональность браузера Edge представляет собой автоматическое масштабирование изображений и видео. На экранах с высоким разрешением результаты получаются отличными.
Установка. Браузер Edge установлен в системах Windows изначально, но алгоритмы ИИ предлагается только версиях для разработчиков. На сайте Microsoft есть установочный файл предварительной версии браузера.
Как работает. Изображения улучшается не локально на компьютере, а отправляются на серверы Microsoft. Здесь они экстраполируются и возвращаются в браузер на вашем компьютере. Соответственно, Microsoft будет знать, с какими изображениями вы работаете. Ради конфиденциальности данная опция по умолчанию выключена. Для активации нужно ввести в адресную строку Edge://settings/privacy/enhanceImages и использовать переключатель.
Эту функциональность можно включить для определённых сайтов. В версии браузера Canary есть функция ИИ, благодаря которой можно улучшать размытое видео до разрешения 720p с использованием видеокарты компьютера. Это должны быть современные видеокарты Nvidia и AMD с современными версиями драйверов. В таком случае изображения не будут отправляться на серверы Microsoft.
Vosk – распознавание речи через AI
Расстояние между произнесённым вслух словом и транскрипцией невелико. Платформа искусственного интеллекта Vosk на движке речевого распознавания Kaldi является проектом Университета Джонса Хопкинса с открытым исходным кодом.
Установка. Vosk требует наличия Python 3.11 для Windows. В процессе установки необходимо поставить галочку «Добавить Python в PATH». В командной строке вводятся две команды:
pip install ffmpeg
pip install vosk
Они подготавливают условия для установки Vosk. Затем необходим кодер/декодер Ffmpeg в виде файла «ffmpeg-git-essentials.7z». Содержимое архива перемещается в созданную папку C:Program Filesffmpeg», файл «ffmpeg.exe» помещается в подпапку «bin». Нужно добавить путь «C:Program Filesffmpeg|bin» в переменную среды Windows Path. Для этого нажмите на иконку Windows > Настройки > Система > Расширенные настройки системы > Переменные среды > Путь > Редактировать > Создать.
Как работает. Откройте сайт http://github.com/alphacep/vosk-api для скачивания нескольких примеров скриптов в разделе Code – Download ZIP. Их можно распаковать в любую папку и в подпапке «\pythonvosk\transcriber» находится пример скрипта «transcriber.py». Команда
vosk-transcriber -l en-us -i test.mp4 -t srt -o englisch.srt
создаёт файл субтитров «english.srt» из видеофайла «test.mp4» благодаря распознаванию речи с временными отметками. Скрипт самостоятельно скачивает подходящую языковую модель. Полученный файл можно отредактировать в других программах для работы с субтитрами.
Digikam – распознавание лиц по фотографиям
Digikam представляет собой программу для организации больших наборов фотографий с поддержкой баз данных. Её разрабатывают на протяжении уже более чем 15 лет. Сначала программа была создана для системы Linux, но её регулярно переносят на Windows. Здесь предлагаются обширные функциональные возможности. Это сортировка и классификация фотографий по тегам, ключевым словам и альбомам, а также расширенные параметры сортировки. ИИ применяется для распознавания лиц и автоматической оценки качества снимков.
Установка. Digikam устанавливается в 64-разрядной версии Windows, установочный файл занимает 114 МБ. В процессе установки запрашивается ряд данных и задаются настройки по умолчанию. После первого запуска предлагается загрузить модель данных ИИ для лицевого распознавания. Это занимает ещё около 420 МБ.
Как работает. Digikam выполняет лицевое распознавание с применением нейронных сетей, начиная с версии 2.0. Только с версии 7.2 технология стала применяемой на практике. После открытия фотографии показывается символ человека со знаком плюс. Здесь вручную помечается лицо и даётся имя.
Так делается с несколькими фотографиями этого человека, имя выбирается из отображаемого списка. Дальше этого человека можно находить в галерее изображений в пункте меню «Поиск» > «Люди».
Hugin – панорамы из фотосерий
Другой инструмент для работы с фотографиями, который избавляет от длительных часов обработки и даёт возможность создавать новые сцены в ландшафтной фотографии. Hugin создаёт панорамы на основе накладывающихся друг на друга серий отдельных снимков. Панорамы особо привлекательны в ландшафтной фотографии, чтобы передавать настроение. На мобильных устройствах приложения уже несколько лет предлагают подобную возможность. Hugin позволяет контролировать полученный результат и объединять отдельные снимки в вертикальные ряды.
Установка. Hugin распаковывается из архива ZIP в любую выбранную вами папку. Исполняемый файл hugin.exe располагается в подпапке bin.
Как работает. Это приложение для продвинутых пользователей, которым придётся потратить время на изучение предлагаемых функциональных возможностей. Лучше всего начать с пары отдельных изображений, добавив их на вкладку «Изображения». Чтобы получить наилучшие результаты, следует вручную добавлять фокусное расстояние, взяв их из метаданных снимков. Также улучшит результат добавление контрольных точек между накладывающими друг на друга изображениями на одноимённой вкладке.
Subsync – синхронизация субтитров
Любители кино зачастую предпочитают смотреть сериалы и фильмы на языке оригинала без перевода и дубляжа. Также это может быть полезно для изучения иностранных языков. Субтитры в этом случае станут большими подспорьем.
Сайты вроде opensubtitles.org дают доступ к субтитрам для фильмов и сериалов в формате, с которыми могут работать видеоплееры вроде VLC. Бывает трудно найти файл субтитров, который будет синхронизирован с вашим файлом видео. Если произносимые на видео слова не совпадают с тем, что показывают субтитры, это никому не понравится.
Бесплатное приложение Subsync может устранить этот недостаток. При помощи распознавания речи и ИИ происходит синхронизация субтитров и звука на видео.
Установка. По адресу https://github.com/sc0ty/subsync/releases находится установщик и портативная версия для 64-разрядных систем Windows. Объём файла составляет 42 МБ.
Запуск файла exe позволяет установить программу в подпапку, внутри которой находится файл приложения.
Как работает. Наверху интерфейса вводится путь к файлу субтитров в формате SRT. Рядом указывается язык файла. Ниже в поле «Ссылки» вводится файл видео, рядом указывается язык звука на видео.
Нажав «Пуск», пользователь загружает файлы для указанных языков, которые весят несколько десятков мегабайт. Дальше происходит процесс синхронизации на основе найденных совпадений и перезапись временных меток в файле SRT.
Подписывайтесь на T4S.TECH в Telegram. Публикуем новости, обзоры и забавные факты о технологиях.