curiosus002: (Default)
[personal profile] curiosus002
Массовое преобразование файлов html в txt. Все тэги и скрипты при этом игнорируются. Нашел здесь. Как скачать много html файлов, все знают. А вот для дальнейшей работы с текстами может быть удобнее, чтобы эти тексты были в формате txt. Мне например, понадобилось, чтобы сделать из множества маленьких файликов html, книгу в формате fb2. Нужно, чтобы в системе был установлен браузер lynx.
#!/bin/sh
# h2t, convert all htm and html files of a directory to text

for file in `ls *.htm`
do
new=`basename $file htm`
lynx -dump $file > ${new}txt
done
#####
for file in `ls *.html`
do
new=`basename $file html`
lynx -dump $file > ${new}txt
done

Вот этот скрипт сделал все меньше, чем за минуту. Скопировать текст в любимый текстовый редактор, сохранить без расширения, под любым названием. Я сохранил как "html-convert". Потом даем ему права исполняемого файла, копируем в папку с файлами html и запускаем в терминале.
$ cd ~/Folder-with-your-htmls
$ ./html-convert
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

curiosus002: (Default)
curiosus002

April 2025

S M T W T F S
  12345
6789101112
13141516171819
20212223242526
2728 2930   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 25th, 2025 06:20 am
Powered by Dreamwidth Studios