Aug. 3rd, 2017

curiosus002: (Default)
Массовое преобразование файлов html в txt. Все тэги и скрипты при этом игнорируются. Нашел здесь. Как скачать много html файлов, все знают. А вот для дальнейшей работы с текстами может быть удобнее, чтобы эти тексты были в формате txt. Мне например, понадобилось, чтобы сделать из множества маленьких файликов html, книгу в формате fb2. Нужно, чтобы в системе был установлен браузер lynx.
#!/bin/sh
# h2t, convert all htm and html files of a directory to text

for file in `ls *.htm`
do
new=`basename $file htm`
lynx -dump $file > ${new}txt
done
#####
for file in `ls *.html`
do
new=`basename $file html`
lynx -dump $file > ${new}txt
done

Вот этот скрипт сделал все меньше, чем за минуту. Скопировать текст в любимый текстовый редактор, сохранить без расширения, под любым названием. Я сохранил как "html-convert". Потом даем ему права исполняемого файла, копируем в папку с файлами html и запускаем в терминале.
$ cd ~/Folder-with-your-htmls
$ ./html-convert

???

Aug. 3rd, 2017 11:54 am
curiosus002: (Default)
Давно не писал в жж, только сейчас заметил, что там к новым постам автоматически подставляется какой-то хештэг, которых у меня и в заводе никогда не было. Кто их, анафем, об этом просил? Все хорошее, что было в жж, было сделано давным-давно и не при нынешних хозяевах. У улучшателей хватает фантазии только на то, чтобы попытаться создать какой-то недофейсбук и недотвиттер. Следовало бы делать эксперименты в мобильной версии, приспосабливать ее под современное пальцетычество, а компьютерную версию не трогать. Но для этого ведь надо немного думать. В результате имеем убогую мобильную версию сайта и постепенно портим ту, которая для компьютеров. Увы, увы.

Profile

curiosus002: (Default)
curiosus002

April 2025

S M T W T F S
  12345
6789101112
13141516171819
20212223242526
2728 2930   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated May. 24th, 2025 02:36 pm
Powered by Dreamwidth Studios