ローカル保存HTMLのスクレイピング覚書

ネット上にあるHTMLのスクレイピングに関してはかなり情報があるが、

ローカル上にあるHTMLファイルのスクレイピングについてはあまり情報がなかったので覚書。

soup = BeautifulSoup(open(ローカルファイルの保存場所))

あとは通常通り。

通常のテキストファイルと同じくFileStream()を使う。

String型にできればあとは通常通り。

Webページを単一の完全なファイルで保存できるMHTML形式のファイルは、文字がQuoted-printableでエンコードされているため、扱うにはデコードする必要がある。

Edge以外何かしらのブラウザが使える環境なら、そのmhtmlを開きなおす→html形式で保存しなおしても直るので、単一の完全なWebページでなくて大丈夫な時はそれでもOK。正直それが手っ取り早そう

どうしてもmhtmlで処理しなければならない場合。

上記の方法で読み込み、ヘッダーを削除してからデコード処理した方がよさそう、<body>~</body>を抜き出してからデコードを行うのがよい。

いずれもbyteで帰ってくるためUTF-8等任意のエンコードに変換する。

まるぼ実験場