EUC→UTF8変換
EUCのHTMLを読み込んでUTF8で正規表現でマッチングする。
以下のスクリプトはUTF8で保存すること。
use strict; use utf8; use Encode qw(from_to); my $html; my $fn = "texteuc.htm"; #このファイルはEUC open TARGET, $fn or die "Can't open $fn: $!"; while () { $html=$html.$_; } from_to($html,"euc-jp","utf8"); #UTF8に変換 utf8::decode($html); #UTF8の文字列としてハンドリングできるようUTF8フラ グ立てる if ($html =~ /適当な文字列<small>(.*?)<\/small>/s) { #最短でマッチさせるには?をつける print "$1 \n"; #マッチ }