[ruby]文字コード「iso-8859-1」をUTF8にうまく変換できないときの対応方法

2026年7月
日	月	火	水	木	金	土
	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

rubyのスクレイピングライブラリのNOKOGIRIを使って、あるページを解析したときに、うまくUTF-8への変換ができずにハマってしまったので、対応法を記録として残しておきます。

結論。iso-8859-1は、日本語の文字コードではありません

よって、日本語への文字コード変換をしようとしても失敗します
rubyでファイルからcharset(文字セット）を自動取得した場合に、Windows文字コード（CP932)のページを誤って「ISO８８５９−１」と解釈することがあるようです
その為、以下のような一文(6行目）を入れて、読み替えを行いましょう。

    charset=nil
   html=open(url) do |f|
      charset = f.charset
      f.read
   end
   charset="CP932" if charset=="iso-8859-1"
   doc = Nokogiri::HTML.parse(html,nil,charset)

NOKOGIRIでテキストが取得できない

言いたいことは、概ね↑で言い切ったのですが、一応経緯も残しておきます

演劇感想文リンクの更新作業の効率化の為に、スクレイピングに挑戦しようとしています。このサイトの特徴は、他の劇評サイトへのリンクであるため、対象ページのリンク（a href)の一覧をまずは取得しようと考えました

以下のサイトを元にNOKOGIRIのスクリプトを書きました

酒と涙とRubyとRailsと

Nokogiriを使ったRubyスクレイピング [初心者向けチュートリアル]

http://morizyun.github.io/blog/ruby-nokogiri-scraping-tutorial/index.html

プログラム初心者な方向けに始めたRailsチュートリアルシリーズです。今回はRubyでスクレイピングをしたいという人向けに『Nokogiri』というライブラリを使ったスクレイピングのチュートリアルを作ってみました！ (05-02 08:10) 補足： Windowsではじめての人向けの記事を追加

# encoding:UTF-8
require "open-uri"
require "nokogiri"
class HrefList
  attr_reader :links
  def initialize()
    @links=Array.new()
  end
  def add_links(url)
    charset=nil
    html=open(url) do |f|
      charset = f.charset
      f.read
    end
    doc = Nokogiri::HTML.parse(html,nil,charset)
    lis=doc.css('a')
    lis.each do |li|
      next unless li[:href]
      link = Link.new()
      link.url=li[:href]
      link.text=li.text
      @links << link
    end
  end
end
class Link
  attr_accessor :url , :text
end

クラスHreflistを生成し、add_linkメソッドにスクレイピングしたいURLを渡せば、Linkの配列が取得できるようにしようと考えたクラスです

ところが、UTF-8のページ（演劇感想文リンク）ならば、うまくいくのですが、別のサイトだと何故かまったく日本語が取得できません

サイトをみたところ、UTF-8の文字コードで作成されたページではないようです

しかし、rubyの機能でcharset=f.charsetで自動的に取得されているはず

rubyのencodeの仕様などを見て色々試したのですが、文字化けした文字が表示されるばかり

そもそも、charsetはなんなんだと思いputs文をいれたところ、iso-8859-1という見慣れないキャラクターセットの名称が表示されたのですが、あまり気にせず、encodingなどの仕様を見ながら色々試してました

ネットにもめぼしい情報がなくさんざん悩んだあげく、ISO-8859-1という文字セットを調べました