wafuの技術

技術習得の努力メモです。

Rubyでnokogiriの利用

Rubyでnokogiriの利用方法です。

Nokogiriは、Rubyでよく使われている構文解析ライブラリです。
注意としてUTF-8以外の場合は注意が必要

例1

require 'nokogiri'
require 'pp'
require 'open-uri'

url = 'https://www.aaaaa.com'

htdata = Nokogiri::HTML(URI.open(url))
data = htdata.css("h3 a").each do |elem|
    pp elem[:href]
end

例2

require 'nokogiri'
require 'open-uri'
doc =Nokogiri.HTML(open('http://www.nokogiri.org/"))
doc.css('a'.each do |element|
    puts element[:href]
end

例3 ページに含まれるリンクを抽出

require 'open-uri'
requrie 'nokogiri'

doc = Nokogiri.HTML(URI.open("http://www.example.com/"))
#ページに含まれるリンクを抽出
doc.css('a').each do  |elem|
    puts elem[:href]
end

例4 h2のテキストを抽出する

require 'open-uri'
requrie 'nokogiri'

doc = Nokogiri.HTML(URI.open("http://www.example.com/"))
doc.xpath('//h2').each do |elem|
    puts.elem.text
end


|