Rubyでnokogiriの利用方法です。
Nokogiriは、Rubyでよく使われている構文解析ライブラリです。
注意としてUTF-8以外の場合は注意が必要
例1
require 'nokogiri' require 'pp' require 'open-uri' url = 'https://www.aaaaa.com' htdata = Nokogiri::HTML(URI.open(url)) data = htdata.css("h3 a").each do |elem| pp elem[:href] end
例2
require 'nokogiri' require 'open-uri' doc =Nokogiri.HTML(open('http://www.nokogiri.org/")) doc.css('a'.each do |element| puts element[:href] end
例3 ページに含まれるリンクを抽出
require 'open-uri' requrie 'nokogiri' doc = Nokogiri.HTML(URI.open("http://www.example.com/")) #ページに含まれるリンクを抽出 doc.css('a').each do |elem| puts elem[:href] end
例4 h2のテキストを抽出する
require 'open-uri' requrie 'nokogiri' doc = Nokogiri.HTML(URI.open("http://www.example.com/")) doc.xpath('//h2').each do |elem| puts.elem.text end
|