勉強がてらnokogiriを使ってwebスクレイピングをやってみたので、頭の整理を兼ねて色々とメモしてみたφ(..)

Webスクレイピングとは

ウェブスクレイピング（英: Web scraping）とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。

ようするにWebページにアクセスして、HTMLを取得すること = Webスクレイピング webスクレイピングによって、Web上に掲載された特定の情報を素早く・扱いやすい形で取得することが出来ます。

例) 特定のジャンルのニュース記事のタイトル一覧を作成する等

nokogiriとは

Rubyを使ったWebスクレイピングでよく使われるgemがnokogiriです。
nokogiriを使うことによって簡単にhtmlを解析し、必要な情報を抽出することが出来ます。

github.com

morizyun.github.io

Webスクレイピングをやってみる

nokogiriを使ったwebスクレイピングの練習として、yahoo newsにアクセスしタイトルを取得してみたいと思います。

# ==================
# gemの読み込み
# ==================
require 'nokogiri'
require 'open-uri'

# ==================
# 定数宣言
# ==================
URL = "https://news.yahoo.co.jp/"

# ==================
# スクレイピング処理
# ==================

# 変数宣言
charset = nil
# webページにアクセスし、HTMLを取得
html = open(URL) do |f|
  charset = f.charset # 文字種別を取得
  f.read              # htmlを読み込んで変数htmlに渡す
end

# nokogiriで扱えるように取得したHTMLを変換
doc = Nokogiri::HTML.parse(html, nil, charset)

# 取得したHTMLのタイトルを表示
p doc.title