Anemone Flashcards
基本的なクローラーメソッド
.crawl
階層の制限を指定するオプション
:depth_limit
sleep機能(アクセス間隔を指定)のオプション
:delay
UAを指定するオプション
:user_agent
オプションの指定の仕方としては、.crawlメソッドの第二引数にオプションを___で渡します(第一引数はURL)
Hash
___メソッドを使うことによってURLを取得できます。
.url
____メソッドでは、引数に正規表現を渡すことで対象を絞ることができます。
.on_pages_like
すべてのページに対して、処理を行うメソッド
.on_every_page
ページごとにどのリンク先を巡回するか指定するメソッド
.focus_crawl(&block)
巡回しないURLを正規表現で指定する
.skip_links_like(*patterns)
取得対象のURLを絞り込む、もしくは除外した後で、____メソッドも しくはon_pages_likeメソッドで取得したページに対しての処理を記述します。
on_every_page
Anemone::Pageに関するメソッドで一番多く利用するのは、___です。このメ ソッドは、ページ中に含まれている<a>タグのリンク先をすべて取得し、配列と
して返します。リンク先の取得や巡回先の選択など、さまざまな用途で使います。</a>
links
require 'anemone' #(1) 巡回対象サイトのURLを指定 Anemone\_\_\_\_("http://example.com/") do |anemone| #(2)除外対象ページのURLパターンを指定 anemone.skip_links_like /除外対象のURLパターン/
#(3)巡回対象ページのURLの指定
anemone.focus_crawl do |page|
page.links
end
#(4) 正規表現で一致したページのみ処理 anemone.on_pages_like(/処理対象のURLパターン/) do |page| #ページに対する処理の記述 end
#(5)すべてのページに対しての処理 anemone.on_every_page do |page| #ページに対する処理の記述 end
#(6) ストレージ対する処理 anemone.after_crawl do |page| #ストレージに対する処理の記述 end end
.crawl
require 'anemone' #(1) 巡回対象サイトのURLを指定 Anemone.crawl("http://example.com/") do |anemone| #(2)除外対象ページのURLパターンを指定 anemone.\_\_\_\_ /除外対象のURLパターン/
#(3)巡回対象ページのURLの指定
anemone.focus_crawl do |page|
page.links
end
#(4) 正規表現で一致したページのみ処理 anemone.on_pages_like(/処理対象のURLパターン/) do |page| #ページに対する処理の記述 end
#(5)すべてのページに対しての処理 anemone.on_every_page do |page| #ページに対する処理の記述 end
#(6) ストレージ対する処理 anemone.after_crawl do |page| #ストレージに対する処理の記述 end end
skip_links_like
require 'anemone' #(1) 巡回対象サイトのURLを指定 Anemone.crawl("http://example.com/") do |anemone| #(2)除外対象ページのURLパターンを指定 anemone.skip_links_like /除外対象のURLパターン/
#(3)巡回対象ページのURLの指定
anemone.____ do |page|
page.links
end
#(4) 正規表現で一致したページのみ処理 anemone.on_pages_like(/処理対象のURLパターン/) do |page| #ページに対する処理の記述 end
#(5)すべてのページに対しての処理 anemone.on_every_page do |page| #ページに対する処理の記述 end
#(6) ストレージ対する処理 anemone.after_crawl do |page| #ストレージに対する処理の記述 end end
focus_crawl