Anemone Flashcards

You may prefer our related Brainscape-certified flashcards:
1
Q

基本的なクローラーメソッド

A

.crawl

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

階層の制限を指定するオプション

A

:depth_limit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

sleep機能(アクセス間隔を指定)のオプション

A

:delay

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

UAを指定するオプション

A

:user_agent

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

オプションの指定の仕方としては、.crawlメソッドの第二引数にオプションを___で渡します(第一引数はURL)

A

Hash

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

___メソッドを使うことによってURLを取得できます。

A

.url

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

____メソッドでは、引数に正規表現を渡すことで対象を絞ることができます。

A

.on_pages_like

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

すべてのページに対して、処理を行うメソッド

A

.on_every_page

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

ページごとにどのリンク先を巡回するか指定するメソッド

A

.focus_crawl(&block)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

巡回しないURLを正規表現で指定する

A

.skip_links_like(*patterns)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

取得対象のURLを絞り込む、もしくは除外した後で、____メソッドも しくはon_pages_likeメソッドで取得したページに対しての処理を記述します。

A

on_every_page

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Anemone::Pageに関するメソッドで一番多く利用するのは、___です。このメ ソッドは、ページ中に含まれている<a>タグのリンク先をすべて取得し、配列と
して返します。リンク先の取得や巡回先の選択など、さまざまな用途で使います。</a>

A

links

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q
require 'anemone'
#(1) 巡回対象サイトのURLを指定
Anemone\_\_\_\_("http://example.com/") do |anemone|
  #(2)除外対象ページのURLパターンを指定
 anemone.skip_links_like /除外対象のURLパターン/

 #(3)巡回対象ページのURLの指定
anemone.focus_crawl do |page|
page.links
end

    #(4) 正規表現で一致したページのみ処理
    anemone.on_pages_like(/処理対象のURLパターン/) do |page|
    #ページに対する処理の記述
end
    #(5)すべてのページに対しての処理
    anemone.on_every_page do |page|
      #ページに対する処理の記述
    end
    #(6) ストレージ対する処理
 anemone.after_crawl do |page|
      #ストレージに対する処理の記述
    end
end
A

.crawl

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q
require 'anemone'
#(1) 巡回対象サイトのURLを指定
Anemone.crawl("http://example.com/") do |anemone|
  #(2)除外対象ページのURLパターンを指定
 anemone.\_\_\_\_ /除外対象のURLパターン/

 #(3)巡回対象ページのURLの指定
anemone.focus_crawl do |page|
page.links
end

    #(4) 正規表現で一致したページのみ処理
    anemone.on_pages_like(/処理対象のURLパターン/) do |page|
    #ページに対する処理の記述
end
    #(5)すべてのページに対しての処理
    anemone.on_every_page do |page|
      #ページに対する処理の記述
    end
    #(6) ストレージ対する処理
 anemone.after_crawl do |page|
      #ストレージに対する処理の記述
    end
end
A

skip_links_like

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q
require 'anemone'
#(1) 巡回対象サイトのURLを指定
Anemone.crawl("http://example.com/") do |anemone|
  #(2)除外対象ページのURLパターンを指定
 anemone.skip_links_like /除外対象のURLパターン/

 #(3)巡回対象ページのURLの指定
anemone.____ do |page|
page.links
end

    #(4) 正規表現で一致したページのみ処理
    anemone.on_pages_like(/処理対象のURLパターン/) do |page|
    #ページに対する処理の記述
end
    #(5)すべてのページに対しての処理
    anemone.on_every_page do |page|
      #ページに対する処理の記述
    end
    #(6) ストレージ対する処理
 anemone.after_crawl do |page|
      #ストレージに対する処理の記述
    end
end
A

focus_crawl

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q
require 'anemone'
#(1) 巡回対象サイトのURLを指定
Anemone.crawl("http://example.com/") do |anemone|
  #(2)除外対象ページのURLパターンを指定
 anemone.skip_links_like /除外対象のURLパターン/

 #(3)巡回対象ページのURLの指定
anemone.focus_crawl do |page|
page.links
end

    #(4) 正規表現で一致したページのみ処理
    anemone.\_\_\_(/処理対象のURLパターン/) do |page|
    #ページに対する処理の記述
end
    #(5)すべてのページに対しての処理
    anemone.on_every_page do |page|
      #ページに対する処理の記述
    end
    #(6) ストレージ対する処理
 anemone.after_crawl do |page|
      #ストレージに対する処理の記述
    end
end
A

on_pages_like

17
Q
require 'anemone'
#(1) 巡回対象サイトのURLを指定
Anemone.crawl("http://example.com/") do |anemone|
  #(2)除外対象ページのURLパターンを指定
 anemone.skip_links_like /除外対象のURLパターン/

 #(3)巡回対象ページのURLの指定
anemone.focus_crawl do |page|
page.links
end

    #(4) 正規表現で一致したページのみ処理
    anemone.on_pages_like(/処理対象のURLパターン/) do |page|
    #ページに対する処理の記述
end
    #(5)すべてのページに対しての処理
    anemone.\_\_\_\_ do |page|
      #ページに対する処理の記述
    end
    #(6) ストレージ対する処理
 anemone.after_crawl do |page|
      #ストレージに対する処理の記述
    end
end
A

on_every_page

18
Q
require 'anemone'
#(1) 巡回対象サイトのURLを指定
Anemone.crawl("http://example.com/") do |anemone|
  #(2)除外対象ページのURLパターンを指定
 anemone.skip_links_like /除外対象のURLパターン/

 #(3)巡回対象ページのURLの指定
anemone.focus_crawl do |page|
page.links
end

    #(4) 正規表現で一致したページのみ処理
    anemone.on_pages_like(/処理対象のURLパターン/) do |page|
    #ページに対する処理の記述
end
    #(5)すべてのページに対しての処理
    anemone.on_every_page do |page|
      #ページに対する処理の記述
    end
    #(6) ストレージ対する処理
 anemone.\_\_\_\_ do |page|
      #ストレージに対する処理の記述
    end
end
A

after_crawl