タイトル:ボールパイソン (見て楽しめる爬虫類・両生類フォトガイドシリーズ)
著者:Go!! Suzuki 出版社:誠文堂新光社 発行日:2014-03-19 |
Pythonで遊ぶ。
Python導入
入門本でも買いに行こうかと思ったけど、雨降ってるのでやめる。
適当に検索したPythonWeb(http://www.pythonweb.jp/)でPython入門。
まず、公式サイト(https://www.python.org/)からPython3.62をダウンロード。
書いたプログラムはコマンドプロンプトで実行する。
コマンドプロンプトって初めて使う。
WIN10ではWindowマークを右クリック→ファイル名を指定して実行(cmd.exe)
◆コマンドプロンプトメモ
デスクトップに移動する→cd desktop
前回コマンド→F3
# coding: UTF-8 # python-3.6.2 print ("Hello world")
↑で「Hello world」が無事表示でき、とりあえず導入完了。
Python2とPython3は互換性がないらしいので、ネット検索の際はPython2の古い情報に注意が必要。
WEBスクレイピング
PythonでWEBスクレイピングするには「urllib」と「Beautiful Soup」というライブラリを使えば良いらしい。
PythonとBeautiful Soupでスクレイピング(http://qiita.com/itkr/items/513318a9b5b92bd56185)
「urllib」は標準で入ってるライブラリ。「Beautiful Soup」は要インストール。
※ライブラリのインストールはコマンドプロンプトに「python pip install beautifulsoup4」と入力するだけでOK。便利。
# coding: UTF-8 # python-3.6.2 # beautifulsoup4 4.6.0 import urllib.request html = urllib.request.urlopen('https://hytool.org/archives/9932') from bs4 import BeautifulSoup soup = BeautifulSoup(html) # h1,imgをprint print (soup.find_all("h1")) print (soup.find_all("img")) # .txtへ出力(w=上書き/a=追記) a_string = soup.a.string f = open('test.txt','w') f.write(a_string) f.close()
↑で指定したURLからh1タグとimgタグ情報をスクレイピング。
「find_all()」で得た値は「print()」する分には問題ないが、そのまま「write()」するとエラー。文字列にしないとダメっぽい。
スクレイピングするならPythonが簡単♪みたいなのを聞いたのでちょっと触ってみたけどPHPで処理するのと別に変わらん……慣れたPHPでやりゃあいいかなって気になる。
とりあえずここまで。気が向いたらまた触るかも。