Pythonで遊ぶ。
Python導入
入門本でも買いに行こうかと思ったけど、雨降ってるのでやめる。
適当に検索したPythonWeb(http://www.pythonweb.jp/)でPython入門。
まず、公式サイト(https://www.python.org/)からPython3.62をダウンロード。
書いたプログラムはコマンドプロンプトで実行する。
コマンドプロンプトって初めて使う。
WIN10ではWindowマークを右クリック→ファイル名を指定して実行(cmd.exe)
◆コマンドプロンプトメモ
デスクトップに移動する→cd desktop
前回コマンド→F3
# coding: UTF-8
# python-3.6.2
print ("Hello world")
↑で「Hello world」が無事表示でき、とりあえず導入完了。
Python2とPython3は互換性がないらしいので、ネット検索の際はPython2の古い情報に注意が必要。
WEBスクレイピング
PythonでWEBスクレイピングするには「urllib」と「Beautiful Soup」というライブラリを使えば良いらしい。
PythonとBeautiful Soupでスクレイピング(http://qiita.com/itkr/items/513318a9b5b92bd56185)
「urllib」は標準で入ってるライブラリ。「Beautiful Soup」は要インストール。
※ライブラリのインストールはコマンドプロンプトに「python pip install beautifulsoup4」と入力するだけでOK。便利。
# coding: UTF-8
# python-3.6.2
# beautifulsoup4 4.6.0
import urllib.request
html = urllib.request.urlopen('https://hytool.org/archives/9932')
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
# h1,imgをprint
print (soup.find_all("h1"))
print (soup.find_all("img"))
# .txtへ出力(w=上書き/a=追記)
a_string = soup.a.string
f = open('test.txt','w')
f.write(a_string)
f.close()
↑で指定したURLからh1タグとimgタグ情報をスクレイピング。
「find_all()」で得た値は「print()」する分には問題ないが、そのまま「write()」するとエラー。文字列にしないとダメっぽい。
スクレイピングするならPythonが簡単♪みたいなのを聞いたのでちょっと触ってみたけどPHPで処理するのと別に変わらん……慣れたPHPでやりゃあいいかなって気になる。
とりあえずここまで。気が向いたらまた触るかも。