コケムスシェルター

Python入門

タイトル:ボールパイソン (見て楽しめる爬虫類・両生類フォトガイドシリーズ)

著者:Go!! Suzuki

出版社:誠文堂新光社

発行日:2014-03-19

Pythonで遊ぶ。

Python導入

入門本でも買いに行こうかと思ったけど、雨降ってるのでやめる。
適当に検索したPythonWeb(http://www.pythonweb.jp/)でPython入門。

まず、公式サイト(https://www.python.org/)からPython3.62をダウンロード。
書いたプログラムはコマンドプロンプトで実行する。

コマンドプロンプトって初めて使う。
WIN10ではWindowマークを右クリック→ファイル名を指定して実行(cmd.exe)

◆コマンドプロンプトメモ
デスクトップに移動する→cd desktop
前回コマンド→F3

# coding: UTF-8
# python-3.6.2
print ("Hello world")

↑で「Hello world」が無事表示でき、とりあえず導入完了。
Python2とPython3は互換性がないらしいので、ネット検索の際はPython2の古い情報に注意が必要。

WEBスクレイピング

PythonでWEBスクレイピングするには「urllib」と「Beautiful Soup」というライブラリを使えば良いらしい。
PythonとBeautiful Soupでスクレイピング(http://qiita.com/itkr/items/513318a9b5b92bd56185)

「urllib」は標準で入ってるライブラリ。「Beautiful Soup」は要インストール。
※ライブラリのインストールはコマンドプロンプトに「python pip install beautifulsoup4」と入力するだけでOK。便利。

# coding: UTF-8
# python-3.6.2
# beautifulsoup4 4.6.0

import urllib.request
html = urllib.request.urlopen('http://hytool.org/archives/9932')
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)

# h1,imgをprint
print (soup.find_all("h1"))
print (soup.find_all("img"))

# .txtへ出力(w=上書き/a=追記)
a_string = soup.a.string
f = open('test.txt','w')
f.write(a_string)
f.close()

↑で指定したURLからh1タグとimgタグ情報をスクレイピング。
「find_all()」で得た値は「print()」する分には問題ないが、そのまま「write()」するとエラー。文字列にしないとダメっぽい。

スクレイピングするならPythonが簡単♪みたいなのを聞いたのでちょっと触ってみたけどPHPで処理するのと別に変わらん……慣れたPHPでやりゃあいいかなって気になる。

とりあえずここまで。気が向いたらまた触るかも。

コメントを残す

メールアドレスが公開されることはありません。