PHPのプログラム、後付け

12月に作っていたPHPのプログラム、どれくらい遅いのか確認。

作ったのは、FindTravel のHTMLページから記載された情報を抜き出す純粋なテキスト処理のスクリプト。

実効は、Ubuntuのコメンドライン(まあ、DOS窓みたいなもの)で、

php -f ファイル名.php

といった具合に実行して、ログとテキストファイル出力で、データを取り出す。

12月に作成した処理は、1つのページの処理に実は、0.7 秒かかっていた。
実行したパソコンの環境にもよると思うが、思ったより遅い。0.2秒くらいでやっているのかと思っていた。

じゃ、もっと早くできないかとソースをチェック。
ループの処理で、取り込んだ文字列全体から検索していたのを、紹介記事のみに限って実行すれば、早くなるかと思い、修正してみる。
HTMLを解析して情報を取り出す手順の中で、記事の範囲をあらかじめ調べていたので、その変数を使うだけで、簡単に改造できた。
しかし、0.6 に改善しただけ。こんなもの?

ソースを見る限り、文字列処理関数を順番に呼び出しているだけなので、無駄なループは見つからず、後は無理かな、と判断。

この程度では、改善のうちに入らないな。

[後日追加]
ネットを見てたらPHPのメモリーリークの件で、バッチ処理はメモリを解放しない、という記事を見つかました。
昔は、バッチは perl か ruby で書いていたのでですが、最近はさっぱり。PHPは、そこそこ覚えていたし、バッチでも動くし、なんと軽く考えてやってしまった。
1つの処理のみ作成し、シェルで繰り返し実行でもよかった訳だ。