ハイクAPI

三連休は引きこもってハイクAPIなぞをいじってました。
ha_dzu_kiの統計htmlでもってきて解析したら何か面白いかなーと思ったら、データが10月までしかなかったので、これは…と思ってAPIでデータ取得なぞ。
この手のことは初挑戦なので、時間ばっかか買ってしょうがないけど、なかなかこれがおもしろい。

ちょうどちょっと前に集合知プログラミング買ったしPythonの勉強がてら…と思ったんだけど、文字列の変換が全然できない>< 多分ものすごい基本のところ、はてなから得たJSONデータ u'\hoge\hoge'となっているのを日本語にエンコードできなくてあきらめた>< くぅ、という訳でいつも通りのmatlabでいじる。

で、matlabでやってみたらJSONのパースがびっくりするくらい遅い。
Pythonで見た時はJSONのパースなんて時間がかかるようなものではないのだけど、matlabでは数分とか数時間単位で時間がかかって実用性ゼロ。
中身を見てみると一文字ずつ見てるみたい、だけどそれ自体は全然おかしなことはしてない…。
他の言語でのJSONパーサを見てそれを移植すれば…と思ったけど、めんどいなということでハイクJSON用のmatlabパーサを書いた。汎用性…。

という訳で、投稿データを得たんだけど、webデータ解析って面白いなー。量がまず多いのがうれしいし、さらにデータは増え続ける、とかぞくぞくする。面白い世界だなー。

しかし、文字列処理とかこの手の解析するには基本なんだろうけど、そこをさけて通ってるって言うのもなんだか。いやmatlabしか使えないってのがなんだかなのかしら。

というか、休みの日までやってることはラボでやってることと同じだよ…(データマイニング屋)。

とりあえず、もうちょっとしたらg:chick:id:allegroにまとめます。
いまのところha_dzu_kiのfollowingからidページ含む投稿データを得てるんだけど、ha_dzu_kiのfollowingからだと10月以降のデータしかえられない&いつ更新がなくなるか分からない、ってことでなんとかどうしようかなーと迷ってるところ。

あとはデータをどういじろうかなー何しようかなーとわくわくしてるところ。