juce6ox RSS

Google

web juce6ox

Archive

Jul
16th
Wed
permalink
本書は現在注目を集めている「集合知(collective intelligence)」をテーマにした書籍です。機械学習のアルゴリズムと統計を使ってウェブのユーザが生み出した膨大なデータを分析、解釈する方法を、基礎から分かりやすく解説します。本書で紹介するのは「購入・レンタルした商品の情報を利用した推薦システム」、「膨大なデータから類似したアイテムを発見し、クラスタリングする方法」、「数多くの解決策の中から最適なものを探し出す方法」、「オークションの最終価格を予想する方法」、「カップルになりそうなペアを探す方法」、「遺伝的プログラミング」など。del.icio.us、eBayなどが公開しているWeb APIを使用した解説も本書の大きな特徴です。本書のサンプルコードは可読性に優れたPythonを使用していますが、他の言語のプログラマでも理解しやすいようにアルゴリズムを解説しています。日本語版ではYahoo!日本語形態素解析Webサービスを利用した日本語テキスト処理について加筆しました。
permalink
permalink
May
21st
Wed
permalink
その場(座)を取り繕うのが「おざなり(御座なり)」で
どうでもいい(閑)ような扱いをするのが「なおざり(等閑)」
permalink

NY Timesが過去のアーカイブを含めてすべて無料化したわけだが、そのシステム的な移行措置として過去のスキャンしたTIFF画像をPDFに変換する必要があったのだ。TIFFのサイズは合わせて4TBという巨大さ。

これを行うのに次の構成をとったそうだ:PDF変換にiTextを用いる。変換するマシンはAWS上の100インスタンスをHadoopでMapReduce構成をとることで並列化した。これによりすべてのPDF変換(なんと成果物は1.5TB)が、24時間未満の時間で終了したのだ。そして作業をしたのは、一人のプログラマだけである。

permalink
裏にある技術の方向性と、実際に人間が認知する方向性というのが逆になることがあるのは非常に興味深い
Geekなぺーじ : ブログの不思議なところ  閲覧者の同意や予測をともなうアクション介在の有無が関係するのかな。
permalink
しかし、RSSリーダーなどで読んだりしていると、何かを「押し付けられた」と錯覚してしまう事があります。
permalink
Web技術全般は基本的にクライアントプル(client pull)型技術です。 RSSもブログの閲覧も、技術的には全てクライアント側が望んで引っ張っていくものです。 サーバ側は何も「押し付けて」はいません。 単に公開して待っているだけです。
permalink
今後、より情報化が進んだ社会において、僕らは人を主体として安心でき、信頼できる情報交換の場を提供していきます。Googleはまた違う角度からそれを追求するでしょう。もしかしたら、お互い進もうとしている方向性は一緒なのかもしれません。ただ、その主体が違うだけなのです。
permalink
僕らが見据えているのは、あくまで「人」です。