入門 自然言語処理

昨年末くらいから萩原君、中山さんと頑張って翻訳していた「入門 自然言語処理」が先週に配本になって、ほっとしています。


入門 自然言語処理

入門 自然言語処理

  • 作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明
  • 出版社/メーカー: オライリージャパン

いろいろな方が書評を書いてくださっていて、ああ良い本を翻訳させてもらったのだな、と幸せに思っています。特に柴田さんの書評はべた褒めでうれしいです。そしてAmazonのコンピュータ・ITカテゴリで2位とかになっててビックリです。

自分は1章と5〜7章と11章を訳し、あと全体的な文章の統一的なこと(自然言語処理の専門用語以外)を担当しました。これで書籍の翻訳は3冊目ですが、翻訳をするとその本を凄く読み込むことになるので、とても勉強になります。翻訳の機会を与えてくれたオライリー・ジャパンの伊藤さん、ありがとうございました。それから、この本は凄くたくさんの方に査読をしてもらっています。小町君、原川さん、中村さん、佐藤君、内海さん、前澤さん、奥野さん、坪坂さん、町永さん、本当にありがとうございました。

ちなみにこの本はNLTKというPythonのライブラリを使って学習を進めるという本ですが、NLTKのサイトはこのライブラリだけでなく、ドキュメントやコーパスを始め様々な情報を公開する大きなプロジェクトになっています。本書11章でも触れられていますが、興味を持たれた方は是非参加してみてはいかがでしょうか。ちなみに本書は、NLTKのサイトで原書が、萩原君書き下ろしの第12章がこちらで公開されているので読むことができるんですが、是非皆様のご家庭にも一冊。

柿の妖怪 タンコロリン

息子が朝5時半頃になると絵本を持って起こしに来るので、このところ毎日絵本を最低限でも数冊(数回)は読む生活をしており、「おおきなかぶ」とかもう暗記しています。ポイントは「ところが」「それでも」「まだまだ」「まだまだまだまだ」「それでも」という「かぶはぬけません」の枕につく言葉で、「それでも」が2回来るのが重要です!
それはともかく、今月号の「こどものとも年少版」は「タンタンコロリン」で、柳田国男や水木先生も紹介して有名(らしい)柿の妖怪タンコロリンのお話でした。
この本、何が素晴らしいって、言葉のリズムが超素晴らしいから何度でも読めるし、読んでて楽しいし、暗記しやすい(まあ暗記しやすくなくてもいいけど)。ちなみにこれまでもリズムが素晴らしくイイ絵本として「しきぶとんさん かけぶとんさん まくらさん」があって我が家ではヘビーローテーションですが、こっちもそうなりそう。
絵本はリズムだなー。
あと、ヘビーローテーションといえば長新太の「チョコレートパン」も1日に何度も読んでます。これは今年3月に出版されてますが、こどものとも年少版として2003年に出てて、そのとき(子供とかいなかったけど)気になって買ったのでした。今頃すげー読むことになるとはな。ふふふ。

NTEmacsで中国語と日本語混在

GB18030で書かれたファイルを見るために、NTEmacs 23をWindowsに入れていたのだが、中国語の簡体字(日本語にない文字)が正しく出ない問題があって、まあしばらく放置してた。でも最近「面倒だからって適当な感じでツールを使っていると実はより面倒なことになって時間を無駄にしてる」ということを肝に銘じることにして、きちんとすることにした。で、ちょっと調べたらできた。
Windows XPを使っているのだが、いろいろ調べたら「微软雅鄢」っていうVistaに付属するフォントを使う設定が書いてあったので、「ここ」からダウンロードしてインストール。で、なんか以下のような設定をこちらなどを参考にさせてもらって.emacsに貼り付ける。

; font setting
    (set-default-font "Consolas 11")

    (set-fontset-font (frame-parameter nil 'font)
                      'japanese-jisx0208
                      '("MS ゴシック" . "unicode-bmp")
                      )

    (set-fontset-font (frame-parameter nil 'font)
                      'katakana-jisx0201
                      '("MS ゴシック" . "unicode-bmp")
                      )

    (set-fontset-font (frame-parameter nil 'font)
                      'chinese-gb2312
                  '("Microsoft Yahei" . "unicode-bmp"))
                      )

快適になった。やっぱめんどくさがってはダメだ。老化を促進する。

かえるくんとけらくん

今日は山王日枝神社例大祭に神輿を担がせてもらいに出かけるも、嫁さんが体調を崩し早々に失礼をして家に帰ってきたので、その後は自宅で過ごし、夕方、嫁さんが買ってきたかえるくんとけらくんという絵本を息子に読んであげた。
この本は、地上に住むかえるくんと地下にすむけらくんの物語だけど、お互いの価値観の違い(っていうかこの場合は種の違いだけど)から来る仲違いと仲直りまでが描かれているとても良い本だった。普段中国とのコミュニケーションで、価値観の圧倒的違いに悩まされることも多いからかもしれないけれど、単純な物語ながら印象深い。
絵を描いているやましたこうへいさんのblogによれば、「この本を作るのには、3年かかりました。」とのことで、絵本を書くのって大変だなあ、と思った。
ところで最近息子は、夕方外を見ながら膝に載せ、絵本を読んでやると、ずっと聞いているようになった。まだこの本もむつかしくてあまり理解できていないかもしれないけれど、本好きに育ってくれたらいいなと思う。

バイドゥではエンジニアを募集しています

僕が働いてるバイドゥでは、一緒に働くエンジニアを募集しています。

うちは検索エンジンを提供する企業なので、検索エンジンを作るのがエンジニアの仕事になります。ただし、弊社の場合、エンジニアのほとんどは中国在住の中国人です。が、検索エンジンは非常に各国の言語と文化に依存するシステムであると我々は信じているので、日本の言語と文化に精通したエンジニアがもっと必要なのです。そして我々は中国向けのサービスとは全く別に、日本向けのサービスを作っています。国ごとにユーザーの動向も、ウェブサイトの種類も特徴も違います。日本人に向けた良いサービスを作るには、日本人の力が必要なのです。

どんな仕事をすることになるかというと、今はまだ日本人のエンジニアが少ないので、バイドゥに日本のエンジニアとして参画すると、いろいろな仕事ができる(というよりもいろいろな仕事をしなくちゃならない)んですが、ざっくり大きく分けると検索バックエンドとフロントエンドに分かれます。検索バックエンドっていうのは、各検索サービスの検索エンジンそのもの、クローラからインデックス構築、検索やランキングを担当する側で、フロントエンドというのは、いわゆるウェブのフロントエンドだけではなく、ウェブサーバ側で検索バックエンドに問い合わせて、ページを構築したりする部分までを担当します。

それぞれに必要なスキルセットが異なるため、基本はすでに持っているスキルセットによってどちらかを主担当で見ることになりますが、実際には完全に担当が分かれているわけではなく、フロントエンドが主担当になっても、時と場合によってバックエンド側の作業を手伝うこともあります(もちろん本人の希望次第ですが)。

現在はフロントエンド/バックエンドどちらも絶賛大募集中ですが、僕自身が現在はモバイル検索で主にフロントエンド(バックエンドも少し)を担当していることや、そこの仕事も人手が足りていない事もあるので、ここでは主にフロントエンドの募集について書きます。

必要な技術はこんな感じかと思います。

  • ウェブ標準とウェブ周りの技術に詳しい
  • JS/PHP/Perl/Python/Rubyなど(全部じゃなくても)書ける
  • C/C++が書ける
  • コンピュータサイエンスの基礎知識がある(あるいは勉強している)
  • 検索エンジンにすげー興味ある
  • 英語で仕事をする事に興味ある
  • 熱い魂を持っている
  • 新しいことを学び続けるのが好きだ
  • 俺は死ぬまでエンジニアだ
  • 趣味はプログラミングだ

個人的には、ウェブ関係の事を仕事や趣味でこれまでがっつりやってきて、検索エンジンに興味が出てきた、という人にはぴったりの職だと思います。なぜかというと、まず純粋に日本向けのウェブサービスを作る職でありこれまでの経験が問われる一方、大規模な実績のある検索のバックエンドを学び、タッチできる立場にあるからです。検索エンジンの中身は検索エンジンを作っている会社に入らないと見ることができません。だからこれはなかなかほかの会社にないメリットだと思います。フロントエンド側から関わり始める場合であっても、バックエンドの仕組みを知ることはとても大事だと我々は考えています。

弊社は日本が初の国際進出であり、日本人エンジニアの数も少ないため、いろいろ自分たちで道を作っていかなければならない苦労がたくさんたくさんあります。ですがその辺も含め、僕自身はエンジニアとしてかなりおもしろい仕事ができていると思っています。けどあまり情報がないのも事実ですから、どんな感じで仕事ができるのか、自分のしたいことができるのか、などもしちょっとでも気になる方がいましたら、何らかの方法で僕に連絡をいただければと思います。良い点、大変な点含め、正直に説明したいと思います(フロントエンド、バックエンドどちらの方も)。熱い思いのある方のご連絡お待ちしてます。

また少しずつでも、仕事の環境や内容なども紹介していきたいと思います。バックエンドや自然言語処理系のエンジニアも大募集中なのですが、それについてはもう一人の日本人エンジニアの萩原がたぶん書きます。

以前仕事内容のインタビューを受けたことがあるので、このあたりも参考にしていただければ幸いです。
http://jibun.atmarkit.co.jp/ljibun01/rensai/leader/39/01.html

なお、中国のエンジニアとのやりとりは英語でやってます。なので技術的な内容を英語で読み書きしたり、レポート書いたり、中国のエンジニアと話したりするくらいの英語力は必要です。とはいっても、英語で技術書が読めるくらいであれば、たぶん後は気合いでがんばれるんじゃないかなって思います。僕自身も最初のころはいいたいことを使えるのがなかなか大変でしたが、今はあんまり苦じゃなくなりました。

中国語は話せなくても全く問題ありませんが、中国出張が結構な頻度であるので、タクシーの運ちゃんに行き先を伝えたり、食堂で注文するくらいの中国語は一瞬で身に付きます。

ハードな仕事だとは思いますが、エンジニアとしてとてもやりがいのある仕事であり、自分は幸せに仕事ができていると思います。というか、入社して2年あまり、幸せに仕事ができる環境を頑張って作ってきたつもりです。なので、一緒に仕事ができる仲間になっていただける方を募集しています。

繰り返しになりますが、少しでも心のどこかで気になった方は、僕まで連絡をいただけるとうれしいです。

Young Me/ Now Me

Young Me/ Now Meっていうサイトを見つけた(via:bookofjoe)。昔の若かった頃の写真と、それとできる限り近い格好をした今の写真を合わせて表示してくれる。ユーザーの投稿も受け付けている。
自分は普通の人の昔の写真とかに萌えるタイプなので、こういうのはたまらない。2枚の写真の間にあるときの流れを想像するだけで楽しくて、つい見入ってしまう。同じ場所で撮影した写真なんかだと、人物だけでなくて家の調度や町並みなんかにも変わるもの、変わらないものがあってとてもおもしろい。

掃除機

うちの息子は掃除機が嫌いです。スイッチをオンにしたら、そりゃあもう大騒ぎなんだけど、ただそこにあるだけでも、相当嫌みたいです。

IMG_9168

しかし、この写真は一ヶ月くらい前のものなのだけれど、一ヶ月でずいぶん大きくなっている気がするなあ。