2017年9月13日水曜日

大公開、ojizoの作り方

ojizo(旧Nyafoo!)はオープンソースのFessを使って構築しています。
ですので、ojizoというかFessベースのWeb検索エンジンは、誰でも作れるといえば作れるサービスです。

ひとつだけ面倒臭いというか、莫迦莫迦しい所がホワイトリストを使っていることでしょう。

隠すほどの事ではないので種明かしすると、ojizoはURL正規表現の塊です。
それ以外は、全部Fessです。
5,000サイト以上を正規表現で記述しています。
ひょっとしたら1万サイトを超えているかもしれません。
僕にも正確な数がわからない状態です。

1万サイトを目視して、URLリストを作り、正規表現で巡回先を記述したのか?
正解。
技術もへったくれもありません。

莫迦だと思った人は正しいです。
そう、ojizoは莫迦莫迦しい作業を積み重ねてできています。

例えば、新聞社がありますよね。
日本に100社ぐらいあるのですが、これをひとつひとつ目視で確認して、正規表現で記述してFessに登録します。

上場企業は2,000社近くありますが、これもひとつひとつ目視します。

都道府県庁、自治体、観光協会、農協、その他。
ひとつひとつ調べ、テキストエディタにURLを保存して、正規表現で巡回先を記述して、Fessに登録します。

登録して、クローラーを巡回させて、うまく行かないところは手直しして。
これを数千回繰り返します。

Yahoo! JAPANですら、人手によるサイト登録はあきらめてしまいました。
祖業であるディレクトリを終了するそうです。

巨人から見たら、ディレクトリを作るのは割に合わないのでしょう。
でも、巨人があきらめたから生まれる市場もあると思うんですよね。
なので、自分が嫌になるまでojizoのリストを作り続けようと思います。