全文検索ソフトウェアシステム

the full-text retrival software


収集した文字データから目的の用語を探すためのソフトウェアの総称。インターネット時代により、コンテンツの量が肥大化し、どこに目的の情報があるのかさっぱり判らないことが多く、ほとほと参ってしまうことが多い。また、MLなどのバックナンバーが蓄積され、自分のデータベースが巨大化したときなどに検索CGIがほしくなる。最近ではこういう事態にいち早く対応するために、一部の企業のサイトのトップページに検索サービスを付けてこれを回避するようになってきた。この検索システムは、まずローカルディスク上のデータやイントラネット内部をロボットを走らせて収集したデータ、インターネット全体にロボットを走らせてて収集した検索データを文書フィルタを通した上でインデクサでインデクシングし、検索クライアントからの検索要求(query)に対して検索エンジン部分が用意しておいたインデックスを用いて検索し、検索結果を提供する。多くの全文検索ソフトウェアシステムから、ユーザーの要求にフィットするソフトの選択には、インデックスの質によって異なってくる。中にはインデックスの必要がないソフトも登場しているが、このような検索エンジンは、検索スピードが落ちるか、もしくは再現率が下がる。また、あらゆる文字列で検索が可能である検索エンジンは、適合率が下がっていることも同時に考慮しなければならない。形態素解析を活用した検索エンジンは、インデクシングにかなり時間がかかり、インデックスも巨大化する。しかし、目的によって、そのインデックスを選択すべきである。例えば、固定型のデータベースか毎日情報が更新されるデータベースかでも異なってくる。より詳しい情報はUNIXシステム上で動作して、日本語の通る全文検索エンジン・ソフトウェアのリストがあるURL(http://www.kusastro.kyoto-u.ac.jp/%7Ebaba/wais/other-system.html)で知ることができる。またこのサイトにはや商用だけでなく、多くのフリーソフトウェアの全文検索エンジンもリスト化されている。富士通は高速並列サーバー「AP3000シリーズ」に、富士通研究所が開発した技術を並列化した超高速の並列検索エンジンを搭載し、インターネットやイントラネット上で数100Gバイトから数Tバイトにも及ぶ大規模なウェブサイトの文書量でも高速に全文検索ができる「並列検索エンジン構築支援サービス」を1998年4月に発売した。また必要に応じて、本体やディスクを追加できるため、文書量の増加に柔軟に対応できる。富士通は、1995年より販売されている全文検索ソフトウェア「フルサーチ瞬索」を、イントラネットで利用できるよう再開発し、カスタマイズによりインターネットにも対応できるようにして、WindowsNTで動作するイントラネット対応の全文検索ソフトウェア「フルサーチ瞬索(しゅんさく) for Web」の販売を2001年3月8日から開始した。瞬索for Webは、ACアルゴリズムと呼ばれる検索手法を日本語処理向けに改良した特殊な検索エンジンを利用することで、2000万文字の中から指定した文字を約1秒で検出することが可能となっている。ただし、クライアントはInternetExplorer 4.01以降で、同時接続クライアント数は20台、データ量は最大32万件に制限されている。詳細情報はURL(http://www.fujitsu.co.jp/jp/news/2001/03/8-1.html)または、URL(http://www.fujitsu.co.jp/jp/soft/product/indust/shunsaku/)で知ることができる。Amazon.comは2003年10月23日から、買い物客が120,000種類の本から3300万ページの本を全文検索し、キーワードを含むページを閲覧できる「Search Inside the Book」機能を開始した。詳細情報はURL(http://www.amazon.com/exec/obidos/subst/home/home.html/104-8432872-9787932)で知ることができる。


インデクシング
サーチ・エンジン
サーチ・エンジン/2001年1月1日-2003年12月31日
サーチ・エンジン/2004年1月1日-2006年12月31日
サーチ・エンジン/2007年1月1日-2009年12月31日
どっちがいいカンジ
サーチ・エンジンのURL
情報検索
インターネット・ロボット
エージェント指向
納豆ビュー
オートパイロット・ツール
分身ロボット
移動エージェント
サーチャー
キーワード連鎖検索
オンライン地図検索サービス
移動エージェント
マルチメディア・エージェント
フィルター
Letizia
オンライン・エージェント
パセオ
インターネット・ロボット
SNMP
オブジェクト指向
心の社会
ナレッジ・ナビゲータ
インターネット上にある個人情報
Webサーチャー
自然語検索
サーチ・エージェント
ジャストシステム・コンセプトベース
Refine機能
こどもサーチエンジン ひらけゴマ
検索の鉄人
Lycos Site Spider
Spider
VoiceSync
SEEKBOX
ANA遊遊ナビ
Jasmine
CD-ROM検索エンジン
E.S.P.(Extra Search Precision)
シマンテック・モバイル・アップデート
いまどこマピオン
MetaDoor
ROBOTRONIKA
サイトクルーズ/パーソナル
the Robot World Cup
フレッシュアイ
極大単語索引方式
AltaVista Discovery
形態素解析
SRL(Survival Research Laboratories)
バボット
知的車椅子
完全自律搬送車
進化するエビ型歩行ロボット
MiMIC
Khepera
EMRoS
早稲田大学ヒューマノイドプロジェクト
KQML
ロボット関連のURL
インターネット・ロボット関連のURL
SYNWORLD
DDCD
日常活動型ロボットコンソーシアム
取扱店サーチシステム
HWSW
Contact Assist
Palm Pilot Robot
Mobeet
スクリーン・スクラーピング
Robo-roach
レスキューロボットコンテスト
OTG(Object Technology Group)
RWC(Robotic Work Crew)
7回の愚かな調査の失敗
namazu project
GETA(Generic Engine for Transposable Association)
NueROMA
Search Inside the Book
KW Map
Spotlight
マルチメ ディア探索エンジン
SEMPO Japan
トピックマップ
セマンティックWeb
Amazon Upgrade
Amazon Pages
昆虫サイボーグ
Ludia
Robot Hall of Fame