高精度・超高速テキスト抽出ソフトウェアです。
MS-WordなどWindowsの文書ファイルから高精度かつ超高速にテキスト情報を抽出するSolaris/Linux/FreeBSD用のフィルタ・プログラムです。
実行形式のテキスト抽出ソフトウェアであり、NAMAZU(全文検索エンジン)と組み合わせてイントラネット上での全文検索システムを構築などで、ご利用いただいております。
■ 2007年6月リリースのVer.5では、Microsoft Office 2007で作成されたファイル形式に対応しました。
Microsoft Windows Vistaでは、従来のOSと比較してユニコード(UTF8 / UTF16)においてJISの第三水準・第四水準に準拠する変更が加えられています。
このため、DocCatにおいてもJISの第三水準・第四水準(JIS X0213:2004)に準拠し、かつ、ユニコード(UTF8 / UTF16)の変更に対応すると共に、“ユニコードのサロゲートペア”にも対応しました。これらによりテキストにおいては、JIS / EUC / SJIS / UTF8 / UTF16 の文字コード変換を実現しました。
■ 高速性
高精度で尚かつ圧倒的な高速性を発揮します。全文検索システムにとってテキスト抽出処理時間の高速性はインデクシング時間の短縮化に非常に重要な要素となります。『DocCat V4.0』以降では、抽出処理プロセスの高速化などにより『従来比約2倍以上』となり更なる大幅な高速化を実現いたしました。これにより、大容量の文書データを運用する全文検索システムでのインデックス生成時間の大幅な短縮化や、データ更新頻度の向上など運用面での大幅な効率化が見込まれます。
■ 精度/安定性
全文検索システムにとって非常に重要となる高度な検索精度を実現するには検索対象となる文書ファイルからのテキスト抽出精度が極めて重要となります。本来、ヒットすべき文書がヒットしないようでは、全文検索システム導入効果が意味のないものになってしまいます。当社「DocCat」及び「TFライブラリ」はファイルのサフィックス(.docとか)を一切参照せずファイルの中身で判定し、高精度なテキスト抽出処理をおこないます。
■ ユニコードを中心とした文字体系
マイクロソフトのWindowsに準拠したユニコード体系の文字コードを利用しているので、MS-Office、一太郎とのテキスト文字コードの親和性が高く他のアプリケーションで利用できます。
■ HTML/XML形式出力
出力フォーマットをHTML、XMLにすることが出来ます。
DocCat Ver.5 (高精度・超高速テキスト抽出ソフトウェア)
製品概要
提供形態: パッケージ販売 対応規模: 全ての規模に対応 価格: 483,000円〜 ヘルプデスク電話番号: -- ヘルプデスク受付時間: --- 公式サイト: DocCat Ver.5 (高精度・超高速テキスト抽出ソフトウェア)の詳細
DocCat Ver.5 (高精度・超高速テキスト抽出ソフトウェア)の特徴・主要機能
メーカー情報
会社名:株式会社データ変換研究所 上場先:非上場 郵便番号:〒604-8155 住所:京都府京都市中京区錦小路通室町東入占出山町308ヤマチュウビル1F (横浜・東京に事業所あり) 電話番号:075-254-8780 資本金:2,000万円 設立:1999年9月2日 代表:畑中 豊司
ピックアップキーワード
|
富士通パソコンが59,980円〜! メーカー直販の安心感と富士通ならではの特典がいっぱい! |




