CoreSeek的特性
索引和搜索性能优异;
先进的索引和查询工具 (灵活且功能丰富的文本分析器,查询语言,以及多种不同的排序方式等等);
先进的结果集分析处理 (SELECT 可以使用表达式, WHERE, ORDER BY, GROUP BY 等对全文搜索结果集进行过滤);
实践证实可扩展性支持数十亿文档记录,TB级别的数据,以及每秒数千次查询;
易于集成SQL和XML数据源,并可使用SphinxAPI、SphinxQL或者SphinxSE搜索接口
易于通过分布式搜索进行扩展
高速的索引建立(在当代CPU上,峰值性能可达到10 ~ 15MB/秒);
高性能的搜索 (在1.2G文本,100万条文档上进行搜索,支持高达每秒150~250次查询);
高扩展性 (最大的索引集群超过30亿条文档,最繁忙时刻的查询峰值达到每天5千万次);
提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;
支持分布式搜索功能;
提供文档片段(摘要以及高亮)生成功能;
内建支持SphinxAPI和SphinxQL搜索箭口,也可作为MySQL的存储引擎提供搜索服务;
支持布尔、短语、词语相似度等多种检索模式;
文档支持多个全文检索字段(缺省配置下,最大不超过32个);
文档支持多个额外的属性信息(例如:分组信息,时间戳等);
支持查询停止词;
支持词形学处理;
支持特殊词汇处理;
支持单一字节编码和UTF-8编码;
内建支持英语、俄语、捷克语词干化处理; 对法语,西班牙语,葡萄牙语,意大利语,罗马尼亚语,德国,荷兰,瑞典,挪威,丹麦,芬兰,匈牙利等语言的支持可通过第三方的 libstemmer 库 建立);
原生的MySQL支持(同时支持MyISAM 、InnoDB、NDB、Archive等所有类型的数据表 );
原生的PostgreSQL 支持;
原生的ODBC兼容数据库支持 (MS SQL, Oracle, 等) ;