solr wordpdf solr word
发布日期:2020-10-15摘要:如何使用solr创建富文本索引你可以去看下java开源搜索引擎的源代码 Java开源搜索引擎 Egothor Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,...
如何使用solr创建富文本索引
你可以去看下java开源搜索引擎的源代码 Java开源搜索引擎 Egothor Egothor是一个用Java编写的开源而高效的全文本搜索引擎。
借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。
Nutch Nutch 是一个开源Java 实现的搜索引擎。
它提供了我们运行自己的搜索引擎所需的全部工具。
包括全文搜索和Web爬虫。
Lucene Apache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。
Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。
Oxyus 是一个纯java写的web搜索引擎。
BDDBot BDDBot是一个简单的易于理解和使用的搜索引擎。
它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。
它也支持一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。
它可以方便地集成到你的Web站点中。
Zilverline Zilverline是一个搜索引擎,它通过web方式搜索本地硬盘或intranet上的内容。
Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。
从本地硬盘或intranet中查找到的结果可重新再进行检索。
Zilverline支持多种语言其中包括中文。
XQEngine XQEngine用于XML文档的全文本搜索引擎.利用XQuery做为它的前端查询语言.它能够让你查询XML文档集合通过使用关键字的逻辑组合. 有点类似于Google与其它搜索引擎搜索HTML文档一样.XQEngine只是一个用Java开发的很紧凑的可嵌入的组件. MG4J MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术. JXTA Search JXTA Search是一个分布式的搜索系统.设计用在点对点的网络与网站上. YaCy YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等. Red-Piranha Red-Piranha是一个开源搜索系统,它能够真正"学习"你所要查找的是什么.Red-Piranha可作为你桌面系统 (Windows,Linux与Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎,或与wiki结合作为一个知识/文档管理解决方案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你的应用程序 (Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后台等等. LIUS LIUS是一个基于Jakarta Lucene项目的索引框架。
LIUS为Lucene添加了对许多文件格式的进行索引功能如: Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。
针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术如:Hibernate,JDO,Torque,TopLink进行开发时。
Aperture Aperture这个Java框架能够从各种各样的资料系统(如:文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文档、图片)爬取和搜索其中的全文本内容与元数据。
它当前支持的文件格式如下: Plain text HTML, XHTML XML PDF (Portable Document Format) RTF (Rich Text Format) Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher Microsoft Works OpenOffice 1.x: Writer, Calc, Impress, Draw StarOffice 6.x - 7.x+: Writer, Calc, Impress, Draw OpenDocument (OpenOffice 2.x, StarOffice 8.x) Corel WordPerfect, Quattro, Presentations Emails (.eml files) Apache Solr Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。
文档通过Http利用XML加到一个搜索集合中。
查询该集合也是通过 http收到一个XML/JSON响应来实现。
它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。
Paoding Paoding中文分词是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。
Paoding 填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。
Paoding中文分词追求分词的高效率和用户良好体验。
Office2010版,word转PDF,显示PDFmaker文?
ABBYY FineReader 10 Professional ABBYY FineReader 将纸质文档和 PDF 文档转换成可编辑的电子文本。
介绍:ABBYY是世界文档识别、数据捕获和语言软件技术开发商的领航者.其获奖产品FineReader OCR软件可以把静态纸文件和PDF文件转换成可编辑可管理的电子文档形式,可以大大节省您的时间和精力.理想的OCR (Optical Character Recognition) 、PDF转换应用软件,不但提供高识别率,而且可以精确地保留原始设置和版面布局,可以把静态纸文件和 PDF 文件转换成可管理的电子格式!它可以将通过扫描仪、MFP 或数码相机生成的图像、PDF文件,进行快速转换为可编辑和可搜索的电子格式,支持双PDF格式.
能搜索Excel、Word、PDF的搜索工具电脑中有很多Exce
以下是转贴: 方法一: 利用Adobe公司的Adobe Acrobat Professional进行转化。
注意,一定是Professional版本的,Reader版本没有这个功能。
首先安装Adobe Acrobat Professional(目前最高版本为7.0),系统会自动产生一个虚拟打印机PDFMaker,这下明白了吗?你可以打开要转化的文档,用钢产生的虚拟打印机进行打印就可以了。
不过,对于Word、Excel、PowerPoint等来说,最好还是直接转化。
仔细观察你的Word程序,是不是发现多了一个PDFMaker工具栏呢?点面的第一项,就可以了。
安装了Adobe Acrobat Professional后最大的好处是,利用Adobe Acrobat Professional可以对PDF各式的文档进行编辑,如果你已经安装了该软件,我想你很快会使用的。
而且,Adobe Acrobat Professional还可以将你电脑上的图片转化为PDF文档,在你需要的时候,在用Adobe Acrobat Professional将PDF文档另存为图片。
方法二: 安装pdfFactory Pro,同样也会产生一个虚拟打印机,这样,你就可以把你所能打印的一切材料都转化为PDF格式。
祝您成功,谢谢! 参考资料:
solr支持给word做索引吗
严格来说,lucene负责数据存储,而solr只是一个引擎提供搜索和插入而已,跟数据库的解释器一样,有什么好处呢,比如一个数据库有一个字段存了1000个字,你想从这些字里面搜一个词的时候,普通的数据库只会让你使用like去查询,他会遍历每个字去模糊匹配,效率很低,而且有些是无法查询的,当然除了像一些特殊的数据库带有分词,比如postgresql,那lucene做的事情就是分词,然后去匹配分词的词中是否有你想搜的词就好了,当然了,为了提高这种检索效率和内存节省底层做了很复杂的事情,可以这么简单的认为,全文搜索这件事情上数据库是无法满足的
word生成pdf我有一篇Word文档,想生成照片格式或PDF格
50个字?有些人傻得没法说,你就不要和他们计较了。
天天给他们吃几桶猪食,他们肯定会很满意的,因为量多啊。
WORD转换成PDF很容易的。
如果你是2007或以上的OFFICE版本,直接下载PDF的插件,在另存为里就可以生成PDF,和你的WORD一样漂亮。
如果是2003或以下的版本,且系统是XP或以下的,那么,我的资料里有一个PDFMAKER,你去下载,安装了,就可以在打印的时候选择这个打印机,打印成PDF。
如果你的OFFICE 是2003或以下,但系统又是XP以上,那么,就花钱去购买ADOBE READER的打印PDF的版本了。
PDF文件的内容如何能变成Word文档我有不少PDF文件,全部都
经过本人尝试,发现可以利用Office 2003中的Micosoft Office Document Imaging组件来实现PDF转WORD文档,也就是说利用WORD来完成该任务。
方法如下: 用Adoe Reade打开想转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的名称设置为“Micosoft Office Document Image Wite”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。
注:如果没有找到“Micosoft Office Document Image Wite”项,使用Office 2003安装光盘中的“添加删除组件”更新安装该组件,选中“Office 工具 Micosoft DRAW转换器”。
然后,运行“Micosoft Office Document Imaging”,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Wod”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行OCR。
这可能需要一些时间”,不管它,确认即可。
注:对PDF转DOC的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作。
以上仅在wod2003中可用,其他版本没有Micosoft Office Document Image Wite。
上一篇:数学软件推荐 开源数学软件推荐
-
给我们打电话
7*24小时服务热线:1399999999
全国客服热线:400-0000-000 -
百度地图
福建省漳州市 -
给我们发邮件
E-mail:[email protected]
在线沟通