您的当前位置：首页正文

solr5.5.4 增量索引自动同步mysql数据

2023-11-11 来源：帮我找美食网

前言：之前测试了solr好几个版本都没有成功，solr比较好下载的版本5.0，5.5，6.6。solr6.6结合tomcat8做自动同步mysql数据一直报错，然后果断测试5.5版本的，成功了。

环境：windows10， jdk1.8，tomcat8，solr5.5.4

实现功能：通过前端输入关键字查询，同时查询多表多字段。当数据库mysql添加或者更新数据的时候，数据自动更新到solr引擎中。

正文：

第一步：下载solr

1.solr5.5下载：http://apache.fayea.com/lucene/solr/，选择solr5.5.5版下载，我已经安装好了，目录如下

技术分享

解压两个刚刚下载的两个新压缩文件。solrhome是我后来加上去的。

第二部：将solr中的文件复制到tomcat中

1.E:solrestsolr-5.5.4serversolr-webappwebapp，复制webapp文件夹到tomcat的webapps下面，并将webapp改名我solr。

2.在次目录E:solrestapache-tomcat-8.5.20webappssolrWEB-INF下面添加classes。然后复制E:solrestsolr-5.5.4serverlibext次目录下面的所有jar包到E:solrestapache-tomcat-8.5.20webappssolrWEB-INF的lib下面，同时复制E:solrestsolr-5.5.4serveresources目录下面的log4j.properties到E:solrestapache-tomcat-8.5.20webappssolrWEB-INFclasses文件下

第三步：复制文件E:solrestsolr-5.5.4serversolr，放到E:solrest下面和tomcat在同一层，改名位solrhome

第四步：设置solrhomg的路径：修改目录E:solrestapache-tomcat-8.5.20webappssolrWEB-INF下的web.xml文件，之前下面这段代码是被注释了的。技术分享

摘抄别人的：http://blog.csdn.net/moxuelang/article/details/51417925

注：此处 ../../solr/ 为什么会使这个值呢，为什么要如此配置，这个是因为solr默认的env-entry-value 的起始位置是tomcat的bin文件夹下，因此../../solr/ 这个的意思就是，bin文件夹下的上一层目录，再上一层目录的solr文件夹下，也就是solr_server下的solr文件夹下，就是solr的solrhome的位置，网上其他人都将solrhome（此处的solr）文件夹直接放在tomcat的bin目录下，我觉得不是很好。此处这样配置的另一个好处就是，当我们部署应用程序时，只要将solr_server拷贝到目标服务器上，启动tomcat，即可，不需要再修改任何配置，按常规配置，指定到具体的盘符的话，从开发移植到部署服务器上去时，就需要修改solrhome的位置了。

第五步：添加core，也就是你数据索引到solr中的类似出库的东西

在solrhome下面添加一个文件夹core1，复制文件夹E:solrestsolr-5.5.4serversolrconfigsetsasic_configsconf，放到刚刚添加的core1中，然后启动tomcat，访问http://localhost:8080/solr/admin.html#

点击core admin，点击add core：技术分享

solr5.5.4 增量索引自动同步mysql数据

标签：win 输入关键字 csdn 5.0 tomcat bin config 点击程序

小编还为您整理了以下内容，可能对您也有帮助：

solr 什么是全量索引和增量索引

增量索引index定义配置如下
#增量索引 index定义
index delta:mysql{
source = delta
path = /usr/local/coreseek/var/data/delta/
charset_dictpath = /usr/local/mmseg3/etc/
charset_type = zh_cn.utf-8
}

solr 什么是全量索引和增量索引

如何使用solr配置来建立多张表的索引

以下资料整理自网络,以及查看solr帮助文档。主要分为两部分，第一部分是对《db-data-config.xml》的配置内容的讲解（属于高级内容），第二部分是DataImportHandler（属于基础）,第三部分是对db-data-config.xml的进阶

　　第一部分是对《db-data-config.xml》

　　query是获取全部数据的SQL
deltaImportQuery是获取增量数据时使用的SQL
deltaQuery是获取pk的SQL
parentDeltaQuery是获取父Entity的pk的SQL

　　

　　Full
Import工作原理：
执行本Entity的Query，获取所有数据；
针对每个行数据Row，获取pk，组装子Entity的Query；
执行子Entity的Query，获取子Entity的数据。

　　

　　Delta
Import工作原理：
查找子Entity，直到没有为止；
执行Entity的deltaQuery，获取变化数据的pk；
合并子Entity
parentDeltaQuery得到的pk；
针对每一个pk
Row，组装父Entity的parentDeltaQuery；
执行parentDeltaQuery，获取父Entity的pk；
执行deltaImportQuery，获取自身的数据；
如果没有deltaImportQuery，就组装Query

　　

　　*：
子Entity的query必须引用父Entity的pk
子Entity的parentDeltaQuery必须引用自己的pk
子Entity的parentDeltaQuery必须返回父Entity的pk
deltaImportQuery引用的必须是自己的pk

　　

　　第二部分是DataImportHandler

　　关于DataImportHandler的具体使用方法，详见下文，如果你英文超级好，那看这个链接吧：http://wiki.apache.org/solr/DataImportHandler

　　

　　大多数的应用程序将数据存储在关系数据库、xml文件中。对这样的数据进行搜索是很常见的应用。所谓的DataImportHandler提供一种可配置的方式向solr导入数据，可以一次全部导入，也可以增量导入。

　　概览

　　目标

　　能够读取关系数据库中的数据。

　　通过可配置的方式，能够将数据库中多列、多表的数据生成solr文档

　　能够通过solr文档更新solr

　　提供通过配置文件就能够导入所有数据的能力

　　能够发现并处理
由insert、update带来的变化（我们假定在表中有一个叫做“last-modified的列”）

　　能够配置 “完全导入”和“增量导入”的时间

　　让读取xml文件，并建立索引成为可配置。

　　能够将
其他的数据源（例如：ftp，scp，etc）或者其他格式的文档（Json，csv）以插件的形式集成到项目中。

　　设计思路

　　这个Handler首先要在solrconfig.xml文件中配置下，如下所示。

　　
　　<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">/home/username/data-config.xml</str>
</lst>
</requestHandler>

　　

　　从它的名字上，我们或许也可以猜到，
DataImportHandler正是requestHandler的实现。我们一共需要在两个地方配置文件中进行一些配置。

　　solrconfig.xml 。
data-config.xml必须在这个文件中配置，datasource也可以。不过，一般将datasource放在data-config.xml文件中。

　　data-config.xml

　　

　　怎样获取数据？（查询语句、url等等）

　　要读什么样的数据（关系数据库中的列、或者xml的域）

　　做什么样的处理（修改/添加/删除）

　　跟关系数据库一起使用

　　下面几个步骤是必要的.

　　定义一个data-config.xml 文件，并这个它的路径配置到solrconfig.xml
中关于DataImportHandler的配置中。

　　给出Connection的信息（假设你选择在solrconfig中配置datasource）

　　打开DataImportHandler页面去验证，是否该配置的都配置好了。http://localhost:8983/solr/dataimport

　　使用“完全导入”命令将数据从数据库中导出，并提交给solr建立索引

　　使用“增量导入”命令对数据库发生的变化的数据导出，并提交给solr建立索引。

　　配置数据源

　　将dataSource标签直接添加到dataConfig下面，即成为dataConfig的子元素.

　　
　　<dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/dbname" user="db_username" password="db_password"/>

　　

　　数据源也可以配置在solrconfig.xml中

　　属性type 指定了实现的类型。它是可选的。默认的实现是JdbcDataSource。

　　属性 name 是datasources的名字，当有多个datasources时，可以使用name属性加以区分

　　其他的属性都是随意的，根据你使用的DataSource实现而定。

　　当然你也可以实现自己的DataSource。

　　多数据源

　　一个配置文件可以配置多个数据源。增加一个dataSource元素就可以增加一个数据源了。name属性可以区分不同的数据源。如果配置了多于一个的数据源，那么要注意将name配置成唯一的。

　　例如：

　　<dataSource type="JdbcDataSource" name="ds-1" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://db1-host/dbname" user="db_username" password="db_password"/>

<dataSource type="JdbcDataSource" name="ds-2" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://db2-host/dbname" user="db_username" password="db_password"/>

然后这样使用 ..

<entity name="one" dataSource="ds-1" ...>

..

</entity>

<entity name="two" dataSource="ds-2" ...>

..

</entity>

..

　　配置JdbcDataSource

JdbcDataSource中的属性有

　　driver(必需的)：jdbc驱动名称

　　url（必需的）：jdbc链接

　　user：用户名

　　password：密码

　　批量大小：jdbc链接中的批量大小

　　任何其他的在JdbcDataSource中配置的属性，都会被直接传给jdbc
driver

　　配置data-config.xml

　　solr
document是schema，它的域上的值可能来自于多个表.

　　data-config.xml的根元素是document。一个document元素代表了一种文档。一个document元素中包含了一个或者多个root实体。一个root实体包含着一些子实体，这些子实体能够包含其他的实体。实体就是，关系数据库上的表或者视图。每个实体都能够包含多个域，每个域对应着数据库返回结果中的一列。域的名字跟列的名字默认是一样的。如果一个列的名字跟solr
field的名字不一样，那么属性name就应该要给出。其他的需要的属性在solrschema.xml文件中配置。

　　为了能够从数据库中取得想要的数据，我们的设计支持标准sql规范。这使得用户能够使用他任何想要的sql语句。root实体是一个中心表，使用它的列可以把表连接在一起。

　　dataconfig的结构

　　dataconfig的结构不是一成不变的,entity和field元素中的属性是随意的，这主要取决于processor和transformer。

　　以下是entity的默认属性

　　name(必需的):name是唯一的，用以标识entity

　　processor:只有当datasource不是RDBMS时才是必需的。默认值是SqlEntityProcessor

　　transformer:转换器将会被应用到这个entity上，详情请浏览transformer部分。

　　pk：entity的主键，它是可选的，但使用“增量导入”的时候是必需。它跟schema.xml中定义的uniqueKey没有必然的联系，但它们可以相同。

　　rootEntity：默认情况下，document元素下就是根实体了，如果没有根实体的话，直接在实体下面的实体将会被看做跟实体。对于根实体对应的数据库中返回的数据的每一行，solr都将生成一个document。

　　一下是SqlEntityProcessor的属性

　　query (required) :sql语句

　　deltaQuery : 只在“增量导入”中使用

　　parentDeltaQuery : 只在“增量导入”中使用

　　deletedPkQuery : 只在“增量导入”中使用

　　deltaImportQuery : (只在“增量导入”中使用) .
如果这个存在，那么它将会在“增量导入”中导入phase时代替query产生作用。这里有一个命名空间的用法${dataimporter.delta.}详情请看solr1.4.

如何使用solr配置来建立多张表的索引

solr已经导入mysql数据库索引了,但是查不到怎么回事

假设MySQL数据库有关数据库、表、字段...
1

使用DataImportHandler导入并索引数据...
2

通过data-config.xml完成Solr与MySQL数...
3

修改schema.xml文件，因为这个文件是我...
4

开启tomcat进入Solr的Admin UI界面，在...

solr已经导入mysql数据库索引了,但是查不到怎么回事

solr 增量索引怎么没执行

一、增量索引之删除

昨天已经说过，增量索引其实就是SOLR对上次做过（增量或者全量）索引之后到这次做索引之间的这段时间数据库发生变化的数据进行创建索引，昨天我们说了增加一条数据或者修改一条数据之后创建增量索引，现在来说删除数据的增量索引。

其实这里所说的删除是假删除，什么意思呢？就是并不是说在数据库中把某些数据给彻底删除掉，而是说给你不想创建索引的数据一个标识符，然后告诉

solr，有这个标识符的数据你就不要给我创建索引了，我不需要，然后solr创建索引的时候就会忽视这些有特殊标识符的数据，大概的原理就是这样的，那

么怎么实现的呢？下面来看：

1.1数据库新增字段

昨天做新增的增量索引的时候需要在数据库添加一个字段，今天做删除的，还是需要一个字段，然后用这个字段来标示数据是否需要创建索引，字段如下所示：

字段名称大家可以自己看着定，类型给个int就行，至于长度也随意，我的是0表示需要创建索引的数据，1表示不需要创建索引的数据，也就是我所说的假删除的数据。

1.2修改配置文件

同样，需要将该字段配置到data-config.xml和schema.xml文件中，如下所示：

data-config.xml

注意圈起来的三个地方，首先肯定是需要把isdelete字段变成一个file标签，其次，需要query语句需要添加上where条件，查询出数据库中所有的需要创建索引的数据，然后再添加一个deletedPKQuery语

句，这条语句和deltaQuery与deltaImportQuery语句一样，都是只有在做增量索引的时候起作用，deletedPKQuery是查

询出所有假删除的数据的ID，然后由deltaImportQuery查询出这些ID对应的记录的全部数据，然后在已经创建的索引中删除掉这一部分索引。

schema.xml

schema.xml文件中倒是没有什么大的变化，只需要把isdelete字段添加进来即可：

1.3查看效果

按照上面的配置即可，然后我们来看一下效果，首先是数据库：

还是昨天的17条数据。

SOLR已经创建好的索引：

索引也是17条，和数据库的数据是对应的，下面我把数据库中的其中两条数据的isdelet字段修改成1，然后创建一个增量索引，方法和昨天一样，我就不再截图了，首先还是修改数据库：

把发哥跟梁朝伟的isdelete修改成1，执行增量索引后的结果如下：

可以看到此时的索引少了2条，那到底少的是不是我变成1的两个人呢？我们可以查找一下，找不到的话就对了：

可以看到此时查找周润发，但是只找到了星爷，这个原因还是分词器的问题，昨天已经说过了，下面再查一下梁朝伟：

可以看到查找结果是空的。

通过上面的两条查询，说明我们对假删除所做的增量索引时成功的。

二、定时增量索引

如果每次数据库变化两条数据我们就得到http://localhost:8080/solr这里做一次增量索引，那不是很麻烦吗？所以SOLR提供了定时任务的功能，当然你也可以自己集成，比如用sPRing的定时任务，或者集成Quartz这些，定时执行一下增量索引的URL，也是可以达到相同的目的的，但是我们今天说的并不是这个，下面开始详细说。

首先，需要引入一个JAR包，这个JAR包我已经发在了第一篇文章最后的DEMO里面了，解压之后就可以看到，但是我要说一点的是，我发出的JAR包是修改过源码的JAR包，很多地方给出的JAR包是apache-solr-dataimportscheler-1.0.jar这

个JAR包，下载地址是http://code.google.com/p/solr-dataimport-scheler/downloads

/list，但是这个jar包放入tomcat下的solr项目的lib包后会出错，其实也不是出错，而是出现下面的问题：

http请求一直返回415，提示不支持的媒体类型，

这个问题上周六折腾了我一天的时间，快被郁闷死了，后来在网上查资料的时候看到了别人的一篇文章，也才得以解决，一会儿我会把那个文章地址也发出来，这是

什么原因呢？原因就是这个jar包中的一个类在发送http请求时使用的是post方式，但是我们这里发送的请求却是get方式，所以才一直415，很蛋

疼有没有，所以需要进入jar包，修改源码之后才能正常工作，我看的那篇文章地址是:http://blog.csdn.net/zwx19921215

/article/details/43152307,里面讲的很详细，还有另外的一个问题，大家可以看一下，好了，把这个jar包引入solr的lib

包之后进行下一步。

第二步就是在solr的web.xml文件中添加如下代码：

第三步，解压apache-solr-dataimportscheler-1.0.jar文件，从解压出来的文件夹中找出dataimport.properties文件，然后复制该文件到你的SOLR_HOME目录下的conf文件夹中，

注意，这个conf文件夹并不是SOLR_HOME\collection1下的conf，而是SOLR_HOME\conf文件夹，以前是不存在的，需要你自己创建。　、

第四步，打开dataimport.properties文件，修改该文件内容，修改后的文件内容如下所示：

#################################################

# #

# dataimport scheler properties #

# #

#################################################

# to sync or not to sync

# 1 - active; anything else - inactive

syncEnabled=1

# which cores to schele

# in a multi-core environment you can decide which cores you want syncronized

# leave empty or comment it out if using single-core deployment

syncCores=collection1

# solr server name or ip address

# [defaults to localhost if empty]

server=localhost

# solr server port

# [defaults to 80 if empty]

port=8080

# application name/context

# [defaults to current ServletContextListener's context (app) name]

webapp=solr

# URL params [mandatory]

# remainder of URL

params=/dataimport?command=delta-import&clean=false&commit=true&wt=json&optimize=false

# schele interval

# number of minutes between two runs

# [defaults to 30 if empty]

interval=1

# 重做索引的时间间隔，单位分钟，默认7200，即1天;

# 为空,为0,或者注释掉:表示永不重做索引

reBuildIndexInterval=7200

# 重做索引的参数

reBuildIndexParams=/dataimport?command=full-import&clean=true&commit=true

# 重做索引时间间隔的计时开始时间，第一次真正执行的时间=reBuildIndexBeginTime+reBuildIndexInterval*60*1000；

# 两种格式：2012-04-11 03:10:00 或者 03:10:00，后一种会自动补全日期部分为服务启动时的日期

reBuildIndexBeginTime=03:10:00

注意：

1.syncCores=collection1表示对collection1这个core定时创建索引，如果不设置的话，默认也是对collection1创建索引，如果用到了multicore，那么使用逗号隔开即可。

2.server=localhost，port=8080改成你自己的容器地址和端口号即可；

3.interval=1表示定时增量索引的时间间隔，单位是分钟；

4.其他的按照上面的注释配置即可，也没什么难理解的；

全文检索工具有哪些?

1. Lucene

Lucene的开发语言是Java，也是Java家族中最为出名的一个开源搜索引擎，在Java世界中已经是标准的全文检索程序，它提供了完整的查询引擎和索引引擎，没有中文分词引擎，需要自己去实现，因此用Lucene去做一个搜素引擎需要自己去架构.另外它不支持实时搜索，但linkedin和*有分别对Lucene改进的实时搜素. 其中Lucene有一个C++移植版本叫CLucene，CLucene因为使用C++编写，所以理论上要比lucene快.
2. Sphinx

Sphinx是一个用C++语言写的开源搜索引擎，也是现在比较主流的搜索引擎之一，在建立索引的事件方面比Lucene快50%，但是索引文件比Lucene要大一倍，因此Sphinx在索引的建立方面是空间换取事件的策略，在检索速度上，和lucene相差不大，但检索精准度方面Lucene要优于Sphinx，另外在加入中文分词引擎难度方面，Lucene要优于Sphinx.其中Sphinx支持实时搜索，使用起来比较简单方便.
3. Xapian

Xapian是一个用C++编写的全文检索程序，它的api和检索原理和lucene在很多方面都很相似，算是填补了lucene在C++中的一个空缺.
4. Nutch

Nutch是一个用java实现的开源的web搜索引擎，包括爬虫crawler，索引引擎，查询引擎. 其中Nutch是基于Lucene的，Lucene为Nutch提供了文本索引和搜索的API.

对于应该使用Lucene还是使用Nutch，应该是如果你不需要抓取数据的话，应该使用Lucene，最常见的应用是：你有数据源，需要为这些数据提供一个搜索页面，在这种情况下，最好的方式是直接从数据库中取出数据，并用Lucene API建立索引.
5. DataparkSearch

DataparkSearch是一个用C语言实现的开源的搜索引擎. 其中网页排序是采用神经网络模型. 其中支持HTTP，HTTPS，FTP，NNTP等下载网页.包括索引引擎，检索引擎和中文分词引擎(这个也是唯一的一个开源的搜索引擎里有中文分词引擎).能个性化定制搜索结果，拥有完整的日志记录.
6. Zettair

Zettair是根据Justin Zobel的研究成果为基础的全文检索实验系统.它是用C语言实现的. 其中Justin Zobel在全文检索领域很有名气，是业界第一个系统提出倒排序索引差分压缩算法的人，倒排列表的压缩大大提高了检索和加载的性能，同时空间膨胀率也缩小到相当优秀的水平. 由于Zettair是源于学术界，代码是由RMIT University的搜索引擎组织写的，因此它的代码简洁精炼，算法高效，是学习倒排索引经典算法的非常好的实例. 其中支持linux，windows，mac os等系统.
7. Indri

Indri是一个用C语言和C++语言写的全文检索引擎系统，是由University of Massachusetts和Carnegie Mellon University合作推出的一个开源项目. 特点是跨平台，API接口支持Java，PHP，C++.
来自网络。

全文检索工具有哪些?

solr的索引数据可以存放到数据库吗

在solr与tomcat整合文章中，我用的索引库是mycore，现在就以这个为例。
首先要准备jar包：solr-dataimporthandler-4.8.1.jar、solr-dataimporthandler-extras-4.8.1.jar和mysql-connector-java-5.0.7-bin.jar这三个包到solr的tomcat的webapps\solr\WEB-INF\lib下
在这个文件夹的conf下配置两个文件，添加一个文件。先配置solrconfig.xml。
在该文件下添加一个新节点。
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>
在solrconfig.xml的同目录下创建data-config.xml。
配置：
复制代码
<dataConfig>
<dataSource type="JdbcDataSource"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://localhost:3306/courseman"
user="root"
password="mysql" />
<document>
<entity name="student"
query="SELECT * FROM student">
<field column="id" name="id" />
<field column="name" name="name" />
<field column="gender" name="gender" />
<field column="major" name="major" />
<field column="grade" name="grade" />
</entity>
</document>
</dataConfig>
复制代码
schemal.xml的配置
复制代码
<?xml version="1.0" ?>

<schema name="example core one" version="1.1">
<fieldtype name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
<fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"/>
<fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/>

<field name="id" type="int" indexed="true" stored="true" />
<field name="gender" type="string" indexed="true" stored="true" />
<field name="name" type="string" indexed="true" stored="true" />
<field name="major" type="string" indexed="true" stored="true" />
<field name="grade" type="string" indexed="true" stored="true" />
<field name="_version_" type="long" indexed="true" stored="true"/>

<uniqueKey>id</uniqueKey>

<defaultSearchField>name</defaultSearchField>

<solrQueryParser defaultOperator="OR"/>
</schema>
复制代码
默认的文件不是这样的，稍微改动了一下。
field 的type类型是根据fieldtype 的name定义的。class是solr自定义的不能更改。
shcema.xml文件的field字段的属性介绍：
（1）name：字段名称
（2）type：字段类型（此处type不是java类型，而是下面定义的fieldType）
（3）indexed：是否索引看true--solr会对这个字段进行索引，只有经过索引的字段才能被搜索、排序等；false--不索引
（4）stored：是否存储看true--存储，当我们需要在页面显示此字段时，应设为true，否则false。
（5）required：是否必须看true--此字段为必需，如果此字段的内容为空，会报异常；false--不是必需
（6）multiValued：此字段是否可以保存多个值看
（7）omitNorms：是否对此字段进行解析看有时候我们想通过某个字段的完全匹配来查询信息，那么设置 indexed="true"、omitNorms="true"。
（8）default：设置默认值
有这样一个FieldType描述：
<fieldType name="text_general" positionIncrementGap="100">
<analyzer type="index">
<tokenizer/>
<filter ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter/>
</analyzer>
<analyzer type="query">
<tokenizer/>
<filter ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter/>
</analyzer>
</fieldType>
属性说明：
（1）name：类型名称，<field>中的type引用的就是这个name
（2）class：solr自定义的类型
（3）<analyzer type="index">定义建立索引时使用的分词器及过滤器
（4）<analyzer type="query">定义搜索时所使用的分词器及过滤器
（5）<tokenizer/>定义分词器
（6）<filter/>定义过滤器
uniqueKey属性
<uniqueKey>id</uniqueKey>
类似于数据表数据的id，solr索引库中最好定义一个用于标示document唯一性的字段，此字段主要用于删除document。
defaultSearchField属性
就是你在做query搜寻时若不指定特定栏位做检索时, Solr就会只查这个栏位.
<defaultSearchField>default</defaultSearchField>
copyField属性
是用来复制你一个栏位里的值到另一栏位用. 如你可以将name里的东西copy到major里, 这样solr做检索时也会检索到name里的东西.
<copyField source="name" dest="major"/>
现在可以将数据库的数据导入solr了。
点击Execute就可以了。

solr的索引数据可以存放到数据库吗

如果数据库某个数据修改了solr能不能通过增量索引重新创建此条数据的索引

可以啊，索引就是方便查询的

想要系统学习java到底要学习哪些知识

一、java基础

学习任何一门编程语言，首先要学习的是基础语法，开启Java学习的第一步，当然就是深入掌握计算机基础、编程基础语法，面向对象，集合、IO流、线程、并发、异常及网络编程，这些我们称之为JavaSE基础。当你掌握了这些内容之后，你就可以做出诸如：电脑上安装的迅雷下载软件、QQ聊天客户端、考勤管理系统等桌面端软件。

JavaSE基础是Java中级程序员的起点，是帮助你从小白到懂得编程的必经之路。

在Java基础板块中有6个子模块的学习：

基础语法，可帮助你建立基本的编程逻辑思维；

面向对象，以对象方式去编写优美的Java程序；

集合，后期开发中存储数据必备技术；

IO，对磁盘文件进行读取和写入基础操作；

多线程与并发，提高程序效率；

异常，编写代码逻辑更加健全；

网络编程，应用服务器学习基础，完成数据的远程传输。

学习该阶段，可以完成一些简单的管理系统、坦克大战游戏、QQ通信等。

技术树

二、数据库

互联网最具价值的是数据，任何编程语言都需要解决数据存储问题,而数据存储的关键技术是数据库。MySQL和Oracle都是广受企业欢迎的数据库管理系统。Java程序和数据库通信的最常见技术是JDBC，Druid和C3P0。学习这些数据库技术后，可以掌握数据库运维技术、复杂业务表结构设计规范、工作中常见的SQL操作、软件数据存储等。

数据库不仅仅是Java开发工程师的必学课程，也是其他语言都需要掌握的技能。用于对交互过程中客户的数据进行存储。

该板块包括关系型数据库和非关系型数据库。

例如：MySQL、oracle、redis、MongoDB等。数据库学习完毕后，可以将数据存储到数据库中，也可以通过SQL语句从数据库中查询数据，结合Java项目可以实现动态站点的数据的保存。

技术树

三、前端技术

浏览器展示给用户看到的网页就是前端，前端有三大基础技术分别为Html、CSS、JavaScript，这些学完后，为了做出更好、更炫的交互式体验效果，我们还需要学习jQuery、ElementUI、Vue、Ajax，以及打包工具webpack。学完这些技术后，我们可以开发微信小程序、响应式网站、移动端网站、开发类似京东一样的B2B2C商城、管理后台等。

Javaweb阶段包括前端、数据库和动态网页。Javaweb是互联网项目的入门课程，是学习后面高进阶课程的基础。

首先，我们先看一下前端板块。该板块主要包括如下几个模块：

HTML5，网页制作标记语言；

CSS，对HTML制作网页进行美化；

JavaScript，嵌入在页面中的脚本语言，具备逻辑性；

Vue，前端框架，简化了与服务器端交互的操作，用户良好的交互体验是必不可少的。

学习前端技术后，可以完成类似京东、淘宝的前端工程的编写。

技术树

四、动态网页

掌握前端技术只能做静态网站，但它页面数据一成不变，而动态网站可以根据数据库中变更的数据实现不同的内容展示，应用更广泛，因此程序员必须要学会做动态网站。使用Java做动态网站，我们需要学习Servlet、Filter、Session、Cookie、JSP、EL表达式、JSTL等做动态网站的完整知识体系，学完可研发出OA系统、内容网站、BBS等。

动态网页是中级程序员服务器端编程的基础，是高级框架学习的必备课程，后期学习的框架、服务底层都是基于动态网页技术之上的。

该板块包括Javaweb核心技术、包括Servlet、Request、Response、Cookie和Session等，通过这些技术的学习可以完成动态站点开发，可更好的完成服务器端与客户的交互，让页面的数据“动”起来，做出小型的应用系统。

技术树

五、编程强化

前面学了JavaSE基础，但它在企业级应用中程序处理业务的效率并不高、扩展差，编程强化是对JavaSE基础的加强，将针对性的提高程序处理业务的执行效率、增强程序扩展性。编程强化将加强多线程高级学习，涉及线程内存、线程通信等技术。学完以后，能增加一个中级程序员的知识储备，无论在面试过程中还是将来技术的深入打一个良好的基础。

编程强化是对解决实际问题方面做一个深入的了解和应用，是对JavaSE基础的加强，对后期自动以框架和对一些服务框架的底层理解做支撑。

编程强化板块主要包括如下几个模块：多线程高级、涉及线程内存、线程通信等；JVM优化，对JVM底层进行调优来提高项目执行效率；NIO，同步非阻塞IO来提高效率。

学习该阶段，可以对原有项目进行优化从而使程序更快更稳定。

技术树

六、软件项目管理

公司开发都是团队协同开发，为更好的掌握实际开发，我们还需要学习常用的项目管理平台、版本控制器、项目构建工具以及自动化部署工具。项目开发一定是有版本升级的，管理好项目进度和版本需要Git、Maven、Sonar这样的系统平台。学习完软件项目管理后，将掌握整个项目实际开发过程以及整个项目开发过程中所使用协同开发工具。

JavaSE基础是Java中级程序员的起点，是帮助你从小白到懂得编程的必经之路。

在Java基础板块中有6个子模块的学习：基础语法，可帮助你建立基本的编程逻辑思维；面向对象，以对象方式去编写优美的Java程序；集合，后期开发中存储数据必备技术；IO，对磁盘文件进行读取和写入基础操作；多线程与并发，提高程序效率；异常，编写代码逻辑更加健全；网络编程，应用服务器学习基础，完成数据的远程传输。

学习该阶段，可以完成一些简单的管理系统、坦克大战游戏、QQ通信等。

技术树

七、热门技术框架

Javaweb掌握后，已经具备企业中实际项目的开发能力了，但它开发效率低，代码量大，开发周期长、开发成本高。企业中广泛使用一些优秀的框架技术来解决上述问题，因此我们还需要学习框架技术，项目开发中主流的Java框架技术有SpringMVC、Spring、MyBatis、MyBatis Plus、SpringData等。这些框架技术都是一个优秀程序员所必备的技能。

使用Javaweb进行企业级开发是完全可以的，但是开发效率比较低，所以对常用的逻辑操作进行封装就形成了框架，因此框架是企业开发的入门技能。

热门框架板块主流框架有如下几个：Spring框架，占据统治地位，其生态系统涉及各个方面解决方案；MyBatis框架，使用ORM思想对数据库进行操作。

该板块学习后，就可以进行真实企业级项目开发了，做出的项目也会更加符合企业要求。

技术树

八、分布式架构

需要用到分布式微服务的技术。学习完该阶段课程，可以具备大型SOA架构和微服务架构能力，能掌握大型微服务项目必备技术和实际经验。企业发展过程中，业务量和用户量逐渐增加，为了保证系统的可用性，系统越做越复杂，研发人员增多，大家很难共同维护一个复杂的系统，往往修改部分内容，导致牵一发而动全身，所以我们需要升级系统架构，

随着互联网的发展，业务的复杂性和用户的体验性都需要提高，所以分布式架构出现了。该板块主要讲解的是分布式架构的相关解决方案。

主要包括如下模块：Dubbo，高性能的 RPC 服务发布和调用框架；SpringBoot，简化Spring应用的初始搭建以及开发过程；Spring Cloud，一系列框架的有序集合，如服务发现注册、配置中心、负载均衡、断路器、数据监控等。

该板块的学习，可以具备大型互联网项目开发的必备技术和实际经验，为进入BATJ打下基础

技术树

九、服务器中间件

在分布式系统架构中，服务与服务之间的异步通信，是非常常见的需求之一，消息中间件的诞生正是为了解决这类问题。目前市面上的主流消息中间件有RabbitMQ、RocketMQ、Kafka，我们将学习这3个消息中间件，实现分布式项目中的异步通信。学习完这些后，可以实现分布式项目的异步通信、分布式应用日志收集、分布式事务等。

中间件板块是大型互联网项目中必备的。服务中间件可以帮助各子模块间实现互相访问，消息共享或统一访问等功能。其包括远程服务框架中间件，例如阿里（Apache）的RPC框架Dubbo等；消息队列中间件，例如：阿里巴巴开源分布式中间件RocketMQ、高吞吐量消息发布和流处理服务Kafka等。

学习服务中间件是中级JavaEE工程师必要技术，也是JavaEE架构师必须精通的技术。

技术树

十、服务器技术

程序开发完成后，我们把它们打包部署到服务器中运行，所以我们需要学习常见的服务器技术，常见的服务器有Linux和Window server，Linux性能高，是当前主流。我们写好的项目需要用一个软件运行起来，这个软件叫web容器，我们需要在服务器上安装web容器来发布项目，当前主流的web容器有tomcat、jetty、nginx、undertow。

不管是使用原生Javaweb进行开发，还是使用框架进行开发，项目最终需要对外发布才能供全世界的人访问到，而服务器板块就可以解决这个问题，所以服务器是项目发布的必要技术。该板块包括虚拟化和web应用服务器的学习，主要包括如下几个模块：Vmware，虚拟机软件；Linux，专门用于服务器的系统；Nginx，集群部署时反向代理服务器；Tomcat，项目发布时主要使用的服务器。

该板块学习后，我们就可以把开发好的项目发布到服务器中，然后供你的小伙伴远程访问了，超酷！

技术树

十一、容器技术

具备了服务器操作系统及web容器，我们就可以部署单机的站点，在分布式系统中，几十上百的服务，如果使用单机这种部署方式，会投入很高的人力，同时出错的几率也大。所以服务器虚拟化技术Docker也称为如今的必备技术了，Docker可以帮助运维人员实行快速部署，批量维护.使用Kubernetes实现自动化部署、大规模可伸缩、应用容器管理。

容器化技术是近两年超级火的一个专题，通过容器化技术可以对环境进行打包，方便移植，大大提高了开发效率。该板块包括容器化技术Docker和其平台管理引擎Kubernetes，其中，Docker 是一个开源的应用容器引擎，可以打包应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的Linux或Windows 机器上，也可以实现虚拟化。而Kubernetes是一个开源的，用于管理云平台中多个主机上的容器化的应用，Kubernetes的目标是让部署容器化的应用简单并且高效。通过该板块的学习，你可以通过上述技术快速搭建环境，节省开发时间，提高开发效率。

技术树

十二、业务解决方案

企业开发中会遇到一些通用的业务场景，诸如：搜索引擎、缓存、定时任务、工作流、报表导出、日志管理、系统监控等，那么这些通用的解决方案也有现成优秀的免费开源中间件，可供使用。诸如：ElasticSearch、Lucene、Solr、redis、MongoDB、slf4J、ECharts、Quartz、POI等。业务解决方案课程的业务方案和技术难点，解决了企业开发中90%以上的痛点和难点。

虽然我们已经具备了基础技术和高阶技术，但是要想与企业开发相接轨，还需要对实际项目的业务解决方案进行探究。而此版块就是在实际业务场景中的真实解决方案集合，常用的业务解决方案有如下：搜索业务场景解决方案、日志收集与分析场景解决方案、工作流引擎场景解决方案、任务调度场景解决方案、地图开发平台场景解决方案、支付开放平台场景解决方案、图表可视化场景解决方案。通过分析实际业务来学习这个解决方案技术集，完全可以达到中级甚至高级工程师水平。

技术树

java学习路线传送门

solr5.5.4 增量索引 自动同步mysql数据

solr5.5.4 增量索引自动同步mysql数据