Solr9 如何使用 DIH 读取数据库索引数据

使用 Solr 9 中的数据导入处理程序(DIH)

DIH(Data Import Handler)提供了一种可配置的方式向 Solr 中导入数据。
从 Solr 9 开始,数据导入处理程序(DIH)已经不再直接包含在 Solr 中,而是作为一个独立的项目存在。
在这里插入图片描述
在这里插入图片描述
本文将详细介绍如何在 Solr 9 中配置和使用 DIH,包括如何设置 Solr 环境和导入数据的具体步骤。

关于独立出来的 DIH 源码可以从:https://github.com/SearchScale/dataimporthandler?tab=readme-ov-file 中获取。

本示例将展示如何从源码启动 Solr 项目并配置 DIH。

安装和启动 Solr 服务

你可以自己在本地下载好 Solr 服务部署,截止到本博客的编写时间,Solr 的最新版是 9.6.1,我这里直接从 github 上 clone Solr 的源码,并将分支切到 releases/solr/9.6.1 版本标签,对应命令如下:

git checkout releases/solr/9.6.1

由于 Solr9 项目构建已从原来的 ant 方式更改为了 gradle 方式,我们将项目导入到 IDEA 中后,IDEA 会自动识别 gradle 项目。

在项目的根目录下我们可以执行 ./gradlew dev 命令,此命令执行后再项目的 solr/packaging/build 目录下会生成编译打包后的项目结构。

如下所示:
在这里插入图片描述

定义 SolrHome 目录并源码启动 Solr 服务

首先我们需要在本地电脑上选择一个目录作为我们的 SolrHome 目录,这里我选择 /Workspace/SolrHome/Solr9/test_demo 作为我的 SolrHome 目录,我们现在创建/Workspace/SolrHome/Solr9/test_demo 空目录,如下所示:
在这里插入图片描述
之后在项目的 solr/server/solr 目录下找到 solr.xml 将其拷贝到 /Workspace/SolrHome/Solr9/test_demo 目录下,如下所示:
在这里插入图片描述

IDEA 双击 Shift 键,查找 StartSolrJetty java 类,如下所示:
在这里插入图片描述
我们需要修改这个测试启动类,在代码中设置 SolrHome 和 webapp 的地址,修改后的内容如下:

public class StartSolrJetty {
  private static final Logger log = LoggerFactory.getLogger(MethodHandles.lookup().lookupClass());

  public static void main(String[] args) {
     //System.setProperty("solr.solr.home", "../../../example/solr");

	 // 此处设置 SolrHome 地址
     System.setProperty("solr.solr.home", "/Workspace/SolrHome/Solr9/test_demo");

    Server server = new Server();
    ServerConnector connector = new ServerConnector(server, new HttpConnectionFactory());
    // Set some timeout options to make debugging easier.
    connector.setIdleTimeout(1000 * 60 * 60);
    connector.setPort(8983);
    server.setConnectors(new Connector[] {connector});

    WebAppContext bb = new WebAppContext();
    bb.setServer(server);
    bb.setContextPath("/solr");
    //bb.setWar("webapp/web");

	// 此处设置项目目录下的 solr/webapp/web 的绝对路径地址
    bb.setWar("/Workspace/source-code/solr/solr/webapp/web");

    //    // START JMX SERVER
    //    if( true ) {
    //      MBeanServer mBeanServer = ManagementFactory.getPlatformMBeanServer();
    //      MBeanContainer mBeanContainer = new MBeanContainer(mBeanServer);
    //      server.getContainer().addEventListener(mBeanContainer);
    //      mBeanContainer.start();
    //    }

    server.setHandler(bb);

    try {
      System.out.println(">>> STARTING EMBEDDED JETTY SERVER, PRESS ANY KEY TO STOP");
      server.start();
      while (System.in.available() == 0) {
        Thread.sleep(5000);
      }
      server.stop();
      server.join();
    } catch (Exception e) {
      log.error("failed to start", e);
      System.exit(100);
    }
  }
}

修改好后,我们启动这个测试类的 main 方法,之后浏览器可以访问 http://localhost:8983/solr/#/,页面内容如下:
在这里插入图片描述

创建 SolrCore 目录并定义 Schema

在创建的 SolrHome 目录下,我们新建一个 movie_core_1 的子目录,如下所示:
在这里插入图片描述
之后复制Solr项目中 solr/configsets/_default/conf 目录下的配置文件到上面创建的 movie_core_1 目录下,如下图所示:
在这里插入图片描述
编辑 managed-schema.xml 文件,这里我删除了这个文件所有多余的配置,内容如下:

<?xml version="1.0" encoding="UTF-8" ?>
<schema name="movie_config_demo" version="1.6">
    <!-- 定义字段类型 -->
    <types>
        <!-- 字符串类型,适用于文本,支持排序和docValues -->
        <fieldType name="string" class="solr.StrField" sortMissingLast="true" docValues="true" />
        <!-- 整数点类型,适用于整数,支持docValues -->
        <fieldType name="pint" class="solr.IntPointField" docValues="true"/>
        <!-- 长整数点类型,适用于长整数,支持docValues -->
        <fieldType name="plong" class="solr.LongPointField" docValues="true"/>
        <!-- 双精度浮点数点类型,适用于浮点数,支持docValues -->
        <fieldType name="pdouble" class="solr.DoublePointField" docValues="true"/>
        <!-- 日期点类型,适用于日期,支持docValues -->
        <fieldType name="pdate" class="solr.DatePointField" docValues="true"/>

        <!-- 文本字段类型,用于需要分词的文本 -->
        <fieldType name="text" class="solr.TextField" omitNorms="true">
            <!-- 索引时的分析器配置 -->
            <analyzer type="index">
                <tokenizer class="solr.StandardTokenizerFactory"/>
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
                <filter class="solr.LowerCaseFilterFactory"/>
            </analyzer>
            <!-- 查询时的分析器配置 -->
            <analyzer type="query">
                <tokenizer class="solr.StandardTokenizerFactory"/>
                <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
                <filter class="solr.SynonymGraphFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
                <filter class="solr.LowerCaseFilterFactory"/>
            </analyzer>
        </fieldType>
    </types>

    <!-- 定义字段 -->
    <fields>
        <!-- 特殊的系统字段,用于乐观并发控制 -->
        <field name="_version_" type="plong" indexed="false" stored="false"/>

        <!-- 电影ID,唯一标识符 -->
        <field name="MOVIE_ID" type="string" indexed="true" stored="true" required="true" multiValued="false"/>
        <!-- 电影名称 -->
        <field name="NAME" type="text" indexed="true" stored="true" required="true" multiValued="false"/>
        <!-- 电影别名 -->
        <field name="ALIAS" type="text" indexed="true" stored="true" multiValued="false"/>
        <!-- 电影封面图片 -->
        <field name="COVER" type="string" indexed="false" stored="true" multiValued="false"/>
        <!-- 导演名单 -->
        <field name="DIRECTORS" type="string" indexed="true" stored="true" multiValued="false"/>
        <!-- 豆瓣评分 -->
        <field name="DOUBAN_SCORE" type="pdouble" indexed="true" stored="true" multiValued="false"/>
        <!-- 豆瓣投票数 -->
        <field name="DOUBAN_VOTES" type="pint" indexed="true" stored="true" multiValued="false"/>
        <!-- 电影类型 -->
        <field name="GENRES" type="string" indexed="true" stored="true" multiValued="false"/>
        <!-- 电影语言 -->
        <field name="LANGUAGES" type="string" indexed="true" stored="true" multiValued="false"/>
        <!-- 电影时长 -->
        <field name="MINS" type="pdouble" indexed="true" stored="true" multiValued="false"/>
        <!-- 官方网站 -->
        <field name="OFFICIAL_SITE" type="string" indexed="false" stored="true" multiValued="false"/>
        <!-- 制作地区 -->
        <field name="REGIONS" type="string" indexed="true" stored="true" multiValued="false"/>
        <!-- 上映日期 -->
        <field name="RELEASE_DATE" type="pdate" indexed="true" stored="true" multiValued="false"/>
        <!-- 剧情简介 -->
        <field name="STORYLINE" type="text" indexed="true" stored="true" multiValued="false"/>
        <!-- 标签 -->
        <field name="TAGS" type="string" indexed="true" stored="true" multiValued="false"/>
        <!-- 上映年份 -->
        <field name="YEAR" type="pint" indexed="true" stored="true" multiValued="false"/>
        <!-- 演员ID列表 -->
        <field name="ACTOR_IDS" type="string" indexed="true" stored="true" multiValued="false"/>
        <!-- 导演ID列表 -->
        <field name="DIRECTOR_IDS" type="string" indexed="true" stored="true" multiValued="false"/>
    </fields>

    <!-- 定义主键 -->
    <uniqueKey>MOVIE_ID</uniqueKey>
</schema>

由于上面的 schema 配置没有定义 text_general 字段,所以我们还需要修改 solrconfig.xml 配置文件,注释掉下面的代码内容:

    <!--
    <updateProcessor class="solr.AddSchemaFieldsUpdateProcessorFactory" name="add-schema-fields">
      <lst name="typeMapping">
        <str name="valueClass">java.lang.String</str>
        <str name="fieldType">text_general</str>
        <lst name="copyField">
          <str name="dest">*_str</str>
          <int name="maxChars">256</int>
        </lst>
         Use as default mapping instead of defaultFieldType
        <bool name="default">true</bool>
      </lst>
      <lst name="typeMapping">
        <str name="valueClass">java.lang.Boolean</str>
        <str name="fieldType">booleans</str>
      </lst>
      <lst name="typeMapping">
        <str name="valueClass">java.util.Date</str>
        <str name="fieldType">pdates</str>
      </lst>
      <lst name="typeMapping">
        <str name="valueClass">java.lang.Long</str>
        <str name="valueClass">java.lang.Integer</str>
        <str name="fieldType">plongs</str>
      </lst>
      <lst name="typeMapping">
        <str name="valueClass">java.lang.Number</str>
        <str name="fieldType">pdoubles</str>
      </lst>
    </updateProcessor>
    -->

    <!--
      <updateRequestProcessorChain name="add-unknown-fields-to-the-schema" default="${update.autoCreateFields:true}"
             processor="uuid,remove-blank,field-name-mutating,parse-boolean,parse-long,parse-double,parse-date,add-schema-fields">
        <processor class="solr.LogUpdateProcessorFactory"/>
        <processor class="solr.DistributedUpdateProcessorFactory"/>
        <processor class="solr.RunUpdateProcessorFactory"/>
      </updateRequestProcessorChain>
    -->

之后我们在 Solr Admin 页面创建这个 core,如下所示:
在这里插入图片描述
点击 Add Core ,创建好后如下所示:
在这里插入图片描述
当然此时会在 movie_core_1目录下生成 data 索引目录以及 core.properties 属性文件,如下所示:
在这里插入图片描述
查询测试:
在这里插入图片描述

配置 DIH

访问 https://github.com/SearchScale/dataimporthandler?tab=readme-ov-file 下载我们需要的 DIH jar 包,这里我直接下载的是源码:
在这里插入图片描述
打开下载好的源码:
在这里插入图片描述
可以看到项目中有 mariadb-java-client-2.6.0.jardata-import-handler-9.3.0.jar 两个 jar 包文件,我们需要将这两个 jar 包拷贝至 movie_core_1/lib 目录下,如下所示:
在这里插入图片描述
编写 solrconfig.xml 文件,新增如下配置:

<lib dir="./lib" />

如图:
在这里插入图片描述

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
        <str name="config">data-config.xml</str>
    </lst>
</requestHandler>

如图:
在这里插入图片描述
之后再新增一个 data-config.xml 文件到 movie_core_1/conf 目录下,data-config.xml 内容如下:

<dataConfig>
    <dataSource type="JdbcDataSource" driver="com.mysql.cj.jdbc.Driver"
        url="jdbc:mysql://localhost:3306/movies" user="root" password="12345678" />
    <document>
        <entity name="movie"
            query="SELECT movie_id, name, alias, cover, directors, douban_score, douban_votes, genres, 
                          languages, mins, official_site, regions, release_date, storyline, tags, 
                          CAST(year AS CHAR) AS year, actor_ids, director_ids FROM movie">
            <field column="movie_id" name="movie_id" />
            <field column="name" name="name" />
            <field column="alias" name="alias" />
            <field column="cover" name="cover" />
            <field column="directors" name="directors" />
            <field column="douban_score" name="douban_score" />
            <field column="douban_votes" name="douban_votes" />
            <field column="genres" name="genres" />
            <field column="languages" name="languages" />
            <field column="mins" name="mins" />
            <field column="official_site" name="official_site" />
            <field column="regions" name="regions" />
            <field column="release_date" name="release_date" dateTimeFormat="yyyy-MM-dd" />
            <field column="storyline" name="storyline" />
            <field column="tags" name="tags" />
            <field column="year" name="year" />
            <field column="actor_ids" name="actor_ids" />
            <field column="director_ids" name="director_ids" />
        </entity>
    </document>
</dataConfig>

注意: 这里我是从 mysql 中查询表数据进行索引,所以需要 MySQL 的驱动包,需要从 https://mvnrepository.com/ 中下载 MySQL 的驱动 jar 包,将其拷贝至 movie_core_1/lib 目录下:在这里插入图片描述
在这里插入图片描述
我的 MYSQL 表结构如下:
在这里插入图片描述
表数据:https://github.com/lt5227/example_code/blob/main/spring_solr_example/sql/movies.sql

之后在 CoreAdmin 页面中选择 Relod,重新加载配置。
在这里插入图片描述
在浏览器中请求 http://localhost:8983/solr/movie_core_1/dataimport?command=full-import 接口,程序就会读取查询数据库进行全量索引了,请求后页面返回如下:
在这里插入图片描述
控制台日志如下:
在这里插入图片描述
测试查询:
在这里插入图片描述


官方文档
https://solr.apache.org/guide/8_6/uploading-data-with-index-handlers.html
https://solr.apache.org/guide/solr/latest/upgrade-notes/major-changes-in-solr-9.html#deprecations-and-removals

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/728681.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】关于在华为云中开放了端口后仍然无法访问的问题

已在安全组中添加规则: 通过指令: netstat -nltp | head -2 && netstat -nltp | grep 8080 运行结果: 可以看到服务器确实处于监听状态了. 通过指令 telnet 公网ip port 也提示: "正在连接xxx.xx.xx.xxx...无法打开到主机的连接。 在端口 8080: 连接失败"…

[WTL/Win32]_[中级]_[MVP架构在实际项目中的应用]

场景 在开发Windows和macOS的界面软件时&#xff0c;Windows用的是WTL/Win32技术&#xff0c;而macOS用的是Cocoa技术。而两种技术的本地语言一个主打是C,另一个却是Object-c。界面软件的源码随着项目功能增多而增多&#xff0c;这就会给同步Windows和macOS的功能造成很大负担…

数据驱动制造:EMQX ECP 指标监测功能增强生产透明度

迈向未来的工业生产&#xff0c;需要的不仅是自动化&#xff0c;更是智能化。如果工业企业的管理者能够实时监测每一生产环节的设备运行状态&#xff0c;每一数据点位情况&#xff0c;洞察和优化每一步生产流程&#xff0c;他们将能够做出更精准的决策&#xff0c;提高生产效率…

记录SpringBoot启动报错解决

记录SpringBoot启动报错解决 报错现场 Failed to configure a DataSource: url attribute is not specified and no embedded datasource could be configured. Reason: Failed to determine a suitable driver class Action: Consider the following:If you want an embedde…

紧凑型计算微型仿生复眼

欢迎关注&#xff1a;GZH《光场视觉》 图1 研制的计算微型复眼的成像原理 1. 导读 微型曲面复眼由于具有大视场成像、大景深成像、体积较小的优势&#xff0c;在机器视觉、无人机导航、生物灵感机器人等领域引起了广泛关注。然而&#xff0c;传统的微型曲面复眼存在设计/加工…

44、基于深度学习的癌症检测(matlab)

1、基于深度学习的癌症检测原理及流程 基于深度学习的癌症检测是利用深度学习算法对医学影像数据进行分析和诊断&#xff0c;以帮助医生准确地检测癌症病变。其原理和流程主要包括以下几个步骤&#xff1a; 数据采集&#xff1a;首先需要收集包括X光片、CT扫描、MRI等医学影像…

Shiro721 反序列化漏洞(CVE-2019-12422)

目录 Shiro550和Shiro721的区别 判断是否存在漏洞 漏洞环境搭建 漏洞利用 利用Shiro检测工具 利用Shiro综综合利用工具 这一篇还是参考别的师傅的好文章学习Shiro的反序列化漏洞 上一篇也是Shiro的反序列化漏洞&#xff0c;不同的是一个是550一个是721&#xff0c;那么这…

基于SSM+Jsp的水果销售管理网站

开发语言&#xff1a;Java框架&#xff1a;ssm技术&#xff1a;JSPJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包…

技术速递|Java on Azure Tooling 5月更新 - Java 对 Azure 容器应用程序的入门指南支持

作者&#xff1a;Jialuo Gan 排版&#xff1a;Alan Wang 大家好&#xff0c;欢迎阅读 Java on Azure 工具 5 月份更新。在本次更新中&#xff0c;我们将介绍 Java 在 Azure 上的容器应用程序的入门指南。希望您喜欢这些更新&#xff0c;并享受使用 Azure 工具包的流畅体验。请下…

在4面体空间内2点结构占比

有一个4面体状空间&#xff0c;由3层甲烷状分子堆积而成&#xff0c;单个甲烷4面体边长10. 内有30个点&#xff0c;在30个点中取2点&#xff0c;有30*29/2435种取法。这里要求两个点的距离必须为6.123 在435个结构中只有40个符合要求 序数 结构 序数 结构 3 1 282 3 7…

如何利用AI大模型设计电机本体?

一、背景 AI在电机本体设计中的应用正逐渐成为提升设计效率、优化性能和降低成本的重要手段。通过深度学习、机器学习、计算机辅助设计&#xff08;CAD&#xff09;和仿真技术的结合&#xff0c;AI能够帮助工程师更快速准确地完成电机的设计与优化工作。以下是AI在电机本体设计…

会声会影2024旗舰版汉化最新安装包下载方法步骤

嗨&#xff0c;亲爱的CSDN的朋友们&#xff01;&#x1f389;今天&#xff0c;我要跟大家分享一款让你的视频编辑体验升级的神器——会声会影2024最新版本&#xff01;✨如果你是一个热衷于创作视频内容的创作者&#xff0c;那么你一定不能错过这个软件。它不仅功能强大&#x…

环境配置02:CUDA安装

1. CUDA安装 Nvidia官网下载对应版本CUDA Toolkit CUDA Toolkit 12.1 Downloads | NVIDIA Developer CUDA Toolkit 12.5 Downloads | NVIDIA Developer 安装配置步骤参考&#xff1a;配置显卡cuda与配置pytorch - 知乎 (zhihu.com) 2. 根据CUDA版本&#xff0c;安装cudnn …

子组件和父组件之间传值#Vue3#defineProps

子组件和父组件之间传值#Vue3#defineProps 效果&#xff1a; 6s执行项图片缩略图 子组件&#xff1a; <!-- 6s执行项详情图片的子组件 --> <template><div><imgv-if"itemsLocal.url":src"itemsLocal.url"style"width: 50px; …

2024届本科专业就业率排行:榜一遥遥领先,计算机跌出前五 计算机行业发展迅速,程序员应该学习哪种编程语言?

在大多数家庭中&#xff0c;选择大学专业时&#xff0c;他们更倾向于通过大学教育和专业学习来增强自身的竞争力&#xff0c;以便在未来的就业市场中获得一份既稳定又收入丰厚的工作。 在这种现实驱动下&#xff0c;家长们和学生们都倾向于关注那些就业率持续高企的专业&#…

第N5周:调用Gensim库训练Word2Vec模型

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 | 接辅导、项目定制&#x1f680; 文章来源&#xff1a;K同学的学习圈子 目录 本周任务: 1.安装Gensim库 2.对原始语料分词 3.停用词 4.训练Woed2Vec模型 …

示例:WPF中使用IsAsync的方式绑定数据来优化用户体验

一、目的&#xff1a;开发过程中&#xff0c;有时需要绑定大量数据&#xff0c;比如弹出一个窗口&#xff0c;窗口中包含一个ListBox绑定了大量数据&#xff0c;这时会出现点击按钮后出现假死卡顿影响用户体验&#xff0c;这理通过用IsAsync的方式将窗口优先弹出来再加载数据 二…

AWS Lambda + Flask 应用示例

前言 AWS Lambda 本身是一个以事件驱动的 Serverless 服务, 最简单的应用就是在入口函数中对接收到的事件/请求进行处理并返回响应. 对于像 Flask 这样的 Web 框架, 并不能直接在 Lambda 上提供服务, 不过我们可以借助 AWS Lambda Web Adapter 实现一个基于 Flask 框架的 Web …

ThinkPHP:查询数据库数据之后,更改查询数据的字段名称

一、原始查询数据 含有字段item_no&#xff0c;lot_num&#xff0c;position $data[brushed] db::table(wip_station_transaction) ->where([wip_entity_name>$wip_entity_name,line_code>$line_code,]) ->field([item_no, lot_num, position]) ->select(); …

python 霍夫曼解码

Huffman Tree 进行解码 示例图 c语言&#xff1a;c语言 霍夫曼编码 | 贪婪算法&#xff08;Huffman Coding | Greedy Algo&#xff09;_霍夫曼的贪婪c语言-CSDN博客 c&#xff1a;c 霍夫曼编码 | 贪婪算法&#xff08;Huffman Coding | Greedy Algo&#xff09;_霍夫曼的贪…