【MiniCPM-V】win10本地部署OCR等性能测试

性能尝试

本地配置如下

+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 546.80                 Driver Version: 546.80       CUDA Version: 12.3     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                     TCC/WDDM  | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3080 ...  WDDM  | 00000000:01:00.0 Off |                  N/A |
| N/A   52C    P0              43W / 140W |      0MiB / 16384MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

1. Response time latency(普遍推理时间在1-2min内不等)

2. OCR理解能力,找图片试一下,多模态图片

3. 作为llm的语义理解能力


案例一:柱状图

在这里插入图片描述

案例二:中文发票 -> json格式

请添加图片描述

{
“发票类型”: “上海市服务业、娱、贸文化体育统一发票”,
“发票号码”: “23100127006108438658”,
“开票日期”: “2012/10/11”,
“供应商信息”: {
“名称”: “上海师范学校专科附属小学”,
“税务登记号”: “3101011325090797”
},
“购买方信息”: {
“名称”: “上海市保安服务总公司黄浦区”,
“税务登记号”: “3101011325090798”
},
“项目信息”: {
“项目名称”: “项目服务”,
“项目单价”: “700.00”,
“数量”: “6”,
“金额”: “4200.00”,
“税率”: “6%”,
“税额”: “126.00”,
“合计”: “4200.00”
},
“其他信息”: {
“税款登记号”: “3101011325090799”,
“收款人姓名”: “余周”,
“付款人姓名”: “李明”
}
}

案例三:英文机票 -> json格式

在这里插入图片描述

{
“title”: “E-Boarding Pass”,
“notice”: “You may proceed directly to the boarding gate using this e-boarding pass. You can download and share this e-boarding pass with other guests in your booking.”,
“airlines”: [
{
“logo”: “AirAsia”,(难)
“destination”: “Macao International Airport”,(错)(缺少出发地)
“flight_no”: “FD 776”,
“date”: “14 Mar 2024”,
“time”: “10:10”
}
],
“booking_details”: {
“flight_no”: “FD 776”,
“departure_date”: “14 Mar 2024”,
“departure_time”: “10:10”,
“seat”: “19E”,
“sequence”: “8”
},
“qr_code”: “包含在条形码和二维码内的信息”,
“status”: “ASA”
}

案例四:ppt -> 根据这个图片写一段演讲稿

请添加图片描述

尊敬的各位来宾,今天我非常荣幸能够在这里与大家分享我们的内容赋能解决方案。随着信息化时代的到来,我们面临着如何充分利用数据资源来推动业务发展的挑战。在这个过程中,基于非结构化数据的分析和管理显得尤为重要。
我们深入研究了现有的企业业务系统,并针对其中的关键业务系统进行了优化。OA、ERP等系统通过内容采集的方式,将文档的文本和内容转换成可供分析的形式,从而实现对业务数据的精准理解和决策支持。
此外,我们还专注于内容处理服务的流程自动化和业务数据贯通,为企业提供了更高效的工作流程和数据共享能力。而在内容分析数据这一核心环节,我们采用了先进的数据分析技术,挖掘出隐藏在海量数据背后的宝贵信息。
为了更好地管理和运营这些内容,我们建立了内容管理体系架构,包括图谱标签、内容总线和内容数据湖等模块。这不仅有助于组织和检索内容,还能提高内容的价值和利用率。
最后,我们还提供了电子档案管理、合同管理、SAP智能内容管理等功能,以满足不同行业和业务需求的个性化服务。
总结来说,我们的内容赋能解决方案旨在帮助企业将非结构化数据转化为有价值的业务资产,提升业务效率和竞争力。感谢大家的聆听。

案例五:食物链描述(有几个动物错误,但人也难以辨认,基本正确)

请添加图片描述

<User>: 用语言描述这个食物链
<Assistant>: 这个食物链展示了一个典型的草原生态系统,包括草、树木、各种草食动物和捕食者。草是食物链的基础,为像长颈鹿、斑马、羚羊等动物提供营养。这些动物被描绘为不同的种类,它们通过吃草或其他植物来维持生命。食草动物之间存在竞争关系,但也可以共存,因为每个物种有自己偏好的植被类型。
<User>: 描述每一个动物之间的关系
<Assistant>: 根据食物链的图表,狮子是食肉动物,猎杀斑马和长颈鹿以获取食物。豹子也捕食猎物,包括猎鸟和羚羊。野猪可能会吃植物或其他小动物,而狗可能会捕食小型哺乳动物或食用人类提供的食物。鸟类,如鹰,可能捕食小型哺乳动物或其他鸟类。狐狸可能捕食小型哺乳动物或觅食垃圾。鼠兔可能被猫科动物如豹子和狗捕食,而大象是草食性动物,主要以树叶为食。草原和森林环境中存在的树木为食草动物提供了必要的植被。总体而言,这个图表展示了各种生物之间的相互依存关系,其中每个生物都在其生态系统内扮演着特定的角色。

案例六:复杂结构描述

在这里插入图片描述

这张图展示了非结构化数据AI洞察发展的路径,按照场景和内容级别的复杂性进行分类。图表的左侧是通用图谱、行业图谱和行业词库等类型的非结构化数据,而右侧则展示了从基础的基于元数据的核心资产管理到更高级别的智能标签、智能定密、文字OCR、物体识别、人像识别等技术应用的层次。图表的上部包含了自主探索式搜索、场景下的知识推荐、基于元数据的核心资产管理以及内容级别结构化分析等功能。图表的下部聚焦在具体的应用场景,如AI引擎、主题趋势预测、安全洞察等。整体上,这个图表提供了一种视觉化的方式来理解和规划在不同领域中如何有效地利用和管理非结构化数据。

扇形结构应该是识别不出来,是我要求太高了

案例七:复杂表格请添加图片描述

尝试搜索功能,所在行一般是对的,列感觉有点瞎蒙
尝试转markdown

Description2023 m$2022 $m2021 $m2020 $m2019 $m
Net interest income35,79630,37726,48927,57830,462
Net fee income11,84511,77013,09711,87412,023
Net income from financial instruments held for trading or managed on a fair value basis16,66110,2787,7449,58210,231
Net income/(expense) from assets and liabilities of insurance businesses, including related derivatives, measured at fair value through profit or loss7,887(4,053)3,0812,4783,479
Net insurance premium income(7,809)10,87010,09310,636-
Insurance finance (expense)/income(1,078)13,799---
Insurance service result1,581809---
Gain on acquisition(1,141)(266)1,6871,8664,194
Total operating income66,05850,62063,94064,07171,024
Net income before operating expenses and other charges(14,388)----
Net income before income taxes66,05850,62049,55250,42956,098
Net income before credit impairment charges(3,447)(3,584)(928)(8,176)(7,756)
Net operating income62,61151,48040,51234,64133,544
Total operating expenses excluding impairment of goodwill and other intangible assets(32,355)(32,887)(33,044)(34,955)(37,394)
Impairment of goodwill and other intangible assets285(147)(733)(1,388)(7,394)
Operating profit30,54115,4407,1807,16015,993
Share of profit in associates and joint ventures2,8072,7233,0462,5971,354
Impairment of interest in associate(3,000)----
Profit before tax30,34817,90818,9068,77713,347
Tax expense(5,789)(14,693)(2,678)(4,639)(8,709)
Profit for the year24,55914,69913,0966,7088,099
Attributable to:
- Ordinary

在这里插入图片描述
结果一般,有很多错的,而且没有识别完就结束了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/636354.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Advanced Installer 使用教程-注册表的读写

一、写入 1、注册表的写入&#xff1a;点击左侧“注册表”&#xff0c;在配置单元注册表的条目上右击选择“新建项”&#xff0c;填入新建项名称&#xff0c;如下图新建了一个“InstallerManager”项 2、在刚才的新建项上右击选择“新建值”&#xff0c;在弹出的窗口中填入名称…

Elasticsearch集群部署以及认证配置

文档地址&#xff1a; 官网文档地址&#xff1a; https://www.elastic.co/guide/index.html rpm包/源码下载地址&#xff1a;https://www.elastic.co/cn/downloads 源码安装-环境准备&#xff1a; node-01 192.168.95.174 node-02 192.168.95.173 node-03 …

Helm安装kafka3.7.0无持久化(KRaft 模式集群)

文章目录 2.1 Chart包方式安装kafka集群 5.开始安装2.2 命令行方式安装kafka集群 搭建 Kafka-UI三、kafka集群测试3.1 方式一3.2 方式二 四、kafka集群扩容4.1 方式一4.2 方式二 五、kafka集群删除 参考文档 [Helm实践---安装kafka集群 - 知乎 (zhihu.com)](https://zhuanlan.…

docker ps显示的参数具体是什么意思

1&#xff0c;运行一个容器 docker run -d ubuntu:15.10 /bin/sh -c "while true; do echo hello world; sleep 1; done"这段命令的作用是使用 docker run 命令运行一个基于 ubuntu:15.10 镜像的 Docker 容器&#xff0c;并在容器中执行一个无限循环的命令。 具体解…

LeetCode700二叉搜索树中的搜索

题目描述 给定二叉搜索树&#xff08;BST&#xff09;的根节点 root 和一个整数值 val。你需要在 BST 中找到节点值等于 val 的节点。 返回以该节点为根的子树。 如果节点不存在&#xff0c;则返回 null 。 解析 最基本的二叉搜索树的应用&#xff0c;递归或者while循环都可以…

dll文件是什么?电脑丢失某个dll文件有什么解决办法

Dll文件是什么&#xff1f;这个文件在电脑中是什么样的地位&#xff1f;如果电脑提示丢失了某个dll文件那么有什么办的解决这个问题呢&#xff1f;如何将丢失的dll文件进行修复呢&#xff1f;今天这篇文章将按就来教大家几种修复丢失dll文件问题的方法。 DLL 文件&#xff0c;全…

docker三种自定义网络(虚拟网络) overlay实现原理

docker提供了三种自定义网络驱动&#xff1a;bridge、overlay、macvlan。 bridge驱动类似默认的bridge网络模式。 overlay和macvlan是用于创建跨主机网络。 支持自定义网段、网关&#xff0c;docker network create --subnet 172.77.0.0/24 --gateway 172.77.0.1 my_n…

el-table-column两种方法处理特殊字段,插槽和函数

问题&#xff1a;后端返回的字段为数字 解决办法&#xff1a; {{ row[item.prop] 1 ? "启用" : "禁用" }} {{ row[item.prop] }} 最终果&#xff1a; 另外&#xff1a;如果多种状态时可用函数 {{ getStatus(row[item.prop]) }} {{ row[item.prop…

开源RAG,本地mac启动 dify源码服务

一、Dify文档 参考官方文档来操作&#xff0c;基本没太大的问题。一些细节&#xff0c;我在本篇文章中补充了出来。 这篇文章主要讲以源码的方式启动后端服务&#xff0c;前端服务使用容器启动。 dify 文档地址 欢迎使用 Dify | 中文 | Dify Dify 本地源码部署文档&#xff…

Flume 的基本介绍和安装部署

一、Flume 概述 Flume 是 Cloudera 提供的一个高可用的&#xff0c;高可靠的&#xff0c;分布式的海量日志采集、聚合和传输的框架服务 Flume 基于流式架构&#xff0c;灵活简单&#xff0c;能够实时读取服务器本地磁盘的数据&#xff0c;将数据写入到 HDFS 二、Flume 基础架构…

react实现把pc网站快捷添加到桌面快捷方式

文章目录 1. 需求2. 实现效果3. 核心逻辑4. 完整react代码 1. 需求 这种需求其实在国外一些游戏网站和推广网站中经常会用到&#xff0c;目的是为了让客户 快捷方便的保存网站到桌面 &#xff0c;网站主动尽量避免下次找不到网站地址了&#xff0c;当然精确的客户自己也可以使…

再次学习History.scrollRestoration

再次学习History.scrollRestoration 之前在react.dev的源代码中了解到了这个HIstory的属性&#xff0c;当时写了一篇笔记来记录我对它的理解&#xff0c;现在看来还是一知半解。所以今天打算重新学习一下这个属性&#xff0c;主要从属性以及所属对象的介绍、使用方法&#xff0…

基于BERT的中文命名实体识别识别实战

数据与代码链接见文末 bert开源项目解读:谷歌开源项目BERT源码解读与应用实例-CSDN博客 基于BERT的中文情感分析实战:基于BERT的中文情感分析实战-CSDN博客 1.命名实体识别任务 命名实体识别的主要目的是从文本中自动检测并分类出具有特定意义的命名实体,如人名、地名、组…

Stable Diffusion 模型演进:LDM、SD 1.0, 1.5, 2.0、SDXL、SDXL-Turbo 等

节前&#xff0c;我们星球组织了一场算法岗技术&面试讨论会&#xff0c;邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 合集&#x…

【openlayers系统学习】1.4 交互-绘制新要素

四、绘制新要素 Drawing new features 绘制新要素 我们的特征编辑器现在可用于加载数据和修改特征。接下来&#xff0c;我们将添加 Draw​ 交互&#xff0c;以允许人们绘制新功能并将其添加到我们的源中。 首先&#xff0c;导入 Draw​ 交互&#xff08;在 main.js​ 中&…

Qt笔记:动态处理多个按钮点击事件以更新UI

问题描述 在开发Qt应用程序时&#xff0c;经常需要处理多个按钮的点击事件&#xff0c;并根据点击的按钮来更新用户界面&#xff08;UI&#xff09;&#xff0c;如下图。例如&#xff0c;你可能有一个包含多个按钮的界面&#xff0c;每个按钮都与一个文本框和一个复选框相关联…

论文AIGC降重

在这个人工智能横行的时代&#xff0c;AI写作工具被使用到论文写作中也已是常态。可AI写出来的东西怎么能逃得过AIGC检测呢&#xff1f;让我带大家了解&#xff0c;如何让你的论文在AI的包围下依旧保持那份独特的“人类气息”&#xff0c;成功通过AIGC检测。 AI写作工具是个好…

vue.js基础组件4--下

1.动态组件 1.定义动态组件 利用动态组件可以动态切换页面中显示的组件。使用<component>标签可以定义动态组件&#xff0c;语法格式如下。 <component is"要渲染的组件"></component>上述语法格式中&#xff0c;<component>标签必须配合i…

实战之快速完成 ChatGLM3-6B 在 GPU-8G的 INT4 量化和本地部署

ChatGLM3 (ChatGLM3-6B) 项目地址 https://github.com/THUDM/ChatGLM3大模型是很吃CPU和显卡的&#xff0c;所以&#xff0c;要不有一个好的CPU&#xff0c;要不有一块好的显卡&#xff0c;显卡尽量13G&#xff0c;内存基本要32GB。 清华大模型分为三种(ChatGLM3-6B-Base&…

海山数据库(He3DB)从方法到实践,构建以场景为中心的体验管理体系

编者按&#xff1a;体验优化的过程中设计师经常会遇到几个阶段&#xff0c;发现问题、定义问题、优化问题、查看反馈&#xff0c;但在产品快速迭代的过程中&#xff0c;体验的问题经常被归类到“不紧急”需求中&#xff0c;并逐步转为长尾问题&#xff0c;这些不被重视的问题聚…