中文OCR超越GPT-4V参数量仅2B面壁小钢炮拿_杏彩体育(中国).官网入口网址

杏彩体育官网入口网址·中文OCR超越GPT-4V参数量仅2B面壁小钢炮拿

来源：杏彩体育官网网址作者：杏彩体育官网入口2024-05-21 08:59:09

杏彩体育官网入口网址·

　　最近一段时间，科技公司大力投入生成式 AI，一系列新的概念正在出现：手机厂商认为「AI 手机」正在引领手机形态的第三次转变；PC 厂商认为「AI PC」可能会改变个人电脑的形态；而对于更多科技公司来说，AI 进入 2.0 时代后，所有应用「都应该重写一遍」。

　　这些改变游戏规则的事物，背后隐含着一个逻辑：AI 大模型需要快速覆盖大量场景。而对于算力有限的端侧而言，优化是重中之重。从应用落地的角度看，轻量级、MoE 大模型已经成为人们重要的探索方向。

　　面对逐渐增多的生成式 AI 落地需求，「清华系」创业公司面壁智能一直在致力于对语言模型进行优化，使其在同等成本下达到更好的效果。

　　今年 2 月 1 日，面壁智能发布的第一代 2B 旗舰端侧大模型 MiniCPM，不仅超越了来自「欧洲版 OpenAI」Mistral 的性能标杆之作，同时整体领先于 Google Gemma 2B 量级，还越级超越了一些业内标杆的 7B、13B 量级模型，如 LLaMa2-13B 等。

　　仅仅 70 天以后，端侧大模型面壁 MiniCPM 小钢炮的第二弹乘胜追击，迎来多模态、长文本、MoE 等领域模型的迭代，主打的就是「小而强，小而全」。

　　首先是近来各个大模型厂商都极力主推的多模态能力。面壁智能此次发布了能跑在手机上的「最强端侧多模态大模型」MiniCPM-V 2.0，参数规模仅为 2.8B，但在与参数远超自己的竞品模型较量中实现越级胜出。

　　模型通用能力越强，意味着幻觉水平越低，事实准确性越高。因此，MiniCPM-V 2.0 大大降低了自身幻觉水平。

　　在评估大模型幻觉的 Object HalBench 榜单中，幻觉水平与 GPT-4V 持平（见图上）。下面是实测的一次看图说话任务，MiniCPM-V 2.0 出现了 3 处幻觉，GPT-4V 出现了 6 处幻觉（见图下高亮红字）：

　　除了越来越强大的通用能力，在 OCR（光学字符识别）这一多模态识别与推理能力的硬性指标上，MiniCPM-V 2.0 更有亮眼的表现，在精准识别图片中物体的同时，对包括古文字在内的文字符号的识别迎来了史诗级加强。

　　比如让该模型识别清华大学收藏的「清华简」竹简上的古文字，它轻松搞定了简单字（下图左）和复杂字（下图右）的识别。

　　此外，MiniCPM-V 2.0 在 OCR 综合能力榜单 OCRBench 上刷新开源模型 SOTA 表现；还在场景图片文字识别榜单 TextVQA 上超越全系 13B 量级通用模型，其中文字理解表现越级比肩了业界王者谷歌 Gemini Pro，让我们惊叹它的进化之快。

　　评测数据如此之强，让 MiniCPM-V 2.0 面对一系列 OCR 场景经典难题时毫无压力。传统大模型只能处理 448×448 像素固定的小图，对于包含海量信息的更精细图片识别则力有不逮。对于构图繁复、细节丰富的街景识别，MiniCPM-V 2.0 模型抓全景、抓细节、抓重点的能力显然更胜一筹。

　　此外还有传统大模型往往表现不佳的长图识别，其中包含的大量文本信息对模型构成了巨大挑战。而 MiniCPM-V 2.0 能够更稳、更准地捕获长图重点信息，进行摘要总结，这是之前的模型无法做到的。

　　当然，在中文 OCR 场景任务的表现上，MiniCPM-V 2.0 超越了 GPT-4V，能后者之所不能。

　　面壁智能将「小」做到极致，推出了一款体量更小的模型 ——MiniCPM-1.2B，号称「小小钢炮」。模型参数虽然较上一代 2.4B 模型减少了一半，但仍保留了其 87% 的综合性能。

　　同样用数据说话，在 C-Eval、CMMLU、MMLU 等多个公开权威评测榜单上，综合性能越级超越了 Qwen1.8 B、LLaMa2-7B 甚至是 LLaMa2-13B，展现出了更小模型击败大模型的巨大潜力。

　　更小参数意味着更有利于手机等端侧设备上部署和运行。活动现场，面壁智能演示了 MiniCPM-1.2B 在 iPhone 15 上流畅的运行效果，推理速度提升 38%，达到了 25 token/s，是人说线倍。

　　1.2B 的体量让语言模型的应用范围不在仅限于旗舰手机，极致的优化让模型的体量更小，使用场景却大大增多了。尤其对于想要在端侧部署大模型的手机厂商来说，MiniCPM-1.2B 是个不错的选择。

　　MiniCPM「小钢炮」同样强化了长文本理解能力。此次推出的 MiniCPM-2B-128K 成为了支持 128K 上下文窗口的最小体量模型。

　　多模态和长文本保证了 MiniCPM 模型能力的基本盘，而混合专家模型（MoE）架构的引入让该系列模型的能力更上一层楼。全新 MiniCPM-MoE-8x2B 模型将第一代 2B 模型的平均性能提升了 4.5 个百分点，并且相较于完全从头开始训练，训练成本大大降低。

　　该模型的平均激活参数虽然只有 4B，但在 BBH、MMLU 等 12 个权威评测基准上的平均成绩取得了第一，甚至击败了 LLaMa-34B，而推理成本仅仅为 Gemma-7B 的 69.7%。

　　至此，面壁智能将覆盖多模态、长文本、MoE 架构的新四「小」模型一一铺开，充分挖掘小体量大模型的全方位能力，在一众更大参数规模的竞品模型中成功突围。

　　今年 2 月 MiniCPM 第一代的发布会上，面壁智能联合创始人刘知远曾表示：「我们会在春节之后不断发布 MiniCPM 的新版本，性能还会进一步提升。我们要给大家春节的休息时间。」几十天后，面壁智能果然拿出了亮眼的成绩。

　　先以 MiniCPM-V 2.0 展现的超强多模态能力来说，该模型面对一系列 OCR 场景的经典难题都给出对应的高效技术解决方案。

　　比如上文展示的更精细图片识别和长图识别，都要得益于高清图片、高效编码和任意宽高比图像无损识别，使得对小物体和光学字符等细腻视觉信息的感知能力大大增强，可以处理最大 180 万像素高清大图，甚至 1:9 极限宽高比的高清图片，对它们进行高效编码和无损识别。

　　做到这些靠的是面壁智能的一项独门技术 —— LLaVA-UHD，它包含了三大重要组件，即模块化视觉编码、视觉压缩模块和空间修饰方法，它们发挥的作用分别如下：

　　此。

上一篇：国内首款AI音乐大模型一曲封神！核心技术业内首公开

上一篇：高自由度人形机器人电机分析无框力矩电机构筑大扭矩灵

产品案例

杏彩体育(中国).官网入口网址是国内专业的伺服电动缸厂家，杏彩体育官网入口网址主要经营伺服电动缸、伺服电缸、高精度电动缸、直连式电动缸、并联式电动缸等设备，种类型号齐全。同时汇聚电动缸行业优秀人才，产品广泛应用于汽车、模具、航空航天等行业。

杏彩体育(中国).官网入口网址

咨询热线：13905180521

杏彩体育官网入口网址·中文OCR超越GPT-4V参数量仅2B面壁小钢炮拿

产品案例

杏彩体育官网网址恩畅自动化设备助力哈工大“微纳双星”成功发射

杏彩体育官网网址世界著名八大发动机原理看懂一半都是老司机了

杏彩体育官网网址双人座动感汽车驾驶模拟器

杏彩体育官网网址伺服电机的选型比较

杏彩体育官网网址电液伺服阀作用_电液伺服阀选型

杏彩体育官网网址一同了解下伺服电动机的选型

咨询热线：13905180521