专业定制伺服电动缸的电动缸厂家

咨询热线:13905180521
杏彩体育官网入口

杏彩体育官网入口网址·中文OCR超越GPT-4V参数量仅2B面壁小钢炮拿

来源:杏彩体育官网网址 作者:杏彩体育官网入口2024-05-21 08:59:09
杏彩体育官网入口网址·

  最近一段时间,科技公司大力投入生成式 AI,一系列新的概念正在出现:手机厂商认为「AI 手机」正在引领手机形态的第三次转变;PC 厂商认为「AI PC」可能会改变个人电脑的形态;而对于更多科技公司来说,AI 进入 2.0 时代后,所有应用「都应该重写一遍」。

  这些改变游戏规则的事物,背后隐含着一个逻辑:AI 大模型需要快速覆盖大量场景。而对于算力有限的端侧而言,优化是重中之重。从应用落地的角度看,轻量级、MoE 大模型已经成为人们重要的探索方向。

  面对逐渐增多的生成式 AI 落地需求,「清华系」创业公司面壁智能一直在致力于对语言模型进行优化,使其在同等成本下达到更好的效果。

  今年 2 月 1 日,面壁智能发布的第一代 2B 旗舰端侧大模型 MiniCPM,不仅超越了来自「欧洲版 OpenAI」Mistral 的性能标杆之作,同时整体领先于 Google Gemma 2B 量级,还越级超越了一些业内标杆的 7B、13B 量级模型,如 LLaMa2-13B 等。

  仅仅 70 天以后,端侧大模型面壁 MiniCPM 小钢炮的第二弹乘胜追击,迎来多模态、长文本、MoE 等领域模型的迭代,主打的就是「小而强,小而全」。

  首先是近来各个大模型厂商都极力主推的多模态能力。面壁智能此次发布了能跑在手机上的「最强端侧多模态大模型」MiniCPM-V 2.0,参数规模仅为 2.8B,但在与参数远超自己的竞品模型较量中实现越级胜出。

  模型通用能力越强,意味着幻觉水平越低,事实准确性越高。因此,MiniCPM-V 2.0 大大降低了自身幻觉水平。

  在评估大模型幻觉的 Object HalBench 榜单中,幻觉水平与 GPT-4V 持平(见图上)。下面是实测的一次看图说话任务,MiniCPM-V 2.0 出现了 3 处幻觉,GPT-4V 出现了 6 处幻觉(见图下高亮红字):

  除了越来越强大的通用能力,在 OCR(光学字符识别)这一多模态识别与推理能力的硬性指标上,MiniCPM-V 2.0 更有亮眼的表现,在精准识别图片中物体的同时,对包括古文字在内的文字符号的识别迎来了史诗级加强。

  比如让该模型识别清华大学收藏的「清华简」竹简上的古文字,它轻松搞定了简单字(下图左)和复杂字(下图右)的识别。

  此外,MiniCPM-V 2.0 在 OCR 综合能力榜单 OCRBench 上刷新开源模型 SOTA 表现;还在场景图片文字识别榜单 TextVQA 上超越全系 13B 量级通用模型,其中文字理解表现越级比肩了业界王者谷歌 Gemini Pro,让我们惊叹它的进化之快。

  评测数据如此之强,让 MiniCPM-V 2.0 面对一系列 OCR 场景经典难题时毫无压力。传统大模型只能处理 448×448 像素固定的小图,对于包含海量信息的更精细图片识别则力有不逮。对于构图繁复、细节丰富的街景识别,MiniCPM-V 2.0 模型抓全景、抓细节、抓重点的能力显然更胜一筹。

  此外还有传统大模型往往表现不佳的长图识别,其中包含的大量文本信息对模型构成了巨大挑战。而 MiniCPM-V 2.0 能够更稳、更准地捕获长图重点信息,进行摘要总结,这是之前的模型无法做到的。

  当然,在中文 OCR 场景任务的表现上,MiniCPM-V 2.0 超越了 GPT-4V,能后者之所不能。

  面壁智能将「小」做到极致,推出了一款体量更小的模型 ——MiniCPM-1.2B,号称「小小钢炮」。模型参数虽然较上一代 2.4B 模型减少了一半,但仍保留了其 87% 的综合性能。

  同样用数据说话,在 C-Eval、CMMLU、MMLU 等多个公开权威评测榜单上,综合性能越级超越了 Qwen1.8 B、LLaMa2-7B 甚至是 LLaMa2-13B,展现出了更小模型击败大模型的巨大潜力。

  更小参数意味着更有利于手机等端侧设备上部署和运行。活动现场,面壁智能演示了 MiniCPM-1.2B 在 iPhone 15 上流畅的运行效果,推理速度提升 38%,达到了 25 token/s,是人说线 倍。

  1.2B 的体量让语言模型的应用范围不在仅限于旗舰手机,极致的优化让模型的体量更小,使用场景却大大增多了。尤其对于想要在端侧部署大模型的手机厂商来说,MiniCPM-1.2B 是个不错的选择。

  MiniCPM「小钢炮」同样强化了长文本理解能力。此次推出的 MiniCPM-2B-128K 成为了支持 128K 上下文窗口的最小体量模型。

  多模态和长文本保证了 MiniCPM 模型能力的基本盘,而混合专家模型(MoE)架构的引入让该系列模型的能力更上一层楼。全新 MiniCPM-MoE-8x2B 模型将第一代 2B 模型的平均性能提升了 4.5 个百分点,并且相较于完全从头开始训练,训练成本大大降低。

  该模型的平均激活参数虽然只有 4B,但在 BBH、MMLU 等 12 个权威评测基准上的平均成绩取得了第一,甚至击败了 LLaMa-34B,而推理成本仅仅为 Gemma-7B 的 69.7%。

  至此,面壁智能将覆盖多模态、长文本、MoE 架构的新四「小」模型一一铺开,充分挖掘小体量大模型的全方位能力,在一众更大参数规模的竞品模型中成功突围。

  今年 2 月 MiniCPM 第一代的发布会上,面壁智能联合创始人刘知远曾表示:「我们会在春节之后不断发布 MiniCPM 的新版本,性能还会进一步提升。我们要给大家春节的休息时间。」几十天后,面壁智能果然拿出了亮眼的成绩。

  先以 MiniCPM-V 2.0 展现的超强多模态能力来说,该模型面对一系列 OCR 场景的经典难题都给出对应的高效技术解决方案。

  比如上文展示的更精细图片识别和长图识别,都要得益于高清图片、高效编码和任意宽高比图像无损识别,使得对小物体和光学字符等细腻视觉信息的感知能力大大增强,可以处理最大 180 万像素高清大图,甚至 1:9 极限宽高比的高清图片,对它们进行高效编码和无损识别。

  做到这些靠的是面壁智能的一项独门技术 —— LLaVA-UHD,它包含了三大重要组件,即模块化视觉编码、视觉压缩模块和空间修饰方法,它们发挥的作用分别如下:

  此。