孙元浩:大模型在特定领域只是本科生,有3个限制
“当我们用大模型在行业中落地的时候,很快就发现了一个挑战——大模型虽然在理解人类自然语言、归纳生成文本图像上有惊人的表现,但它无法理解行业术语,也不能执行行业的特定任务,更无法针对行业做分析、推理和决策。”5月26日,星环科技(688031.SH)创始人、CEO孙元浩在上海举行的向星力·未来数据技术峰会(FDTC)上谈到,“在特定领域中,大模型还不能像一个专家一样,它目前只相当于一个本科生或本科低年级的水平,只能作为一个实习生,专业知识库以及行业深度知识的缺乏,让它没办法解决特定行业的业务问题。”
为何如此?孙元浩认为其原因是,不管是通用模型还是微调后的行业大模型,目前都面临3个限制:
第一,训练需要时间,而且时间比较长,可能会有半年或一年。但在训练后,资讯、实时新闻、市场行情等快速变化的信息无法内置到模型中,需要一个外部的机制和存储去存放实时信息。
(资料图)
第二,不管是通用还是行业大模型,输入都有限制,这个限制取决于它的算力和工程化难度。所以一般来说,大模型的输入都有token(字符)的设置,GPT-3的限制是4096个token(标识符),相当于大概1024个汉字;GPT-4是大概24000多个汉字,32000多个token。也就意味着,如果要把一个上市公司的年报全部放进去,可能就超过这个限制,不能进行分析。所以,需要一个外挂存储来存放这些输入的信息。
第三,因为大模型有时精准度不够,出现“幻觉”,所以需要一个知识库来校正结果,需要一个机制来补充大模型,让它能够给出准确的答案和更实时的信息。
向量数据库就是大语言模型的海马体
“向量数据库(vector databases)承担了中间存储的角色。”孙元浩认为,向量数据库就是大语言模型的海马体(存放记忆)。它的基本功能是把非结构化的数据转成高维向量,然后提供进一步的搜索。
伴随着AI大模型的应用需求提升,向量数据库也成为最近的投资热点。在今年3月的英伟达GTC大会上,黄仁勋首次提及向量数据库,并强调对于构建专有大型语言模型的组织而言,向量数据库至关重要。
据东北证券研报介绍,向量数据库是专门用来存储和查询向量的数据库,其存储的向量来自于对文本、语音、图像、视频等的向量化,它的一个很重要的功能是拓展大模型的时间边界和空间边界。扩展时间边界指,向量数据库能够使大模型拥有“长期记忆”。空间边界指,向量数据库能够协助解决目前企业最担忧的大模型泄露隐私问题。
“大语言模型兴起之后,以其为基础呈现了成千上万种应用,那么就需要一个高可扩展的向量数据库来存放更多信息,同时要能够提供高速检索。因为大语言模型本身受限于算力,它的计算逻辑是一直预测下一个单词,所以算力需求比较大,速度会变慢,要提供毫秒级的响应,才能跟得上响应速度。”孙元浩说。
向量数据库的工作原理可以理解为:第一,把最新的信息、经常变化的信息(如产品信息、市场行情信息、供应链信息)、以及个人相关信息(如分析习惯,如对一只股票的分析步骤、看哪些基本面等)几类信息放进向量数据库;第二,放数据的过程中,通过嵌入(embedding,将一个内容实体映射为低维向量,从而可以获得内容之间的相似度)把它变成一个高维向量(向量为几百维到几千维,现在通常是1536维)。
最后,当提问或与大模型对话时,先把这个问题转成高维向量,进行语义搜索,找到相关的信息,然后再把它拼接成提示词发给大语言模型,最后语言模型生成答案。
让大模型变成行业专家
利用向量数据库和图数据库(可以高效地存储和查询节点之间的关系和属性,应用在社交网络、知识图谱等场景),即可构建特定领域大模型的应用。
孙元浩在现场演示,“这个是我们目前用的70亿参数的开源大模型,我们问它中粮集团今年的玉米收储价是多少?它不知道。我们再问它,新希望生产猪饲料的主要合作上下游企业有哪些?它也只是泛泛地回答,没有行业知识。我们用农业知识图谱等补充以后,它可以立刻告诉你最新的收储价是3元人民币,以及这个价格的影响。另外,它也直接回答了猪饲料主要的供应商是正大集团。”
通过这样一个工具,就可以解决大模型的几个大问题:第一,把实时的知识、变化的知识放到大模型中。第二,校正结果的准确性,极大提升精度,即使不经过微调,也可以利用工具去构建这样的知识图谱,增强大模型的能力。
在未来数据技术峰会上,星环科技也推出了这一工具。据孙元浩介绍,这一工具的前端可以组织成智能客服的显示,也可以是API(应用程序编程接口)的显示。中间层提供知识图谱的构建工具,提供样本仓库、向量数据库和图数据库。末端即金融行业大模型“无涯”,以及可作为数据查询和分析的智能助手的“求索”大模型。
在现场演示中,“无涯”可以“回答”金融量化领域的各类问题,例如政策和研报分析、新闻解读、舆情分析等,能够对个股、债券、基金、商品等各类市场事件进行复盘和推演。
“求索”大模型则作为数据查询和分析的智能助手,为数据工程师、数据科学及业务人员提供服务,希望让非专业用户在不需要学习和掌握数据库编程语言的前提下,就可以通过自然语言按需查询数据。
星环科技成立于2013年,2022年10月在科创板挂牌上市,大数据平台和分布式数据库是其核心产品。
“未来在每一个领域,如金融、政府、能源、交通等,我认为都需要诞生很多领域或行业的大模型,它们具有专家的能力,能够在上面构造复杂的应用。”孙元浩说。
(原标题:星环科技创始人孙元浩:大模型在特定领域只是本科生,有3个限制)
关键词:
上一篇:淘宝颜色分类怎么编辑名称_淘宝颜色分类怎么设置成文字
下一篇:最后一页
精心推荐
- 如何把旧电脑的数据转移到新电脑上?
- 2023年浙江队主场继续落户湖州
- 医疗器械板块1月10日涨1.48%,春立医疗领涨,北向资金增持3.51亿元_天天头条
- 描写草莓搞笑的句子(精选275句)_当前焦点
- 泛亚微透(688386):泛亚微透关于持股5%以上股东减持比例达到1%的提示性公告
- 今热点:广州检方五年来追偿修复生态、治理环境费用3.39亿元
- 小鲨易贷逾期1天会上征信系统吗
- 【光明图刊】温馨服务护航旅客回家路
- 异质结电池HJT板块1月9日涨0.07%,杭萧钢构领涨,主力资金净流出8.7亿元
- e点贷借款逾期拖欠多久上征信 全球快播报
- 海天味业的成本之压:毛利率连年大降,净利润下行态势能否止住?
- 昌平区普通工伤如何计算_天天资讯
- 热点评!Notion 很好,但我已经换到了钉钉文档
- 时讯:【与时代同梦与梦想同行】秦一(小一姐姐):我愿讲述最美的中国故事
-
1、确保小猫至少八周大,洗澡不适合八周以下的猫。在八周之前,母猫将满足小猫的大部分梳理需求。2、先将小猫的身体弄湿,将小猫放入水槽,防
-
调查:脱贫地区乡村儿童家庭规模平均5人,多为“父养母教”
-
个人分析,玉米长期多头趋势尚难寻踪迹,目前行情应以反弹趋势对待,短期操作谨慎追多。第一,据Mysteel农产品12月29日-1月4日数据,全国146家
-
就是这个味道,而且它不止有玫瑰香,还有奶香,这是一种复合型的味道。一串阳光玫瑰的重量,是可以达到600克的,最大的能达到1 8kg,平均果粒
-
文|阑夕时间过得真快,上次这么醒来点亮手机,还是在去年。有人说刚刚结束的不是2022年,而是2020年的第3季,至于2023会是续订的第4季,还是彻
X 关闭
X 关闭
产业
-
不用跑北京 在家门口也能挂上顶...
日前,我省首个神经疾病会诊中心——首都医科大学宣武医院河北医院...
-
“十四五”期间 河北省将优化快...
从省邮政管理局获悉,十四五期间,我省将优化快递空间布局,着力构...
-
张家口市宣化区:光伏发电站赋能...
3月19日拍摄的张家口市宣化区春光乡曹庄子村光伏发电站。张家口市宣...
-
“张同学”商标被多方抢注 涉及...
“张同学”商标被多方抢注,官方曾点名批评恶意抢注“丁真” ...
-
山东济南“防诈奶奶团”花式反诈...
中新网济南12月15日电 (李明芮)“老有所为 无私奉献 志愿服...
-
广州新增1例境外输入关联无症状...
广州卫健委今日通报,2021年12月15日,在对入境转运专班工作人...
-
西安报告初筛阳性病例转为确诊病例
12月15日10:20,经陕西西安市级专家组会诊,西安市报告新冠病毒...
-
广东东莞新增本土确诊病例2例 ...
(抗击新冠肺炎)广东东莞新增本土确诊病例2例 全市全员核酸检测...
-
中缅边境临沧:民警深夜出击捣毁...
中新网临沧12月15日电 (胡波 邱珺珲)记者15日从云南临沧边境...
-
“土家鼓王”彭承金:致力传承土...
中新网恩施12月15日电 题:“土家鼓王”彭承金:致力传承土家...