广西壮族自治区信息中心 - http://gxxxzx.gxzf.gov.cn/
当前位置:首页 > 决策咨询研究

我国自然语言处理产业链构成

2022-11-04 10:30     来源:大数据研究课题组
分享 微信
头条
微博 空间 qq
【字体: 打印

    自然语言处理产业链上游市场主体为基础资源提供商,包括硬件供应商(如芯片供应商、服务器供应商和存储供应商等)和软件供应商(如云服务供应商和数据库供应商等);中游市场由自然语言处理算法供应商、自然语言处理解决方案供应商以及自然语言处理应用供应商组成,负责为下游需求端提供服务;下游市场主体为各类型用户,包括企业用户和个人用户,企业用户涉及金融、医疗、教育、出行服务、互联网服务等领域,个人用户则为最终消费者。

图1 我国自然语言处理产业链

一、产业链上游

自然语言处理产业链上游市场由基础资源供应商组成,涉及网络设备、服务器、芯片、存储、云服务、数据库等软、硬件供应商,负责为自然语言处理技术和产品开发商提供必要的资源支持。

(一)芯片供应商

现阶段,行业内尚未出现专门用于自然语言处理运算的芯片,核心数据处理芯片CPU无法执行自然语言处理结构化运算,目前适用于自然语言处理的芯片类型有GPU、FPGA、

ASIC和DSP。

GPU解决浮点运算、数据并行计算问题优势明显,可提供高密度运算能力,解决大量数据元素并行问题。但GPU芯片功耗大,依托于X86架构服务器而运行,成本高昂,不适用于广泛的自然语言处理产品方案的开发,在自然语言处理与传统行业数字化进程结合加深的趋势下,采用GPU作为自然语言处理运算芯片的方案不具备成本优势,小型自然语言处理应用项目负担不起高昂成本。

FPGA具有可编程性,设计者可根据需要的逻辑功能对FPGA电路进行快速烧录,从而改变其出厂设计,灵活性强。但FPGA的设计布线相对固定,各种型号的FPGA芯片逻辑资源相对固定,选定了型号即决定了芯片的逻辑资源上限,无法随意增加运算能力。

ASIC芯片的运算能力强、规模量产成本低,全定制设计需要设计者完成所有电路的设计,开发周期长,时间成本高昂,主要适用于量大、对运算能力要求较高、开发周期较长的领域。

DSP内有控制单元、运算单元、各种寄存器以及存储单元,其外围还可以连接若干存储器和一定数量的外部设备,有软、硬件的全面功能,本身是一个微型计算机,运算能力强、速度快、体积小,而且采用软件编程具有高度的灵活性。但目前DSP的性能并未通过实践验证,也未生产出可以与GPU相匹敌的芯片器件,商业化应用仍在研发过程中。

为满足自然语言处理等人工智能的发展需求,部分针对深度学习的芯片,如TPU、NPU、DPU和BPU等相继面世,但受场景以及性能限制,专用的人工智能芯片发展尚未成熟。目前自然语言处理运算的最佳芯片方案仍以GPU为主导。

(二)云服务供应商

云服务供应商为自然语言处理研发企业提供基础设施平台,解决自然语言处理技术研发厂商的数据存储、运算以及调用问题。由于性价比、部署方式等因素,自然语言处理研发企业较多选用公有云服务。目前,公有云服务供应商有:①通过云服务产业链资源优势拓展至公有云服务行业的企业,如电信运营商,网络设备制造商,IDC厂商等,此类企业拥有较强的资金实力,加上本身处在公有云产业链上游,基础设施方面优势明显;②大型互联网企业,如亚马逊,腾讯、阿里巴巴等,此类企业资金实力雄厚,客户认可度高,设施齐备、技术成熟,具备发展公有云业务的有利条件;③传统的软件企业,如Microsoft、Oracle、金蝶等,此类企业的软件产品的市场认可度高,技术积累丰厚,客户资源丰富,有利于向公有云市场拓展。除此之外,行业中存在不少新兴的创业公司,如青云、UCloud、七牛云等。

(三)数据

数据是人工智能发展的基石,海量数据为训练人工智能提供原材料。近年来,由学术及研究机构承担建设的公共数据集不断丰富,数据质量不断提高,利于人工智能企业提高智能模型的准确度。例如,可运用于自然语言处理训练的数据集类型不断丰富,维基百科语料库、斯坦福大学问答数据集、亚马逊美食评论集、康奈尔电影对话语料库、经济新闻相关文章等语言集合相继建成,内容覆盖媒体用语、网络用语、电影用语、政府用语等众多自然语言应用场景,有助于自然语言处理研发企业优化用于处理不同领域自然语言的模型的准确度。

二、产业链中游

自然语言处理产业链中游市场主体主要有自然语言处理算法提供商、解决方案提供商以及应用产品开发商。目前中国的自然语言处理厂商较多集研发算法、解决方案以及应用产品功能于一身,厂商自主研发自然语言处理算法,形成一整套自然语言处理关键技术方案,并将自主研发的自然语言处理算法以及技术方案内嵌于自有应用产品体系中,典型代表有百度、阿里巴巴和腾讯。

百度自然语言处理算法研究覆盖面广,涉及深度问答、阅读理解、智能写作、对话系统、机器翻译、语义计算、语言分析、知识挖掘等自然语言处理细分领域。百度积累了解决问句理解、答案抽取、观点分析与聚合等环节的一整套深度问答技术方案,目前已将该套技术方案应用于百度搜索引擎、百度手机浏览器、百度翻译、百度语音助手、小度机器人等多个产品中。百度在自然语言篇章理解方面,形成篇章结构分析、主体分析、内容标签、情感分析等关键技术,且该类关键技术已在百度搜索、百度信息流、糯米等产品中实现应用。

阿里巴巴开展自然语言处理技术研究主要为旗下产品服务,如阿里巴巴在其电商平台中构建知识图谱实现智能导购,对电商用户进行兴趣挖掘实现精准营销,在蚂蚁金融、淘宝卖家等客服场景中实现机器人提供客服服务,在跨境电商业务中采用机器翻译服务进行商家商品信息翻译、广告词翻译以及买家采购需求翻译等。

三、产业链下游

自然语言处理产业链下游市场主体为各类型用户,包括企业用户和个人用户。企业用户主要购买行业应用,如智能客服产品、舆情分析产品、文本分类产品等,帮助企业用户提升业务处理的智能化水平。目前的B端市场是自然语言处理厂商竞争的焦点,部分应用产品(如智能客服、舆情分析产品等)尝试了商业化运作,市场反馈良好,但众多细分领域市场发展并未成熟,市场空间仍待挖掘。

个人用户主要使用手机语音助手、机器翻译软件、信息检索以及互联网搜索等服务。个人用户使用的自然语言处理技术应用产品较多是自然语言处理厂商免费提供的,自然语言处理厂商普遍未在C端市场开发清晰的商业模式。

   (来源:《2019年中国自然语言处理行业研究报告》)




文件下载:

关联文件: