封面故事 中国的自然语言处理领域的 人工智能公司 龙 I、 侄缝于辽朝应历 年.泉寺北以京前荫并山凤不太凰出岭 , .山脚下它坐,落始 寺脯山门前有两棵遒劲的翠柏拔地 而起,据说已经有60()多岁,避进寺内, 可以看到粗壮挺拔的古银峦埘,据说也 已经1()…多岁 这坐隐居着一批 外高人,他们发 明r一个会说话的机器僧人…贤二”。 立¨果你问贤二: “贤二,我心情不 好怎么办呢?” 贤二可能会说: “试着读一些好 书吧 ” 贤一是全球酋个人 能“出家 人” 身高6f)厘米,穿着黄色憎袍,特 长是诵 、对话,甚至还会唱歌,尤其 难能可贵的是他还会卖萌。 贤一为什么能与人对话呢?原来, 它应r玎J 最新的人工智能自然语言处理 技术。 什么是自然语言处理? IIF/a1哥德巴赫猜想是教沦旱冠上的 州球,澉软创始人比尔·盖茨曾经如是 , “自然语苦理解是人工智能领域皇 } 的…珠” 比尔·盖茨昕说的自然沿言理解 娃自然l 言处理的一个重要组成部分。 自然 ^处理的英文是Natural Language Processillg,一般破简写为NLP,它实际 _卜包插J’三个方面:语音 别、自然语 言 眸 浯音合成(有一些人把语音识 62《q[1l ̄NI;t, I20I 8.8 5 别作为自然语言处理之外的技术,在本 文_T1,我们将语音识别也包含住自然语 言处理的技术范畴之内)。 霍金不会说话,世英特尔公司给他 定制的电恼轮椅可以帮他说话,这背后所 利用的技术就是语音合成技术 晤音合成 技术可以把文本信息转化为语音信息。当 然r,镌金的电脑轮椅设备是没仃人工智 能的(也就是说语音合成并不 一定是人工 智能,关键还是要看机器背后的算法)。 科学家们已经可以让电呐像人那 样自主说话,这个时候电呐就具有人工 智能的语音合成。比如微软小冰,比如 “贤二:”机器人和尚.这些会说话的机 器人都具有人工智能 、 前面已经说过,自然语言处理包括 了二个方面:语音识别、自然语言理解 晤音合成。这三方面分钏解决了三个 肜肜色色的应川造 e j,肜肜色 『l,J 、I , , 联 周 I:IJ .F J,rl然i .’ 处理领域的代表 公州排 榜 问题:听清楚别人在说什幺,理解别人 说的意思,根据听剑的 j理解到的对晒 内容回答别人的问题。 自然语言处理是]_业界 j学术界都关 注的人】:智能领域,这一领域的真驶肚发 展与深度学习算法的成熟有直接的关系 加拿夫多伦多大学的辛 是深度学习的先 驱,他和学生十20(/6年发表 《科学》上 的文章提出 降维与逐层预训练的方法, 这使得深度学习成为可能。20(19年,微软 亚i3' 开究院的邓力小组开始 顿合怍, 用深瞍学习加上隐马尔科犬链模型开发了 实用的晤音识别与 声翻译系统 从学术界来说,叶1国大陆地区除了 微软哑卅I研究院,还订哪些研究机构设置 j,自然语言处理的实验事呢?据《互联刚 周:刊》厂解,清华大学自然晤苦处理与社 会人文计算实验享、北 大学计算机科 学技术研究昕语言汁弹j弓互联阀挖掘研 究室、哈]一大机器智能技爪 j 然语言处 理实验窀、中科院自动化6Jf究所语音语言 技术研究组、南京火学自然语言处理研究 组、复r]-大学自然诏言处理研究组等部对 自然语苦处理有深入的研究 .一般来讲,自然晤奇处理的步骤主 要分为6步:1、扶取原始义水;2、对文 本进行预处理;3、分 将义章按词组 分开;4、词法分析:埘 洲、动词、形 容涧、副词、介词进行定性;5 语法分 忻:分析主语、谓浯、宾晤、定语、状 语、补晤等句子元素;6、i 义分析:将 句子的 确含义表达 求 对话AI:科技突 商业落地 自然语言处理的发展历史 一桶一靳一鹞一撒一 一凇一慨一 一矾 一一散 一一一黜一城一 一 一一一酣 一一一勰一 一一一一舱 船一 一一一一. 价也是水涨船高, 到厂资本市场的 r,发下… 资. 能以个人的名义去 疯狂追捧。20l 7牛,随蕾资本大量涌 人与相关科技政 的 断加持.科大 讯 股价一发创] ,借钱渡过难芙 公司从成 到盈__平嘶 找们用_rjIJi的时间.这 年我们天天在 投入, 产 。” 高74.76元/ 市值突破干 人父。 由此可见.作为人工智能时代的弄 但是,看起求如此幸运的科大汛 潮儿,科人m 能何今天的辉煌,离不 开当年的艰苦…¨。 ,在成立的最l帚Jj儿 Ⅱ,也面临前所 骓遗 微 未有的运营压力。 砌渐 隧钟 醮 要理解这一段 史,其实还需要 册  ̄三‰输 懈刎 泊 唰 人 舢 解自然沿 处硎背后的人T:智能算法 科大汛飞的 天 导 经这佯捕 自然语言处理的龙头企业 科大I兀飞创办于1 999- ̄;,H前已 经战为中国最有乞的自然语 处理的 龙 企业,它于2(H)8年成为巾 人1: 智能浯音产业 的第一家卜市公司 2O 1 6年阿尔法掏打败李 之后掀 起的人工智能热潮中,科大|J1 的股 述当年的困境: “代 刚开始创业的时 候足=挺准的,没有钱,没有市场,也没 有资源背景,所以 的草根创业。 最开始大家租了个 ,没白_人没黑夜地 干。最困难的时 娃什么呢?快过年 科学家们 经一 以 让电脑像人JJI5样n 说话,比女J1微软 小冰,比女¨“贤 :二”机 人和尚 ……臼然 。’ 处 l1,J应用 ,j }l:Il 广 泛,它町以进:f 很 多l:if:-,比女Il L器 翻4译,典 性『l,J L器 翻译仃 度翮湃、 谷歌翻徉等 rI然 语吉处 还l 以川 剑信息枪索不1I过 滤,比女Jl 人流 的信息|1-、 找父键 渊,在网络瞬时检 查敏感文 信息 的发展过悍、、 住科大汛 的早年岁 月,人r智能自然语言处理的算法并不 成熟。从这个意义上求说,科大汛飞是 一个早产儿 、 有剑了2()06年,深度学 习的创始人杰弗里辛顿及合作者发表了 一个里样碑的文章《一种深度置信网络 的快速学习并法》以 ,这一论文宣告 了深度学习时代的真 来临。只有在深 良学习算法的指引_卜,人T智能才真正 进入了实Ⅲ化阶段。 因此.:()06年是人工智能发展的分 水岭。从这个意义上来说.1999年就成 立的科大讯 j 的太甲了。 科夫汛 往橙长的时间赛道上长 跑,通过自 研发不断更新技术。从国际 上来看,根据Research and Markets}- ̄'告, 在全球语青m场, 歌、微软、苹果和科 大i十I飞是“四夫禹手” 它们在全球市场 份额分别为2(1.7%、13.4%、12.9%fH6 7%, 从这个意义L 溉,科大汛飞在自然语言 处理上的々项能 娃{E常杰出的,确实已 经超越丫 内的其他人公司。 在冬端消贤番应用方面,科大讯飞 的财报 示,H前讯飞输入法总用户发 展至5 6亿;m 剁译机销售近教卜万 台,用, 已往糟盖全球13()个围家。 中国还有哪些自然语言处理的代表 性公司? 自然 言处 的 Jf]前景相当广 泛,它 以进 很多l厂作,比如机器翻 译,典型的机器剁译有百度翻译、谷歌翻 译等。自然语言处理还可以用到信息捡索 和过滤,比如 大流 的信息中寻找关键 201 8.8 5《,棚x嘲肘刊 63 封面故事 词,在网络瞬时检查敏感文字信息。 必驰等著名企业。而且这些企业都有学院 形形色色的应用造就了形形色色的 派的背景,比如在苏州的思必驰的创始人 企业,《互联网周刊》整理了自然语言 俞凯本身就是英国剑桥大学的博士,后来 处理领域的代表睫公司。 成为上海交通大学的教授,他的研究团队 目前,专注于自然语言处理的公司相 里就有很多来自上海交通大学的博十生。 当多,外国大公司有谷歌、苹果等,在国 在俞凯教授的推动下,思必驰与上海交通 内也涌现了科大汛 、百度、云知声与思 大学成立j'Speech Lab联合语音实验室, 自然语言处理领域的代表性公司 1 微软亚洲研究院 近些年在人工智能领域,尤其是自然语义理解、计算机视觉等方 面取得了不菲的成绩。它是人工智能领域的“黄浦军校”。 2 搜狗 利用数据挖掘、自然语言处理技术实现搜狗输入法。 3 科大讯飞 一家专业从事智能语音及语音技术研究、软件及芯片产品开发、 语音信息服务的国家级骨干软件企业。 4 腾讯 2017年在西雅图成立^工智能买验室,其人工智能实验室副主任 俞栋博士是前微软研究院语音识别专家。 5 华为 2016年在香港成立污亚方舟人工智能实验室,该实验室有个 部门专注于以无缝的方式和自然语言让机器与人沟通。 6 阿里巴巴 2018" ̄,阿里巴巴达摩院机器智能实验室开源了新—代语音识别 模型DFsMN,将全球语音识别准确率纪录提高至96.04%。 7 云知声 语音识别领域的初创公司,在平台及行业领域,云知声已经与科 大讯飞构成了直接竞争。 8 思必驰 思必驰对话工场是提供语音识别、语音合成、语义理解、智能对 话以及声纹识别服务的开放平台。 出门问问语音助手APP是一款基于语音识别、语义理解技术,面 9 出I]问问 向移动搜索领域的智能手机应用。用户只需通过语音用口语化的 提问方式就可以搜索出有关于吃穿住行的服务。 10 达观数据 国内唯一一家将自动语义分析技术应用于企业数据化运营的人 工智能公司。 11 北京紫平方 公司拥有自主研发的专业级人工智能深度学习平台,在自然语言 (NLP)处理领域处于业界领先水平。 12 追一科技 主攻深度学习和自然语言处理,通过将人工智能与企业场景深度 结合,帮助企业构建人企交互智能化解决方案。 13 玻森数据 家中文自然语言分析云服务提供商,旗下有中文语义开放平台 BosonNLP等。 14 武汉烽火普天 专注于互联网大数据语义分析云服务的公司。 1 5 北京嘿哈科技 全球第一家将最先进的体感技术、语音 别技术等运用在幼儿教 育领域的教育软件开发公司。 16 拓尔斯 基于大数据、云服务和人工智能技术,推出网络舆情分析平台。 1 7 智言科技 一家专注于深度学习和文本语义理解技术突破的人工智能公司。 18 福建网龙 利用文本挖掘和自然语言处理技术相关实现大数据预处理。 19 今日头条 通过自然语言处理技术,对分友的内容进行分类、筛选。 20 苏州驰声信息 由国内知名的语音技术提供商思必驰原口语教育事业部于2014 年6月1目录0离成立的公司。 2018《互联网周刊》&eNet研究院选择排行 64《I ̄11tMI, ̄I『1J{2018.8 5 对话AI:科技突围与商业落地 侧重前沿语音技术的研发及转化,取得较 多技术成果,例如,他 推出的VI')CNN 抗噪算法模型,在噪声环境语音识别的 界基准库Aurora4上,取得了7 %的词错 误率,相比于世界其他机构目前10%左右 的最好结果,有一个大幅度的提高;而他 仃J开发的PSI)新型解码框架则使语音识别 系统的速度累积提高2《)一3()倍,内存下降 50%以上。产学研一体化模式。为思必驰 进一步拓展市场起到了极大作用。 目前的自然语言处理的公司很多都 与高校结盟进行创新发展,虽然有高等 学校的智力支持,但中文语言的处理比 起西方语言更加难以处理。其中最令人 赞解的是多语义现象。 比如假设在两场篮球比赛中,中【词 队部打败了美国队。往中文报道_}】n1_以 分别使用“中国队大胜美吲队”、“lf】 同队大败美国队”米作为标题 这其实 是同一个意思,但人工智能自然 亩处 理则很容易把这个语义分忻错。 再举一个例子,比如“今1人下 路滑,我骑车差点翻倒。幸亏我一把化 把把住了”。在这句话中, 现了很多 “把”字,人工智能如果不了觯其中仃 一个“把”字是“车把”的意思,也是 很难理解这句话的 因此.在自然语言处理方面,还有’ 许多的问题需要解决,比如训练数粥的 缺乏、成语俗语方言的精确处理。而 这里,其实算法还是最关键的 但是,技术的进步是不可阻挡 的滚滚潮流,中国在这方面已经做得 相当不错。科大讯飞的 事长刘庆峰 认为,科大迅飞在语音合喊、晤肯汉 别、口语评测、语言翻译、f} 纹i 另lJ、人脸识别、自然语言处理等智能 语音与人工智能核心技术 已 达剑 lr国际最高水平。 将来随着自然语言处腭技术越来 越成熟,计算机能够更加 确理解人类 的沿言,相关的人工智能产品将不断落 地,像“贤二和尚”这样的聊天机器人 一定会变得越来越智能。口