希尔贝壳:如何用技术创新颠覆传统数据标注产业的“野蛮生长”

AI,人工智能

图片来源图虫:已授站长之家使用

声明:本文来自于微信公众号猎云网(ID:ilieyun),作者:吕梦,授权站长之家转载发布。

数据是人工智能的基础,但不是所有数据都有应用价值,采集回来的数据往往要经过清?#30784;?#26631;注才能为算法可用。与此同时,数据标注得越精准,对算法模型训练的效果也就越好。

这些高质量数据诞生的背后,是一家家数据标注工厂的兴起——它们大都位于河北、河南、山东等地区,倚靠相对低廉的劳动力支撑起AI产业链的重要一环。随着我国人口红利的逐渐消失,传统标注工厂在“人工成本”方面的优势正不断被削弱。

针对数据标注在成本、效率、质量等方面的痛点,一家专注人工智能大数据技术创新的创业公司,决定通过技术创新来改变这个人工智能光环背后的“人工”产业。

卜辉是这家公司的创始人,韩国高丽大学硕士毕业后一?#36125;?#20107;语音识别方向的研究,对语音数据库建设以及语音智能产品有着深入的研究。

彼时,基于 2012 年AlexNet在ImageNet大赛上一举夺魁带动的深度学习热潮仅过去两年,而那场轰动世界的AlphaGo人机大战两年后才向公众展现它的惊人战绩。一切尚在蓄势。

2017 年,在算法、算力和数据的三?#26234;?#21160;下,人工智能从概念走向实用。其中,算法被大量开源,而算力部分,GPU市场被英伟达垄?#24076;?#22269;内的创业公司大都是围绕FPGA、ASIC等进行边缘研发。

从这个逻辑来看,一旦创业公司无法在算法和算力部分拉开本质的区别,数据和应用场景?#32479;?#20026;其价值最大化的重要依据。

期间,大量和语音识别相关的产品的问世,也让卜辉意识到,数据的需求正不断聚焦,尤其是当AI?#32479;?#26223;结合之后,相比大量的基础数据库,与产品相匹配的场景数据的价值将越来越大。

因此,卜辉在决定从自己最擅长的“语音数据”市场切入,并在 17 年 4 月创办了希尔贝壳。

开源全球最大中文语音数据库

基于语音识别、声纹识别、音?#23548;?#32034;等语音相关技术,希尔贝壳成立之初就开源了 178 小时的AISHEll- 1 中文普通话精标语音数据集。同?#36125;?#36733;Kaldi语音识别系统做了一套开源方案,将有研发价值的数据?#27605;?#21040;科研教育机构。

这个阶段卜辉发现,高校学生在使用这套方案的同时,很多?#34892;?#22411;企业也在利用它进行语音识别的方案和产品相关研究,但效果就偏弱了一些。

因此,在 2018 年 6 月 23 日Kaldi第三届全国线下技术交流会?#24076;?#20316;为联合主办方之一的希尔贝壳再次开源了?#22771;?#20840;球最大的中文开源数据库AISHEll-2,时长 1000 小时。这个开源项目不只局限于数据,还包括Kaldi社区的基础设施和配套的recipe应用。同时成立了AISHELL Foundation来共同推进语音数据和技术的不断开源计划。

据悉,AISHELL- 2 由 1991 名来自中国不同口音区域的发言人参与录制,文本内容主要涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等 12 个领域。并经过专业语音校对人员转写标注,通过?#25628;?#26684;质量检验,数据库文本正确率在98%以?#24076;?/p>

在此之前,从未有一家公司开源这?#21019;?#30340;中文语音数据库——这套方?#35206;?#20165;让?#34892;?#22411;企业享有语音识别开发的能力,同时还让希尔贝壳收获了全球最大的高校资源群体。

声明:本文转载自第三方媒体,如需转载,请联系版权方授权转载。协助申请

相关文章

相关热点

查看更多
?
河北快3推荐号码今天
甘肃十一选五选号技巧 46二肖中特 新疆时时彩号码走势图 30选5中了多少钱 独来独往代表什么生肖 山东十一选五运夺金开奖结果 福彩3d出号走势图彩吧 神童特码图 七乐彩图表走势图 北京快3走势图 2o18年输尽光1一153期 3d试机号金码杀号 新疆25选7开奖号下载 3d字谜图谜总汇 快乐赛车pk10归率