存储计算解耦合,构建中国人英语语音数据库

简介:通过阿里云为流利说量身打造的数据湖解决方案,解决了流利说多种应用的各类数据的统一存储,帮助流利说构建数据规模高达上千亿的“中国人英语语音数据库”。

公司介绍

[ w u Y - v ? . Y利说是世界领先的科技驱动的教育公司,h b , S n作为智能教育的倡行者,流8 a ; ) _ E D利说拥有一支业内领先的人工智能团队,经过S . { X ^ = ( @ d多年积累,流利说已拥有巨型的“中国人英语语音数据库”,累积实现记录大约 37 亿分钟的对话和 504 亿句录音。

流利说自主研发了领先的英语口语评测、写作打分引擎和深度自适应学习系统,从听、说、读、写多个维度提升用户的英语水平,为用户提供一整套系统性的英语学习解决方案,截止 2020 年 6 月 30 日,累计注册用s P e户达1.856 亿。

存储计算解耦合,构建中国人英语语音数据库

业务场景介绍

2013 年流利说推出了第一款产x 6 / Y q品“英语流利说”,集成了语音识别、打分和自适应学习等多种核心技术。具有上下文情景对话、发音指导课程等丰富内容,k V L C r f E并提供人工智能英语老师和游戏化的学习体验,为用户在英语学习中获得更多乐w I P趣。这款有趣又有效的产品很快就占领了当时9 * m # G k L W J的市场并t ) p R : % A获得了用户的高度认2 a c n O D o可。

但业务快速发展,用户数大幅度增长,l t 8 Z平台的用户数量已从当初的百万级,J . L P增长至过亿,因此业务的高低峰期数据流量变化、业务复杂度和分析难度都给给 IT 架构带来了巨大的挑战。

业务难点

流利说在面对日常业务需求量以及用户数量飞速增长的情况下,流利说常常需要面对以t I s i 下几个不同的挑战

不同时段流量变化大,系统需要支持动态请求流量

由于每天不同时段流量变化很大,高峰时段的流量会达到平时的 10 倍,需要系统有足,够的能力支持动态变化的请求流量,因此对于系统弹性拓展w * d P 3 F a能力,就提出了很高的要求。

产品组合和功能丰富,如何为系统平稳运行提供保障

K R c J { g O y于产品组合和功能越来越丰富,对于系统的能够提供的性能要求不断增加,大量的付费用户对于访问体验有很高的期望,因此需要高可靠、高稳定的系统,来支撑各款产品平稳地运行。

数据量级与应用系统复杂度增加,系统容量和性能成问题

! 8 ~ V利说自研口语评测、写作打分引擎和深度自适应学习系统,每天都需要根据用户学 X 9 L $ ? Y d习情况进行分析,{ - f G . h p w M根据每个用户不同的学习给予评分和指导建议,随着用户数的增加和应用复杂度的增加,对于大数据系统的容量和性能: | 9 7 p = (都有着极高的要求。

阿里云数据湖Q U - 2 7 A解决方案

针对流利说日常业务对云服务的弹性、稳定性和大算力的极高要求,阿里云2 E k & & C |为流利说量身定制了一站式数据湖解决方案。

首先,对于数据存储,流利说的大数据平台使用 O2 9 @ ! ! ~ g 3SS 作为数据基础层,解决了流利说多类数据的统一存储,T 8 1 ; * n $同时对接多种计算引擎。而且 OSS 提供了 99.9999999999% (12 个 9)的数据持久性和99.995% 的高可用性,F Q , A 0 ~有力的保障流利说的业务稳定和可靠。

在大数据计算方面,通过阿里云 EMR 构建大数据计算集群,提供了包括 Hadoop、Hive、Spark、Presto 在内的多种大数据计算引擎。基于数据湖的存储与计S A ~ /算解耦合架构,所有计算任务的最终数据都是存储到 OSS 持久+ { g % - g X存储。

同时,阿里云数据湖解决方案对开源生态提供非常友好的支持,客户基于开源框d Q ~ `架开发的应用和业务代码,可以不用修改,直接基于阿里云的数据湖解决F 4 t 4 * = ` | @方案运行。

最后,阿里云 VPC 网络、RAM 等访问控制保障体系,更是为流利说的核心资产“中国人! $ x R &英语语音数据库F g M R ” 提供了更可控,更细粒度的安全访问控制保护, a = = H O o G

存储计算解耦合,构建中国人英语语音数据库

达到的T 0 e G `效果

通过阿里云为流利说量身打造的数据湖解决方案,解决了流利说多种应用的各类数据的统一存储,帮助流利说构建数据规模高达上千亿的“中国人英语语9 x t数据库”。使用阿里云构建的数据湖,可以充分发挥计算与解耦合架构的优. I 8 S ` 6点,结合阿里云 ECS 弹性实例和 K8S,根据L ~ u v 7 = V m实际业务需求,动态扩展、缩减对应计算r # 8 H 9 H +资源,无须按照业务峰值常驻计算资源,这种灵活的使用模式,能够帮助流利说最大程度地优化成本。

作者:阿里巴巴存储技术

本文为阿里云原创内容,未经允许不得转载