通义听悟

通义听悟 1. 背景与技术路线通义听悟是由阿里巴巴集团研发的一款AI会议工具，它依托于通义千问大语言模型和音视频AI模型，实现了高精度的音视频转写、翻译、摘要、分析等功能。
这款产品的诞生，离不开阿里的通义千问大模型，同时也融入了阿里达摩院推出的自研语音识别基础模型Paraformer和说话人识别基础模型CAM++。
Paraformer是目前业界首个应用落地的非自回归端到端语音识别模型，它在推理效率上最高可较传统模型提升10倍，并且在多个权威数据集上位列榜首。
它的主要作用是让AI能够“听清楚”会议中人们都说了什么。
而CAM++说话人识别基础模型，则解决了通义听悟分辨“谁在说话”的问题。
2. 发展历程通义听悟在2023年6月1日正式开启公测，公测期用户可体验所有AI功能，包括全文概要、章节速览、发言总结等高阶AI功能。
在公测期间，通义听悟向所有用户免费开放全部AI功能，并且每个用户登录后可以获得2小时的转写时长。
在2024年3月19日，通义听悟对外宣布升级上新六大功能点，其中包括上线音视频问答助手“小悟”，关键信息可直接“问”出来。
此外，针对学习科研场景对AI工具的强烈需求，通义听悟还推出了“高校公益计划”，向所有中国大陆高校师生直接赠送价值数千元的500小时音视频转写时长。
3. 功能特点通义听悟的主要特点是依托通义千问语言模型和音视频AI模型，实现高精度的音视频转写、翻译、摘要、分析等功能，让用户可以快速获取音视频内容的核心信息和洞察。
它支持实时记录和视频文件记录两种模式，提供多种格式的输出结果，包括文本、音频、图片、表格等，并且支持多种语言。
通义听悟的功能包括智能总结全文内容，一眼秒懂音视频概要内容；章节速览：智能提炼章节摘要，轻松把握会话脉络，还原交流过程；发言总结：智能概括发言内容，高效回顾发言人观点；整理与沉淀快速标记：高亮重点、问题、待办，重点信息一目了然；轻松下载：支持下载原文、笔记、音视频和译文，一键导出所需内容。
通义听悟的优点主要包括： - 高精度的音视频转写、翻译、摘要、分析等功能，帮助用户快速获取核心信息和洞察。
- 支持实时记录和视频文件记录两种模式，满足不同场景的需求。
- 提供多种格式的输出结果，方便用户查看、编辑、分享和导出。
- 提供多种语言的支持，让用户可以跨越语言障碍，进行跨境沟通和学习。
- 提供多种接入方式，让用户可以灵活选择适合自己的接入方式，享受便捷的AI服务。

详细描述