通义听悟 logo

通义听悟

腾讯会议推出的AI会议内容助理

AI会议工具
通义听悟

详细描述

通义听悟 1. 背景与技术路线 通义听悟是由阿里巴巴集团研发的一款AI会议工具,它依托于通义千问大语言模型和音视频AI模型,实现了高精度的音视频转写、翻译、摘要、分析等功能。
这款产品的诞生,离不开阿里的通义千问大模型,同时也融入了阿里达摩院推出的自研语音识别基础模型Paraformer和说话人识别基础模型CAM++。
Paraformer是目前业界首个应用落地的非自回归端到端语音识别模型,它在推理效率上最高可较传统模型提升10倍,并且在多个权威数据集上位列榜首。
它的主要作用是让AI能够“听清楚”会议中人们都说了什么。
而CAM++说话人识别基础模型,则解决了通义听悟分辨“谁在说话”的问题。
2. 发展历程 通义听悟在2023年6月1日正式开启公测,公测期用户可体验所有AI功能,包括全文概要、章节速览、发言总结等高阶AI功能。
在公测期间,通义听悟向所有用户免费开放全部AI功能,并且每个用户登录后可以获得2小时的转写时长。
在2024年3月19日,通义听悟对外宣布升级上新六大功能点,其中包括上线音视频问答助手“小悟”,关键信息可直接“问”出来。
此外,针对学习科研场景对AI工具的强烈需求,通义听悟还推出了“高校公益计划”,向所有中国大陆高校师生直接赠送价值数千元的500小时音视频转写时长。
3. 功能特点 通义听悟的主要特点是依托通义千问语言模型和音视频AI模型,实现高精度的音视频转写、翻译、摘要、分析等功能,让用户可以快速获取音视频内容的核心信息和洞察。
它支持实时记录和视频文件记录两种模式,提供多种格式的输出结果,包括文本、音频、图片、表格等,并且支持多种语言。
通义听悟的功能包括智能总结全文内容,一眼秒懂音视频概要内容;章节速览:智能提炼章节摘要,轻松把握会话脉络,还原交流过程;发言总结:智能概括发言内容,高效回顾发言人观点;整理与沉淀快速标记:高亮重点、问题、待办,重点信息一目了然;轻松下载:支持下载原文、笔记、音视频和译文,一键导出所需内容。
通义听悟的优点主要包括: - 高精度的音视频转写、翻译、摘要、分析等功能,帮助用户快速获取核心信息和洞察。
- 支持实时记录和视频文件记录两种模式,满足不同场景的需求。
- 提供多种格式的输出结果,方便用户查看、编辑、分享和导出。
- 提供多种语言的支持,让用户可以跨越语言障碍,进行跨境沟通和学习。
- 提供多种接入方式,让用户可以灵活选择适合自己的接入方式,享受便捷的AI服务。