会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 阿里开源视频自动化剪辑工具FunClip 支持中文语音识别!

阿里开源视频自动化剪辑工具FunClip 支持中文语音识别

时间:2024-07-04 04:39:55 来源:带水拖泥网 作者:资讯 阅读:880次

阿里开源视频自动化剪辑工具FunClip 支持中文语音识别

CSS站长资源(ChinaZ.com)5月13日 消息:阿里巴巴通义实验室最近开源了一款名为FunClip的阿里视频自动化剪辑工具,专为精准和便捷的开源视频切片设计。FunClip能够自动识别视频中的视频识别中文语音,并允许用户根据语音内容裁剪视频,自动支持中文大大提高了视频编辑的化剪效率。

项目地址:https://github.com/alibaba-damo-academy/FunClip

在线演示:https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary

FunClip的辑工具主要特点

  • 语音识别:使用阿里巴巴的FunASR Paraformer-Large模型,确保了剪辑的语音精准性。

  • 操作简便:用户可以根据识别的阿里语音内容选择文本片段或说话人进行视频裁剪。

  • 语言支持:目前支持中文,开源未来将扩展支持英文视频剪辑。视频识别

FunASR工具包介绍

FunASR是自动支持中文阿里巴巴通义实验室开发的一款综合性语音识别工具包,提供端到端的化剪语音识别解决方案和一系列开源的、性能优越的辑工具预训练模型。它支持以下功能:

语音识别(ASR):提供非自回归端到端语音识别模型,语音支持多任务处理。阿里

语音活动检测(VAD)与标点恢复:通过预训练模型进行有效的语音活动区段检测,提供标点恢复功能。

模型动态部署与优化:支持预训练模型的微调和推理,提供文件转录和实时转录服务。

项目地址:https://github.com/alibaba-damo-academy/FunASR

论文:https://arxiv.org/abs/2305.11013

Paraformer模型

Paraformer是阿里巴巴达摩院语音团队开发的非自回归端到端语音识别模型,专为高效的GPU并行推理设计。它提供快速且准确的语音到文本的转换,特别适合处理长音频。Paraformer模型的核心特点包括:

高效的模型架构:采用多种网络结构和优化目标,提供高效率和准确度。

功能拓展:支持热词定制版模型和长音频模型,适用于多种应用场景。

应用场景:适用于语音输入法、语音导航、智能会议纪要等多种应用场景。

FunClip的开源为视频内容创作者和编辑者提供了一个强大的工具,使得视频剪辑更加智能化和自动化。同时,FunASR工具包和Paraformer模型的开源,也为语音识别领域的研究和应用提供了宝贵的资源。阿里巴巴通过这些开源项目,展示了其在AI技术领域的领导地位和对开放创新的承诺。

Paraformer模型地址:https://modelscope.cn/models/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary

(责任编辑:电商)

相关内容
  • 大哥凌晨遇消防员吃饭霸气买单:就这么豪横
  • 小心!AI看一眼照片就定位你在哪里,精确到经纬度
  • Fugaku-LLM功能介绍及免费使用指南 体验地址入口
  • 创始人称开创维汽车治好高血压、糖尿病 官方回应
  • 反转与否不重要!《人民日报》评奔驰车男子:打砸引擎盖就是错 路怒损人害己
  • 迅雷浏览器iOS版上线:一款真正简洁的浏览器!
  • 湖北鼓励省内自研运载火箭:成功发射每发奖励100万元
  • 创始人称开创维汽车治好高血压、糖尿病 官方回应
推荐内容
  • 白敬亭服装品牌外套抽检不合格 GOODBAI致歉:启动召回程序
  • 为爱嫁入深山的小英,每天有干不完的活,为啥她靠恋爱脑就能吸粉百万?
  • 刘谦首度回应春晚小尼牌没对上:本来就不可能都成功
  • 抖音调整商业推广账号授权功能 巨量账户或受限
  • 百度文心一言APP支持一键生成专属数字分身 可免费使用
  • 亚洲首艘!“海葵一号”浮式生产储卸油装置将起运