WebRTC_网页视频语音实时通讯技术

WebRTC

网页视频语音实时通讯技术

WebRTC (Web Real-Time Communications) 是一项实时通讯技术，它允许网络应用或者站点，在不借助中间媒介的情况下，建立浏览器之间点对点（Peer-to-Peer）的连接，实现视频流和（或）音频流或者其他任意数据的传输。WebRTC 包含的这些标准使用户在无需安装任何插件或者第三方的软件的情况下，创建点对点（Peer-to-Peer）的数据分享和电话会议成为可能。

发展历史

2010年5月，Google以6820万美元收购VoIP软件开发商Global IP Solutions的GIPS引擎，并改为名为“WebRTC”。WebRTC使用GIPS引擎，实现了基于网页的视频会议，并支持722，PCM，ILBC，ISAC等编码，同时使用谷歌自家的VP8视频解码器；同时支持RTP/SRTP传输等。

谷歌2011年6月3日宣布向开发人员开放WebRTC架构的源代码。这个源代码将根据没有专利费的BSD（伯克利软件发布）式的许可证向用户提供。开发人员可访问并获取WebRTC的源代码、规格说明和工具等。

Google Chrome：2012年1月，将WebRTC集成进Dev Channel，同年6月又完成Stable Channel的20版的集成（2012年7月，PeerConnection与MediaStream仍必须透过chrome://flags page来打开）。

Mozilla Firefox：2012年初Mozilla集成WebRTC入Firefox Alpha，此一版本的Audio Mixing已完成于Media Stream。

2012年1月，谷歌已经把这款软件集成到Chrome浏览器中。同时FreeSWITCH项目宣称支持iSAC audio codec。

2012年4月，Mozilla展示Firefox中WebRTC的视频对话。

2013年6月，发布22.0版本正式集成及支持WebRTC。

2013年9月，发布24.0版本，并宣布Firefox for Android（移动版）正式集成及支持WebRTC。

Opera：2012年1月，Opera初步集成WebRTC。

Internet Explorer：Microsoft开始开放API。

Ericsson：2012年11月，Ericsson Labs做出了全世界第一个可以支持WebRTC的手机浏览器。

SeaMonkey：2013年1月发布的15.0版本初步集成WebRTC。

2019年10月22日，W3C WebRTC 工作组（Web Real-Time Communications Working Group）发布 WebRTC 可伸缩视频编码（SVC）扩展（Scalable Video Coding (SVC) Extension for WebRTC）的首个公开工作草案（First Public Working Draft）。文档定义了 WebIDL 中的一组 ECMAScript APIs 来扩展 WebRTC 1.0 API，以允许用户代理支持可伸缩视频编码（SVC）。

2022年3月15日，W3C 媒体工作组发布自动播放策略检测（Autoplay Policy Detection）规范的首个公开工作草案。该规范为开发者提供了一种能力，用以探测在不同情况下是否允许自动开始播放媒体文件。欢迎公众通过 Github 反馈对该文档的意见与建议。

技术应用

WebRTC实现了基于网页的视频会议，标准是WHATWG 协议，目的是通过浏览器提供简单的javascript就可以达到实时通讯（Real-Time Communications (RTC)）能力。

WebRTC提供了视频会议的核心技术，包括音视频的采集、编解码、网络传输、显示等功能，并且还支持跨平台：windows，linux，mac，android。

应用架构

颜色标识说明

（1）紫色部分是Web开发者API层；

（2）蓝色实线部分是面向浏览器厂商的API层；

（3）蓝色虚线部分浏览器厂商可以自定义实现。

架构组件介绍

Your Web App

Web开发者开发的程序，Web开发者可以基于集成WebRTC的浏览器提供的web API开发基于视频、音频的实时通信应用。

Web API

面向第三方开发者的WebRTC标准API（Javascript），使开发者能够容易地开发出类似于网络视频聊天的web应用，最新的标准化进程可以查看这里。

这些API可分成Network Stream API、 RTCPeerConnection、Peer-to-peer Data API三类,详细的API说明可以看这里。

Network Stream API

MediaStream：MediaStream用来表示一个媒体数据流。

MediaStreamTrack在浏览器中表示一个媒体源。

RTCPeerConnection

RTCPeerConnection: 一个RTCPeerConnection对象允许用户在两个浏览器之间直接通讯。

RTCIceCandidate ：表示一个ICE协议的候选者。

RTCIceServer:表示一个ICE Server。

Peer-to-peer Data API

DataChannel:数据通道( DataChannel)接口表示一个在两个节点之间的双向的数据通道。

WebRTC Native C++ API

本地C++ API层，使浏览器厂商容易实现WebRTC标准的Web API，抽象地对数字信号过程进行处理。

Transport / Session

传输/会话层

会话层组件采用了libjingle库的部分组件实现，无须使用xmpp/jingle协议

a. RTP Stack协议栈

Real Time Protocol

b. STUN/ICE

可以通过STUN和ICE组件来建立不同类型网络间的呼叫连接。

c. Session Management

一个抽象的会话层，提供会话建立和管理功能。该层协议留给应用开发者自定义实现。

VoiceEngine

音频引擎是包含一系列音频多媒体处理的框架，包括从视频采集卡到网络传输端等整个解决方案。

PS：VoiceEngine是WebRTC极具价值的技术之一，是Google收购GIPS公司后开源的。在VoIP上，技术业界领先，后面的文章会详细了解

a. iSAC

Internet Speech Audio Codec

针对VoIP和音频流的宽带和超宽带音频编解码器，是WebRTC音频引擎的默认的编解码器

采样频率：16khz，24khz，32khz；（默认为16khz）

自适应速率为10kbit/s ~ 52kbit/s；

自适应包大小：30~60ms；

算法延时：frame + 3ms

b.iLBC

Internet Low Bitrate Codec

VoIP音频流的窄带语音编解码器

采样频率：8khz；

20ms帧比特率为15.2kbps

30ms帧比特率为13.33kbps

标准由IETF RFC3951和RFC3952定义

c.NetEQ for Voice

针对音频软件实现的语音信号处理元件

NetEQ算法：自适应抖动控制算法以及语音包丢失隐藏算法。使其能够快速且高解析度地适应不断变化的网络环境，确保音质优美且缓冲延迟最小，是GIPS公司独步天下的技术，能够有效的处理由于网络抖动和语音包丢失时候对语音质量产生的影响。NetEQ 也是WebRTC中一个极具价值的技术，对于提高VoIP

d.Acoustic Echo Canceler (AEC)

回声消除器是一个基于软件的信号处理元件，能实时的去除mic采集到的回声。

e.Noise Reduction (NR)

噪声抑制也是一个基于软件的信号处理元件，用于消除与相关VoIP的某些类型的背景噪声（嘶嘶声，风扇噪音等等）

VideoEngine

WebRTC视频处理引擎，VideoEngine是包含一系列视频处理的整体框架，从摄像头采集视频到视频信息网络传输再到视频显示整个完整过程的解决方案。

a. VP8

视频图像编解码器，是WebRTC视频引擎的默认的编解码器VP8适合实时通信应用场景，因为它主要是针对低延时而设计的编解码器。VPx编解码器是Google收购ON2公司后开源的，VPx现在是WebM项目的一部分，而WebM项目是Google致力于推动的HTML5标准之一。

b. Video Jitter Buffer

视频抖动缓冲器，可以降低由于视频抖动和视频信息包丢失带来的不良影响。

c. Image enhancements

图像质量增强模块对网络摄像头采集到的图像进行处理，包括明暗度检测、颜色增强、降噪处理等功能，用来提升视频质量。

组成部分

视频引擎（VideoEngine），音效引擎（VoiceEngine），会议管理（Session Management），iSAC：音效压缩VP8：Google自家的WebM项目的视频编解码器APIs（Native C++ API, Web API）。

视频

WebRTC的视频部分，包含采集、编解码(I420/VP8)、加密、媒体文件、图像处理、显示、网络传输与流控(RTP/RTCP)等功能。

视频采集---video_capture

源代码

在windows平台上，WebRTC采用的是dshow技术，来实现枚举视频的设备信息和视频数据的采集，这意味着可以支持大多数的视频采集设备；对那些需要单独驱动程序的视频采集卡（比如海康高清卡）就无能为力了。视频采集支持多种媒体类型，比如I420、YUY2、RGB、UYUY等，并可以进行帧大小和帧率控制。

视频编解码---video_coding

VP8是google收购ON2后的开源实现，并且也用在WebM项目中。VP8能以更少的数据提供更高质量的视频，特别适合视频会议这样的需求。

视频加密--video_engine_encryption

视频加密是WebRTC的video_engine一部分，相当于视频应用层面的功能，给点对点的视频双方提供了数据上的安全保证，可以防止在Web上视频数据的泄漏。

视频加密在发送端和接收端进行加解密视频数据，密钥由视频双方协商，代价是会影响视频数据处理的性能；也可以不使用视频加密功能，这样在性能上会好些。

视频加密的数据源可能是原始的数据流，也可能是编码后的数据流。估计是编码后的数据流，这样加密代价会小一些，需要进一步研究。

视频媒体文件--media_file

虚拟摄像头的功能；支持的格式有Avi。另外，WebRTC还可以录制音视频到本地文件，比较实用的功能。

视频图像处理--video_processing

图像处理针对每一帧的图像进行处理，包括明暗度检测、颜色增强、降噪处理等功能，用来提升视频质量。

视频显示--video_render

网络传输与流控

对于网络视频来讲，数据的传输与控制是核心价值。WebRTC采用的是成熟的RTP/RTCP技术。

音频

WebRTC的音频部分，包含设备、编解码(iLIBC/iSAC/G722/PCM16/RED/AVT、NetEQ)、加密、声音文件、声音处理、声音输出、音量控制、音视频同步、网络传输与流控(RTP/RTCP)等功能。

音频设备---audio_device

在windows平台上，WebRTC采用的是Windows Core Audio和Windows Wave技术来管理音频设备，还提供了一个混音管理器。利用音频设备，可以实现声音输出，音量控制等功能。

音频编解码---audio_coding

声音加密--voice_engine_encryption

和视频一样，WebRTC也提供声音加密功能。

声音文件

该功能是可以用本地文件作为音频源，支持的格式有Pcm和Wav。同样，WebRTC也可以录制音频到本地文件。

声音处理--audio_processing

音频数据进行处理，包括回声消除(AEC)、AECM(AEC Mobile)、自动增益(AGC)、降噪(NS)、静音检测(VAD)处理等功能，用来提升声音质量。

网络传输与流控

和视频一样，WebRTC采用的是成熟的RTP/RTCP技术。

平台支持

WebRTC在以下浏览器版本中开始支持。

Android端

Google Chrome OS

Firefox OS

iOS 11

Blackberry 10 内置浏览器

重要API

WebRTC原生APIs文件是基于WebRTC规格书撰写而成，这些API可分成Network Stream API、 RTCPeerConnection、Peer-to-peer Data API三类。

Network Stream API

RTCPeerConnection

Peer-to-peer DataAPI

安全性

漏洞

2015年，TorrentFreak报告了一个WebRTC的安全漏洞，该漏洞会致使安装有WebRTC的用户泄露真实IP，即使用户已经使用虚拟私人网路。

解决方案

Mozilla Firefox：在地址栏输入“about:config”，搜索“media.peerconnection.enabled”并双击将值改为“false”，WebRTC将被关闭。

Google Chrome：在谷歌应用商店安装谷歌官方扩展“WebRTC Network Limiter”。

Opera：

其它方案

uBlock Origin：安装uBlock Origin并在设置中启用“避免WebRTC 泄露本地IP地址”可以避免本地IP泄露。但需注意的是，该方案不适用于Firefox 41（或更低）、uBlock Origin 1.3.3（或更低）版本用户。

隐私权：安装隐私獾并在设置中启用”避免 WebRTC 泄露本地 IP 地址 “可以获得额外防护，但未知具体效果。

参考资料

WebRTC Code and API.WebRTC官网.

谷歌开放实时通信框架WebRTC源代码..

最新修订时间：2024-01-06 11:18

条目作者

小编

资深百科编辑

概述

发展历史

参考资料