Paulo Cesar Salgado Vidal
O grupo MPEG (Motion Picture Expert Group) desde 1980 tem trabalhado com
sucesso na padronização de informação áudio-visual
(vídeo e áudio), tendo como resultado dois padrões, conhecidos
como MPEG-1 (IS-11172) e MPEG-2 (IS-13818). O primeiro especifica o
armazenamento de áudio e vídeo à taxas de 1,5 Mbps e o segundo
manipula a codificação genérica de TV digital e sinais de HDTV
(High Definition TV) [9]. Estes padrões tem proporcionado um grande
impacto na indústria eletrônica.
Tanto a indústria eletrônica como as operadoras de TV à cabo,
companhias de telecomunicações e empresas de software e hardware tem
desenvolvido um interesse crescente numa nova forma de comunicação
chamada multimídia. Esta tendência tem acelerado o crescimento
da utilização de CD-ROMs e da World Wide Web - WWW na
Internet.
A variedade de aplicações tornam a representação dos dados
áudio-visuais um grande problema, porque a maioria das aplicações
pretendem possuir a multimídia como característica comum para
interatividade com usuário. As aplicações impoêm conjuntos de
especificações que variam muito de uma aplicação para outra.
A diversidade de aplicações implica em diferentes de conjuntos
de especificações. Cada aplicação é caracterizada por: o
tipo de dado a ser processado (vídeos, imagens, textos, etc.), a natureza
do dado (natural, sintética, médica, gráfica, etc.), a taxa de
bits (baixa, média e alta), o atraso admissível máximo, o tipo de
comunicaçào (ponto-a-ponto, multiponto,etc.), e um conjunto de
funcionalidades oferecidas (escalabilidade, manipulação de objetos,
edição, etc.).
Assim os padrões correntes para multimídia, não podem atender
adequadamente as novas espectativas e requisitos dos usuário devido a
diversidade de aplicações.[3]
Dentro deste contexto dois novos grupos de trabalho MPEG foram criados, para
fornecer padrões com o objetivo de atender os requisitos das
aplicações multimídias correntes e futuras. Estes grupos são
MPEG-4 e MPEG-7.
O grupo MPEG-4 visa atender três áreas: televisão digital,
aplicações gráficas interativas e WWW. Além de fornecer
padrões para integrar a produção, distribuição e acesso ao
conteúdo da informação áudio-visual.
O grupo MPEG-7 tem como nome formal "Interface de Descrição do
Conteúdo Multimídia" [5], especificará um conjunto padrão de
descritores e esquemas de descrição usados para especificar o
conteúdo da informação, com a finalidade de tornar a busca da
informação multimídia mais rápida e eficiente.
Este trabalho tem o objetivo de mostrar a evolução do padrão de
codificação MPEG de informação áudio-visual. Descrevendo
o processo de padronização, as técnicas de codificação, os
tipos de aplicações empregadas, as camadas de cada padrão e as
tendências futuras para a padronização. Serão apresentados os
padrões MPEG-1, MPEG-2, MPEG-4 e MPEG-7.
O padrão MPEG-1 (IS 11172) é um esforço comum da ISO
(International Standardization Organization) e IEC (International
Electrotechnical Commission) para a padronização de uma
representação codificada de vídeo e áudio. MPEG-1 é
utilizado para armazenamento digital com taxa de 1,5Mbps e também é
usado para armazenamento de filmes em CD-ROM.
O algoritmo de compressão do MPEG-1 utiliza as seguintes técnicas:
Arquitetura MPEG
O padrão MPEG é basicamente uma especificação do fluxo de bits
e um processo típico de decodificacão que suporta a interpretação
do fluxo de bits. São previstos três diferentes tipos de quadros [8]:
O padrão é completamente flexível quanto a
configuração dos quadros em um fluxo.
Especificação do fluxo de bits
Sistema MPEG
Define uma estrutura multiplexada para combinação de fluxos
elementares, especificando como representar as informações temporais
necessárias à posterior restituição sequencial sincronizada em tempo
real. Os fluxos elementares são multiplexados em um fluxo composto,
denominado MPEG Stream.
O Sistema MPEG especifica sintaticamente e semanticamente um MPEG Stream
que pode conter até 32 fluxos de áudio MPEG e 16 fluxos de vídeo MPEG
multiplexados simultaneamente. São previstos também dois fluxos de
dados de uso genérico. Basicamente as funcionalidades de um sistema MPEG
são: sincronizacão dos fluxos elementares, gerência de buffers na
decodificação e acesso aleatório.
O padrão MPEG-2 (IS - 13818) foi originalmente projetado para comprimir
vídeo em sistemas de difusão, a taxas de 4 a 6 Mbps, e seria
apropriado em canais de difusão NTSC ou PAL. Mais tarde, MPEG-2
foi expandido para suportar altas resoluções, incluindo HDTV
(High Definition TV). Originalmente foi criado MPEG-3 para
HDTV, mas o projeto foi cancelado, e MPEG-2 incorporou a televisão
de alta definição nos seus objetivos.
Os princípios básicos de MPEG-1 e MPEG-2 são similares,
mas os detalhes são diferentes. Para uma primeira aproximação, MPEG-2
é um super conjunto de MPEG-1, com características adicionais,
formatos de quadros e opções de codificação. É
provável que MPEG-1 domine filmes para CD-ROM e MPEG-2 domine a
transmissão de vídeo em redes de longa distância.
A codificação MPEG-2 é semelhante a codificação
MPEG-1, com quadros I, P e B. A transformação do coseno discreta
é com blocos de 10 x 10 pixels ao invés de 8 x 8. MPEG-2 foi
direcionado para TV por difusão, bem como para aplicaçes em CD-ROM, ele
suporta imagens progressivas e interlaçadas, enquanto MPEG-1 suporta
somente imagens progressivas.[8]
MPEG-2 suporta quatro níveis de resolução: baixa (352 x 240),
principal (729 x 480), alta-1440 (1440 x 1152), e alta (1920 x 1080). Baixa
resolução é para vídeocassete e para ter compatibilidade com
MPEG-1. Principal e normal é para NTSC broadcasting. A outra é
para HDTV.
MPEG-2 suporta cinco tipos de perfis. Cada perfil está
relacionado a alguma área de aplicação. O perfil principal é
para uso de geral, e provavelmente a maioria dos chips serão otimizados
para este perfil e para o nível de resolução principal. O perfil
simples é semelhante ao principal, exceto que exclue os quadros B,
tornando a codificação/decodificação mais fácil. Os
outros perfis lidam com escalabilidade e HDTV. Os perfis diferem em termos da
presença ou ausência de quadros B, resolução de
crominância e escalabilidade do fluxo de bits codificado para outros
formatos.
A taxa de dados comprimidos para cada combinação de
resolução e perfil é diferente. O intervalo é de 3 Mbps
até 100 Mbps para HDTV. O caso normal é de 3 a 4 Mbps.
MPEG-2 tem uma forma mais geral de multiplexação de áudio
e vídeo do que o MPEG-1. Ele define um número ilimitado de fluxos de
bits elementares, incluindo áudio e vídeo, mas também incluindo
fluxos de bits que devem sincronizados com o áudio e vídeo, por
exemplo, subtítulos em múltiplas linguagens. Cada um dos fluxos de
bits é primeiro empacotado com estampas de tempo.[9]
A saída de cada empacotador é um fluxo de bits elementar
empacotado (PES - Packetized Elementary Stream). Cada pacote PES tem um
cabeçalho que contém tamanho do fluxo de bits, identificador do fluxo
de bits, controle de criptografia, estampas de tempo, etc. Os fluxos de bits
PES para áudio, video e possivelmente dados são multiplexados juntos
em um único fluxo de bits de saída para transmissão.
O grupo MPEG iniciou oficialmente a fase de padronização MPEG-4 em
setembro de 1993.
O padrão MPEG-4, está em desenvolvimento, apontando as necessidades em
torno do aumento da disponibilidade de contedo áudio-visual em forma
digital. Diferente da codificação linear de áudio e vídeo do
MPEG-1/2, a codificação MPEG-4 é baseada em objetos, isto é,
as cenas áudio-visuais são codificadas em termos de objetos. Um
Objeto pode ser uma imagem ou um vídeo: um carro em movimento, uma
fotografia de um cão. Também pode ser um objeto de áudio: um
instrumento de uma orquestra, um latido de um cão. A associação
de um áudio e um vídeo é chamado de objeto áudio-visual . A
imagem de um cão junto com o som do seu latido é um exemplo de um
objeto áudio-visual.
No MPEG-1/2, o comitê padronizou um tipo particular de algoritmo.
MPEG-4 está padronizando um conjunto de algoritmos. O hardware que
suporta MPEG-4 deve ser flexível a fim de executar diferentes conjuntos de
algoritmos, não como em MPEG-1/2 que o hardware suporta um algoritmo fixo.
Uma das vantagens é que o MPEG-4 pode ser adaptado no futuro para se
adequar as novas tecnologias de codificação.
No início do trabalho, o objetivo do MPEG-4 era a utilização em
aplicações com baixas taxas de bits. Entretanto, MPEG adotou um plano
de trabalho para as mudanças no ambiente áudio-visual e modificou suas
finalidades consideravelmente.
Um novo conjunto de aplicações usarão MPEG-4, tais como
vídeoconferência, comunicações móveis, acesso à
vídeo de servidores remotos para aplicaçes multimídias, jogos,
etc. Atualmente, o grupo MPEG-4 está direcionando os trabalhos para
televisão digital, aplicações gráficas interativas e
World Wide Web [1].
As aplicações com baixas taxas de bits, as taxas serão de 5 a
64Kbits/s com dimensões de amostras de 176 x 144 x 10 hz. Para
aplicações de TV, as taxas serão de 2Mbps.
MPEG-4 fornecerá tecnologias para comunicações multimídia.
Isto significa que fornecerá suporte a informação
áudio-visual que:
Para alcançar a padronização do MPEG, o comitê MPEG primeiro
lança "Chamadas para propostas". Depois identifica os requisitos
preliminares e especifica as funcionalidades que necessitam serem apontadas
pelas propostas. Então define sequências de testes e condições
de codificação a serem usadas. Atualmente uma variedade de algoritmos
estão sendo desenvolvidos por centros de pesquisas de universidades e
empresas.
Algumas técnicas então serão selecionadas, marcando o final da
fase competitiva e iniciando o esforço colaborativo. Para fazer isto, o
grupo MPEG estabelece Modelos de Verificação - MV. O MV MPEG-4
descreve um conjunto de algoritmos de codificação de vídeo:
codificador, decodificador, sintaxe e semântica do fluxo de bits
(bitstream). Um número de experimentos são estabelecidos para
garantir eficiência do MV MPEG-4 com respeito as funcionalidades já
suportadas e para identificar novas técnicas de codificação que
permitem provisões para funcionalidades ainda não suportadas. Novas
ferramentas poderão ser produzidas para MPEG-4 e serão avaliadas
dentro do processo MV.
Em novembro de 1997 foi aprovado o Commit Draft - CD do MPEG-4.[1]
Existem cinco tipos de aplicações classificadas pelo MPEG-4. Estas
aplicações são selecionadas por três critérios:
Limites de tempo - aplicações podem ser em tempo real ou
não. Uma aplicação em tempo real é simultaneamente adquirida,
processada, transmitida e potencialmente usada pelo receptor.
Simetria das facilidades de transmissão - aplicações são
classificadas como simétricas ou não. Aplicações simétricas
são aquelas em que equivalentes facilidades de transmissão estão
disponíveis em ambos os lados do enlace de comunicação.
Interatividade - aplicações são interativas ou não.
Aplicações interativas são aquelas em que o usuário tem
controle individual da apresentação, ou somente no nível de
controle da mídia de armazenamento ou também no escalonamento da
sequência do fluxo da informação dependendo das escolhas do
usuário.
Aplicação Classe 1 (Tempo real / Simétrica / Interativa)
O usuário tem controle individual sobre a apresentação. A
quantidade de dados transmitidos é a mesma em ambas as direções.
Exemplos: vídeoconferência, vídeotelefonia, consulta remota a
especialista com simetria.
Aplicação Classe 2 (Tempo real/ Assimétrica / Interativa)
As aplicações são interativas, mas o receptor envia um pequena
quantidade de dados independente dos dados enviados pelo transmissor.
Exemplos: controle ou monitoramento remoto, consulta remota assimétrica à
especialista.
Aplicação Classe 3 (Não tempo real / Simétrica /
Interativa)
O usuário pode controlar o fluxo de dados através através do canal
de dados de controle. Aplicação típica é o correio
eletrônico.
Aplicação Classe 4 (Não tempo real / Não simétrica /
Interativa)
O usuário tem controle individual da apresentação sobre a
informação armazenada em banco de dados. Exemplos: jogos, vídeo
sob demanda, teleshopping, noticiário eletrônico, etc.
Aplicação Classe 5 (Não tempo real / Não simétrica /
Não interativa)
O usuário não tem controle sobre apresentação.
Aplicações típicas são apresentações multimídias, onde a
interatividade não existe.
A principal nova funcionalidade que MPEG-4 fornece é o suporte a
representação baseada em objeto. Os padrões correntes de
compressão de vídeo transmitem um quadro inteiro de vídeo em um
único fluxo de bits (bitstream). O MPEG-4 codificará objetos
áudio-visuais em quadros separadamente. Os objetos serão compostos em
um quadro no decodificador. Objetos codificados separadamente fornecem tres
benefícios:
A figura 1 ilustra uma aplicação de difusão de notícias
(news broadcast) [2], na qual usa estas três funcionalidades. Os
quatro objetos de vídeo incluídos na figura são: o
vídeo da notícia, o vídeo do apresentador, o texto e um
relogio. Os dois objetos de áudio são a voz do apresentador
e o áudio da notícia. O usuário pode selecionar qual dos
objetos serão usados para compor o quadro.
O
expectador deseja remover o vídeo do apresentador e usar somente o
vídeo da notícia. O apresentador poderia narrar a cena fora
da camera. O expectador deve desligar o áudio do apresentador e
escutar o áudio da notícia enquanto le o texto. Por isso os
objetos são escaláveis, quantidade de largura de banda
variável pode ser alocada para diferente objetos. Ao vídeo da
notícia pode ser dado uma maior largura de banda do que o
vídeo do apresentador, desde que o expectador esteja usualmente
olhando o vídeo da notícia. O texto requer menor largura de
banda. O fluxo de bits codificado da notícia pode ser armazenado
em uma biblioteca por outras organizações e reutilizado no
futuro.
Figura 1 - Noticiário
por difusão
O conceito básico da funcionalidade do MPEG-4 baseada no conteudo para
aplicações de vídeo é ilustrada nas seguintes figuras:
Figura 2 - Cena Original
Figura 3 - Cena decodificada e manipulada
A cena contém um certo número de objetos de vídeo. A
sequência é decodificada de maneira que permite ao usuário separar
decodificação e reconstrução dos objetos. É possível
interagir com o objeto na cena. Uma possível lista de
manipulações do objeto pode ser: mudança da posição,
mudança da escala do objeto, rotação do objeto, mudança da
velocidade na qual o objeto se move na tela, inclusão de um objeto na cena
e exclusão de um objeto.
Um fluxo de bits (bitstream) dos objetos em camadas fornecem estas
funcionalidades. Cada objeto é codificado em uma camada bitstream
do objeto. A forma e a transparência do objeto, bem como coordenadas
espaciais e parâmetros adicionais descrevendo escalas e
localização, tais como zoom, rotação e translação do
objeto estão incluindo no fluxo de bits. O usuário reconstrói a
sequência pela decodificação das camadas de objetos.
O padrão MPEG-4 consiste de três camadas: Sistema, Áudio e
Vídeo, nas seções seguintes serão descritas estas camadas.
A arquitetura MPEG-4 permite a codificação separada de objetos de
vídeo e áudio, e a multiplexação de fluxos de dados
elementares (elementary streams) separados de objetos em um único
fluxo de dados. Similar ao MPEG-1/2, o sistema MPEG-4 é desenvolvido para
fornecer multiplexação de fluxo de dados elementares,
sincronização e enpacotamento. Adicionalmente, o sistema MPEG-4
fornece parâmetros de representação/manipulação
básicos (translação, rotação e zoom) no cabeçalho da
camada de fluxo de dados de cada objeto.
Uma das funções da camada Sistema é a demultiplexação de
múltiplos fluxos de dados elementares é para recuperar os fluxos
elementares de canais dowstream e multiplexar dados upstream em
canais upstream. Estes fluxos elementares conduzem ou dados do objeto
ou informação de controle relacionada aos objetos ou para gerência
do sistema.
Figura 4 - Visão do Sistema MPEG-4
O multiplexador/demultiplexador ilustrado na figura 4 consiste de duas
camadas (vide figura 5). A primeira camada, chamada de "TransMux"
(Multiplexação de Transporte) , oferece serviços de transporte
adequados aos pedidos de qualidade de serviço. A segunda camada, chamada
"FlexMux" (Multiplexação Flexível) realiza a multiplexação
,grupando fluxos elementares com uma baixa sobrecarga de multiplexação.
Este modo pode ser usado, para grupar fluxos elementares com similares
requisitos de qualidade de serviço.
Figura 5 - Camadas do Multiplexador
Além de multiplexar/demultiplexar fluxos de bits, o Sistema MPEG-4
realiza:
As funcionalidades fornecida pelo MPEG-4 são classificadas no modelo
ilustrado na Figura 6.[1]
Figura 6 - Estrutura do padrão de codificação de vídeo
MPEG-4
O núcleo VLBV (Very Low Bitrate Video) fornece algoritmos e
ferramentas para aplicaçõ]es que operam a taxas de 5 a 64 Kbps. E
suporta sequências de imagens com baixa resolução espacial (por
exemplo 174x144 pixels) e baixas taxas de quadros (15 quadros/s). As
funcionalidades básicas incluem vídeo de tamanho retangular, e baixa
complexidade para aplicação multimídia.
O núcleo HBV (High Bitrate Video) possue as mesmas funcionalidades
com resolução e taxas mais altas.
O MPEG-4 considera uma cena composta de Objetos de Vídeo - OV. Os OV tem
propriedades como forma, movimento, textura, etc. Isto corresponde a
entidades no fluxo de bits que o usuário pode manipular e acessar. Um
Plano de Objeto de Vídeo (Video Object Plane - VOP) é uma ocorrencia
de um OV em dado instante de tempo. Cada quadro consiste de vários VOP.
Umas cena que contém somente um VOP, corresponde aos padrões correntes
tais como MPEG-1/2. Cada VOP tem sua própria resolução espacial e
temporal.
Uma cena é dividida em objetos, possuindo uma organização
hierárquica. A estrutura de uma cena (figura 7) está ilustrada na figura 8 e a
cena na figura 9
Figura 7 - Uma cena
Figura 8 - Estrutura Lógica da cena
Figura 9 - Estrutura de codificador e decodificador do vídeo
Uma informação adicional é enviada com os VOPs a fim de informar
ao receptor como compor a cena. A codificação do VOP é composta
de codificação da forma e codificação da textura e
compensação de movimento. Os VOPs são divididos em macro-blocos
de 16 x 16 bits, similar aos tipos de quadros em MPEG-1, como VOP-I, VOP-B,
VOP-P, ilustrado na figura 10.[3]
Figura 10 - Codificação do VOP
Como em MPEG-1 e 2, os codificadores não são padronizados em MPEG-4.
Para taxas de 2 até 64Kbps, MPEG-4 define um conjunto de ferramentas para
alcançar alta qualidade nos intervalos abaixo:
Uma grande quantidade de informação áudio-visual está
disponível na forma digital, em vários lugares no mundo e muitas
pessoas estão querendo usá-las. Antes de ser usada, a
informação precisa ser localizada. Atualmente existem
soluções que permitem a busca de informação textual. Muitas
máquinas de busca são baseadas em texto e estão disponíveis na
World Wide Web, e estão na maioria dos sites visitados
indicando uma grande demanda. Em geral, não é possivel buscar
eficientemente na Web um vídeo, informando somente a imagem da motocicleta
usada pelo Exterminador do Futuro. Em casos específicos, soluções
existem. As Bases de Dados Multimídias no comércio de hoje permitem a
busca de imagens usando características como cor, textura e
informação sobre a forma dos objetos em uma determinada figura.
Objetivos
Em 1996, MPEG iniciou um novo trabalho para fornecer uma
solução para questões descritas acima. O novo membro da
família MPEG chamado de Interface de Descrição do
Contéudo Multimídia [4], extenderá as limitadas capacidades das
soluções proprietárias na identificação do conteúdo
que existem hoje, notavelmente pela inclusão de mais tipos de dados. Em
outras palavras: MPEG-7 especificará um conjunto padrão de
descritores que podem ser usados para descrever vários tipos de
informações multimídias. MPEG-7 padronizará modos de definir
outros descritores bem como as estruturas (Esquemas de Descrição) para
descritores e seus relacionamentos. Esta descrição estará
associada com o conteúdo, para permitir uma busca rápida e eficiente
do material de interesse do usuário.
Uma funcionalidade do MPEG-7 é fornecer referências à
objetos de outros padrões (PCM, MPEG-1/2/4, ...). Por exemplo, talvez um
descritor usado no MPEG-4 é útil no contexto do MPEG-7. Os
descritores do MPEG-4, entretanto não dependem nos modos que o
conteúdo descrito é codificado ou armazenado. É possível ligar
uma descrição MPEG-7 a um filme ou uma imagem que está
imprimida em papel.
Ainda que a descrição MPEG-7 não dependa
representação codificada do material, o padrão de certo modo
está fundamentado no MPEG-4, na qual fornece o significado para codificar
o material áudio-visual como objetos tendo certas relações no
tempo (sincronização) e espaço. Usando a codificação
MPEG-4, será possivel ligar descrições para elementos (objetos)
com a cena, tal como objetos audio-visuais. MPEG-7 permitirá diferentes
granularidades na sua descrição, oferecendo a possibilidade de ter
diferentes níveis de discriminação.
Por isso as características descritivas deve ter um significado no
contexto da aplicação, elas serão diferentes para diferentes
domínios do usuário e diferentes aplicações.
Isto implica que o mesmo material pode ser descrito usando diferentes
tipos de características, ligadas na área da aplicação. Para
tomar um exemplo do material visual: um nível de abstração baixo seria
uma descrição da forma, tamanho ,cor , movimento e posição. E
para o áudio: tecla,tempo, mudanças do tempo, posição no
espaço do som. Uma abstração de mais alto nivel daria uma
informação semântica: Está é uma cena com um cachorro
latindo na esquerda e uma bola azul rolando para a direita, com o som dos
carros passando no fundo. Todas estas descrições seriam codificadas
de uma maneira eficiente para pesquisa dos usuários.
O nível de abstração está relacionado com a maneira em
que as características podem ser extraídas: características de
baixo nível podem ser extraídas de forma automática, enquanto as
de alto nível necessitam mais da interação humana.
Escopo do Padrão
MPEG-7 atenderá as aplicações que podem estar armazenadas
ou fluindo (na rede) e que podem operar em ambientes de tempo real ou não.
Um ambiente de tempo real significa que a informação está
associada com o conteúdo enquanto está sendo capturada.
O esquema abaixo altamente abstrato,
mostra uma possível cadeia de processamento do MPEG-7, incluido aqui o escopo
do padrão (descrição).
EXTRAÇÃO DAS CARACTERÍSTICAS ====> DESCRIÇÃO DO PADRÃO ====>
MÁQUINA DE BUSCA
Esta cadeia inclue características de extração
(análise), a própria descrição, e a máquina de busca
(aplicação). Para explorar as possibilidades da descrição
MPEG-7, a extração automática dos descritores será
extremamente útil. Esta claro que a extração automática não
é sempre possivel. Como notado acima, um nível de abstração
mais alto, é mais difícil de extrair automaticamente, e ferramentas de
extração interativa serão de bom uso. Entretanto algoritmos de
extração automática ou semi-automática estão fora do
escopo do padrão, bem como as máquinas de pesquisa.
Aplicações
Existem muitas aplicações e domínios de aplicações
que serão beneficiadas com o padrão MPEG-7. Abaixo temos
alguns exemplos [6]:
A maneira que a informação MPEG-7 será usado para responder as
consultas esta fora do escopo do padrão. Em princípio, algum tipo de
material áudio-visual será recuperado pelo significado de algum tipo
de consulta. Isto significa, por exemplo, que o material de vídeo sera
consultado usando vídeo, música, voz, etc. Isto é para a
máquina de busca combinar o dado da consulta com a decrição
áudio-visual MPEG-7. Abaixo temos alguns exemplos de consultas [5]:
1. Músicas - tocar uma notas no teclado e ter como retorno uma lista de
partes musicais, relacionadas com as notas;
2. Gráficos - desenhar algumas linhas na tela e ter o retorno de um
conjunto de imagens contendo gr'aficos ou desenhos simlares;
3. Imagens - definir objetos, incluindo cores e texturas e ter como respostas
imagens que contenham os objetos que foram definidos;
4. Cenário - descrever ações e buscar uma lista de cenários onde
ações similares acontecem;
5. Voz - usando um extrator da voz de Pavarotti, e ter como resposta uma lista
de gravações de Pavarotti.
Método e Plano de Trabalho
O metodo de desenvolvimento é comparável a padrões MPEG
anteriores. Após definir os requisitos (este proçesso já
iniciou), uma Chamada para proposta será lançada. A chamada
solicitará por tecnologias relevantes ajustando os requisitos, e após uma
avaliação da tecnologia que foi recebida, uma escolha sera feita e o
desenvolvimento continuara com mais submissões. Durante o desenvolvimento
do padrão, chamadas adicionais pode ser lançadas, quando a
tecnologia não não os requisitos [7].
Como este novo trabalho MPEG necessitará de tecnologia
disponível em áreas ainda não suficientemente representadas na
comunidade MPEG, seria necessário buscar a colaboração de novos
especialistas em áreas importantes como bando de dados e inteligência
artificial.
O plano preliminar de trabalho MPEG-7 é o seguinte:
- Chamada para Propostas - Novembro 1998;
- Working draft - Julho 1999;
- Commit Draft - Março 2000;
- Draft International Standard - Julho 2000;
- International Standard - Novembro 2000.
Esta trabalho forneceu uma visão geral dos padrões MPEG-1, MPEG-2, MPEG-4
e MPEG-7. Descreveu o processo de padronização, as técnicas de
codificação, os tipos de aplicações empregadas e as camadas de
cada padrão. Dentro deste contexto, podemos fazer alguns comentários
finais.
MPEG-1 já é um padrão consolidado. MPEG-2 é um
padrão, mas ainda está em evolução, e depende do desenvolvimento
da televisão digital.
MPEG-4 é recente e muito abrangente. Não está estabelecido o
limite de atuação deste padrão sobre televisão digital com o
MPEG-2.
MPEG-7 é muito recente e necessitará da colaboração de
especialistas de áreas diferentes para desenvolver o padrão,
principalmente de banco de dados e inteligência artificial.
1. ISO/IEC JTC1/SC29/WG11 N1909, Overview of the MPEG-4 Version 1 Standard,
Outubro 1997. http://drogo.cselt.stet.it/mpeg/public/w1909.htm
2 T. S. Huang, S. M. Kang, J. Stroming, MPEG-4 Project,Universidade de
Illinois, EUA. http://uivlsi.csl.uiuc.edu/ stroming/mpeg4/
3. Tourad Ebrehimi, MPEG-4 Video Verification Model: A video
encoding/decoding based on content representation, Instituto Federal de
Tecnologia da Suiça, Lausanne.
http://drogo.cselt.it/ufv/leonardo/icjfiles/mpeg-4_si/paper5.htm
4. ISO/IEC JTC1/SC29/WG11 N1920, MPEG-7: Context and Objectives, Outubro
1997. http://drogo.cselt.stet.it/mpeg/public/w1921.htm
5. ISO/IEC JTC1/SC29/WG11 N1921, Third Draft of MPEG-7 Requirements, Outubro
1997. http://drogo.cselt.stet.it/mpeg/public/w1921.htm
6. ISO/IEC JTC1/SC29/WG11 N1922, Second Draft of MPEG-7 Applications
Document, Outubro 1997. http://drogo.cselt.stet.it/mpeg/public/w1922.htm
7. Chiariglione and the birth of MPEG, IEEE Spectrum, Setembro, 1997.
8. Andrew S. Tanembaum, Computer Networks, 3a. Edição, 1996.
9. ISO/IEC IS 13818 - MPEG-2: Generic coding of moving pictures and audio
information.
Este trabalho tem o objetivo de mostrar a evolução do padrão de
codificação MPEG (Motion Picture Expert Group) de
informação áudio-visual. Descrevendo o processo de
padronização, as técnicas de codificação, os tipos de
aplicações empregadas, as camadas de cada padrão e as
tendências futuras na área. Serão apresentados os padrões
MPEG-1, MPEG-2, MPEG-4 e MPEG-7.
1. Introdução
2. MPEG-1
3. MPEG-2
4. MPEG-4
4.1 Aplicações
4.2 Visão Geral da Arquitetura
4.3 A Camada Sistema
gerência do buffer do terminal de recepção,
identificação de tempo, composição da informação
áudio-visual e configuração do terminal de recepção.
4.4 Camada de Vídeo
4.5 Camada de Áudio
Intervalo Aplicações Frequência
Técnica de codificação
2..6Kbps
codificação de voz
8
Paramétricas
6..24Kbps
Celular, Internet
8,16
Code Excited Linear Predictive - CELP
16..24Kbps
Várias
> 7
tempo para frequencia
5. MPEG-7
6. Considerações Finais
7. Bibliografia