Liberando todo o potencial de inteligência artificial e X-Reality com redes 5G | NTT DATA

seg, 02 maio 2022 - 6.01

Liberando todo o potencial de inteligência artificial e X-Reality com redes 5G

A tecnologia de rede 5G representa um avanço para tecnologia de redes móveis, que é projetada para oferecer alta velocidade, baixa latência, confiabilidade e enorme capacidade de transferência de dados

Introdução

A tecnologia de rede 5G representa um avanço para tecnologia de redes móveis, que é projetada para oferecer alta velocidade, baixa latência, confiabilidade e enorme capacidade de transferência de dados. As melhorias oferecidas pelas redes 5G terão um grande impacto nas atividades diárias, no trabalho, no entretenimento, criando inúmeras possibilidades [1].

A principal motivação para o desenvolvimento de redes 5G é o avanço dos smartphones e da Internet das Coisas (IoT), que permitiram o surgimento de diversas aplicações baseadas em redes móveis de banda larga. Alguns exemplos:

  • C-V2X (Cellular Vehicle-to-Everything) comunicação entre um veículo e outras partes, tais como, infraestrutura, rede, veículos, pedestres e dispositivos.
  • Aplicações móveis que utilizam novos mecanismos de interação, como por exemplo, a tecnologia de Realidade Aumentada (RA).
  • Aplicações centradas em dados que utilizam dados de dispositivos de ponta, como câmeras e sensores, que podem estar geograficamente dispersos.

 

Essas aplicações têm os seguintes requisitos comuns: (1) A necessidade de transferência de grande volume de dados com alto desempenho; e (2) A necessidade de descarregar parte da computação para uma infraestrutura de nuvem.

O grande diferencial oferecido pelas redes 5G em comparação com as gerações mais antigas, deve-se ao fato de oferecer recursos que podem ser combinados para atender aos diferentes conjuntos e níveis de requisitos de cada aplicação, o que é chamado de fatiamento de rede (network slicing). O fatiamento de redes 5G é uma funcionalidade que permite a multiplexação de redes lógicas virtualizadas e independentes na mesma infraestrutura física de rede, sendo essencial para a implantação de redes isoladas de ponta a ponta com capacidade de atender a diversos requisitos solicitados por uma determinada aplicação.

A tecnologia 5G oferece recursos que facilitam a combinação de conexão de rede,  computação de borda e computação em nuvem, assim, o provedor 5G pode ser responsável não só pela conectividade, mas também por trabalhar como um data center e/ou um escritório central em nuvem.

Um desafio para as exigências da rede 5G é a análise de futebol baseada em vídeos, pois para fornecer dados confiáveis que possibilitem a realização da análise, precisamos de um conjunto de câmeras, conectadas por meio de uma rede de alto desempenho, para fornecer uma visão holística do jogo. Neste contexto, desenvolvemos um protótipo que fornece uma visualização 3D do jogo em tempo real e mostra o mapa de calor dos jogadores em campo. Para realizar esta análise, o protótipo combina Inteligência Artificial (IA), Visão Computacional (VC) e Realidade Aumentada (RA).

 

Visão Computacional e Inteligência Artificial

Um dos principais objetivos das técnicas de visão computacional é o aprendizado de padrões por meio de imagens [2], [3], realizado por meio de operações básicas, como por exemplo, histograma de cores, detecção de contornos e os filtros.  Tais operações podem ser usadas para uma variedade de aplicações práticas, como redução de ruído, detecção de formas, classificação de imagens, entre outras. Um exemplo de uma aplicação prática baseada no histograma de cores é a avaliação da similaridade entre as imagens [4].

A combinação de visão computacional e inteligência artificial possibilita o desenvolvimento de funcionalidades, tais como, classificação de imagens, detecção e classificação e rastreamento de múltiplos objetos, que pode ser difundido para diversas áreas [5]. A Figura 1 mostra o resultado de uma inferência gerada por um modelo de detecção de objetos implementado com YOLOv3.

 

Figura 1. Diversos objetos identificados pelo YOLOv3[1].
 

X-Reality

Realidade Aumentada (RA) é uma subárea da X-Reality [6] dedicada à exploração de técnicas para proporcionar novas experiências de interação entre máquinas e humanos e para a   visualização de dados. A RA permite uma versão aprimorada da realidade, sobrepondo a informação digital a uma imagem de algo que está sendo observado por um dispositivo. Geralmente, smartphone ou headset sem capacidade de mapeamento do ambiente.

Os frameworks de RA podem ser usados para criar visualização 3D, navegação livre em ambientes 3D, zoom-in e zoom-out, entre outras funcionalidades, que são essenciais para obter insights poderosos por meio da visualização de conteúdo estático ou conteúdo gerado dinamicamente. Na Figura 2 apresentamos a tela de um smartphone executando o protótipo desenvolvido para reproduzir uma partida de futebol em tempo real, o usuário visualiza o campo incorporado em uma parte do cenário físico na tela de seu celular.

Figura 2. Aplicação de Realidade Aumentada

 

Identificando o movimento dos jogadores em uma partida de futebol em tempo real utilizando as tecnologias 5G, X-Reality e IA

O objetivo do protótipo desenvolvido é rastrear a movimentação dos jogadores, árbitro e bola durante uma partida de futebol e reproduzir esta movimentação em RA. É possível realizar várias análises:

  • Tática: movimentação dos jogadores, posição dos jogadores durante o ataque e a defesa, assim como estatísticas relacionadas a posse de bola, tempo no ataque, e muito mais.
  • Assistência aos árbitros: impedimentos, faltas e gols.
  • Análise preditiva: previsão de eventos específicos nas próximas etapas com base nos eventos anteriores da mesma partida ou com base em eventos de partidas já realizadas.
  • Visualização de eventos capturados de uma partida de futebol em um ambiente 3D.

 

Para atingir este objetivo, desenvolvemos uma arquitetura em camadas, como demonstrado na Figura 3, que combina os seguintes componentes: 

  • Um componente de transmissão para gerar dados a partir da partida em tempo real, que captura cada quadro do vídeo gerado em tempo real e transmite por TCP para uma rede local que será processada pelo componente de aprendizagem profunda (deep learning).
  • Um modelo de aprendizagem profunda que realiza o rastreamento de jogadores, bola, gol e meio-campo. Este modelo utiliza a topologia YOLOv4, e ponderações que são obtidas após o treinamento do modelo com um conjunto de dados de imagens obtidas de vídeos do jogo PES (Pro Evolution Soccer).
  • Um componente implementado com visão computacional para identificar a equipe de cada jogador e converter a posição para uma vista aérea.
  • Componente de RA para reproduzir a movimentação

 

Figura 3. Arquitetura em camadas

 

Para converter a posição em vista aérea, utilizamos o meio-campo como referência para obter a posição absoluta dos jogadores, e cortamos manualmente a imagem para filtrar elementos fora do campo, este processo para obter a posição absoluta pode ser visto na Figura 4. O resultado desta conversão pode ser visto na Figura 5.

 

Figura 4. Mapeamento da localização para a vista aérea.

Figura 5. Mapeamento da posição de um jogador partindo de uma visão parcial (parte superior da imagem) para uma vista aérea (parte inferior da imagem).

 

Para identificar a equipe de cada jogador, o árbitro e os goleiros, implementamos um conjunto de máscaras coloridas. Na Figura 6 mostramos o exemplo de uma máscara colorida para identificar os jogadores do Barcelona.  Então, para cada objeto que foi detectado, aplicamos um conjunto de máscaras coloridas, cada máscara colorida retorna um valor médio para todos os pixels, a combinação dos valores retornados para cada máscara é utilizada como um critério para identificar a equipe, árbitro e goleiros.

Figura 6. Máscara colorida aplicada para identificar a equipe de cada jogador, goleiros e o árbitro.

 

Análise e resultados

Este protótipo foi desenvolvido com base em imagens geradas pelo PES (Pro Evolution Soccer). A câmera proporciona uma visão parcial do campo, com movimento horizontal que acompanha a bola. Nosso protótipo transmite o vídeo como uma sequência de quadros em um nó, interpretando uma partida de futebol como uma sequência de movimento em um segundo nó, e reproduz a partida em RA em um telefone celular. Estes elementos foram implementados em uma rede local, de acordo com a Figura 7, e podemos notar uma alta demanda de transmissão de dados em rede, portanto o suporte de uma infraestrutura 5G é essencial para manter o desempenho em um estádio onde os elementos estarão geograficamente dispersos.  

Figura 7. Implantação do protótipo

 

 

Referências

[1]  “White Paper: 5G Network Architecture - A High-Level Perspective - Industry insight in Huawei”, huawei.

https://www.huawei.com/en/technology-insights/industry-insights/outlook/mobile-broadband/insights-reports/5g-network-architecture (acessado em 16 de novembro, 2021).

[2] K. Grauman e B. Leibe, “Visual Object Recognition”, Synth. Lect. Artif. Intell. Mach. Learn., vol. 5, no 2, p. 1–181, abr. 2011,

doi: 10.2200/S00332ED1V01Y201103AIM011.

[3] R. Shilkrot e D. M. Escriva, Mastering OpenCV 4: A comprehensive guide to building computer vision and image processing applications with C++,

3rd Edition. Packt Publishing, 2018.

[4] A. P. Fard, “Histogram Matching”, Medium, nov. 10, 2021. https://towardsdatascience.com/histogram-matching-ee3a67b4cbc1 (acessado em 18 de novembro, 2021).

[5] R. Szeliski, Computer Vision: Algorithms and Applications, 2011 2a ed. London; New York: Springer, 2010.

[6] S. Mann, T. Furness, Y. Yuan, J. Iorio, e Z. Wang, “All Reality: Virtual, Augmented, Mixed (X), Mediated (X,Y), and Multimediated Reality”,

ArXiv180408386 Cs, abr. 2018, (acessado em 18 de novembro, 2021). [Online]. http://arxiv.org/abs/1804.08386

 


Don't miss any updates

We’ll send you the latest insights from NTT Data straight to your inbox

Sign up to the newsletter
um avião de papel branco em um fundo verde

Related Insights

Como podemos ajudá-lo?

Entre em contato conosco