fbpx
Data Science Inteligência Artificial Machine Learning
Imagem em close de um tablet nas mãos de uma pessoa, com a representação de uma impressão digital sendo projetada da tela, com luzes intensas ao redor.

Dados sintéticos e IA para acelerar a inovação

Garantir que tudo corra bem na operação dos negócios em um mundo dinâmico, onde a digitalização é crescente e acelerada, é um desafio para os gestores. O ambiente demanda o uso de tecnologias sofisticadas, como IA, machine learning e análise de dados que são fundamentais para a orientação do desenvolvimento de produtos e negócios. Há uma infinidade de dados sobre pessoas e operações variadas trafegando pela Internet em um gigantesco e contínuo fluxo de informação. Estes dados, considerados o novo petróleo, podem ser refinados e convertidos em inteligência para a geração de produtos e serviços centrados no cliente, gerando valor em forma de vantagem competitiva para negócios em diversos setores da economia.

Apesar da ampla disponibilidade, as preocupações com a privacidade e a regulamentação do uso dos dados também são bem reais, temos a Lei Geral de Proteção de Dados Pessoais no Brasil, GDPR na Europa e a CCPA na Califórnia, políticas e regulamentações a serem seguidas para defender os interesses dos proprietários dos dados.

Mas, como seguir uma cultura data driven, aumentando a competitividade e compartilhando dados com parceiros externos, sem violar regras de privacidade e direitos dos usuários? A resposta pode estar nos dados sintéticos.

Gerados pela IA para a simulação de características e comportamentos de dados reais, dados sintéticos atuam como um tipo de proxy para eles, protegendo informações confidenciais. Outra característica muito interessante, além da segurança no âmbito da privacidade, é o fato de que sua utilização pode acelerar ciclos de desenvolvimento e análise, reduzindo custos de aquisição de dados, conectado silos de informação e apoiando a monetização de dados.

Dados sintéticos são uma via para simulações capazes de contornar as restrições de dados históricos e realizar a interpolação de dados perdidos. Segundo previsão da consultoria Gartner, 60% dos dados usados para desenvolvimento de IA e soluções analíticas serão gerados sinteticamente até 2024, tornando a capacidade de geração de dados sintéticos esperada em plataformas analíticas e de machine learning.

Quando usar os dados sintéticos?

Em setores onde dados de clientes são extremamente sensíveis e sujeitos a regulamentação rígida, os dados sintéticos possibilitam o treinamento de IA, testes de produtos e o compartilhamento de dados sem que haja violações. Quando se trata do treinamento de modelos cujos dados devem necessariamente ser anônimos, dados sintéticos podem ser considerados vitais para o processo.

Na saúde, favorecem a criação de modelos preditivos mais precisos, permitindo que os sistemas estejam dois passos à frente da demanda, assim como outras indústrias mudaram de modelos reativos para proativos.

O treinamento de modelos de IA para cenários onde dados limitados estão disponíveis é outra aplicação interessante, pela possibilidade de ‘amplificar’ um caso de fraude, exagerando o cluster com dados sintéticos, resultando novamente em modelos de IA mais precisos, por exemplo.

Quando dados anteriores deixam de ser confiáveis para o futuro, ameaçando a precisão do modelo de IA, os dados sintéticos também podem ajudar. Segundo Svetlana Sicular, vice-presidente de pesquisa do Gartner “(…) durante a Covid-19, muitos modelos pararam de funcionar. Experiências e exemplos passados ​​tornaram-se inválidos nas circunstâncias atuais. E isso pode acontecer a qualquer momento. Os dados sintéticos, em um nível filosófico, aliviam a IA das limitações de olhar apenas para o passado e aprender com os dados do passado. Com dados sintéticos, você pode sonhar com o futuro, criar os dados que você acha que podem vir no futuro e criar os modelos para lidar com o futuro.”

O Gartner prevê que, em 2024, o uso dos dados sintéticos reduzirá em 50% o volume de dados reais necessários para o machine learning, acelerando a inovação baseada em dados.

Um catalisador para o desenvolvimento e testes
de produtos com base em dados

Há situações em que o teste de recursos e serviços dependem de usuários de teste dinâmicos, então, é necessário contar com um número restrito de usuários, atravessando longos períodos de teste, validação de segurança e conformidade. Os dados sintéticos permitem a criação de segmentos e comunidades, gerando rapidamente um número ilimitado de operações tanto para o passado quanto para o futuro, alimentando sistemas com usuários ‘vivos’.

Uma multa de EUR 125.000 aplicada à Confederação Norueguesa de Esporte pela NDPA ilustra bem o valor da aplicação de dados sintéticos. Em 2019, durante um teste de soluções, enquanto movia um banco de dados de servidor local para a nuvem, a organização compartilhou por engano dados pessoais de mais de 3 milhões de noruegueses, dos quais quase 500 mil eram crianças com idades entre 3 e 17 anos. Para a Autoridade Norueguesa de Proteção de Dados, o teste poderia ter sido realizado com o processamento de dados sintéticos, ou pelo menos utilizando uma quantidade muito menor de dados pessoais.

Compartilhamento de dados sem violação de privacidade

O poder da colaboração é inegável e, segundo o Gartner, as organizações que compartilham dados com parceiros externos geram três vezes mais benefícios econômicos mensuráveis que aquelas que não o fazem. Apesar da importância do compartilhamento na geração de valor, seria no mínimo extremamente complicado fazê-lo sem violar as regulamentações vigentes, o que torna os dados sintéticos fundamentais também para a colaboração.

É possível compreender o quão delicado é o compartilhamento de dados com terceiros ao observar a decisão do Tribunal de Justiça Europeu, conhecida como Schrems II, que invalidou o Privacy Shield Framework da EU-EUA, tornando ilegal a maioria das transferências de dados EU-EUA.

Organizações que atuam no setor da saúde, por exemplo, teriam de lidar com processos complexos, lentos e dispendiosos ao optar por compartilhar dados de registros de pacientes com startups e parceiros, o que deixa de ser um problema quando dados sintéticos são disponibilizados.

Impacto nos negócios

De forma objetiva, quando é viável nos pontos de vista técnico e estratégico eliminar a preocupação com a privacidade, utilizando dados sintéticos para a experimentação, ocorre a geração de valor de forma segura, e se torna possível contornar escassez de dados e entraves no compartilhamento de informações, removendo barreiras que consequentemente atrasam a inovação.

Em ambientes regulados, projetos com dados também acabam consumindo muito tempo para a obtenção de permissões de utilização, visando garantir a segurança do processo, causando um impacto que pode representar, sem exageros, 50% do esforço. À medida que reduzem a burocracia, os dados sintéticos tendem a aumentar muito a produtividade no processo, permitindo o foco integral no projeto em si.

Reconhecer a capacidade dos dados sintéticos no apoio à transformação digital, como meio para o aumento de eficiência, aceleração da inovação, recrutamento e retenção de talentos, levará mais setores a experimentar os benefícios comerciais da sua utilização. A compreensão do tema pela liderança sênior também levará as demandas para além dos casos de uso atuais, como o treinamento de IA e assistência.

É possível sintetizar dados menos tendenciosos para treinar modelos minimamente ou não tendenciosos, ajustando variáveis conforme a influência de outros fatores. Um exemplo é a consideração de dados coletados de smartphones, em um universo onde há principalmente mais jovens, neste caso é possível ajustar a velocidade de digitação ou a maneira como falam os idosos.

Lançado no último mês de abril, o regulamento de IA proposto pela Comissão Europeia também deve gerar maior demanda por dados sintéticos. A definição do regulamento de IA inclui software que utiliza aprendizado de máquina, abordagens de IA baseadas em regras e técnicas estatísticas tradicionais aplicadas à criação de modelos.

Editado a partir de Harvard Business Review Analytics Services - The Executive’s Guide to Accelerating Artificial Intelligence and Data Innovation with Synthetic Data.

Autor

Hartb

Inteligência humana gerando inteligência artificial.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *