Análise estatística de dados topológicos usando paisagens de persistência



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Análise estatística de dados topológicos usando cenários de persistência {#s1}

==========================================================

Começamos com uma visão geral da análise de dados topológicos (TDA), seguida de uma breve introdução às paisagens de persistência. Em seguida, discutimos os desafios da TDA estatística, bem como o uso de métodos clássicos na TDA. Finalmente, discutimos brevemente os métodos para seleção de recursos e concluímos com uma breve visão geral das questões em aberto e direções futuras. A maior parte deste manuscrito se concentra em séries temporais de valor real, no entanto, nossas discussões são aplicáveis ​​a séries temporais multivariadas.

Análise de dados topológicos

-------------------------

A análise de dados topológicos (TDA) é um conjunto de ferramentas orientadas a dados que ajudam a obter conhecimento sobre a estrutura topológica intrínseca de conjuntos de dados, gerando resumos topológicos. Um recurso importante do TDA é o uso de nuvens de pontos de amostras de dados em vez de dados brutos. Isso permite que o profissional analise com eficiência conjuntos de dados grandes e complexos de maneira estatisticamente rigorosa.

### A base para TDA: o espaço de dados {#s1a}

A ideia básica do TDA é transformar o espaço de dados de tal forma que as estruturas de interesse, como clusters ou subespaços, se tornem mais salientes. A base primária para TDA é baseada em um espaço multidimensional (MDS) dos dados brutos. Esse espaço é obtido incorporando os dados brutos como pontos em um espaço euclidiano de dimensão *m* e, em seguida, particionando o espaço resultante em subconjuntos por meio de algum método de agrupamento. Para poder particionar o MDS em regiões significativas, primeiro é preciso definir uma função de distância. A estrutura TDA é independente de como o MDS é construído ou da função de distância definida.Ao longo deste artigo, focaremos nos MDSs Gaussianos (GMDSs) construídos via Análise de Componentes Principais (PCA).

### Uma breve visão geral do PCA {#s1b}

O PCA é um dos algoritmos mais conhecidos para extrair direções não correlacionadas de um conjunto de dados multidimensional [@pone.0047745-Hotelling1]. Existem várias abordagens diferentes para transformar o conjunto de dados original em um MDS, como dimensionamento multidimensional (MDS) ou Isomap [@pone.0047745-Schaefer1]. Essas técnicas diferem em seu nível de distorção, viés e outras propriedades inerentes. Como consequência, a escolha do MDS resultante depende do domínio da aplicação e do conjunto de dados em questão. Neste artigo, focamos no PCA, onde a dimensão do MDS é *m*, pois este algoritmo fornece bons resultados para diversos tipos de aplicações. Enviamos o leitor para [@pone.0047745-Broomhead1] para obter mais detalhes sobre este tópico.

Na estrutura TDA, muitas vezes é preciso escolher entre o MDS e uma função de distância. Pode-se ficar tentado a usar a distância entre a nuvem de pontos (também conhecida como distância euclidiana) como a função de distância no MDS, no entanto, isso faz muito pouco sentido no contexto de agrupamento, pois os pontos são simplesmente escolhidos aleatoriamente em o MDS. Em vez disso, a distância ideal é uma estimativa do custo de uma caminhada na nuvem de pontos. Isso pode ser obtido gerando um caminho ponderado no MDS que minimiza a soma das distâncias entre os pontos do caminho. Dados dois pontos, a distância euclidiana entre eles é:onde denota a distância euclidiana entre os dois pontos e são os pesos que são determinados durante o cálculo. Denotamos a função resultante desse caminho como *D* e a chamamos de *distorção* ou *custo* do caminho entre os pontos. Por esta razão, os caminhos no MDS obtidos pelo TDA são referidos como *caminhos distorcidos* ou *caminhos distorcidos* neste documento.O custo entre dois pontos pode ser estimado por uma série de aproximações lineares, resultando em uma função linear contínua por partes, conforme mostrado na [Figura 1a](#pone-0047745-g001){ref-type="fig"}. À medida que o número de pontos no conjunto de dados aumenta, a quantidade de dados disponíveis para calcular o caminho distorcido se torna extremamente grande. Uma abordagem alternativa para estimar o custo entre os pontos é a *distância filtrada* ([Figura 1b](#pone-0047745-g001){ref-type="fig"}), que incorpora um parâmetro de corte para escolher um janela de pontos. A distância nas janelas é estimada com uma interpolação quadrática ou cúbica. A distância filtrada mostrou ser altamente precisa para muitas aplicações práticas e permite um cálculo mais rápido [@pone.0047745-Schaefer1].

![Um exemplo de caminho para o custo (a) e a distância filtrada (b) entre dois pontos.](pone.0047745.g001){#pone-0047745-g001}

### Caminhos de distorção {#s1c}

Para permitir que os praticantes escolham uma função de custo contínua ou discreta, seguimos a sugestão de Reich [@pone.0047745-Reich2] de gerar o caminho diretamente em um espaço de custo discretizado, ou seja, para algum valor limite *d* (que será detalhado nas seções a seguir), os custos são divididos em *n* níveis e colocamos os pontos da nuvem de pontos no espaço de custo, conforme mostrado na [Figura 2](#pone-0047745-g002){ref- type="fig"}. Dentro



Artigo Anterior

O que é um swell no paisagismo

Próximo Artigo

Paisagismo Veneza Flórida