Evidências Preliminares e Fundamentos para um Sistema de Detecção de Estado Afetivo em Tempo Real
Apresentamos evidências preliminares de que o padrão temporal de digitação — especificamente os intervalos entre teclas consecutivas (Inter-Key Intervals, IKIs) — carrega informação estatisticamente detectável sobre o estado emocional do operador, independentemente do conteúdo semântico do texto produzido. Os dados foram coletados em protocolo de escrita livre com avaliação de estado afetivo por Ecological Momentary Assessment (EMA) em escala bidimensional de valência e ativação, baseada no modelo circumplexo de Russell (1980). Os achados incluem: distribuição lognormal dos IKIs consistente com a literatura de tempos de reação motora; idiossincrasia interindividual na direção do sinal; maior poder discriminativo do desvio padrão dos IKIs sobre a média para estados de valência negativa; e correlação de Pearson r = +0.402 entre sinal de digitação e dimensão de ativação emocional na primeira sessão com participante externo. Esses resultados são consistentes com a hipótese do marcador somático de Damásio (1994) aplicada ao canal motor periférico da digitação, e motivam a construção de um sistema de aprendizado de representações afetivas a partir de sinais de teclado em língua portuguesa.
Sistemas de linguagem de grande escala operam exclusivamente sobre representações semânticas do texto produzido pelo usuário. Essa arquitetura implica uma limitação estrutural: o sistema só tem acesso ao que o usuário decidiu escrever, não ao estado fisiológico e emocional no qual a escrita foi produzida. Essa distinção é não trivial.
A hipótese do marcador somático (Damásio, 1994) estabelece que estados emocionais se manifestam como respostas corporais que precedem e modulam o processamento cognitivo consciente. Se essa hipótese é correta, então o canal motor da digitação — produto direto do processamento cognitivo e motor do sistema nervoso central e periférico — deve carregar traços mensuráveis desses estados.
A questão empírica que o projeto OMMΩ se propõe a responder é precisa: dado um segmento de texto produzido por um participante, é possível inferir o estado emocional do participante no momento da produção a partir das propriedades temporais da digitação, com acurácia estatisticamente superior ao acaso e magnitude de efeito clinicamente relevante?
Essa pergunta tem três camadas de dificuldade que a distinguem de trabalhos anteriores em keystroke dynamics.
Primeira: a língua. A esmagadora maioria da literatura de keystroke dynamics foi conduzida em inglês, com estruturas morfológicas, fonológicas e ortográficas distintas do português. Padrões de digitação são parcialmente determinados pela frequência de bigramas e trigramas específicos da língua, pela posição de acentos e caracteres especiais, e pela velocidade média de processamento lexical — todos fatores que variam entre línguas. Não é possível assumir que modelos treinados em inglês generalizam para português sem validação empírica.
Segunda: o contexto ecológico. Estudos laboratoriais de keystroke dynamics tipicamente usam textos de cópia — o participante digita um texto fornecido pelo experimentador. Isso controla a variância semântica mas elimina precisamente o canal pelo qual estados emocionais se expressam na escrita: a geração espontânea de conteúdo. O protocolo do OMMΩ IKI usa escrita livre sobre decisões pessoais recentes — um contexto que ativa estados emocionais reais e produz variância natural no conteúdo.
Terceira: a granularidade da anotação afetiva. Estudos que usam categorias emocionais discretas (feliz, triste, ansioso) introduzem imprecisão conceptual: as categorias são culturalmente construídas, têm fronteiras difusas e frequentemente não capturam a textura contínua do estado afetivo. O uso do modelo circumplexo de Russell (1980) com anotação contínua em duas dimensões — valência e ativação — produz coordenadas afetivas matematicamente tratáveis e teoricamente fundamentadas.
Cada sessão de coleta consiste em um período de escrita livre de aproximadamente 20 minutos, durante o qual o participante escreve sobre decisões pessoais recentes sem restrição de conteúdo ou extensão. O sistema registra, para cada evento de teclado, um timestamp de alta resolução. O IKI entre duas teclas consecutivas é definido como:
Em três momentos distribuídos ao longo da sessão, o fluxo de escrita é interrompido e o participante completa uma avaliação EMA: posiciona seu estado emocional atual num espaço bidimensional de valência (eixo horizontal, negativo a positivo) e ativação (eixo vertical, baixa a alta), produzindo coordenadas contínuas (v, a) no espaço circumplexo.
O intervalo médio entre o início da sessão e o primeiro EMA, entre o primeiro e o segundo EMA, e entre o segundo e o terceiro EMA foi de aproximadamente 190 caracteres por segmento — desvio marginal em relação ao critério de disparo configurado em 200 caracteres, considerado aceitável para análise.
Cada sessão produz portanto um par estruturado: uma série temporal de IKIs, e três vetores de estado afetivo (v₁, a₁), (v₂, a₂), (v₃, a₃) distribuídos temporalmente ao longo da série.
A análise exploratória dos IKIs brutos de todos os participantes confirmou distribuição lognormal, consistente com a literatura consolidada de tempos de reação motora (Logan, 1988; Ratcliff, 1993) e com estudos anteriores de keystroke dynamics (Leggett e Williams, 1988; Monrose e Rubin, 2000). A distribuição lognormal implica que a variável de análise adequada não é o IKI bruto, mas seu logaritmo natural:
Trabalhar com IKI_log aproxima a distribuição da normalidade, viabilizando testes paramétricos e estabilizando a variância entre participantes com velocidades de digitação muito distintas. Diferenças em IKI_log correspondem a razões multiplicativas nos IKIs brutos, capturando variações relativas de ritmo independentemente da velocidade base do participante.
A comparação entre participantes revelou que a direção da correlação entre variações de IKI e estado emocional não é uniforme. Para um subconjunto de participantes, estados de alta ativação emocional correspondem a aceleração do ritmo de digitação (IKIs menores). Para outro subconjunto, a mesma condição corresponde a desaceleração ou aumento de irregularidade.
Esse achado é teoricamente esperado. A hipótese do marcador somático não prediz uma direção universal de resposta somática — prediz que o organismo produz respostas consistentes para si mesmo, não idênticas entre indivíduos. A idiossincrasia do sinal é compatível com a teoria e com a literatura de biofeedback (Schandry, 1981).
A implicação para modelagem é direta: um modelo que tenta aprender um mapeamento universal entre IKI e estado emocional será limitado pela heterogeneidade interindividual. Isso motiva abordagens que aprendem representações individuais antes de generalizar — um dos princípios arquiteturais que guiam o desenvolvimento do OMMΩ.
Comparando o poder discriminativo de duas métricas agregadas dos IKIs por segmento de escrita para classificação de estados de valência negativa versus não-negativa:
O desvio padrão mostrou maior poder discriminativo para valência negativa do que a média. Participantes em estados de valência negativa produzem padrões de digitação com maior irregularidade temporal — o ritmo se torna menos uniforme, com maior variância entre teclas consecutivas — sem necessariamente alteração consistente na velocidade média.
Esse resultado é coerente com literatura de psicofisiologia do estresse que documenta aumento de variabilidade em respostas motoras sob carga emocional negativa (Fairclough e Venables, 2006). A implicação para feature engineering é que métricas de dispersão devem ter peso representacional igual ou superior a métricas de tendência central em qualquer modelo que tente inferir valência a partir de IKIs.
Na primeira sessão conduzida com participante externo ao grupo de pesquisa — sem qualquer ajuste de modelo, usando apenas o sinal bruto transformado — a correlação de Pearson entre a série temporal de IKIs e a dimensão de ativação do EMA foi:
Esse valor está no limiar inferior do que a literatura considera correlação moderada (Cohen, 1988: r > 0.3 = pequeno, r > 0.5 = médio). É um resultado preliminar, com n pequeno, e não pode ser tomado como evidência confirmatória da hipótese. Mas três aspectos merecem atenção.
Primeiro, a direção é positiva e consistente com a hipótese: maior ativação emocional correlaciona-se com alterações específicas no padrão de digitação na direção prevista. Segundo, o valor foi obtido sem otimização de qualquer tipo — o sinal bruto, transformado apenas por logaritmo natural, já produz correlação detectável. Terceiro: se o sinal bruto sem modelo produz r = +0.402, a pergunta sobre o que um modelo aprendido sobre centenas de participantes pode produzir está empiricamente motivada.
Os quatro achados descritos acima, tomados em conjunto, produzem um quadro teórico coerente. O sistema nervoso autônomo modula continuamente a atividade motora periférica em resposta a estados emocionais (Damasio, 1994; Porges, 2007). Essa modulação se manifesta em sinais periféricos mensuráveis: frequência cardíaca, condutância da pele, tônus muscular, e — nossa hipótese — variações no ritmo de digitação. A digitação é um ato motor altamente automatizado em usuários experientes, o que significa que variações no ritmo não são produto de deliberação consciente, mas de flutuações no substrato neurofisiológico que executa o ato motor. Isso é precisamente a definição operacional de marcador somático aplicada ao canal da digitação.
A literatura de keystroke dynamics para autenticação (Monrose e Rubin, 2000; Peacock et al., 2004) estabelece que o padrão temporal de digitação é suficientemente estável e idiossincrático para identificar indivíduos com alta acurácia. Se o padrão de digitação é uma assinatura individual estável o suficiente para autenticação biométrica, então variações nesse padrão ao longo do tempo devem refletir mudanças no estado interno do indivíduo — seja cognitivo, seja emocional.
Picard e Healey (2002) demonstraram que stress mensurado por GSR e frequência cardíaca correlaciona-se com padrões de uso de teclado e mouse em contexto de trabalho real. Nossos achados estendem esse resultado para um contexto de escrita emocional explícita e para a língua portuguesa, com anotação afetiva multidimensional em lugar de categorias discretas de stress.
O achado de idiossincrasia é consistente com o modelo de Feldman Barrett (2006) de construção psicológica da emoção: respostas somáticas a estados emocionais são parcialmente aprendidas e culturalmente moduladas, não fixas biologicamente. Isso prediz precisamente o que observamos: a existência de sinal somático na digitação, mas com expressão heterogênea entre indivíduos.
A progressão do projeto está condicionada a critérios estatísticos pré-registrados, definidos antes da coleta de dados em escala. Esses critérios determinam se a hipótese central tem suporte empírico suficiente para justificar investimento crescente em modelagem e infraestrutura.
Cohen's d > 0.5 entre grupos de estado emocional
→ Escalar para 150 participantes e iniciar modelagem
Pearson r > 0.4 em validação leave-one-out
→ Escalar para modelo de produção e beta fechado do OMMΩ
O uso de leave-one-out cross-validation no Gate 2 é deliberado: garante que a correlação medida reflete generalização para participantes não vistos pelo modelo, não apenas ajuste aos dados de treinamento. A escolha de Cohen's d > 0.5 como critério para o Gate 1 é conservadora em relação ao que a literatura de psicofisiologia tipicamente reporta para efeitos de estado emocional em sinais periféricos (onde d entre 0.3 e 0.8 é comum). Isso reflete a necessidade de efeito suficientemente grande para ser útil em aplicação real, não apenas estatisticamente significativo.
Três questões permanecem sem resposta empírica e determinam os limites de validade da hipótese no estado atual da pesquisa.
Generalização linguística. O protocolo atual coleta dados em português. Não sabemos se modelos treinados nesse corpus generalizam para outros idiomas, ou se a estrutura temporal da digitação em português tem propriedades específicas que facilitam ou dificultam a detecção de sinal afetivo.
Estabilidade intraindividual ao longo do tempo. Participantes foram coletados em até três sessões separadas por semanas. Não sabemos se o padrão de correlação entre IKI e estado emocional de um participante é estável ao longo de meses ou anos, ou se deriva com mudanças no contexto de vida, no hardware usado, ou na fluência de digitação.
Confusão semântica. O protocolo usa escrita livre sobre conteúdo emocionalmente carregado. Não podemos ainda separar completamente quanto da variação nos IKIs é produzida pelo estado emocional e quanto é produzida pela dificuldade semântica do conteúdo sendo elaborado — palavras raras, frases complexas, hesitação lexical. Separar esses dois sinais é um problema de identificação estatística que requer design experimental adicional.
Este documento descreve os fenômenos observados, as métricas que os quantificam, o protocolo de coleta e os fundamentos teóricos que motivam a pesquisa. Não descreve a arquitetura do sistema de aprendizado em desenvolvimento, os algoritmos de treinamento, a estrutura de representação dos dados, o pipeline de processamento de sinal, nem os critérios de design do modelo. Esses elementos constituem propriedade intelectual da Xcorphion Corporation e não são objeto de divulgação pública nesta fase do projeto.
O que publicamos é o fenômeno e a pergunta. A engenharia que nos permite investigar ambos permanece interna.
Bechara, A., Damásio, A. R. (2005). The somatic marker hypothesis: A neural theory of economic decision. Games and Economic Behavior, 52(2), 336–372.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum Associates.
Damásio, A. R. (1994). Descartes' Error: Emotion, Reason and the Human Brain. Putnam.
Fairclough, S. H., Venables, L. (2006). Prediction of subjective states from psychophysiology: A multivariate approach. Biological Psychology, 71(1), 100–110.
Feldman Barrett, L. (2006). Are emotions natural kinds? Perspectives on Psychological Science, 1(1), 28–58.
Gross, J. J. (1998). The emerging field of emotion regulation. Review of General Psychology, 2(3), 271–299.
Leggett, J., Williams, G. (1988). Verifying identity via keystroke characteristics. International Journal of Man-Machine Studies, 28(1), 67–76.
Logan, G. D. (1988). Toward an instance theory of automatization. Psychological Review, 95(4), 492–527.
Monrose, F., Rubin, A. D. (2000). Keystroke dynamics as a biometric for authentication. Future Generation Computer Systems, 16(4), 351–359.
Peacock, A., Ke, X., Wilkerson, M. (2004). Typing patterns: A key to user identification. IEEE Security and Privacy, 2(5), 40–47.
Picard, R. W., Healey, J. (2002). Affective wearables. Personal and Ubiquitous Computing, 1(4), 231–240.
Porges, S. W. (2007). The polyvagal perspective. Biological Psychology, 74(2), 116–143.
Ratcliff, R. (1993). Methods for dealing with reaction time outliers. Psychological Bulletin, 114(3), 510–532.
Russell, J. A. (1980). A circumplex model of affect. Journal of Personality and Social Psychology, 39(6), 1161–1178.
Schandry, R. (1981). Heart beat perception and emotional experience. Psychophysiology, 18(4), 483–488.