Ficha de Leitura Nº. 2 - Testes

Introdução

 

        Falar em técnicas psicométricas é falar de testes psicológicos. Um teste é, segundo McKeen Catell, um procedimento de recolha de amostras do comportamento de um sujeito para estimar um repertório ou inferir um determinado constructo psicológico suficientemente sistemático para ser repetível e comparável.
        Segundo a classificação clássica de técnicas de avaliação da personalidade de Pervin (1979), partindo das dimensões de Campbell (1953-1957), um grupo de técnicas psicométricas é formado por todos aqueles instrumentos que partilhe as características de ser estruturados e eliciar respostas voluntárias, sendo que a característica fundamental que distingue este grupo dos restantes grupos de técnicas é precisamente a sua estruturação. Para Pelechano (1988), entende-se uma estruturação quer em função da natureza do estímulo, uma vez que este deve ser claro, inequívoco e uniforme (igual para todos os sujeitos) quer em função da liberdade de resposta da tarefa, que costuma estar totalmente limitada.
Outros autores caracterizam também estas técnicas como objetivas. Deste modo e segundo Anastasi (1982) uma técnica psicométrica ou teste psicológico é uma medida de uma amostra objetiva e estandardizada do comportamento de uma pessoa. Por estandardizada entendemos que se procurou o modo mediante o qual os procedimentos de aplicação, materiais e sistemas de pontuação permanecem constantes no tempo e independentes de quem aplique o teste. Este procedimento é para muitos autores o que o qualificativo de objetivo, entendo por tal que o resultado obtido no teste é independente do sujeito avaliado e do psicólogo que realiza a aplicação. Já a sua interpretação é levada a cabo a partir de um procedimento de quantificação que facilita a comparação de um sujeito com um grupo que realizou o teste a partir de um processo de tipificação que leva ao estabelecimento de critérios normativos e escalares para o poder interpretar. Assim, como Pelechano refere, este grupo de técnicas possui como característica distintiva o facto de permitir a comparação entre sujeitos (Pelechano, 1976 cit in Calero & Padilla, 2005).
        Ao contrário das variáveis físicas, grande parte das variáveis psicológicas nomeadamente a autoestima, a depressão ou o raciocínio analógico não são possíveis de serem observadas diretamente, assim só são possíveis de observar mediante comportamentos observáveis que os precedam. Supõe-se portanto que um teste recolhe uma amostra de comportamentos tanto cognitivos como biológicos e/ou motores representativa de um traço ou constructo subjacente. A conduta normalmente eliciada é verbal, escrita ou oral ou a execução manipulativa que se interpreta como traços ou fatores dos quais são sinal. Quer isto dizer que a sua construção se baseia geralmente no modelo de traços.
        Quanto à natureza dos constructos, Crocker e Algina (1986) defendem que estes são “produto da imaginação informada dos cientistas sociais que tentam desenvolver teorias para explicar o comportamento humano”. No que toca aos traços, Messick (1989) define que “Um traço é uma característica relativamente estável de um indivíduo que se manifesta consistentemente em algum grau apesar de possuir variações consideráveis numa gama de contextos e circunstâncias”.
        As técnicas psicométricas incluem a suposição de que o comportamento de uma pessoa é consistente no tempo e que se dispõe de evidência suficiente para apoiar a interpretação desejada das medições efetuadas. O seu pressuposto de fiabilidade faz com que o objetivo fundamental deste grupo seja por norma a previsão do comportamento futuro do sujeito com o objetivo de orientação e seleção em diversos contextos, nomeadamente o educativo, profissional, entre outros.
        Assim, um teste psicológico tem como características fundamentais:

1.      Possuir material, instruções, e modos de aplicação e interpretação padronizados, ou idênticos para todos os sujeitos avaliados.

 

2.      Fazer com que o resultado obtido pelo sujeito seja independente do profissional que realiza a avaliação.

 

3.      É quantitativo, oferecendo portanto um resultado numérico.

 

4.      Está tipificado, o que significa que a sua interpretação só tem sentido a partir da comparação das pontuações obtidas pelo sujeito com o seu grupo normativo.

 

O Processo Geral de Construção de Testes segundo a Teoria Clássica de Testes (TCT)

 

        O processo adotado para a construção de um teste contribui de forma clara na qualidade das medições obtidas. Existe um consenso amplo acerca dos passos gerais do processo, a sua sequência é aplicável tanto à construção de testes de aptidão ou rendimento como a questionários ou escalas elaboradas para medir interesses, atitudes, sentimentos, entre outros. A realização das atividades incluídas em cada passo do processo confere à elaboração de um teste as características requeridas para que o instrumento contribua para a qualidade das medições. As principais características do processo de elaboração são:

a)      Sistematização e ordem para guiar o processo de elaboração.

 

b)      Flexibilidade para permitir a otimização dos resultados obtidos ao longo de cada passo.

 

c)      Existência de “controlos de qualidade”- análise de itens, estudos de fiabilidade e validade acerca do “produto” em elaboração.

 

Identificação do objetivo previsto para o teste

 

        O processo de construção do teste deve começar pela consideração cuidadosa dos objectivos para os quais se utilizarão as pontuações, como por exemplo predição, classificação, diagnóstico etc., de maneira a antecipar os processos de decisão nos que se utilizará a informação proporcionada pelo teste.
Prieto e Delgado (1996) enumeram as categorias gerais de objectivos que se costumam usar nos testes e questionários:

·         Medição de um constructo teórico- Pretende-se elaborar um instrumento de medida de um constructo teórico a partir da sua definição. Esta definição costuma fazer parte do constructo alvo de medição.

 

·         Avaliações académicas ou comportamentais- Agrupam-se os objectivos habituais dos testes de rendimento educativo ou avaliação do comportamento.

 

·         Recrutamento- Nesta categoria incluem-se a utilização dos testes para identificar as pessoas com as características desejadas para um determinado posto.

 

·         Classificação diagnóstica- O processo de elaboração do teste tem como meta atribuir aos indivíduos avaliados diferentes categorias diagnósticas, tipos de instrução ou os itinerários educativos mais adequados para as suas aptidões ou conhecimentos.

 

Outra característica da elaboração deve incluir também a análise do que se pode denominar como contexto de aplicação do teste. Podemos então distinguir três elementos mais relevantes deste aspeto que podem condicionar a interpretação das medidas obtidas:

1.      Características da população ao que o teste se dirige- Sob esta denominação incluem-se característicos como a idade, nível educativo, classe social, meio de proveniência (rural ou urbano), língua materna, nível de compreensão de leitura, pertença a minorias ou grupos culturais.

 

2.      Restrições temporais- O tempo disponível para a aplicação do teste é outro aspeto importante que pode condicionar a sua elaboração. Existem ocasiões nas quais o tempo é parte integrante do constructo (Ex: testes de velocidade), no entanto na maioria das vezes as restrições temporais serão impostas pelas características da população de pessoas que irá responder ao teste (Ex: crianças que não mantêm a atenção durante muito tempo) ou o seu contexto de aplicação (Ex: aulas de uma hora).

 

3.      Administração individual ou coletiva- O autor do teste deve procurar um equilíbrio entre a padronização necessária das condições de aplicação e as características diferenciais de uma administração individual ou coletiva.

 

Definir o constructo que se pretende medir

 

        Segundo Cronbach e Meehl (1955), um constructo intelectual para organizar a experiência em categorias. Para Lord e Novick (1968) “O constructo deve ser definido primeiro em termos de comportamentos observáveis e segundo em termos das suas relações lógicas ou matemáticas com outros constructos dentro de um sistema teórico”.

        A primeira fonte de informação sobre o constructo é a teoria sobre o constructo. A teoria deve proporcionar a rede de relações entre o constructo e outros constructos ou variáveis de relevância prática- ou definição sintática-e a relação entre os indicadores comportamentais representativos do constructo-definição semântica (Lord e Novick, 1968 cit in Calero & Padilla, 2005).
        O objetivo deste passo da construção é assim a identificação dos comportamentos que representam o constructo.

 

Elaboração do teste

 

        A finalidade deste passo é a planificação do instrumento de avaliação prévia à redação dos itens. Pretende-se assim assegurar que os itens reflitam o objetivo e a definição do constructo realizada nos passos anteriores.
        No caso dos testes de rendimentos e aptidão, o design do teste costuma concretizar-se numa tabela de especificações que sintetiza a informação necessária acerca da natureza das tarefas previstas, ou em termos gerais, os níveis de processamento, as alíneas de conteúdo sobre as quais se realizarão essas tarefas e o número de itens necessários para as diferentes combinações de tipos de tarefas e alíneas de conteúdo.
        O design de questionários ou inventários costuma requerer uma tomada de decisões no que diz respeito aos componentes que irão agrupar os diferentes indicadores comportamentais (Ex: cognitivos, afetivos ou comportamentais), como se interrelacionam, o número de itens previsto, o tipo e número de alternativas de resposta para os itens, etc.

 

Desenvolvimento dos Itens

 

        A partir da definição do constructo e seguindo as especificações do teste e dos seus conteúdos potenciais, o autor deve elaborar os itens para cada um dos indicadores previstos do constructo. Tradicionalmente agrupam-se os formatos disponíveis para os testes de rendimento e aptidão em duas categorias: formatos de resposta eleita e formatos de resposta elaborada ou construída (Crocker e Algina, 1986 cit in Calero & Padilla, 2005). Os formatos de resposta eleita oferecem diferentes opções para que a pessoa escolha a sua resposta à tarefa apresentada. Existe uma grande variedade de formatos de resposta eleita: Escolha múltipla, verdadeiro ou falso, emparelhamento, etc. Em contrapartida, nos formatos de resposta elaborada a pessoa deve produzir a sua resposta. Os diferentes formatos de resposta construída variam em grau da construção e elaboração da resposta, são eles: terminação de frases, resposta breve, ensaio, etc.
        O objetivo da redação de itens é que cada um reflita com a maior exatidão possível o comportamento indicador do constructo recolhido na definição. Ao mesmo tempo deve tentar minimizar ou evitar o surgimento de potenciais erros que possam contaminar as inferências realizadas desde as pontuações obtidas no teste até ao constructo que se pretende avaliar.
        A prática tradicional da construção de testes aconselha a elaboração de um conjunto de itens superior ao necessário para chegar à versão final do teste, após uma série de análises que nos permitam selecionar definitivamente aqueles que melhor se ajustam ao constructo de interesse, oferecendo portanto melhores garantias técnicas.

 

Análise de itens

 

        Uma vez redigido o conjunto inicial de itens, é necessário julgar a sua qualidade. O primeiro “controlo” pelo que devem passar os itens é denominado “análise da qualidade dos itens”. Esta etiqueta recolhe um conjunto de análises quantitativas e qualitativas, e o seu objetivo final é o de selecionar do conjunto inicial aqueles que farão parte do teste final. O critério de seleção para o efeito tem dois componentes: a adequação dos itens como medida da variável e na contribuição de cada item de maneira a formar um teste internamente consistente. Para reunir a informação necessária são utilizados procedimentos subjetivos e empíricos.
        Os procedimentos subjetivos consistem em apresentar os itens a um grupo de peritos para que os revejam. Este deve ser formado por pessoas com experiência e conhecimento na variável que se pretende medida. A tarefa fundamental dos peritos é a de julgar o grau no qual cada item é uma medida adequada da variável. Para isso é necessário proporcionar aos peritos a definição a partir do qual se elaboraram os itens para que estes possam determinar o grau no qual cada item expressa os componentes – comportamentos- do constructo a avaliar.
        Os procedimentos empíricos analisam as propriedades estatísticas das respostas aos itens obtidas da sua administração a um conjunto suficientemente numeroso de sujeitos de maneira a selecionar aqueles que possam formar um teste internamente mais consistente.
As duas propriedades estatísticas que são tradicionalmente analisadas para aferir a qualidade dos itens são:

1.      Dificuldade dos itens- O conceito de dificuldade é relevante na construção de um teste de aptidão ou rendimento, nos quais é possível falar de respostas corretas ou incorretas. Para este tipo de teste a dificuldade dos itens quantifica-se a partir da percentagem de respostas corretas, ou seja, quanto maior for, mais fácil será o item em questão. Existe uma relação evidente entre a dificuldade do item e a sua fiabilidade ou do teste a que pertence.

 

2.      Discriminação dos itens- Refere-se ao grau no qual as respostas dos sujeitos ao item em questão se relacionam com as suas pontuações totais no conjunto de itens. Esta relação costuma ser quantificada recorrendo a coeficientes de correlação ou outros índices estatísticos adaptados às características da distribuição das respostas aos itens. A eleição dos itens baseia-se na relação comprovada entre a discriminação dos itens e a consistência final do teste.

 

A partir da informação fornecida pela análise dos itens é então construída a versão preliminar do teste.

 

Análise da fiabilidade e validade das medições

 

        À versão resultante da análise de itens é administrada uma nova amostra de sujeitos de maneira a obter dados com os quais analisar a fiabilidade e validade das medições efetuadas.

 

Elaboração das normas de interpretação das pontuações

 

        Existem até à data duas perspectivas segundo as quais se pode abordar a interpretação do desempenho de um sujeito num determinado teste ou questionário, são elas a interpretação referida a normas e a interpretação referida a critérios.
        O uso de normas implica fornecer informação sobre o desempenho do sujeito no teste, comparando-a com a distribuição de pontuações de uma amostra normativa ou grupo de referência. Já a interpretação referida a critério analisa a prestação do sujeito em relação a critérios de execução previamente estabelecidos durante a fase de definição da variável.

 

Outras aproximações à construção de testes desde a teoria clássica dos testes

 

        Para além do processo anteriormente descrito, existem também outras aproximações à construção de instrumentos psicométricos de avaliação. Contudo, estas não devem ser encaradas como alternativas, uma vez que é mais pertinente diferenciá-las devido à enfâse dada em alguns passos do processo ou em determinadas medições.
        Não obstante, deve ter-se uma visão clara de outras aproximações à construção de testes uma vez que se recorre a elas para apresentar alguns dos instrumentos psicométricos mais utilizados na avaliação psicológica.

 

Construção racional

 

        A aproximação racional inicia o processo de elaboração de um teste através da redação do conjunto inicial de itens. Estes constroem-se de forma a que seja evidente que partilhem relações lógicas ou racionais com o constructo tal como fora definido pelo autor do teste. De seguida administram se os itens a uma amostra para os submeter a uma análise de itens, selecionando por fim o conjunto do número desejado de itens de qualidade para a versão final do teste desejado Walsh e Betz (2000) referem que a construção racional se baseia no pressuposto que o conteúdo dos itens do teste reflete diretamente as características ou dimensões que estamos interessados em medir.
        Por último, um traço característico dos testes racionais é a importância concedida ao nome do instrumento, uma vez que, sendo a denominação do mesmo costuma por norma ser o nome do constructo alvo, determina também o conteúdo dos itens e a interpretação das pontuações.

 

Construção Empírica

 

        Este processo é também iniciado com a elaboração dos itens. Pretende-se desta forma elaborar itens que maximizem as diferenças entre as respostas das pessoas na dimensão ou constructo de interesse. Esta construção baseia-se portanto nas diferenças postuladas ou encontradas entre as respostas das pessoas sobre as dimensões de interesse em vez dos itens em si.
        Este processo difere do anterior uma vez que é possível incluir itens cujo conteúdo não possua uma relação óbvia com o constructo que mede.
Walsh e Betz (2000) assinalam três características relevantes desta estratégia de construção:

a)      A utilidade para objectivos aplicados, dado que a seleção de itens para a versão final do instrumento reside sobre a capacidade do item predizer um critério.

 

b)      A constatação empírica a posteriori das diferenças entre grupos de interesse num critério ou dimensão de relevância prática.

 

 

c)      A contrastação através da similaridade das respostas de diferentes grupos critério.

 

Construção analítico-factorial

 

        O traço característico desta estratégia de construção é o enfâse na estrutura interna final do questionário. O processo de construção caracteriza-se por analisar fatorialmente uma grande população de itens, por norma tomados de diferentes testes, para determinar as dimensões básicas subjacentes ao conjunto de itens. Estas são posteriormente convertidas em escalas ou fatores, e os itens com cargas fatoriais mais altas nesses mesmos fatores são posteriormente utilizados para construir o teste ou questionário.
        Poderia acrescentar-se que a aproximação analítico-fatorial implica uma combinação das abordagens anteriores: a racional, ao insistir que o conteúdo dos itens reflita a dimensão ou constructo alvo de medição, o que permite nomear os fatores encontrados na análise; e a empírica, ao priorizar na seleção de itens a correlação com um critério, neste caso o fator em si.

 

Processo de construção desde a Teoria de Resposta ao Item

 

        Nas últimas décadas, a maior alteração que os testes psicológicos sofreram foi a substituição gradual da teoria clássica de testes (TCT) pela teoria de resposta ao item (TRI) em relação aos testes de aptidão. Tendo a sua génese nos anos quarenta do século passado, a sua expansão inicia-se com os trabalhos de Lord e Novick (1968) e de Rasch (1980). Esta substituição ocorreu devido ao facto de que os modelos da TRI permitem uma maior flexibilidade no processo de elaboração de testes e análises das respostas de sujeitos avaliados.
        A denominação de Teoria de resposta aos Itens (TRI) assinala uma mudança de foco na análise, deste modo, a TRI está mais interessada nas propriedades dos itens do que nas do teste na sua totalidade como é o caso da TCT. A TRI vem assim superar algumas das limitações mais importantes da TCT, por exemplo, nesta ultima, o resultado da medição de uma variável depende do teste utilizado. Esta falta de invariância nas medições obtidas com a TCT também abrange as propriedades métricas dos instrumentos utilizados.
        O principal contributo da TRI é o de proporcionar medidas invariantes das seguintes formas:

 

1.      Obter medições que não variam em função do instrumento utilizado.

 

2.      Dispor de instrumentos de medida cujas propriedades não variam em função dos sujeitos a que se administram.

 

        A TRI é portanto um conjunto de modelos e métodos estatísticos pensados para fundamentar os dados provenientes da avaliação psicológica (Steinberg & Thissen, 1996 cit in Calero & Padilla, 2005) partilhando assim uma série de pressupostos e conceitos com outras teorias de testes, são eles:

a)      A existência de um constructo inobservável subjacente às respostas dos itens.

 

b)      A inferência sobre a existência do constructo a partir da covariação entre as respostas aos itens.

 

c)      A relação linear entre a probabilidade de dar uma determinada resposta ao item e o nível do constructo.

 

        A utilidade destes modelos reside sobre uma série de pressupostos. A expressão geral dos modelos formaliza a ideia de que a probabilidade de responder correctamente ao item depende da habilidade do sujeito e dos parâmetros do item, o que por sua vez fará supor que quando a habilidade aumenta, a probabilidade de aumento simultaneamente (Lord, 1980 cit in Calero & Padilla, 2005).
        Os pressupostos básicos da TRI são denominados de “Independência local”, que estabelece que as respostas aos vários itens são independentes entre si para um determinado nível do traço latente; e “Unidimensionalidade”, que implica que todos os itens de um teste meçam um único traço latente.
        A estimativa dos parâmetros dos modelos da TRI é um processo complexo e crucial, assim sendo, os procedimentos mais atuais baseiam-se na maximização de alguma função de plausibilidade, abordando de modo separado a estimativa dos parâmetros dos itens e dos sujeitos (Lord, 1980). A TRI fornece também soluções satisfatórias a problemas difíceis de resolver pela TCT como a equivalência das traduções de testes a diferentes idiomas, igualação de testes, deteção de itens com um funcionamento diferencial, etc.
        Contudo, apesar de todo este domínio da TRI sobre a TCT, não significou um desaparecimento absoluto desta última devido à sua flexibilidade de adaptação a muitos problemas concretos de medida e porque este novo foco não resolveu eficazmente a forma de lidar com a avaliação do desempenho típico: personalidade e atitudes. As tentativas de fazer com que isso acontecesse começaram desde o seu desenvolvimento, e a partir dos anos setenta recupera-se então o interesse pela medição de atitudes a partir da TRI, sendo então aplicada à avaliação clinica alargando se de forma genérica aos itens em formato tipo Likert (Steinberg & Thissen, 1996 cit in Calero & Padilla, 2005).

 

Bancos de Itens

 

        Barbero (1999) define como um banco de itens “um conjunto mais ou menos numeroso de itens, que medem o mesmo traço ou habilidade e que se armazenam de tal maneira que no devido momento se possa escolher de entre todos, os que melhor se adaptem às necessidades de uso”.
        Os bancos de itens não necessitam obrigatoriamente de ser construídos através do modelo de medida da TRI. No entanto é mais fácil reconhecer a promessa de parâmetros invariantes e a ideia de fiabilidade fazem com que a TRI seja o esquema idóneo para a construção e aproveitamento pleno dos bancos de itens.
        Barbero apresenta de forma clara os passos para a construção de um banco de itens:

a)      Definição da estrutura do banco.

 

b)      Desenvolvimento e análise qualitativa dos itens.

 

c)      Eleição do design de recolha de dados.

 

d)     Administração dos itens.

 

e)      Análise dos itens e ajuste dos dados a um modelo.

 

f)       Calibração dos itens.

 

g)      Armazenamento da informação.

        A definição da estrutura do banco e o desenvolvimento dos itens implicam a realização dos mesmos procedimentos relativos à elaboração de um teste tradicional, desde a identificação do uso previsto das medições e a definição da variável até à análise subjetiva da qualidade dos itens.

 

Testes adaptativos

 

        Os testes adaptativos não utilizam o mesmo conjunto de itens para todos os examinados como todos os testes elaborados com a TCT, apresentando assim a cada um dos sujeitos os itens mais adequados para estimar a sua habilidade. Este tipo de itens proporciona mais vantagens quando é gerido por um sistema informático e como tal estes testes são frequentemente designados por Testes Adaptativos Informatizados (TAI) (Olea & Ponsoda, 1996 cit in Calero & Padilla, 2005).
        A lógica dos TAI consiste em selecionar de entre os itens do banco aqueles que melhor podem avaliar o sujeito em função das respostas dadas a itens anteriores. A finalização da sessão estabelece-se quando o erro de estimativa da habilidade se considere aceitável ou quando tiver terminado o tempo estabelecido (Renom, 1977 cit in Calero & Padilla, 2005).
        A sessão tem início com a apresentação de item de dificuldade similar a habilidade do sujeito, no caso de haver informação prévia a seu respeito, ou caso não exista, com um item de dificuldade média.
        A sessão pode terminar depois de superar um tempo limite, um determinado número de itens, um erro de medida aceitável ou uma estimativa superior ou inferior a um ponto de corte. É também possível utilizar outros critérios de seleção de itens entre os quais a “estratégia Auto adaptativa”, na qual o sujeito escolhe a dificuldade do próximo item a que deverá responder aumentando assim a motivação do sujeito (Olea & Ponsoda, 1996 cit in Calero & Padilla, 2005).
        As vantagens dos TAI face a outros testes convencionais são uma maior eficácia e flexibilidade, a redução do tempo de avaliação e do número de itens apresentados ao sujeito e o aumento da precisão de estimativas (Olea & Ponsoda, 1996; Renom & Doval, 1999 cit in Calero & Padilla, 2005). Permitem também incorporar recursos multimédia para a elaboração e apresentação de itens ao mesmo tempo que reduzem os custos de manutenção.

 

Classificação dos testes psicométricos

 

        A grande variedade de testes psicológicos publicados ao longo da história da avaliação psicológica levou diversos autores a tentar estabelecer um tipo de classificação. A maioria das classificações dos testes são similares às que se aplicam para as técnicas de avaliação em geral e estruturam-se com referência a um critério único. Podemos assim encontrar classificações de conteúdo referentes às funções psicológicas que o teste visa avaliar. Dividem-se então em testes de inteligência, personalidade, etc., ou em função de critérios materiais, estabelecendo como grupos testes manipulativos, de papel e lápis etc., são também utilizados critérios baseados na população alvo tais como testes infantis, de adultos, entre outros e por fim pelo seu modo de aplicação: individuais, coletivos etc.
        Dos diferentes tipos de classificações, existem dois mais convenientes no contexto das técnicas psicométricas, o primeiro faz referência às estratégias de construção para a elaboração de um teste segundo as quais estes podem ser classificados como teóricos, racionais, empíricos ou analítico-fatoriais e o segundo, à classificação de Cronbach (1992), segundo a demanda de rendimento que se faz ao sujeito, dividindo os testes em testes de rendimento máximo e típico.
        Os testes de rendimento máximo são aqueles que querem recolher os níveis mais altos de rendimento de um sujeito e assim exigem a este que dê o máximo das suas capacidades (Ex: testes de inteligência). Estes têm apenas uma única resposta verdadeira e o importante em cada item é o seu nível de dificuldade ou a velocidade de execução. Os testes de potência vão aumentando progressivamente de dificuldade de maneira a determinar o nível máximo de execução que o sujeito alcança sem limite de tempo.
        Os testes de velocidade compõem-se de itens com índices de dificuldade semelhantes e nos quais o importante é determinar a quantidade de itens corretos em tempo limitado de maneira a estabelecer o nível de eficácia e precisão que um sujeito possui.
        O grupo de testes de rendimento típico é formado por todos os instrumentos que tentam recolher o modo habitual de comportamento de um individuo, ou seja, testes de personalidade, questionários, escalas, inventários de interesses ou atitudes. Segundo Pervin (n.d) este grupo possui as características de ser composto por técnicas voluntárias, dado que nestes testes o sujeito percebe o constructo que se pretende avaliar, tendo portanto controlo sobre as suas respostas. Grande parte das vezes, estes testes procuram recolher a opinião ou juízo do sujeito avaliado, não existindo portanto uma resposta verdadeira e sim diferentes opções de resposta com distinto significado psicológico.

 

Testes de Inteligência

- Avaliação individual da inteligência

 

        A avaliação da inteligência nasce com a publicação da escala métrica da inteligência de Binet e Simon em 1905. É pertinente referir que a estratégia de construção seguida por Binet e Simon fui uma estratégia racional, visto que se tratava de avaliar por intermédio da observação um conjunto de funções cognitivas que os seus autores consideravam demonstrativas ou relacionadas com a inteligência.
        Nas primeiras versões, a escala de Binet media a inteligência em termos de idade mental (atribuição de uma pontuação, expressa em unidades de idade, por comparação com as tarefas que uma criança normal da mesma idade executava em média); posteriormente esta passou a Q.I ou Quociente Intelectual ao dividir a idade mental pela idade cronológica. Posteriormente Weschler introduz o Q.I de desvio, transformando o numa pontuação típica normalizada com uma média de 100 e desvio padrão de 15, sendo esta a unidade de medida dessa capacidade geral que atualmente continua a ser utilizada e que adotam a maioria dos testes individuais de inteligência geral.
        O objetivo da avaliação desenvolvida através do teste de Binet era a de alcançar uma pontuação indicativa a nível global de inteligência do sujeito (Q.I) mediante a execução individual de diferentes tarefas.
        A nível prático podemos dizer que as diferenças mais relevantes dos testes individuais relativamente aos testes coletivos são:

1.      Maior aplicação e requerem um maior treino do psicólogo que as administre, uma vez que se trata de aplicar tarefas muito distintas entre si, algumas delas com controlo de tempo, outras com manipulação de materiais, etc.

 

2.      Proporcionam mais informação que os testes coletivos uma vez que costumam oferecer vários tipos de pontuações, perfis de habilidades etc.

 

3.      Permitem a observação do sujeito durante a sua execução, razão pela qual se consideram mais uteis para um propósito clinico.

 

        Deste modo, os grupos mais importantes de escalas atualmente são as escalas Weschler e as escalas Kaufman. Assim, as escalas de inteligência Weschler partem de um teste original denominado W-B (Weschler-Bellevue Intelligence Scale, 1939) construído especificamente para adultos. As diversas vantagens desta prova incluíam a facilitação de pontuações independentes para as diferentes escalas, além de uma única medida global de inteligência geral que por sua vez se diferenciava em dois aspetos ou sub-testes: verbais e manipulativos. Para além do mais as escalas Weschler incorporavam o Q.I de desvio, que, como foi referido anteriormente é uma medida de pontuações típicas normalizadas da inteligência.
        As escalas Kaufman proporcionam uma medida de inteligência entendida pelos seus autores como estilo individual de resolução de problemas e processar informações. Como Anastasi e Urbina (1998) referem, na sua construção incorporam teorias mais recentes acerca da inteligência como base de construção empírica, nomeadamente a teoria de Lúria e um esquema teórico básico de processamento da informação que um individuo utiliza em maior grau para resolver um problema, diferenciando assim entre tarefas de processamento sucessivo, simultâneo e conhecimentos. Acrescentam também outros sub-testes dirigidos à avaliação das operações formais segundo o esquema teórico Piagetiano e as habilidades de planificação, memória a longo prazo e estado mental segundo o esquema teórico de Lúria na sua escala KAIT.
        Assim, a área do processamento sequencial baseia-se na seriação da ordem temporal de apresentação de estímulos, a área de processamento simultâneo requere uma representação gráfica, geralmente espacial, bem como uma integração eficaz de estímulos para a resolução de um problema. Estas duas áreas e a sua combinação (processamento mental composto) são consideradas próximas da inteligência fluida.
        A escala de conhecimentos inclui informação nova e selecionada em função de critérios lógicos e racionais para medir aquelas habilidades tradicionalmente recolhidas em testes de inteligência geral do tipo verbal. Considera-se que esta escala próxima à inteligência cristalizada.
A importância destas escalas está em que a sua classificação de tarefas é baseada em tipos de processamento em vez de conteúdos verbais ou não verbais como é o caso das Wechsler (Kaufman & Kaufman, 1997) e como tal, não avaliam exatamente os mesmos aspetos que as escalas Weschsler ainda que com elas partilhem alguns fatores, sobretudo no que diz respeito aos sub-testes cristalizados.

 

Testes de inteligência coletivos: Inteligência geral face a baterias de aptidões

 

        O desenvolvimento da medida em Psicologia fez com que por volta da primeira guerra mundial se procurassem procedimentos de avaliação coletivos da inteligência, e para o efeito sugiram os primeiros testes Alfa e Beta Army. Inicialmente, partia-se de um esquema existente de avaliação da inteligência como capacidade global, porém o seu formato de apresentação (papel e lápis) limitava as tarefas que podiam ser incluídas nos testes, sobretudo quando se pretendia eliminar o peso dos aspetos verbais na avaliação da inteligência em adultos.
        A nível prático, na maioria dos casos, os testes coletivos implicam um maior grau de estruturação que os individuais, uma vez que requerem respostas fechadas de escolha múltipla. Por outro lado neste tipo de testes o sujeito é deixado sozinho em frente à tarefa, ainda que a execute de forma errada até que termine ou finde o tempo concedido para a realizar, havendo também um escasso controlo sobre o grau de compreensão das instruções. Contudo, o seu uso tem sido muito frequente e imposto em determinados contextos, nomeadamente processos de seleção profissional uma vez que são mais económicos, pois costumam ser mais rápidos ao nível de aplicação e correção, permitindo assim aplicações massivas e menos treino da parte do avaliador.
        A nível teórico, podemos assinalar que os estudos da análise fatorial influenciaram o desenvolvimento de duas posturas teóricas acerca deste constructo: as teorias monofatoriais, que mantinham a existência de uma única capacidade global face a outras posturas multifatoriais, que defendiam a existência de múltiplas atitudes independentes ou fatores específicos relacionados com diferentes tipos de tarefas. Alguns investigadores identificaram então a inteligência global com um fator geral de inteligência: o fator g, relacionado com tarefas não-verbais de raciocínio indutivo. Deste modo, Spearman (1927) assinala que os testes de raciocínio abstrato são a melhor medida desse fator. A sua teoria é desta forma uma teoria bifactorial da inteligência, uma vez que postula que esta é formada por dois tipos de fatores, um comum a todas as tarefas (fator g), e outros específicos para cada teste, indicadores de uma aptidão específica.
        Face a esta postura, Thurstone (1938), partindo dos seus trabalhos acerca da rotação ortogonal de fatores, propõe uma estrutura simples na que supõe que um conjunto de aptidões primárias diferentes, influenciarão amplamente os rendimentos observados nos testes. Cada uma destas aptidões representa uma habilidade específica, não se correlacionando entre si, sendo deste modo independentes.
        Thurstone isola treze fatores que denomina de aptidões mentais primárias, destes, os mais frequentemente corroborados foram a compreensão verbal, fluidez verbal, raciocínio numérico, visualização espacial, memória associativa, rapidez percetiva e raciocínio indutivo.
Posteriormente surge uma postura integradora representada pelos sistemas hierárquicos, que supunham a integração do modelo de Spearman com padrões multifatoriais. Destacamos assim as teorias bifatoriais de Vernon e Catell. Vernon (1950) estabelece a existência de dois fatores intermédios entre g e os fatores específicos a que denomina: ed (verbal-educativo) e k:m (prático-mecânico). Catell, caracteriza então as duas formas de expressão da inteligência com os termos Gf: Inteligência Fluida, definida como uma amplitude geral de percepção de relações que se manifesta nos testes livres de influência cultural e que está determinada por variáveis neurológicas sendo portanto representativa da inteligência geral de um sujeito; e Gc: Inteligência Cristalizada, que seria resultante da relação da Gf com a experiência ao longo da vida do individuo e que se manifesta em tarefas de compreensão e rendimento.
        A teoria de Catell é um modelo de três estágios, que une a teoria de Spearman com a de Thurstone e possui como ponto de vista prático das provas desenvolvidas segundo este esquema a sua flexibilidade de uso, combinando uma classificação global com um perfil de fatores. Nos seus dois primeiros níveis, este esquema serviu de base para a estrutura dos testes de inteligência individuais como os Weschsler ou Kaufman, que estabelecem uma medida de inteligência geral, dois fatores independentes: um verbal e outro manipulativo ou um de processamento simultâneo ou sucessivo e um perfil de habilidades específicas.
        A medida de inteligência geral com instrumentos coletivos tem como característica principal focalizar-se na realização de tarefas percetivas de complexidade crescente que se consideram de raciocínio fluido e se supõem medidas bastante puras do fator g. Por este motivo foram inicialmente considerados como livres de influência cultural, no entanto Anastasi e Urbina (1998) incorporam nos num aglomerado denominado “testes multiculturais” porque se consideram detentores de um escasso peso cultural. O seu objetivo é o de medir o raciocínio abstrato e a Gf: a inteligência geral sem carga verbal.
        A partir de outras perspectivas, a medida de múltiplas aptidões pela sua aplicabilidade imediata à orientação e seleção, esta caracteriza-se por um formato múltiplo de diversos sub-testes que avaliam diferentes habilidades e se interpretam com um perfil, formado um só instrumento.
Dois exemplos básicos desta aproximação são o PMA e o DAT, o primeiro é composto por diferentes sub-testes formados por itens de níveis de dificuldade homogéneos nos quais interessa verificar a quantidade de acertos num determinado tempo de forma a medir a velocidade (nível máximo de eficácia). Estes são:

·         V: compreensão verbal-Capacidade para entender palavras e materiais escritos.

 

·         F: Fluidez verbal-Capacidade para achar palavras com rapidez.

 

·         R: Raciocínio geral- Tarefas que requerem encontrar uma regra ou fazer inferências lógicas

 

·         E: Espacial-Raciocinar sobre formas visuais, perceção do espaço e captação de transformações espaciais.

 

        Já o DAT (Bennet, Seashore e Wesman, 1996 cit in Calero & Padilla, 2005) é composto por sub-testes independentes formados por itens ordenados segundo um nível de dificuldade crescente de maneira a medir a potência (nível máximo de execução) em cada uma das aptidões medidas. São estas:

·         Raciocínio verbal

·         Aptidão numérica

·         Raciocínio abstrato

·         Relações espaciais

·         Raciocínio mecânico

·         Rapidez e precisão do uso da linguagem

·         Ortografia e Sintaxe

 

Testes de Personalidade

 

        A avaliação da personalidade por intermédio de testes aparece um pouco mais tarde do que a avaliação da inteligência, o que implica que a teoria psicométrica clássica se encontrava portanto mais desenvolvida, o que supõe que os vários instrumentos de avaliação da personalidade se elaboraram seguindo uma das diferentes estratégias de construção comentadas em função da sua base teórica e objetivos. As técnicas psicométricas da personalidade surgem dentro de um modelo de traços e partem do pressuposto que “ a personalidade é o que permite predizer o que um sujeito fará numa determinada situação” (Catell, 1950). Em suma, supõe-se que o comportamento humano pode ser ordenado e medido segundo dimensões relativamente estáveis denominadas traços. Em resposta a esta conceptualização desenvolveram-se uma serie de testes que visam explicar a personalidade a partir de uma perspectiva multidimensional, tratando também de medir traços específicos.

 

Questionários de personalidade multidimensionais

 

        Visa-se portanto em função do modelo teórico seguido pelo construtor, um conjunto de traços bem selecionados que caracterize o modo de atuar de uma pessoa, que recolha uma amostra de comportamentos generalizáveis no tempo e em indivíduos. Existem assim três teorias fatoriais clássicas da personalidade que são as de Guilford, Catell e Eysenck. As duas primeiras estudam os fatores primários enquanto Eysenck se centra nos secundários. Segundo Colom (1998), estas são teorias hierárquicas e congruentes entre si, distinguindo:

1.      O nível de respostas concretas de um sujeito.

2.      Os hábitos de resposta.

3.      As facetas da personalidade segundo os hábitos de resposta.

4.      Os traços ou fatores segundo as facetas.

        Estas diferentes teorias estabelecem um número distinto de fatores básicos da personalidade, ainda que em relação aos fatores de segunda ordem apresentem um maior grau de acordo. Desta forma, Guilford estuda fatores temperamentais, dos quais estabelece 13 primários e básicos, quatro secundários e um global (saúde emocional). Catell centra-se em fatores temperamentais e motivacionais e estuda a sua estrutura tanto em sujeitos normais como em determinadas condições psicopatológicas, encontrando 16 fatores temperamentais primários em pessoas normais e 12 relacionados com perfis psicopatológicos, de entre os quais sete se relacionam com a depressão e cinco são clínicos base. Encontra também oito fatores secundários comuns.
        Eysenck centra-se nos três superfatores que formam o que ele denomina por sistema PEN: psicoticismo, extraversão, e neuroticismo que constituem dimensões essenciais para descrever a personalidade.
        Posteriormente foi desenvolvida a teoria dos Big Five, uma taxonomia que procede da análise dos termos que os sujeitos usam na sua linguagem para se descreverem a si mesmos e aos seus semelhantes, sendo aceite por um considerável numero de investigadores pois inclui organizadamente as dimensões principais nas quais todos os teóricos estão de acordo fora das posições teóricas clássicas (Colom, 1998). Segundo esta aproximação, os termos próprios da linguagem, fazem referência a características pessoais que podem ser utilizadas de forma a estabelecer uma taxonomia da personalidade, e diversos trabalhos estabelecem 5 fatores aplicáveis ao próprio individuo ou a um outro que responda pelo próprio. São eles o neuroticismo, extroversão, amabilidade, escrupulosidade, e a abertura à experiência. Cada um deles está por sua vez definido por seis escalas bipolares, mostrando estabilidade ao longo da vida dos indivíduos (Costa & McCrae, 1985 cit in Calero & Padilla, 2005). Estes cinco fatores são avaliados mediante os questionários NEO-PI e BFQ, questionários que parecem estar validados em comparação com outras medidas de personalidade relativamente à sua estrutura geral.
        A nível teórico, a avaliação da personalidade segundo os modelos de traços apoia-se segundo Wiggins (1973) nos seguintes pressupostos:

1.      Supõe-se que cada item tem um significado similar para diferentes sujeitos.

 

2.      Supõe-se que um sujeito é hábil para perceber e descrever fielmente o seu autoconceito e personalidade.

 

3.      Supõe-se que o sujeito é honesto.

 

4.      Supõe-se que o comportamento de um sujeito é estável ao longo do tempo.

 

        Em relação a estes pressupostos, vale destacar que o facto de, por um lado, se tratem de técnicas tão estruturadas no procedimento de aplicação, correção e pontuação que fazem com que a posição do avaliador possa considerar-se como objetiva, enquanto por outro, a resposta registada e interpretada depende exclusivamente do sujeito avaliado, isto é, seja voluntária, o que pode representar a sua limitação mais importante.
        A nível aplicado, o número de traços ou fatores varia consoante o autor ou instrumento, mas no geral todos os testes de personalidade mantém o mesmo formato de autorrelato estruturado de papel e lápis. Num livrete (instrumento) são introduzidos diversos itens que avaliam os diferentes traços, cada um dos quais com os seus critérios estatísticos interpretativos. Como características comuns ao grupo podemos assinalar o facto de ser uma avaliação construída para ser indistintamente individual ou coletiva, na qual o sujeito responde por escrito a itens com formato muito estruturado, de resposta fechada e cuja única informação é uma pontuação geralmente típica normalizada, com média de 50 e desvio-padrão de 10 por traço. Por isso, ainda que inicialmente interesse avaliar a estrutura da personalidade global do sujeito esta é entendida como uma soma de fatores ou traços, o que faz com que o resumo final seja um perfil de pontuações.
        Como teste de personalidade construído a partir de um esquema teórico, um dos maiores exemplos é o MCMI: Inventário Clinico Multiaxial de T. Millon (Millon, 1997). Millon desenvolve uma aproximação funcional-interpessoal a teoria dos padrões de personalidade sobre a ideia de um contínuo normal-anormal (Ávila, 1997). O MCMI-II é o resultado da evolução da teoria de Millon para um modelo de polaridades e das alterações dos critérios clínicos formalizados na publicação do DSM-III (APA, 1987).
        O processo de construção é estruturado em termos dos três componentes sequenciais da validade formulados por Loevinger (1957): Substantivo, estrutural e externo.
        A primeira etapa de validação/construção (teórico-substantiva) tem como objetivo examinar até que ponto os itens constituintes do instrumento derivam de uma estrutura teórica explicita. A segunda etapa (estrutural-interna) afirma referir-se ao modelo ao qual os itens do instrumento se espera que se ajustem, através da administração dos itens que superaram a fase anterior a populações apropriadas para posteriormente realizar análises estatísticas pertinentes de forma a selecionar os itens que mais contribuam para a consistência interna da escala ou estabilidade das medições. A terceira etapa (Critica-externa) corresponde à análise das relações entre cada escala de teste e uma variedade de medidas não escalares da característica sob estudo.
Como teste construído segundo uma estratégia empírica podemos destacar o MMPI: Minnesota Multiphasic Personality Inventory, sendo um teste elaborado para avaliar um grande número de padrões de personalidade e transtornos emocionais (Hathaway e McKinley, 1942 cit in Calero & Padilla, 2005).
Desde o ponto de vista da estratégia de construção, o MMPI foi desenvolvido empiricamente selecionando os itens que melhor diferenciavam entre distintas amostras clinicas. Como testes construídos segundo a estratégia analítico fatorial podemos destacar o BFQ: “Big Five” (Caprara, Barbanelli & Borgogni, 1997). Este foi elaborado a partir de um modelo dos cinco fatores de personalidade, no qual se passam a chamar:

1.      Energia

2.      Afabilidade

3.      Tenacidade

4.      Estabilidade Emocional

5.      Abertura Mental

Para cada uma das dimensões foram identificadas duas subdimensões que fazem referência a diferentes aspetos da dimensão.

 

5.3-Escalas e questionários monotraço

 

        Por último é pertinente assinalar que dentro do grupo de testes psicométricos de personalidade existe também um certo número de instrumentos monotraço construídos para avaliar traços específicos que se utilizam fundamentalmente com fins clínicos ou de investigação. Muitos destes instrumentos estão inspirados ou extraídos de questionários multi-traço, e alguns deles incluem também a medida de estado com um planeamento similar ao traço. Segundo Eysenck, um estado seria uma condição passageira produzida pelo traço e uma situação particular. Os modos de aplicação, correção e interpretação são similares aos instrumentos multifatoriais mas neste caso são utilizados para a finalidade concreta de avaliação de um traço particular de personalidade.

 

Presente e futuro dos testes psicométricos

 

        Em diversas alturas da história da avaliação psicológica houve um questionamento das medidas psicométricas, contudo os testes psicológicos continuam atualmente a ser um dos instrumentos mais utilizados. Os motivos para tal são os seguintes:

1.      Os objectivos da avaliação psicológica são bastante diversos. Um deles é a seleção profissional/ educativa, e para o efeito é necessário utilizar instrumentos que possibilitem uma avaliação de um grande número de sujeitos ao mesmo tempo nas mesmas condições e que permitam a sua comparação. Estes são portanto os requisitos que guiam a construção de testes psicométricos coletivos, sendo portanto necessária a sua aplicação.

2.      Os testes psicológicos baseiam a sua interpretação em critérios normativos e como tal podem ser uteis para situações de diagnóstico.

3.      Em processos de orientação escolar/laboral pode ser necessário estabelecer perfis de aptidões e personalidade que ajudem um determinado sujeito e como tal grande parte dos testes psicológicos existentes foram construídos para a realização de perfis comparativos

Em suma, o uso dos testes psicológicos é justificado quando o objetivo da avaliação implica em alguma das suas fases a comparação de um individuo com um grupo.

Reflexão

 

Com a leitura e análise deste capítulo, o grupo passou assim a ter uma noção mais profunda e abrangente da temática dos testes e medidas psicométricas, bem como da sua crucial importância na Psicologia aplicada

Neste trabalho podemos então definir como fundamentais, as noções que adquirimos acerca da definição de teste, constructos psicológicos, normas de criação e tipos de teste psicológico para a nossa aprendizagem na presente unidade curricular.

Pudemos também perceber a evolução metodológica à volta dos testes psicológicos entendendo simultaneamente a maneira como se modificaram os paradigmas criados à volta dos mesmos para a sua elaboração, estruturação, aplicação e interpretação. Foi igualmente importante percebermos a imensa variedade de subtipos inerentes às medidas psicométricas e quais os fatores em que estas se focam no que toca a medição, deste modo foi nos útil entender que quando se fala de avaliação psicológica não nos referimos apenas a uma medida unidirecional de um determinado constructo psicológico e sim que pode ser multidirecional, dependendo então do constructo em questão, seja ele a inteligência, personalidade etc.
Para terminar, aprendemos que por mais que as medidas psicométricas aparentem ser infalíveis, não devem ser tomadas como tal, e assim, o observador e administrador do teste é a peça fundamental para que se possa realizar uma análise bem-sucedida do comportamento de um sujeito, e por vezes podem surgir erros como avaliações erróneas com base em interpretações incorretas ou adaptações erradas a outras culturas ou populações. Não obstante, o grupo considerou a leitura e interpretação do artigo em questão como crucial para a nossa formação enquanto futuros psicólogos, uma vez que trata uma das questões que mais define o psicólogo no mercado de trabalho- a avaliação psicológica.