T-test and split plot

Prezados colegas,

Eis um probleminha simples para vocês. Vejam como os pesquisadores sem muita formação estatística tentam resolver questões de análise.

Qual seria a resposta de vocês?

 Abs,

Gilda

 

 

Shoulder trial

 A trial is was set up with the aim of assessing interventions to improve treatment of shoulder problems — such as tendonitis and degeneration of the joint — in primary healthcare.  More specifically, it aimed to answer the following two research questions:

 a)        Does providing general practitioners (GPs) with a training programme on shoulder problems improve treatment outcomes?

 b)        Are cortisone injections better than anaesthetic injections for treating problems with rotator cuff shoulder muscles?

 GPs were randomized to receive either the training programme or no intervention (control). Within the patients of each GP, those with rotator cuff problems were randomized to receive either cortisone injections or anaesthetic injections.

 The researchers decided to use the following analysis to compare the cortisone and anaesthetic injections (research question b).  Within each GP, an average outcome score was taken for those patient(s) on cortisone injections, and another average was taken for those on anaesthetic injections.  Then, the two averages were subtracted to obtain a single summary value per GP.  Finally, a single sample t test was used to analyze those summary values.

 The final data consist of 16 summary values (one for each of 16 GPs). The mean of these 16 values was 5.2 points, with a standard deviation of 3.7 points. The t statistic was calculated as follows:

 t=mean/standard error

 standard error = standard deviation/sqrt(n) = 3.7/4 = 0.925

 t=5.2/0.925 5.62

 The researchers stated that there were the following disadvantages of this analysis method:

 It loses information by averaging over patients before applying the t test.

 Groups with unequal numbers of patients are given equal weight.

 Any GPs with no completed patients in one of the injection types will be lost to the analysis, even if they have completed patients in the other injection type.

 A statistician suggested that another statistical technique which could be used to compare the outcomes of patients in the two injection arms:

Split plot ANOVA or nested ANOVA

 Would the test for injections from the split plot ANOVA be the same as the above t-test?

Padrão

Uma homenagem

Homenagem a Чупро́в

Vocês sabem meu username no Skype. Ele soa estranho a todos, eu bem sei. O nome escolhido, de som estranho, é o de um matemático russo, que viveu no fim do século XIX e começo do século XX. Tschuprow é o nome em uma das transliterações mais usuais de Чупро́в. Ele foi um dos primeiros a ver a estatística através do método de amostragem. Isto é, a distribuição de amostragem como base para a inferência. E gerada pela aleatorização. O nome deveria ser famoso (e é, em círculos restritos, dos que sabem de verdade) e popular. Do link http://statprob.com/encyclopedia/aleksanderaleksandrovichchuprovortschuprow.html, vejam:

The émigré period was intensely productive for Chuprov. The earlier work on dispersion theory led to an extensive investigation of sample moments in terms of population moments (estimation by the method of moments), under, ultimately, very general conditions involving correlated observations, published in Metron in 1923. This contained an obvious application of such results to sample survey theory, anticipating several results of J. Neyman (q.v.), especially the well-known fomula for optimal allocation, which Chuprov obtained in the most elegant way: an application of the Cauchy-Schwarz-Buniakovsky inequality. (Neyman recognized Chuprov’s priority in 1952). Work of such general nature led to Chuprov’s propagation of the modern stochastic view of statistical theory: the sampling distribution for sample statistics, with inference based on conceptual repetitions of samples, and the Weak Law of Large Numbers. His lasting contribution to mathematical statistics rests on an early recognition of these fundamental ideas and their lucid and extensive popularization on the Continent. He is often credited with unifying several streams of statistical thinking: the Russian probabilistic; the German (typified by Lexis and Bortkiewicz and developing into the “Continental direction” of statistics); and that of the English Biometric School of Galton and Karl Pearson (q.v.).

Desejo que este ano seja mais um período muit fértil e feliz para todos nós, na STK.

Abraços

PS

O Чупро́в, escrito em russo, não é “cascata”. Em janeiro de 1964, ingressei no Instituto Cultural Brasil-União Soviética, como estudante de russo. Em 1 de abril, houve o golpe militar e o instituto foi invadido e fechado. Poucos meses depois, fui intimado a depor em um IPM (inquérito policial-militar). Uma pergunta: por que eu queria aprender russo? Expliquei, sem titubear, por ser verdade, que eu achava que havia muita produção matemática em russo e eu queria poder ler os trabalhos em primeira mão. Não me incomodaram mais. Curioso (?) é que nem o IBEU, nem a Cultura Inglesa foram alvo de tanta besteira. Aliás, eu prescindia deles. Já falava – e bem – inglês. Ora, bolas!

Este foi só um exemplo das muitas barbaridades perpetradas por algumas pessoas de caráter fascista. Era triste ver as forças armadas, armadas para defender a constituição e o país, transformarem-se em abrigo para ações que eles mesmo chamavam de policial-militar. Nada mais longe de militar, deveria ser, do que o termo policial.

Bem, sobrou dos meus tres meses de estudo, continuados brevemente nos EUA, anos mais tarde, pelo menos o “ABEVEGUE” (abecedário).

Padrão

Congresso do JMP

O JMP 11 chegou! E com novidades, à primeira vista, interessantes: ajuste de modelos lineares generalizados, um “debugger” para o JSL e muita conectividade: SAS, Excel, R, Matlab. Mesmo entre os usuários e desenvolvedores mais velhos, o entusiasmo e a ludicidade estavam dando o tom, havia no ar a alegria de uma confraternização de amigos, nenhum indício de que “cabelos brancos não pegam bem na indústria”, como se ouve por aqui. 

 Além do JMP 11, as presenças do Nate Silver e do Kaiser Fung deixaram os participantes animados. A meu ver, para quem leu o livro do Silver, sua conferência acrescentou pouco. Não li nada do Fung e fiquei com a impressão de que ele sobre-estima o poder de correlações. Houve também a conferência de um professor que me chamou a atenção mais por um comentário político do que pelo conteúdo técnico de sua conferência, que, aliás, foi boa. Ele mencionou que por 30 anos, deliberadamente, não conduziu nenhum projeto financiado pela Secretaria de Defesa dos US, mas, que depois do 9/11, mudou de ideia e, desde então, tem trabalhado com a NSA. Achei curiosa a declaração.

Em celebração à estatística, houve uma mesa-redonda composta por algumas pessoas influentes na área:

Marie Davidian, professora da North Carolina State University, atual presidente da ASA, bioestatística, publica muito em modelos não-lineares

Denise Lievesley – diretora da School of Social Science and Public Policy e ex-presidente da Royal Statstical Society,

Will Potts, consultor, especializado em modelagem preditiva

Kaiser Fung, consultor, trabalha na área de marketing e propaganda

Bradley Jones, diretor de desenvolvimento da plataforma DoE do JMP

Robert Stine, professor da Wharton School, “expert” da área de finanças

A conversa passeou por tópicos diversos, alguns poucos técnicos e outros genéricos, como tendências e ensino de estatística. Algumas considerações extraídas do Red Notebook:

Ensino: O Fung acha que o ensino deveria privilegiar a intuição quantitativa (será que é possível?_O Potts, que contrata estatísticos, disse que mesmo o mestre em estatística é despreparado para análise de dados, embora seja bom para manipulação de dados e pode ser bom aprendiz.

Big data”: A Davidian disse que o NIH lançou o programa BD2K (“Big Data to Knowledgement”). Os 6 foram unânimes em afirmar que “big data” veio para ficar, que não é uma moda passageira. Aliás, o Potts argumentou que essa estória de “big data” é antiga, que apenas o nome é novo. Contou que, nos idos de 1963, a JASA publicou um artigo em modelagem preditiva – predição de quem faria grandes doações – . O “dataset” tinha cerca de 300 observações e 20 variáveis, e o computador utilizado (um IBM xx, ele disse qual era o modelo mas eu não guardei) não conseguia executar um “stepwise”. Um “dataset” desse porte era “big data” para o padrão da época.

Mercado: Bradley Jones disse que nos anos 60/70 havia muitos estatísticos trabalhando nas indústrias de manufatura, porém, nos anos 80, houve redução expressiva desse mercado. Na sua opinião, essa mudança se deu porque os estatísticos ficaram conhecidos por serem “no-sayers” (será que só muda o endereço?)

Modelagem: A um comentário da Davidian, o Stine respondeu que quem acredita piamente na independência entre as observações rapidamente ganha sua independência.

 Acho que esse é um resumo das prinicpais sessões mas que, lamentavelmente, não transmite o clima de festa que havia no ar. E, por falar em festa, inclui fotos de outro grande evento,  predecessor do congresso, quando usufruí da companhia dos mega-hospitaleiros Stangenhaus & Carvalho & Oliveira na linda San Diego. Fantástico!

 Image

PS: Para coroar, cheguei em Brasília a tempo de comemorar a defesa de mestrado do André, meu filho. Muito bom!

 

Padrão

Dica de SAS: PROC MEANS

É comum o uso de PROC MEANS (ou PROC SUMMARY) com o “statement” CLASS para se calcular estatísticas descritivas por uma ou mais variáveis classificatórias. O resultado é uma tabela com as estatísticas para cada uma das marginais e todos os cruzamentos possíveis. Incluindo-se o “statement” TYPES, é possível se restringir o resultado apenas para os níveis (ou combinações de níveis) de interesse. Por exemplo, no programa abaixo, as estatisticas são calculadas para os níveis de SEX e para os cruzamentos de SEX e AGE. As estatísticas para os níveis de AGE sequer são calculadas.

     proc means data=sashelp.class n mean std noprint;

        class sex age;

        var weight;

       types sex*age;

      output out=stats n= mean= std= /autoname;

    run;

    proc print data=stats;

    run;

Image 

Padrão

Perdas

Em poucos meses, a comunidade de desenvolvedores Linux perdou dois membros, ambos em acidentes de bicicleta. Um foi Evgeni Dodonov, russo, que vivia em São Carlos.  Ele contribua para o Mageia. E mais recentemente Seth Vidal, que contribua para o Fedora (ele fez o YUM, por exemplo). Seth foi atropelado, em sua bicicleta, por um automóvel em Durham, Carolina do Norte.

Estatísticos que somos, não faremos ilações sobre segurança de trânsito, nada precipitado do que nossa mente, afetiva e pouco racionalmente, tem vontade de fazer. Mas lamentamos muito. Eram dois jovens, aí pelo 30+ anos de vida, cheios de energia e entusiasmo e que contribuam, de fato, para o mundo.

Procurem saber mais dessas duas personalidades. Seus sites e blogs estão ainda no ar. Vocês perceberão que as perdas são muito grandes.

http://paul.frields.org/2013/07/13/have-you-been-half-asleep-and-have-you-heard-voices/

Padrão