Hessiano

Cálculo
Definições

Conceitos

Tabela de derivadas

  • Somas
  • Produto
  • Regra da cadeia
  • Potências
  • Quocientes
  • Fórmula de Faà di Bruno
Cálculo integral

Definições

Integração por

Cálculo especializado
  • v
  • d
  • e

Em matemática, a matriz Hessiana de uma função "f" de n variáveis é a matriz quadrada com "n" colunas e "n" linhas (n X n) das derivadas parciais de segunda ordem da função. Por isto, esta matriz descreve a curvatura local da função "f". Matrizes Hessianas são usadas em larga escala em problemas de otimização que não usam métodos Newtonianos.

A matriz hessiana foi desenvolvida no século XIX pelo alemão Ludwig Otto Hesse, razão pela qual mais tarde James Joseph Sylvester lhe deu este nome. O próprio Hesse, ao contrário, usava o termo "determinantes funcionais".

Definição formal em termos matemáticos

Ver artigo principal: função
Ver artigo principal: Matriz (matemática)
Ver artigo principal: derivada parcial

Dada uma função real de n variáveis reais

f ( x ) = f ( x 1 , x 2 , x 3 . . . , x n ) , {\displaystyle f(\mathbf {x} )=f({x_{1}},{x_{2}},{x_{3}}...,x_{n}),}
sendo que x (em negrito) indica o vetor de dimensão n × 1 {\displaystyle n\times 1} das variáveis x 1 , x 2 , x 3 . . . , x n . {\displaystyle {x_{1}},{x_{2}},{x_{3}}...,x_{n}.}

Lembre-se da notação para as derivadas parciais da função em relação às variáveis:

Em linguagem matemática Em Português Exemplo: função com n=2: f ( x ) = f ( x 1 , x 2 ) = 2 x 1 x 2 3 {\displaystyle f(\mathbf {x} )=f\left({x_{1}},{x_{2}}\right)=2{x_{1}}{x_{2}}^{3}}
f x 1 {\displaystyle {\frac {\partial f}{\partial {x_{1}}}}} derivada parcial de primeira ordem da função "f" em relação a uma variável Falhou a verificação gramatical (SVG (MathML pode ser ativado através de uma extensão do ''browser''): Resposta inválida ("Math extension cannot connect to Restbase.") do servidor "http://localhost:6011/pt.wikipedia.org/v1/":): {\displaystyle {x_1}} f x 1 = ( 2 x 1 x 2 3 ) x 1 = 2 x 2 3 {\displaystyle {\frac {\partial f}{\partial {x_{1}}}}={\frac {\partial \left(2{x_{1}}{x_{2}}^{3}\right)}{\partial {x_{1}}}}=2{x_{2}}^{3}}
x 1 ( f x 2 ) = 2 f x 1 x 2 {\displaystyle {\frac {\partial }{\partial {x_{1}}}}\left({\frac {\partial f}{\partial {x_{2}}}}\right)={\frac {\partial ^{2}f}{\partial {x_{1}}\,\partial {x_{2}}}}} A derivada da derivada (=derivada de segunda ordem): primeiro tomou-se a derivada da função "f" em relação à variável x 2 {\displaystyle {x_{2}}} e depois derivou-se esta derivada em relação à variável x 1 {\displaystyle {x_{1}}} .[1] 2 f x 1 x 2 {\displaystyle {\frac {\partial ^{2}f}{\partial {x_{1}}\,\partial {x_{2}}}}} = ( 2 x 2 3 ) x 2 {\displaystyle ={\frac {\partial \left(2{x_{2}}^{3}\right)}{\partial \partial {x_{2}}}}} = 6 x 2 2 {\displaystyle =6{x_{2}}^{2}}

Se todas as derivadas parciais de "f" existirem, então a matriz hessiana de f é a matriz quadrada das derivadas de segunda ordem de f:[2]

H [ f ( x 1 , x 2 , x 3 , . . . , x n ) ] = [ 2 f x 1 2 2 f x 1 x 2 2 f x 1 x n 2 f x 2 x 1 2 f x 2 2 2 f x 2 x n 2 f x n x 1 2 f x n x 2 2 f x n 2 ] {\displaystyle H\left[f({x_{1}},{x_{2}},{x_{3}},...,x_{n})\right]={\begin{bmatrix}{\frac {\partial ^{2}f}{\partial {x_{1}}^{2}}}&{\frac {\partial ^{2}f}{\partial {x_{1}}\,\partial {x_{2}}}}&\cdots &{\frac {\partial ^{2}f}{\partial {x_{1}}\,\partial x_{n}}}\\\\{\frac {\partial ^{2}f}{\partial {x_{2}}\,\partial {x_{1}}}}&{\frac {\partial ^{2}f}{\partial {x_{2}}^{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial {x_{2}}\,\partial x_{n}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial ^{2}f}{\partial x_{n}\,\partial {x_{1}}}}&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial {x_{2}}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{n}^{2}}}\end{bmatrix}}}

Uma outra definição equivalente é: dado o vetor gradiente nX1, a matriz hessiana é sua derivada.[3] Por isso, há outras representações para a mesma matriz hessiana H acima:[4][5]

H = D [ f ( x ) ] = D 2 f x = D 2 f ( x ) = 2 f ( x ) ( x ) {\displaystyle H=D\left[\nabla f\left(\mathbf {x} \right)\right]=D^{2}f_{\mathbf {x} }=D^{2}f\left(\mathbf {x} \right)={\frac {\partial ^{2}f}{\partial (\mathbf {x} )}}(\mathbf {x} )}

Propriedades da matriz hessiana

  • Dimensão: Como uma função com "n" variáveis tem n2 derivadas parciais de segunda ordem, a matriz hessiana também terá n2 elementos. Por isto, ela sempre será uma matriz quadrada de dimensão nXn.
  • Fora da diagonal principal, uma matriz hessiana é composta por derivadas mistas de f.
  • Simetria: Se as "segundas derivadas" de f são todas contínuas em uma região dada Ω , {\displaystyle \Omega ,} consequentemente a hessiana de f é uma matriz simétrica em cada ponto de Ω , {\displaystyle \Omega ,} dado que, pelo teorema de Young[6] e pelo teorema de Schwartz, nestes casos a ordem de diferenciação não importa (veja, a este respeito, simetria da segunda derivada e Teorema de Schwartz):

x 1 ( f x 2 ) = {\displaystyle {\frac {\partial }{\partial {x_{1}}}}\left({\frac {\partial f}{\partial {x_{2}}}}\right)=}
2 f x 1 x 2 {\displaystyle {\frac {\partial ^{2}f}{\partial {x_{1}}\,\partial {x_{2}}}}} = x 2 ( f x 1 ) = {\displaystyle ={\frac {\partial }{\partial {x_{2}}}}\left({\frac {\partial f}{\partial {x_{1}}}}\right)=} 2 f x 2 x 1 {\displaystyle {\frac {\partial ^{2}f}{\partial {x_{2}}\,\partial {x_{1}}}}} Para variáveis genéricas xi e xj, esta igualdade pode ser rescrita como:
x i x j f = x j x i f {\displaystyle \partial _{x_{i}x_{j}}f=\partial _{x_{j}x_{i}}f}

Pontos Críticos e Discriminante

Se o gradiente da função f é zero em um ponto x que pertence ao domínio da função, então f em x possui um ponto crítico. O determinante do hessiano em x é chamado de discriminante em x. Se este determinante for zero, x será chamado de ponto crítico degenerado de f. Do contrário, o ponto não será degenerado.

Concavidade de funções

A matriz hessiana é útil para identificar a concavidade de funções duas vezes diferenciáveis. Seja f ( x 1 , x 2 , . . . , x n ) {\displaystyle f\left(x_{1},x_{2},...,x_{n}\right)} uma função de n variáveis com derivadas parciais de primeira e segunda ordem contínuas em um conjunto convexo aberto S.

  • A função é côncava (e portanto semicôncava também) se e somente se a matriz hessiana for semidefinida negativa
  • Se a matriz hessiana é definida negativa, então a função é estritamente côncava. Isso não significa, no entanto, que se a função for estritamente côncava, então H(f) é negativa definida para todo x pertencente a S[7].
  • Se a matriz hessiana for definida positiva, então a função é estritamente convexa
  • A função é convexa se a matriz hessiana é semidefinida positiva
Propriedade da função Propriedade da matriz hessiana
Semidefinida Definida
Positiva Negativa Positiva Negativa
Função côncava (e portanto também quasicôncava) X
Função convexa X
Função estritamente côncava X
Função estritamente convexa X

Exemplo simples: como encontrar a matriz hessiana

Considere a função f ( x , y ) = 2 x y + 2 x y x 2 y 2 {\displaystyle f\left(x,y\right)=2x-y+2xy-x^{2}-y^{2}} definida no conjunto de todos os pares de números. Sua matriz hessiana é:

H [ f ( x , y ) ] = [ 2 f x 2 2 f x y 2 f y x 2 f y 2 ] = [ 2 2 2 2 ] {\displaystyle H\left[f(x,y)\right]={\begin{bmatrix}{\frac {\partial ^{2}f}{\partial x^{2}}}&{\frac {\partial ^{2}f}{\partial x\,\partial y}}\\\\{\frac {\partial ^{2}f}{\partial y\,\partial x}}&{\frac {\partial ^{2}f}{\partial y^{2}}}\\\end{bmatrix}}={\begin{bmatrix}-2&2\\2&-2\end{bmatrix}}}

que é uma matriz negativa semidefinida, portanto f é côncava. Note que neste caso o Hessiano não depende de x e y, mas em geral depende[7]

Uso da matriz hessiana para caracterizar pontos críticos

Ver artigo principal: Ponto crítico (funções)
Ver artigo principal: Determinante

Dada a função f ( x ) = f ( x 1 , x 2 , x 3 , , x n ) , {\displaystyle f(\mathbf {x} )=f({x_{1}}^{*},{x_{2}}^{*},{x_{3}}^{*},\ldots ,x_{n}^{*}),} a condição necessária para que um determinado ponto ( x 1 , x 2 , x 3 , x n ) {\displaystyle ({x_{1}}^{*},{x_{2}}^{*},{x_{3}}^{*}\ldots ,x_{n}^{*})} seja um ponto crítico é que todas as derivadas parciais, calculadas naquele ponto específico, sejam iguais a zero.[6] No entanto, para definir se este ponto crítico é um ponto de máximo, mínimo ou de sela, é preciso calcular o determinante da matriz hessiana e seus menores principais. Para isso, pode-se seguir os seguintes passos:

  1. Calcular as "n" derivadas de primeira ordem da função f. O resultado serão "n" funções das variáveis do vetor n × 1 x . {\displaystyle \mathbf {x} .}
  2. Igualar cada uma das "n" funções do item 1 a zero. Com isso, serão descobertos valores para cada uma das variáveis x 1 , x 2 , x 3 , , x n . {\displaystyle x_{1},x_{2},x_{3},\ldots ,x_{n}.} Chamaremos estes valores, cujas coordenadas compõem o ponto crítico, de ( x 1 , x 2 , x 3 , , x n ) . {\displaystyle ({x_{1}}^{*},{x_{2}}^{*},{x_{3}}^{*},\ldots ,x_{n}^{*}).} Igualmente, o vetor nX1 destes valores (números) será chamado de x = [ x 1 x 2 x 3 x n ] . {\displaystyle \mathbf {x^{*}} ={\begin{bmatrix}{x_{1}}^{*}\\{x_{2}}^{*}\\{x_{3}}^{*}\\\vdots \\x_{n}^{*}\end{bmatrix}}.} Reservar este ponto crítico.
  3. A partir das derivadas de primeira ordem calculadas no item 1, calcular as derivadas de segunda ordem da função f e montar a matriz hessiana nXn. Notar que é possível que muitos elementos desta matriz sejam função das variáveis ( x 1 , x 2 , , x n ) . {\displaystyle ({x_{1}},{x_{2}},\ldots ,x_{n}).}
  4. Substitua as variáveis ( x 1 , x 2 , x 3 , , x n ) , {\displaystyle ({x_{1}},{x_{2}},{x_{3}},\ldots ,x_{n}),} presentes na matriz hessiana montada no item 3, pelos valores correspondentes do ponto crítico, ou seja, pelos valores do vetor x . {\displaystyle \mathbf {x^{*}} .} A matriz resultante não terá mais variáveis, somente números. Por exemplo, a derivada da função f em relação à variável x 2 , {\displaystyle {x_{2}},} por sua vez derivada em relação à variável x 1 , {\displaystyle {x_{1}},} calculada para o vetor ( x ) , {\displaystyle (\mathbf {x^{*}} ),} será representado por 2 f x 2 x 1 ( x ) {\displaystyle {\frac {\partial ^{2}f}{\partial {x_{2}}\,\partial {x_{1}}}}(\mathbf {x^{*}} )} e significa um número.
  5. A partir da matriz resultante do item 4, calcular os menores principais. Os resultados serão números.
    • | H 1 | = | 2 f x 1 2 ( x ) | , {\displaystyle \left|H_{1}\right\vert =\left|{\frac {\partial ^{2}f}{\partial {x_{1}}^{2}}}(\mathbf {x^{*}} )\right\vert ,}
    • | H 2 | = | 2 f x 1 2 ( x ) 2 f x 1 x 2 ( x ) 2 f x 2 x 1 ( x ) 2 f x 2 2 ( x ) | {\displaystyle \left|H_{2}\right\vert ={\begin{vmatrix}{\frac {\partial ^{2}f}{\partial {x_{1}}^{2}}}(\mathbf {x^{*}} )&{\frac {\partial ^{2}f}{\partial {x_{1}}\,\partial {x_{2}}}}(\mathbf {x^{*}} )\\\\{\frac {\partial ^{2}f}{\partial {x_{2}}\,\partial {x_{1}}}}(\mathbf {x^{*}} )&{\frac {\partial ^{2}f}{\partial {x_{2}}^{2}}}(\mathbf {x^{*}} )\\\end{vmatrix}}}
    • | H 3 | = | 2 f x 1 2 ( x ) 2 f x 1 x 2 ( x ) 2 f x 1 x 3 ( x ) 2 f x 2 x 1 ( x ) 2 f x 2 2 ( x ) 2 f x 2 x 3 ( x ) 2 f x 3 x 1 ( x ) 2 f x 3 x 2 ( x ) 2 f x 3 2 ( x ) | {\displaystyle \left|H_{3}\right\vert ={\begin{vmatrix}{\frac {\partial ^{2}f}{\partial {x_{1}}^{2}}}(\mathbf {x^{*}} )&{\frac {\partial ^{2}f}{\partial {x_{1}}\,\partial {x_{2}}}}(\mathbf {x^{*}} )&{\frac {\partial ^{2}f}{\partial {x_{1}}\,\partial {x_{3}}}}(\mathbf {x^{*}} )\\\\{\frac {\partial ^{2}f}{\partial {x_{2}}\,\partial {x_{1}}}}(\mathbf {x^{*}} )&{\frac {\partial ^{2}f}{\partial {x_{2}}^{2}}}(\mathbf {x^{*}} )&{\frac {\partial ^{2}f}{\partial {x_{2}}\,\partial {x_{3}}}}(\mathbf {x^{*}} )\\\\{\frac {\partial ^{2}f}{\partial {x_{3}}\,\partial {x_{1}}}}(\mathbf {x^{*}} )&{\frac {\partial ^{2}f}{\partial {x_{3}}\,\partial {x_{2}}}}(\mathbf {x^{*}} )&{\frac {\partial ^{2}f}{\partial {x_{3}}^{2}}}(\mathbf {x^{*}} )\\\end{vmatrix}}}
    • ...
    • | H n | = | 2 f x 1 2 ( x ) 2 f x 1 x 2 ( x ) 2 f x 1 x n ( x ) 2 f x 2 x 1 ( x ) 2 f x 2 2 ( x ) 2 f x 2 x n ( x ) 2 f x n x 1 ( x ) 2 f x n x 2 ( x ) 2 f x n 2 ( x ) | = | H n | {\displaystyle \left|H_{n}\right\vert ={\begin{vmatrix}{\frac {\partial ^{2}f}{\partial {x_{1}}^{2}}}(\mathbf {x^{*}} )&{\frac {\partial ^{2}f}{\partial {x_{1}}\,\partial {x_{2}}}}(\mathbf {x^{*}} )&\cdots &{\frac {\partial ^{2}f}{\partial {x_{1}}\,\partial x_{n}}}(\mathbf {x^{*}} )\\\\{\frac {\partial ^{2}f}{\partial {x_{2}}\,\partial {x_{1}}}}(\mathbf {x^{*}} )&{\frac {\partial ^{2}f}{\partial {x_{2}}^{2}}}(\mathbf {x^{*}} )&\cdots &{\frac {\partial ^{2}f}{\partial {x_{2}}\,\partial x_{n}}}(\mathbf {x^{*}} )\\\\\vdots &\vdots &\vdots &\vdots \\\\{\frac {\partial ^{2}f}{\partial x_{n}\,\partial {x_{1}}}}(\mathbf {x^{*}} )&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial {x_{2}}}}(\mathbf {x^{*}} )&\cdots &{\frac {\partial ^{2}f}{\partial x_{n}^{2}}}(\mathbf {x^{*}} )\end{vmatrix}}=\left|H_{n}\right\vert } =determinante da matriz hessiana calculada no item 4.
  6. Verificar o sinal dos menores principais do item 5[8]:
    Condição A matriz H O ponto crítico ( x 1 , x 2 , x 3 , , x n ) {\displaystyle ({x_{1}}^{*},{x_{2}}^{*},{x_{3}}^{*},\ldots ,x_{n}^{*})}
    | H 1 | > 0 , | H 2 | > 0 , | H 3 | > 0 , {\displaystyle \left|H_{1}\right\vert >0,\left|H_{2}\right\vert >0,\left|H_{3}\right\vert >0,\ldots } É positiva definida É ponto de mínimo.
    | H 1 | < 0 , | H 2 | > 0 , | H 3 | < 0 , {\displaystyle \left|H_{1}\right\vert <0,\left|H_{2}\right\vert >0,\left|H_{3}\right\vert <0,\ldots } É negativa definida É ponto de máximo.

Ver também

Notas e referências

  1. SIMON & BLUME (2004), p. 339.
  2. SIMON & BLUME (2004), p. 340.
  3. INTRILIGATOR (1971), p. 498.
  4. INTRILIGATOR (1971), p. 499.
  5. MAS-COLELL, Andreu; WHINSTON, Michael D, e GREEN, Jerry R. Microeconomic Theory. Oxford University press, 1995. ISBN 978-0-19-507340-9. Mathematiocal Appendix, "M.A Matrix Notation for Derivatives", p. 927.
  6. a b CHIANG (1984), p. 332.
  7. a b Concave and convex functions of many variables. Disponível em: <http://www.economics.utoronto.ca/osborne/MathTutorial/CVN.HTM#p:CcvConds>. Acesso em 10 de abril de 2011.
  8. CHIANG (1984), p. 333.

Referências

  • SIMON, Carl P., e BLUME, Lawrence. Mátemática para economistas. Porto Alegre: Bookman, 2004. Reimpressão 2008. ISBN 978-85-363-0307-9.
  • INTRILIGATOR, Michael D. Mathematical Optimization and Economic Theory. 1971, Prentice-Hall. Inc. Englewood Cliffs, N.J. printed in the United states of America 13-561753-7. Library of Congress Catalog Card Number: 72-127059. Appendix B, "Matrices".
  • CHIANG, Alpha C. Fundamental Methods in Mathematical Economics. 3ª edição. McGraw-Hill, Inc. 1984. ISBN 0-07-010813-7. Seção 11.4, "Objective functions with more than two variables".
  • v
  • d
  • e
Classes de matriz
Elementos explicitamente restritos
Constante
Condições sobre
autovalores e autovetores
Satisfazendo condições
sobre produtos ou inversas
Com aplicações específicas
Usada em estatística
  • Bernoulli
  • Centro
  • Correlação
  • Covariância
  • Dispersão
  • Duplamente estocástica
  • Informação de Fisher
  • Projeção
  • Precisão
  • Estocástica
  • Transição
Usada em teoria dos grafos
Usada em ciência e engenharia
Termos relacionados
  • Categoria:Matrizes