análise do Rn, Notas de estudo de Matemática
Docsity.Brasil
Docsity.Brasil

análise do Rn, Notas de estudo de Matemática

161 páginas
50Números de download
1000+Número de visitas
50%de 0 votosNúmero de votos
Descrição
análise do Rn
70 pontos
Pontos de download necessários para baixar
este documento
Baixar o documento
Pré-visualização3 páginas / 161
Esta é apenas uma pré-visualização
3 mostrados em 161 páginas
Esta é apenas uma pré-visualização
3 mostrados em 161 páginas
Esta é apenas uma pré-visualização
3 mostrados em 161 páginas
Esta é apenas uma pré-visualização
3 mostrados em 161 páginas

Introdução à Análise em Rn

J. Campos Ferreira

3 de Junho de 2004

Índice

Introdução 5

1 Generalidades e primeiros exemplos 7 1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2 Exemplos de funções de duas variáveis reais . . . . . . . . . . . . . 8 1.3 Gráficos e linhas de ńıvel . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4 Exemplos de funções . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Estruturação de Rm. Sucessões 17 2.1 Produto interno, norma e distância . . . . . . . . . . . . . . . . . . 17 2.2 Sucessões em Rm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3 Noções topológicas em Rm . . . . . . . . . . . . . . . . . . . . . . . 32

3 Continuidade e limite 43 3.1 Continuidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2 Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4 Cálculo diferencial 83 4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.2 Cálculo diferencial de primeira ordem . . . . . . . . . . . . . . . . . 86 4.3 Cálculo diferencial de ordem superior à primeira . . . . . . . . . . . 117 4.4 Teoremas das funções impĺıcitas e da função inversa . . . . . . . . . 129 4.5 Extremos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

Índice Remissivo 159

3

4

Introdução

Uma grande parte deste trabalho é o resultado de uma revisão do texto intitulado Introdução à Análise em Rn, que redigi há mais de vinte anos para os alunos que então frequentavam no Instituto Superior Técnico a disciplina de Análise Matemática II. Decidi-me a efectuar essa revisão — e até a acrescentar diversos complementos cuja redacção está em curso — porque alguns colegas e amigos me asseguraram que o trabalho poderia ter ainda hoje alguma utilidade, como texto de apoio a uma parte das suas aulas da referida disciplina.

Gostaria de deixar aqui expresso o meu reconhecimento aos Professores Fran- cisco Teixeira, João Palhoto de Matos e Pedro Girão e ao Engenheiro Paulo Abreu pelas suas valiosas contribuições para a concretização deste projecto.

Lisboa, Novembro de 2002

Jaime Campos Ferreira

5

6

Caṕıtulo 1

Generalidades e primeiros exemplos

1.1 Introdução

Foi estudada anteriormente a noção geral de função. De forma intuitiva, pode pensar-se que uma função f associa a cada elemento x de um dado conjunto A, chamado domı́nio de f , um e um só elemento f(x) de um conjunto B; o subcon- junto de B formado por todos os valores f(x) é, como sabemos, o contradomı́nio de f .

No caso geral, A e B podem ser conjuntos com elementos de natureza qualquer. No entanto, quase todo o nosso trabalho anterior incidiu sobre um caso particular, aliás muito importante: o de tanto A como B serem subconjuntos do conjunto R, dos números reais (dizia-se então, como vimos, que as funções consideradas eram funções reais de (uma) variável real).

Vamos iniciar agora uma generalização desse estudo, de enorme interesse em toda a espécie de aplicações: estudaremos funções reais de m variáveis reais, (com m inteiro positivo), isto é, funções cujo contradomı́nio é ainda um subconjunto de R mas cujo domı́nio é uma parte do conjunto Rm = R × R × · · · × R (produto cartesiano de m factores todos iguais a R). As funções deste tipo são também designadas por funções reais de variável vectorial (expressão relacionada com a designação de vectores, dada correntemente aos elementos de Rm). Mais geral- mente ainda, vários aspectos do nosso estudo incidirão sobre funções vectoriais de variável vectorial (funções com domı́nio A ⊂ Rm e contradomı́nio B ⊂ Rn , com m e n inteiros positivos).

Neste quadro geral, estudaremos várias noções fundamentais — como as de limite e continuidade — e abordaremos o estudo do cálculo diferencial, bem como algumas das suas aplicações mais importantes.

Recordemos que, antes de iniciarmos o estudo das funções reais de uma variável real, tivemos necessidade de organizar convenientemente os nossos conhecimentos sobre o próprio conjunto R; da mesma forma, teremos agora de começar por estruturar de forma adequada o conjunto Rm, para que possamos assentar numa base sólida o estudo que vamos empreender. Esse trabalho será feito no Caṕıtulo 2, dedicando-se os restantes parágrafos deste caṕıtulo à consideração de exemplos e

7

Caṕıtulo 1. Generalidades e primeiros exemplos

à exposição de algumas ideias muito simples, que convém abordar nesta fase introdutória do nosso trabalho.

1.2 Alguns exemplos de funções de duas variáveis reais

Uma função real de duas variáveis reais, f , definida numa parte A de R2, faz corresponder a cada par ordenado de números reais, (x, y), pertencente ao con- junto A, um único número real, f(x, y). Vejamos alguns exemplos concretos.

1. Seja f a função definida pela fórmula:

f(x, y) = x2 + y2,

no conjunto de todos os pontos (x, y) ∈ R2. Trata-se de uma função de duas variáveis, aqui designadas por x e y; convém lembrar, no entanto, que as letras escolhidas para variáveis são inteiramente secundárias: a mesma função poderia ser definida, por exemplo, pela fór- mula:

f(u, v) = u2 + v2, (u, v) ∈ R2.

Convém também observar desde já que, se «fixarmos» uma das variáveis num determinado valor, obteremos uma função de uma só variável (a va- riável «não fixada»); assim, por exemplo, fixando y no valor 2 obter-se-ia a função parcial (que designamos por ϕ):

ϕ(x) = f(x, 2) = x2 + 4, x ∈ R.

Analogamente, atribuindo a x o valor −1 obter-se-ia uma nova função par- cial:

ψ(y) = f(−1, y) = y2 + 1, x ∈ R.

Como é óbvio ter-se-ia, necessariamente:

ϕ(−1) = f(−1, 2) = ψ(2).

2. Considere-se agora a função g definida pela fórmula:

g(x, y) = √ x2 + y2 − 1−

√ 9− x2 − y2,

no conjunto de todos os pontos (x, y) para os quais tem sentido (no con- junto R, onde g toma valores) a expressão que figura no 2o membro. Trata-se de uma função de duas variáveis reais cujo domı́nio pode repre- sentar-se no plano xy pela coroa circular determinada pelas circunferências de centro na origem e raios 1 e 3 (incluindo os pontos que pertencem às próprias circunferências).

8

1.2. Exemplos de funções de duas variáveis reais

PSfrag replacements

y

x

1 2 3

5

5

Figura 1.1

Neste caso, se fixarmos por exemplo a variável x no valor 2, obteremos a função parcial:

θ(y) = g(2, y) = √ y2 + 3−

√ 5− y2

cujo domı́nio é o intervalo [− √ 5, √ 5] . Se, em vez de x = 2, pusermos x = 0

ou x = 3, obteremos respectivamente as funções:

g(0, y) = √ y2 − 1−

√ 9− y2

e g(3, y) =

√ y2 + 8−

√ −y2

O domı́nio da primeira é o conjunto [−3, −1] ∪ [1, 3] e o da segunda tem apenas um ponto (o ponto 0).

3. Seja h a função definida pela fórmula

h(x, y) = arcsin x

y ,

no conjunto de todos os pontos (x, y) ∈ R2 tais que arcsinx/y ∈ R.

PSfrag replacements

y

x

Figura 1.2

É fácil reconhecer que o domı́nio de h é o conjunto representado geome- tricamente pelos dois ângulos verticalmente opostos que têm por lados as

9

Caṕıtulo 1. Generalidades e primeiros exemplos

bissectrizes dos quadrantes pares e dos quadrantes ı́mpares, e que não con- tém o eixo das abcissas (os lados dos ângulos referidos pertencem ainda ao domı́nio, mas não o seu vértice comum).

4. Convém observar que, tal como no caso das funções de uma só variável, para definir uma função de duas variáveis reais não é necessário dar uma expressão anaĺıtica. Assim, por exemplo, definir-se-ia também uma função de duas variáveis reais por meio de qualquer dos enunciados seguintes:

(a) Seja f a função definida em R2 e tal que

f(x, y) = 0 se x e y são números inteiros

f(x, y) = 1 se x ou y não são inteiros.

Ter-se-ia, por exemplo: f(1,−5) = 0, f(2, 1/3) = f(π, √ 2) = 1, etc.

(b) Seja g a função cujo domı́nio é o ćırculo definido pela desigualdade

x2 + y2 ≤ 4

e tal que

g(x, y) = √ 1− x2 − y2 se x2 + y2 < 1

e

g(x, y) = 0 se 1 ≤ x2 + y2 ≤ 4.

Adiante faremos mais algumas referências às funções mencionadas neste exemplo, a propósito da noção de gráfico de uma função de duas variáveis reais, considerada no parágrafo seguinte.

1.3 Gráficos e linhas de ńıvel

Consideremos no «espaço ordinário» um referencial cartesiano ortonormado. Por um processo bem conhecido, cada ponto P do espaço determina então um terno ordenado de números reais (x, y, z), designados respectivamente por abcissa, or- denada e cota do ponto P ; reciprocamente, cada terno ordenado de números reais — isto é, cada elemento de R3 — determina um ponto do espaço ordinário.

Assim, fixado um referencial, fica estabelecida uma bijecção entre o conjunto R3 e o espaço ordinário, considerado como conjunto de pontos.

Nestas condições, sendo z = f(x, y) uma função de duas variáveis reais, de- finida num conjunto A ⊂ R2, chama-se gráfico da função f no referencial con- siderado o conjunto de todos os pontos (x, y, z) cujas coordenadas verificam a condição z = f(x, y) (poderia também dizer-se que o gráfico de f é o conjunto de todos os pontos da forma

( x, y, f(x, y)

) , com (x, y) ∈ A).

10

1.3. Gráficos e linhas de ńıvel

PSfrag replacements

z

y

x

P (x, y, z)

Figura 1.3

Trata-se, como é evidente, de uma generalização natural da noção de gráfico bem conhecida para as funções de uma variável real. No caso destas funções, os gráficos eram geralmente «linhas» (pelo menos se as funções consideradas tivessem «regularidade» suficiente). Para funções de duas variáveis os gráficos serão, na generalidade dos casos que nos interessará considerar, «superf́ıcies», contidas no espaço ordinário.

Na Fig. 1.4 tenta-se dar uma ideia do gráfico da função z = x2+y2, considerada em 1.2, no exemplo 1. A superf́ıcie em causa é um parabolóide de revolução, que pode obter-se fazendo rodar em torno do eixo dos z a parábola situada no plano dos yz e cuja equação neste plano é z = y2.

PSfrag replacements

z

y x

z = x 2

+ y 2

Figura 1.4

Na Fig. 1.5 esboça-se o gráfico da função g, do exemplo 4. b) de 1.2.

Trata-se de uma superf́ıcie em forma de «chapéu», cuja «aba» é a coroa circu-

PSfrag replacements

z

y

x

Figura 1.5

11

Caṕıtulo 1. Generalidades e primeiros exemplos

lar situada no plano xy e definida pela condição:

1 ≤ x2 + y2 ≤ 4,

isto é, a coroa limitada pelas circunferências de centro na origem e raios iguais a 1 e 2, (observe-se que nos pontos desta coroa circular, a função z = g(x, y) assume sempre o valor 0, o que significa que toda esta parte do gráfico está situada no plano xy). A parte restante do gráfico é um hemisfério, intersecção da superf́ıcie esférica de equação

x2 + y2 + z2 = 1

com o «semi-espaço superior», isto é, com o conjunto dos pontos de cota positiva. Por último, consideremos a função f , definida no exemplo 4. a). O conjunto

de pontos que constitui o seu gráfico não é propriamente uma superf́ıcie: o gráfico é formado por todos os pontos de um plano paralelo ao plano xy e situado uma unidade acima deste (plano cuja equação é z = 1), com excepção dos que têm por abcissa e por ordenada números inteiros, cada um dos quais é «substitúıdo» pela sua projecção ortogonal sobre o plano xy.

Notaremos agora que, embora seja bastante natural, a representação gráfica das funções de duas variáveis reais que temos estado a considerar tem o inconveni- ente de exigir o recurso a modelos tridimensionais que, quando representados em perspectiva numa folha de papel se tornam bastante menos sugestivos e mais dif́ı- ceis de interpretar (como o provam algumas das figuras insertas neste parágrafo). Por vezes, pode obter-se uma representação plana mais esclarecedora a respeito do gráfico de uma função de duas variáveis recorrendo às chamadas «linhas de ńıvel», usadas correntemente nas cartas topográficas para indicar a altitude dos terrenos figurados.

A ideia de uma tal representação é muito simples; sugeri-la-emos através de um exemplo, o da função z = x2 + y2, cujo gráfico esboçámos na Fig. 1.4.

Se intersectarmos esse gráfico com planos paralelos ao plano xy e de cotas po- sitivas (isto é, com planos de equação z = c, com c constante positiva), obteremos circunferências de raio tanto maior quanto maior for a cota do plano secante.

x

y

z =

0

z =

1

1

z =

2

2

z =

3

3

z =

4

2

Figura 1.6

12

1.4. Exemplos de funções

As linhas de ńıvel, algumas das quais estão representadas na Fig. 1.6, são pre- cisamente as projecções destas circunferências sobre o plano horizontal (dos xy). Para obter uma equação da linha de ńıvel correspondente à secção do parabolóide com o plano z = c basta substituir z por c na equação z = x2 + y2, obtendo-se

x2 + y2 = c,

o que mostra que o plano horizontal de cota c intersecta o parabolóide segundo uma circunferência de raio

√ c.

Figura 1.7

Nas cartas topográficas, é frequente as linhas de ńıvel figuradas corresponde- rem a planos secantes com cotas c em progressão aritmética; em tal caso é fácil, por simples observação, avaliar o declive do terreno representado na carta: assim, nas zonas em que o declive é muito acentuado, como sucede habitualmente junto de picos montanhosos, as linhas de ńıvel apresentam-se muito concentradas, muito próximas umas das outras; nas regiões sensivelmente planas (plańıcies, etc.) veri- fica-se uma rarefacção das linhas de ńıvel, que estão então bastante distanciadas (Fig. 1.7).

1.4 Exemplos de funções de mais de duas variáveis reais

A noção de função de três (ou mais) variáveis reais define-se de forma óbvia: função de três variáveis reais é qualquer função cujo domı́nio seja um subconjunto de R3 (cubo cartesiano do conjunto R). Uma tal função, f , faz corresponder a cada terno ordenado (x, y, z), pertencente ao seu domı́nio, um determinado número real designado por f(x, y, z). Mais geralmente, sendo m um número inteiro positivo, qualquer função f cujo domı́nio A esteja contido em Rm é uma função de m variáveis reais, cujo valor no ponto (x1, x2, . . . , xm) ∈ A se designa por f(x1, x2, . . . , xm) (por vezes, quando não há risco de confusão, a sequência de m reais (x1, . . . , xm) é representada abreviadamente por x e o valor f(x1, . . . , xm) simplesmente por f(x), como se tratasse de uma função de uma só variável real).

Como exemplos consideremos as funções:

f(x, y, z) = 1/xyz,

g(x, y, z) = lim n→∞

(x2n + y2n + z2n),

h(x1, x2, . . . , xm) = log ( x21 + x

2 2 + · · ·+ x2m

) ,

13

Caṕıtulo 1. Generalidades e primeiros exemplos

supostas definidas no conjunto de todos os pontos (do espaço R3 nos dois primeiros casos e de Rm no terceiro) nos quais têm sentido as expressões indicadas nos segundos membros das igualdades correspondentes.

Facilmente se reconhece que o domı́nio de f é o conjunto de todos os pontos de R3 que não pertencem a qualquer dos planos coordenados (isto é, dos planos dos xy, dos xz e dos yz, cujas equações são, respectivamente, z = 0, y = 0 e x = 0). Com efeito, a expressão 1/xyz tem sentido no corpo real sse x, y e z verificam as condições

x 6= 0, y 6= 0 e z 6= 0. Por sua vez, o domı́nio da função g é o cubo constitúıdo por todos os pontos

de R3 cujas coordenadas verificam as relações: |x| ≤ 1, |y| ≤ 1 e |z| ≤ 1, isto é, o cubo centrado na origem, com faces paralelas aos planos coordenados e arestas de comprimento igual a 2. Para reconhecer que é este o domı́nio de g basta lembrar que se tem:

lim n→∞

x2n =

 0 se |x| < 1 1 se |x| = 1 +∞ se |x| > 1,

donde facilmente se deduz também que g toma o valor 0 em todos os pontos (x, y, z) situados no interior do cubo (isto é, que pertencem ao cubo mas não a qualquer das suas faces), o valor 1 em qualquer ponto situado numa face mas não numa aresta, o valor 2 nos pontos das arestas distintos dos vértices e, finalmente, o valor 3 em cada um dos vértices do cubo. Nos pontos (x, y, z) situados fora do cubo tem-se

lim n→∞

( x2n + y2n + z2n

) = +∞

não estando portanto a função g definida em qualquer desses pontos. Finalmente, a função h tem por domı́nio todo o espaço Rm com excepção

da origem; com efeito, log(x21 + · · · + x2m) converte-se num número real se forem atribúıdos a x1, . . . , xm valores tais que

x21 + x 2 2 + · · ·+ x2m > 0,

o que se verifica em qualquer ponto (x1, . . . , xm) 6= (0, 0, . . . , 0). Pode observar-se ainda que a função h é constante em cada uma das «hiper-

superf́ıcies» definidas (no espaço Rm) por equações da forma

x21 + x 2 2 + · · ·+ x2m = c,

com c > 0, as quais podem chamar-se «hipersuperf́ıcies de ńıvel» da função con- siderada (generalizando a noção de «linha de ńıvel», introduzida anteriormente). No que respeita à representação geométrica de funções de mais de duas variá- veis, limitar-nos-emos a observar que, mesmo para uma função de três variáveis reais, u = f(x, y, z), não se pode já visualizar um «gráfico» (no espaço ordi- nário, tridimensional, não é posśıvel figurar quatro eixos ortogonais dois a dois,

14

1.4. Exemplos de funções

para representar as variáveis x, y, z e u). Em tais casos pode ser útil recorrer à representação de «funções parciais», obtidas por fixação de algumas das variáveis.

Assim por exemplo, para estudar a função z = x2 + y2 + t2 pode observar-se que, para t = 0, a função parcial correspondente, z = x2 + y2 , tem por gráfico o parabolóide representado na Fig. 1.4; para t = 1, o gráfico da função parcial z = x2 + y2 + 1 é também um parabolóide, obtido do anterior por translação de uma unidade na direcção e sentido do eixo dos z, etc..

Deve, no entanto, observar-se que, embora a representação geométrica se torne menos cómoda e também menos útil no caso das funções de m variáveis reais, com m > 2, o estudo da teoria destas funções por via anaĺıtica se reduz quase sempre a uma generalização simples e directa da teoria correspondente para as funções de duas variáveis; em contrapartida, como teremos oportunidade de ver na sequência, a passagem de uma a duas variáveis «independentes» introduz, de facto, novas situações e algumas dificuldades em vários aspectos da teoria.

15

Caṕıtulo 1. Generalidades e primeiros exemplos

16

Caṕıtulo 2

Estruturação algébrica e topológica de Rm. Sucessões

2.1 O espaço vectorial Rm; produto interno, norma e distância

Sendo m um número inteiro positivo, os elementos do conjunto Rm são, como sabemos, todas as sequências1 (ou sucessões finitas) de m números reais, repre- sentáveis na forma:

x = (x1, x2, . . . , xm),

com x1, x2, . . . , xm ∈ R. Como resulta da própria definição de sequência, se x = (x1, x2, . . . , xm) e y = (y1, y2, . . . , ym) são dois elementos de Rm, a igualdade x = y é verificada sse o forem conjuntamente as m igualdades:

x1 = y1, x2 = y2, . . . , xm = ym.

Assim, cada elemento x = (x1, x2, . . . , xm) ∈ Rm determina, de forma uńıvoca, cada uma das suas coordenadas, x1, x2, . . . , xm (designadas, respectivamente, por 1a, 2a, . . . , macoordenada de x). Nestas condições, fixado m ∈ N1, para cada inteiro positivo j ∈ {1, 2, . . . ,m}, convencionaremos chamar projecção de ordem j e designar por pj a aplicação de Rm em R que faz corresponder a cada x ∈ Rm a sua ja coordenada:

p1(x) = x1, . . . , pm(x) = xm,

se x = (x1, . . . , xm). Por exemplo, no caso m = 3 (e portanto com x ∈ R3) os números reais p1(x), p2(x) e p3(x) corresponderiam respectivamente à abcissa, à ordenada e à cota do ponto do «espaço ordinário» identificado com o elemento x (cf. 1.3).

Convém-nos agora introduzir no conjunto Rm uma operação binária — cha- mada adição — definida pela forma seguinte: sendo x = (x1, x2, . . . , xm) e

1Recorde-se que, sendo A um conjunto qualquer, uma sequência de m elementos de A é qualquer aplicação do conjunto dos m primeiros inteiros positivos, {1, 2, . . . ,m}, no conjunto A; a sequência que transforma cada inteiro positivo j (com 1 ≤ j ≤ m) no elemento aj de A é usualmente representada por (a1, a2, . . . , am).

17

Caṕıtulo 2. Estruturação de Rm. Sucessões

y = (y1, y2, . . . , ym) elementos quaisquer de Rm, a soma de x e y, designada por x + y, será por definição o elemento de Rm:

x + y = (x1 + y1, x2 + y2, . . . , xm + ym).

Muitas vezes, para interpretar geometricamente os elementos de Rm — com m = 3 e, de forma análoga, nos casos m = 1 e m = 2 — é prefeŕı- vel, em lugar da identificação com «pontos» do espaço ordinário referida em 1.3, identificá-los com «vectores» (no sentido atribúıdo a este termo na Geometria elementar). Nesta interpretação, depois de fixado um referencial Oxyz no espaço ordinário, o elemento (a, b, c) de R3 fica a corresponder, já não ao ponto P de coordenadas a, b, c no referencial considerado, mas antes ao vector representado por ~OP (onde O é a origem do referencial).

Reconhece-se facilmente que, com esta última interpretação, a adição que acabamos de definir em Rm corresponde precisamente (se m ≤ 3) à adição de vectores considerada na Geometria elementar (na qual a soma de dois vectores era geralmente determinada pela «regra do paralelogramo»).

Verifica-se imediatamente que a adição definida em Rm é comutativa (x+y = y + x, ∀x,y ∈ Rm) e associativa (x + (y + z) = (x + y) + z, ∀x,y, z ∈ Rm); é também óbvia a existência de um elemento de Rm — o elemento com todas as coordenadas nulas, que designaremos por 0 — tal que, para qualquer x ∈ Rm, x + 0 = x; além disso, dado x ∈ Rm existe sempre um elemento do mesmo conjunto — chamado simétrico de x e designado por −x — que verifica a condição x+(−x) = 0 (se x = (x1, . . . , xm), então −x = (−x1, . . . ,−xm) como é evidente). As quatro propriedades acabadas de mencionar podem sintetizar-se dizendo que Rm, com a operação de adição considerada, é um grupo comutativo.

Aliás, dessas quatro propriedades podem deduzir-se muitas outras (como vi- mos no estudo dos números reais) de tal forma que, em termos algo imprecisos, poderá afirmar-se que a adição em Rm — bem como a subtracção, definida de ma- neira óbvia — gozam da generalidade das propriedades das operações homónimas definidas em R.

Em contrapartida, a multiplicação de números reais não pode generalizar-se ao quadro dos espaços Rm mantendo todas as suas propriedades essenciais (por exemplo só para valores muito particulares de m é posśıvel definir uma multipli- cação de maneira que Rm fique munido de uma estrutura de corpo). Têm, no entanto, o maior interesse as duas operações de multiplicação que introduziremos na sequência, cada uma das quais constitui, sob certos aspectos, uma generalização da multiplicação usual de números reais.

A primeira dessas operações — chamada multiplicação por escalares (ou por números reais) — tem por dados um número real e um elemento de Rm sendo o re- sultado um elemento de Rm. Em termos precisos, se α ∈ R e x = (x1, x2, . . . , xm) ∈ Rm, chama-se produto de α por x e designa-se por αx o elemento de Rm:

αx = (αx1, αx2, . . . , αxm).

18

2.1. Produto interno, norma e distância

(Geometricamente, no caso de ser m ≤ 3, esta operação corresponde à multi- plicação usual de um número real por um vector.)

Reconhece-se imediatamente que, se α, β ∈ R e x,y ∈ Rm, se tem:

α(x + y) = αx + αy

(α+ β)x = αx + βx

α(βx) = (αβ)x

1x = x

Todas estas propriedades — e ainda as que resumimos ao afirmar que Rm é um grupo comutativo relativamente à adição — podem por sua vez sintetizar- se dizendo que Rm, munido com as operações de adição e de multiplicação por escalares, é um espaço vectorial sobre o corpo real, ou apenas um espaço vectorial real2.

Fixado um inteiro positivo m, convencionaremos designar por ej (para j = 1, . . . ,m) o vector de Rm com todas as coordenadas nulas excepto a de ordem j, que é igual a 1:

e1 = (1, 0, . . . , 0), . . . , em = (0, 0, . . . , 0, 1).

Por exemplo, para m = 2, haverá só dois vectores a considerar: e1 = (1, 0) e e2 = (0, 1).

Nestas condições, sendo x = (x1, x2, . . . , xm) um vector qualquer de Rm ter-se- á, atendendo às definições de adição e multiplicação por escalares:

x = (x1, . . . , xm) = (x1, 0, . . . , 0) + · · ·+ (0, 0, . . . , 0, xm) = x1(1, 0, . . . , 0) + · · ·+ xm(0, 0, . . . , 0, 1)

ou x = x1e1 + x2e2 + · · ·+ xmem.

Sendo u1,u2, . . . ,uk vectores de um espaço vectorial real (por exemplo, de um espaço Rm, com m ∈ N1), diz-se que um vector u do mesmo espaço é uma combinação linear de u1,u2, . . . ,uk sse existem k números reais α1, α2, . . . , αk tais que se verifique a igualdade:

u = α1u1 + α2u2 + · · ·+ αkuk.

Quando qualquer vector u do espaço vectorial considerado pode ex- primir-se como combinação linear de u1,u2, . . . ,uk de forma única (isto é, quando para todo o u existem escalares α1, α2, . . . , αk por forma que a igualdade anterior seja verificada e, além disso, a verificação conjunta dessa igualdade e de

u = β1u1 + β2u2 + · · ·+ βkuk 2É habitual chamar vectores aos elementos de qualquer espaço vectorial; por isso, de aqui

em diante, chamaremos correntemente vectores aos elementos de Rm. Os números reais serão também designados por escalares.

19

Caṕıtulo 2. Estruturação de Rm. Sucessões

implique α1 = β1, α2 = β2, . . ., αk = βk) diz-se que os vectores u1,u2, . . . ,uk constituem uma base do espaço vectorial considerado.

Usando esta terminologia, corrente em Álgebra Linear, poderia dizer-se que os vectores e1, e2, . . . ,em constituem uma base do espaço vectorial Rm (será útil, como exerćıcio, justificar cuidadosamente esta afirmação). Deve observar-se que o espaço Rm tem infinitas outras bases; aquela a que nos referimos especialmente costuma ser designada por base canónica de Rm.

Introduziremos agora a segunda das operações de «multiplicação» a que an- teriormente fizemos referência. Sendo x,y ∈ Rm, x = (x1, x2, . . . , xm) e y = (y1, y2, . . . , ym), chama-se produto interno de x e y ao número real

x · y = x1y1 + x2y2 + · · ·+ xmym.

Assim, por exemplo, ter-se-á, para i, j ∈ {1, 2, . . . ,m}.

ei · ej =

{ 1 se i = j

0 se i 6= j.

Verificam-se sem qualquer dificuldade as seguintes propriedades do conceito de produto interno: para qualquer α ∈ R e quaisquer x,y, z ∈ Rm,

P1) x · y = y · x

P2) (x + y) · z = x · z + y · z e x · (y + z) = x · y + x · z

P3) (αx) · y = α(x · y) = x · (αy)

P4) 0 · 0 = 0 e, para qualquer x 6= 0, x · x > 0.

A noção de produto interno será usada frequentemente na sequência deste curso; neste momento, convém-nos utilizá-la para introduzir um outro conceito, fundamental em tudo o que segue: a norma de um vector de Rm, generalização da noção de módulo de um número real (ou da de módulo — ou comprimento — de um vector, no sentido considerado na Geometria).

Sendo x ∈ Rm, chamaremos norma de x e designaremos pelo śımbolo ‖x‖ , o número real:

‖x‖ = √

x · x

(observe-se que, segundo P4, se tem x · x ≥ 0, para qualquer x ∈ Rm). No caso particular de x ser um vector de R2 ou R3 — x = (x1, x2) ou x =

(x1, x2, x3) — interpretável, no plano ou no espaço ordinário, como um vector ~OP — a norma de x, dada por:

‖x‖ = √

x · x =

{√ x21 + x

2 2 se m = 2√

x21 + x 2 2 + x

2 3 se m = 3,

20

2.1. Produto interno, norma e distância

coincidirá com o módulo do vector ~OP (ou com a distância do ponto P à origem). Se m = 1, o vector x = (x1) pode identificar-se com o número real x1 e a sua norma,

√ x21, coincide com o módulo do número real x1.

Para números reais, sabemos bem que são verificadas as propriedades seguin- tes:

M1) |x| ≥ 0 (com |x| = 0 sse x = 0)

M2) |xy| = |x||y|

M3) |x+ y| ≤ |x|+ |y|.

Convém-nos agora ver em que medida estas propriedades são generalizáveis (através do conceito de norma) ao caso dos espaços Rm.

A extensão da primeira é trivial; com efeito, se x = (x1, . . . , xm) ∈ Rm, tem-se, evidentemente:

N1) ‖x‖ = √ x21 + x

2 2 + · · ·+ x2m > 0, se x 6= 0 e ‖0‖ = 0.

Para tentar generalizar M2), há que considerar separadamente o produto por escalares e o produto interno. No primeiro caso, deduz-se imediatamente:

‖αx‖ = ‖α(x1, . . . , xm)‖ = ‖(αx1, . . . , αxm)‖

= √ α2x21 + · · ·+ α2x2m = |α|

√ x21 + · · ·+ x2m

ou

N2) ‖αx‖ = |α|‖x‖.

No segundo, obtém-se uma relação de grande utilidade, chamada desigualdade de Cauchy-Schwarz :

|x · y| ≤ ‖x‖‖y‖, ∀x,y ∈ Rm.

Esta relação pode justificar-se pela forma seguinte: sendo x e y dois vectores quaisquer de Rm, observe-se em primeiro lugar que, para qualquer α ∈ R, se tem (de acordo com a definição de norma):

(x + αy) · (x + αy) = ‖x + αy‖2 ≥ 0.

Por outro lado, das propriedades indicadas do produto interno logo resulta:

(x + αy) · (x + αy) = x · (x + αy) + αy · (x + αy) = x · x + αx · y + αy · x + α2y · y = ‖x‖2 + 2(x · y)α+ α2‖y‖2,

o que permite deduzir que, para qualquer α ∈ R,

‖y‖2α2 + 2(x · y)α+ ‖x‖2 ≥ 0.

21

Caṕıtulo 2. Estruturação de Rm. Sucessões

A expressão que figura no 1o membro desta desigualdade é um trinómio do 2o grau em α (com coeficientes dependentes dos vectores dados, x e y); como é sabido, para que o trinómio aα2 + bα + c assuma valores não negativos qualquer que seja o valor real atribúıdo a α, é necessário que o seu discriminante não seja positivo (b2−4ac ≤ 0).3 Pode portanto concluir-se que se verifica necessariamente a relação:

|x · y|2 − ‖x‖2‖y‖2 ≤ 0,

donde imediatamente se deduz a desigualdade de Cauchy-Schwarz.

No caso particular em que x e y são vectores não nulos do espaço R2 ou R3, interpretáveis como vectores no plano ou no espaço, pode verificar-se que é válida a relação4:

x · y = ‖x‖‖y‖ cos θ,

onde θ designa o ângulo dos dois vectores (Figura 2.1). Este facto sugere que se procure definir mais geralmente ângulo de dois vectores não nulos do espaço Rm, x e y, como sendo o número real:

θ = arccos x · y ‖x‖‖y‖

.

Contudo, não seria leǵıtimo adoptar esta definição se não estivesse assegu- rado que (para x,y 6= 0) a expressão

x · y ‖x‖‖y‖

assume apenas valores do intervalo [−1, 1]; esta garantia resulta imediata- mente da desigualdade de Cauchy-Schwarz.

0

x

Py

Q

θ

Figura 2.1

É útil mencionar que, quando o produto interno de x e y é nulo (o que se passa se algum desses vectores é igual a 0, ou se o seu ângulo é

3Convém notar que a afirmação é correcta, mesmo na hipótese de ser nulo o coeficiente de α2.

4Com referencial ortonormado; não sendo o referencial ortonormado, a relação mantém-se, mas o produto interno de x e y não pode ser definido pela fórmula que indicámos.

22

2.1. Produto interno, norma e distância

igual a π/2) costuma dizer-se que os vectores x e y são ortogonais. Pode observar-se ainda que, das igualdades:

‖x + y‖2 = (x + y) · (x + y) = ‖x‖2 + 2x · y + ‖y‖2,

resulta, no caso de x e y serem ortogonais:

‖x + y‖2 = ‖x‖2 + ‖y‖2,

relação que generaliza o clássico teorema de Pitágoras.

Podemos agora generalizar, para vectores do espaço Rm, a propriedade M3, relativa ao módulo de uma soma. Sendo x,y ∈ Rm, tem-se:

‖x + y‖2 = ‖x‖2 + 2x · y + ‖y‖2

≤ ‖x‖2 + 2|x · y|+ ‖y‖2,

donde, atendendo à desigualdade de Cauchy-Schwarz,

‖x + y‖2 ≤ ‖x‖2 + 2‖x‖‖y‖+ ‖y‖2 = (‖x‖+ ‖y‖)2.

Desta relação deduz-se imediatamente a propriedade que pretend́ıamos obter:

N3) ‖x + y‖ ≤ ‖x‖+ ‖y‖

Esta propriedade estende-se ao caso de uma soma com qualquer número (fi- nito) de parcelas. Assim (como pode justificar-se por indução, usando a associati- vidade da adição de vectores e N3), se u1,u2, . . . ,uk ∈ Rm, é válida a relação:

‖u1 + u2 + · · ·+ uk‖ ≤ ‖u1‖+ ‖u2‖+ · · ·+ ‖uk‖.

Costuma dizer-se que um espaço vectorial real é um espaço normado se estiver fixada uma aplicação que faça corresponder a cada vector x do espaço considerado um número real p(x), por forma que sejam verificadas as condições seguintes:

1. Para qualquer vector x do espaço, p(x) ≥ 0; p(x) = 0 sse x é o vector nulo;

2. p(αx) = |α|p(x) (para qualquer real α e qualquer vector x); 3. p(x + y) ≤ p(x) + p(y) (quaisquer que sejam os vectores x e y). Em tal caso, o número real p(x) chama-se ainda norma do vector x.

Assim, as três propriedades N1, N2 e N3 atrás verificadas permitem-nos afirmar que o espaço Rm, com a aplicação que associa a cada x o real ‖x‖, é um espaço normado.

Convém observar que podem definir-se no mesmo espaço vectorial Rm outras «normas», isto é, outras aplicações p : Rm → R verificando as três condições atrás referidas (dir-se-ia então que se tinham introduzido em Rm outras estruturas de espaço normado). Por exemplo, é fácil verificar que

23

Caṕıtulo 2. Estruturação de Rm. Sucessões

são também normas sobre Rm as aplicações que fazem corresponder a cada x = (x1, . . . , xm) os números reais:

p∗(x) = |x1|+ |x2|+ · · ·+ |xm|

ou p(x) = max {|x1|, |x2|, . . . , |xm|} .

É curioso observar — mesmo que de forma necessariamente pouco pre- cisa — que em todas as definições e teoremas subsequentes que farão intervir o conceito de norma, podeŕıamos utilizar, em lugar da norma inicialmente considerada (‖x‖), as duas que acabam de ser mencionadas (ou qualquer das outras infinitas normas que podem definir-se em Rm), obtendo-se sem- pre resultados essencialmente equivalentes. No entanto, quando na sequên- cia voltarmos a utilizar o termo «norma» deverá sistematicamente enten- der-se (salvo menção expressa em contrário) que pretendemos referir-nos à única noção de norma considerada antes do ińıcio desta nota.

Sendo x = (x1, . . . , xm) e y = (y1, . . . , ym) dois elementos quaisquer de Rm, chamaremos distância de x a y — e designaremos por d(x,y) — o número real:

d(x,y) = ‖x− y‖ = √ (x1 − y1)2 + · · ·+ (xm − ym)2.

Para ver como esta definição é natural, basta notar que, no caso de ser m igual a 1, 2 ou 3 — e interpretando agora, de preferência, x e y como pontos da recta, do plano ou do espaço — a igualdade anterior se transforma nas fórmulas para o cálculo da distância de dois pontos, bem conhecidas da Geometria Anaĺıtica.

Verificam-se sem qualquer dificuldade as seguintes propriedades da noção de distância: quaisquer que sejam os vectores x,y, z ∈ Rm,

D1) d(x,y) ≥ 0 e d(x,y) = 0 sse x = y

D2) d(x,y) = d(y,x)

D3) d(x, z) ≤ d(x,y) + d(y, z) (desigualdade triangular).

Sendo E um conjunto qualquer, costuma chamar-se distância sobre E a qualquer função que associe a cada par ordenado (x, y) de elementos de E um número real que poderemos designar ainda por d(x, y), por forma que sejam verificadas, sempre que x, y, z ∈ E, as condições D1, D2 e D3. O conjunto E, com uma determinada função de distância, constitui o que se chama um espaço métrico.

Assim o conjunto Rm, com a distância d(x,y) = ‖x−y‖, é um exemplo de um espaço métrico.

A noção de espaço métrico, e também a de espaço normado referida anteriormente, têm, contudo, possibilidades de utilização muito mais vastas do que a correspondente ao caso dos espaços Rm que estudaremos neste curso. Por exemplo, em muitos espaços funcionais importantes (espaços

24

2.1. Produto interno, norma e distância

cujos «vectores» são funções cont́ınuas, funções diferenciáveis, funções inte- gráveis, etc.) podem introduzir-se de maneira natural noções de norma ou de distância, a partir das quais são generalizáveis em grande parte a esses espaços os conceitos e os resultados mais significativos que aqui estudare- mos apenas para os espaços Rm. Nomeadamente, no quadro bastante geral dos espaços normados, pode estruturar-se um cálculo diferencial análogo ao que vamos estudar neste curso e que o contém como caso muito particular. E o mais interessante é que, longe de constituirem meras especulações de interesse puramente teórico, essas generalizações da teoria das funções de variável real — que constituem um dos objectos de um ramo da Matemá- tica chamado Análise funcional — são suscept́ıveis de aplicações de grande alcance na F́ısica, na Engenharia e em diversos outros domı́nios da Ciência e da Técnica.

Recorrendo à noção de norma (tal como no caso de R recorremos à de mó- dulo) ou, se preferirmos, à de distância, podemos agora introduzir em Rm vários conceitos fundamentais, que darão uma base sólida para o nosso estudo do cálculo diferencial em Rm. Esse trabalho será feito, em grande parte, nos parágrafos se- guintes deste caṕıtulo, reservando-se a parte restante do presente parágrafo apenas à generalização a Rm da noção de vizinhança de um número real.

Recordemos que, em R, designámos por vizinhança  de um ponto a (a ∈ R,  > 0) o conjunto de todos os reais x tais que |x− a| < . Numa ordem de ideias semelhante, sendo agora a = (a1, a2, . . . , am) ∈ Rm e  um número real positivo, chamaremos bola (ou bola aberta) de centro a e raio  ao conjunto de todos os x ∈ Rm tais que ‖x − a‖ < ; para designar este conjunto usaremos o śımbolo B(a). Eventualmente faremos também referência à bola fechada de centro a e raio , conjunto de todos os pontos x de Rm tais que ‖x− a‖ ≤ .

Para m = 1 (e a ∈ R, portanto) B(a) é precisamente a vizinhança  de a já conhecida, representável na recta por um segmento (privado dos extremos) com centro no ponto a e comprimento 2; para n = 2 [ou n = 3] e a = (a1, a2) [ou a = (a1, a2, a3)], a imagem geométrica de B(a) é o circulo «aberto» [ou a esfera «aberta»] de centro a e raio , isto é o conjunto de todos os pontos do plano [ou do espaço] cuja distância ao ponto a é menor do que .

Com a ∈ Rm e sendo  e ′ dois reais positivos tais que  < ′, tem-se, como é evidente, B(a) ⊂ B′(a). É também fácil verificar que qualquer bola de Rm é um conjunto infinito e ainda que a intersecção de todas as bolas centradas no ponto a é o conjunto formado apenas por este ponto, {a} (o qual, porém, não é uma bola). Observemos finalmente que, sendo a, b ∈ Rm e a 6= b, é sempre posśıvel determinar uma bola centrada em a, B(a), e outra bola centrada em b, Bδ(b), que sejam disjuntas (bastará escolher os reais positivos δ e  por forma que δ +  ≤ ‖b− a‖).

Na estruturação de alguns conceitos fundamentais da Análise em Rm — por exemplo, o de limite — as «bolas» acabadas de definir desempenharão natural- mente o papel que coube às «vizinhanças», no caso de R. Vê-lo-emos já no pará- grafo seguinte, no que respeita à noção de limite de uma sucessão, e no próximo

25

Caṕıtulo 2. Estruturação de Rm. Sucessões

caṕıtulo, ao estudarmos limites e continuidade para funções mais gerais. Além disso, no parágrafo final deste caṕıtulo, a noção de bola será também utilizada para a definição de diversos conceitos de natureza «topológica», indispensáveis no estudo do cálculo infinitesimal para funções de mais de uma variável real.

Convém no entanto deixar aqui registado que, no quadro dos espaços métricos, o termo vizinhança é usado numa acepção muito mais geral do que aquela a que acabamos de referir-nos. Concretamente, sendo E um espaço métrico e a um elemento de E, chama-se vizinhança de a a qual- quer conjunto V ⊂ E que contenha alguma bola de centro a; assim, V é vizinhança de a sse existe  > 0 tal que B(a) ⊂ V (B(a) é , por definição o conjunto de todos os elementos x ∈ E tais que d(x,a) < , sendo d a função distância considerada no espaço métrico E).

Neste texto, porém, só bastante mais adiante teremos necessidade de utilizar esta noção mais geral de vizinhança, e mesmo assim apenas no quadro do espaço Rm.

2.2 Sucessões em Rm

Comecemos por recordar que, sendo A um conjunto qualquer, se chama sucessão em A (ou sucessão de termos em A) a qualquer aplicação do conjunto N1, dos inteiros positivos, no conjunto A.

Se u1 u2 . . . un . . . é uma sucessão em Rm, e se, para cada inteiro positivo j ≤ m, designarmos por unj a ja coordenada de un (isto é, se pusermos pj(un) = unj), ter-se-á:

u1 = (u11, u12, . . . , u1m)

u2 = (u21, u22, . . . , u2m)

· · · un = (un1, un2, . . . , unm)

· · ·

Assim, cada sucessão em Rm determina m sucessões de termos reais, a que cha- maremos sucessões coordenadas da sucessão dada; mais precisamente, a sucessão numérica:

u1j u2j . . . unj . . .

é a sucessão coordenada de ordem j da sucessão un considerada (1 ≤ j ≤ m).5 Por exemplo, para a sucessão em R2

vn =

( 1

n , n

) 5Já sabemos que só como «abuso de notação» pode aceitar-se o uso do śımbolo un — que

designa o termo de ordem n da sucessão, isto é, o valor por ela assumido no ponto n — para designar a própria sucessão.

26

2.2. Sucessões em Rm

as sucessões coordenadas são

vn1 = 1

n e vn2 = n.

Estendem-se naturalmente às sucessões em Rm as operações algébricas defini- das no parágrafo 2.1. Assim, sendo un e vn sucessões em Rm e α ∈ R, a soma de un e vn e o produto de α por un são, respectivamente, as sucessões em Rm:

u1 + v1 u2 + v2 . . . un + vn . . .

e αu1 αu2 . . . αun . . .

e o produto interno de un e vn é a sucessão de termos reais:

u1 · v1 u2 · v2 . . . un · vn . . .

Introduziremos agora a seguinte definição, que generaliza de forma inteira- mente natural uma outra bem conhecida do estudo das sucessões reais:

Seja un uma sucessão em Rm e u um vector de Rm; diz se que un tende ou converge para u — e escreve-se un → u — sse, qualquer que seja a bola centrada em u, B(u), existe um inteiro positivo p tal que un ∈ B(u) para todo o n > p.

Reconhece-se sem dificuldade que esta definição poderia também ser formu- lada, equivalentemente, de qualquer dos modos seguintes:

• un converge para u sse, para todo o  > 0 existe p tal que n > p ⇒ ‖un − u‖ < ;

ou:

• un converge para u sse a sucessão real ‖un − u‖ converge para 0.

Por exemplo, a sucessão em R3:

un =

( n− 1 n

, 0, 1

3n

) converge para o vector e1 = (1, 0, 0). Para o reconhecer, basta notar que:

‖un − e1‖ = √

1

n2 +

1

32n

é um infinitésimo. Naturalmente, diz-se que uma sucessão em Rm, un, é convergente sse existe

u ∈ Rm tal que un → u. Antes de prosseguir, convém fazer uma observação simples, que nos facilitará

a obtenção de resultados posteriores.

27

Caṕıtulo 2. Estruturação de Rm. Sucessões

Como vimos, qualquer vector x = (x1, x2, . . . , xm) ∈ Rm pode exprimir-se como combinação linear dos vectores da base canónica, pela forma seguinte:

x = x1e1 + x2e2 + · · ·+ xmem.

Desta igualdade resulta, atendendo a propriedades da norma já estudadas:

‖x‖ = ‖x1e1 + · · ·+ xmem‖ ≤ ‖x1e1‖+ · · ·+ ‖xmem‖ = |x1|‖e1‖+ · · ·+ |xm|‖em‖ = |x1|+ · · ·+ |xm|.

Por outro lado (escolhido arbitrariamente um inteiro positivo j ≤ m), se mul- tiplicarmos internamente por ej ambos os membros daquela mesma igualdade, obteremos:

x · ej = (x1e1 + · · ·+ xmem) · ej = x1(e1 · ej) + · · ·+ xm(em · ej) = xj,

donde, atendendo à desigualdade de Cauchy-Schwarz, se deduz imediatamente:

|xj| = |x · ej| ≤ ‖x‖‖ej‖ = ‖x‖.

Assim, para qualquer j ∈ {1, 2, . . . ,m}, tem-se:

|xj| ≤ ‖x‖ ≤ |x1|+ |x2|+ · · ·+ |xm|.

Consideremos agora uma sucessão em Rm, un = (un1, un2, . . . , unm) e um vec- tor a = (a1, a2, . . . , am) do mesmo espaço.

De acordo com a observação precedente, ter-se-á (para todo o inteiro positivo j ≤ m e todo o n ∈ N1):

|unj − aj| ≤ ‖un − a‖ ≤ |un1 − a1|+ · · ·+ |unm − am|.

A primeira destas desigualdades mostra que, se un → a (isto é, se ‖un − a‖ → 0) também |unj − aj| → 0 e portanto (qualquer que seja o in- teiro positivo j ≤ m) a sucessão coordenada de ordem j, unj, converge para aj (em R); a segunda desigualdade permite reconhecer que, reciprocamente, se se tiver unj → aj para j = 1, . . . ,m (o que implica que a soma

|un1 − a1|+ |un2 − a2|+ · · ·+ |unm − am|

tenda para 0), ‖un − a‖ tenderá para 0 e portanto un tenderá para a em Rm. Pode portanto enunciar-se o seguinte:

28

2.2. Sucessões em Rm

Teorema 2.1. Para que uma sucessão em Rm, un = (un1, . . . , unm) seja conver- gente é necessário e suficiente que o sejam todas as suas sucessões coordenadas; além disso, na hipótese de convergência de un para a = (a1, . . . , am) tem-se, para j = 1, . . . ,m:

aj = lim n→∞

unj.

Daqui decorre imediatamente a unicidade do limite: Se, com b = (b1, . . . , bm), se tiver conjuntamente un → a e un → b, ter-se-á também:

aj = lim n→∞

unj, bj = lim n→∞

unj

e portanto, atendendo à unicidade do limite para sucessões reais, aj = bj (para j = 1, . . . ,m), isto é, a = b.

Naturalmente, quando un é convergente, chama-se limite de un ao (único) vector a tal que un → a, podendo então escrever-se limn→∞ un = a ou apenas limun = a.

A partir das definições de convergência e limite para sucessões em Rm ou então (como fizemos na precedente justificação da unicidade do limite) recorrendo ao Teorema 2.1 e a resultados bem conhecidos para as sucessões reais, obtêm-se sem qualquer dificuldade as propriedades seguintes, que nos limitamos a enunciar (un,vn são sucessões em Rm e a ∈ Rm; an é uma sucessão real).

• Se para todo o n (a partir de alguma ordem) un = a, então limun = a.

• Se limun = a e upn é uma subsucessão de un, limupn = a.

• Se un e vn são sucessões convergentes, un + vn, un − vn, un · vn e ‖un‖ também o são e:

lim(un + vn) = limun + limvn

lim(un − vn) = limun − limvn lim(un · vn) = limun · limvn lim ‖un‖ = ‖ limun‖.

• Se an e un convergem, anun também converge e:

lim(anun) = (lim an)(limun).

Outro conceito importante que pode generalizar-se naturalmente para suces- sões em Rm é o de sucessão limitada: diz-se que a sucessão un é limitada sse existe um número real k tal que se tenha ‖un‖ ≤ k para todo o n ∈ N (ou, o que é equivalente, se existe uma bola centrada na origem6 que contenha todos os seus termos).

6Ou, como é fácil de ver, centrada em qualquer outro ponto a ∈ Rm.

29

Caṕıtulo 2. Estruturação de Rm. Sucessões

Supondo un = (un1, . . . , unm) e j ∈ {1, . . . ,m}, da primeira das desigualdades:

|unj| ≤ ‖un‖ ≤ |un1|+ · · ·+ |unm|

infere-se que, se un é limitada, qualquer das suas sucessões coordenadas é uma sucessão limitada (em R); da segunda resulta que, sendo todas as sucessões coor- denadas limitadas, un é limitada. Portanto:

Teorema 2.2. Para que uma sucessão em Rn seja limitada é necessário e sufici- ente que o seja cada uma das suas sucessões coordenadas.

Por exemplo, em R3, é limitada a sucessão:

un =

( log n

n ,

( 1 +

1

n

)n , (−1)n

) e não o é

vn = ( e−n, 2,−n

) .

Sabemos bem que, em R, as sucessões convergentes são limitadas. Seja agora un uma sucessão convergente em Rm. Pelo Teorema 2.1, todas as sucessões co- ordenadas de un são sucessões (reais) convergentes, e portanto limitadas; daqui, pelo Teorema 2.2, pode concluir-se que un é limitada. Assim, também em Rm, as sucessões convergentes são necessariamente limitadas.

Um outro resultado importante que nos será necessário na sequência (em par- ticular, no estudo de propriedades fundamentais das funções cont́ınuas) é o que se exprime no seguinte:

Teorema 2.3 (Bolzano--Weierstrass). Qualquer sucessão limitada (em Rm) tem subsucessões convergentes.

Demonstração. Para maior simplicidade e clareza, faremos a demonstração para o caso de sucessões em R2, sendo óbvio que a mesma ideia essencial permite demonstrar a proposição no caso geral (mesmo assim, poderá ser útil ler, antes da demonstração, o exemplo que se lhe segue).

Sendo un = (un1, un2) uma sucessão limitada, serão também limitadas as su- cessões reais un1 e un2 (Teorema 2.2). Nestas condições, o teorema de Bolzano- -Weierstrass (estudado já para o caso de sucessões reais) permite extrair de un1 uma subsucessão convergente,

up11 up21 . . . upn1 . . .

Consideremos a subsucessão de un:

(up11, up12) (up21, up22) . . . (upn1, upn2) . . . ,

para a qual a la sucessão coordenada é convergente e a 2a é limitada (por ser subsucessão de un2). Novo recurso ao teorema de Bolzano--Weierstrass (caso

30

2.2. Sucessões em Rm

real) permite extrair desta última sucessão numérica limitada uma subsucessão convergente:

uq12 uq22 . . . uqn2 . . .

Nestas condições, mostra o Teorema 2.1 que a subsucessão de un:

(uq11, uq12) (uq21, uq22) . . . (uqn1, uqn2) . . .

cujas sucessões coordenadas são ambas convergentes (a 2a por construção, a 1a por ser subsucessão de uma sucessão convergente) é necessariamente convergente, o que termina a demonstração.

Exemplo: Para cada n ∈ N1, designemos por rn o resto da divisão inteira de n por 3 (r1 = 1, r2 = 2, r3 = 0, etc.) e consideremos a sucessão limitada (em R2):

un =

( rn, (−1)n +

1

n

) .

Para obter uma subsucessão convergente de un, pode começar-se por deter- minar uma subsucessão convergente de rn, por exemplo, r3n, que tem todos os termos nulos; ter-se-á então:

u3n =

( 0, (−1)3n + 1

3n

) .

A 2a sucessão coordenada de u3n não é convergente, mas pode extrair-se dela uma subsucessão convergente, por exemplo considerando apenas os valores de n para os quais o expoente de (−1)3n é par (e portanto múltiplo de 6, visto que já o era de 3). Obtém-se assim a subsucessão u6n de un:

u6n =

( 0, 1 +

1

6n

) ,

que é evidentemente convergente.

Trataremos agora de definir o conceito de sucessão de Cauchy, no quadro das sucessões de termos em Rm. Naturalmente, diremos que uma tal sucessão, un, é uma sucessão de Cauchy (ou uma sucessão fundamental) sse, qualquer que seja  > 0 existe p tal que, sempre que os inteiros positivos r e s sejam maiores do que p, se tenha:

‖ur − us‖ < .

Supondo un = (un1, . . . , unm), poderemos deduzir (de modo idêntico ao que usámos já por duas vezes) das desigualdades:

|urj − usj| ≤ ‖ur − us‖ ≤ |ur1 − us1|+ · · ·+ |urm − usm|,

31

Caṕıtulo 2. Estruturação de Rm. Sucessões

que a sucessão un é fundamental sse o forem todas as suas sucessões coordenadas. Finalmente, tendo em conta, além deste resultado e do Teorema 2.1, o facto bem conhecido de que uma sucessão de termos reais é convergente sse é fundamental, conclui-se imediatamente que, para que uma sucessão em Rm seja convergente é necessário e suficiente que seja fundamental.

Finalizaremos este parágrafo com uma breve referência ao conceito de série de termos em Rm. Diremos naturalmente que a série

∞∑ n=1

un = u1 + u2 + · · ·+ un + · · ·

(com un ∈ Rm qualquer que seja n) é convergente sse o for a sucessão sn = u1 + u2 + · · · + un; em caso de convergência, chamaremos soma da série ao limite de sn. Diremos ainda que a série

∑ un é absolutamente

convergente sse for convergente a série de termos reais ∑ ‖un‖.

Pondo, para cada j ∈ {1, 2, . . . ,m}, pj(un) = unj (isto é, designando por unj a sucessão coordenada de ordem j da sucessão un), reconhece-se imediatamente que

∑ un é convergente e tem por soma s = (s1, s2, . . . , sm)

sse cada uma das séries ∑ unj converge e tem por soma sj ; e também que∑

un é absolutamente convergente sse o forem todas as séries ∑ unj .

Assim, o estudo de uma série de termos em Rm reduz-se trivialmente ao de séries de termos reais, sendo imediata a extensão ao novo quadro de resultados obtidos em estudos anteriores. Eis alguns exemplos, cuja justificação (a partir de resultados conhecidos relativos a séries de termos reais) constituirá um simples exerćıcio:

• Se a série (de termos em Rm) ∑

un é convergente, un converge para 0.

• ∑

un é convergente sse, qualquer que seja  > 0 existe p tal que, sempre que s > r ≥ p, se tenha

‖ur + ur+1 + · · ·+ us‖ < .

• É convergente qualquer série de termos em Rm que convirja absoluta- mente.

• A série ∑

un é absolutamente convergente se existe uma série conver- gente de termos reais,

∑ an, tal que (a partir de alguma ordem) se

tenha ‖un‖ ≤ an.

2.3 Noções topológicas em Rm

No estudo de diversos temas subsequentes — limites, continuidade, cálculo dife- rencial para funções de mais de uma variável real — intervirão significativamente certas caracteŕısticas dos subconjuntos de Rm em que as funções consideradas se suporão definidas (recordemos por exemplo, que, para funções cont́ınuas definidas

32

2.3. Noções topológicas em Rm

num conjunto limitado A ⊂ R, podia garantir-se a existência de máximo e mı́nimo se o conjunto A fosse fechado, não ficando assegurada, fora desta hipótese, a exis- tência de qualquer extremo de f). Torna-se-nos, por isso, necessário estudar para subconjuntos de Rm algumas noções que costumam ser designadas por noções to- pológicas e que, como veremos, podem ser todas definidas a partir do conceito de bola.

Para facilitar a compreensão de algumas ideias essenciais começaremos por um exemplo muito simples, no espaço R2, que suporemos identificado com o plano do modo habitual. Designemos por K o subconjunto de R2 formado por todos os pares (x, y) tais que:

0 ≤ x ≤ 1 e 0 ≤ y < 1. Geometricamente, K é o conjunto dos pontos situados no quadrado (Fi-

gura 2.2), incluindo os pontos de todos os seus lados e vértices, com excepção dos que estão situados na recta de equação y = 1 (assim na figura, os pontos P e Q pertencem a K, os pontos R e S não pertencem).

PSfrag replacements

x

y

0 1

1

Q

R

K

P

S

Figura 2.2

No caso do ponto P pode observar-se que, não só o próprio ponto pertence a K, como também pertencem a este conjunto todos os pontos do plano que estejam «suficientemente próximos» de P : mais precisamente, existe uma bola centrada em P tal que todos os pontos desta bola pertencem também ao conjunto K (para obter uma de tais bolas basta escolher para raio um número positivo  inferior ou igual à menor das distâncias de P aos lados do quadrado). De acordo com a definição que introduziremos na sequência, poderemos dizer que o ponto P é interior ao conjunto K.

No caso do ponto S observa-se que, não só S não pertence a K, como também não pertencem ao mesmo conjunto todos os pontos do plano «suficientemente próximos» de S: existem bolas centradas em S que não contêm ponto algum do conjunto K (isto é, que estão contidas no complementar deste conjunto, em relação ao plano); diremos que o ponto S é exterior ao conjunto K.

A situação dos pontos Q e R é diferente de qualquer das anteriores; tanto para Q como para R (e embora o primeiro destes pontos pertença a K e o segundo não, o que não interessa para o efeito em vista) é imposśıvel obter uma bola centrada no ponto considerado — Q ou R — e que esteja, ou contida no conjunto K (como

33

Caṕıtulo 2. Estruturação de Rm. Sucessões

no caso de P ) ou contida no seu complementar (como no caso de S); o que se verifica é que qualquer bola centrada em Q ou em R, por menor que seja o seu raio, contém sempre pontos de K e pontos que não pertencem a este conjunto. Os pontos Q e R não são interiores nem exteriores ao conjunto K; diremos que são pontos fronteiros deste conjunto.

Poderemos dar agora, em termos gerais, as definições seguintes:

Seja X um subconjunto qualquer de Rm e a um elemento de Rm. Diz-se que o ponto a é interior ao conjunto X sse existe  > 0 tal que B(a) ⊂ X. Designando por C(X) o complementar de X em Rm (C(X) = Rm \X), diz-se que a é exterior a X sse existe  > 0 tal que B(a) ⊂ C(X). Assim, dizer que a é exterior a X equivale a dizer que a é interior a C(X).

Diz-se ainda que a é ponto fronteiro de X sse, qualquer que seja  > 0, B(a) tem pelo menos um ponto de X e pelo menos um ponto de C(X) (ou, o que é o mesmo, se a não é interior nem exterior ao conjunto X).

O conjunto formado por todos os pontos de Rm que são interiores a X chama- se interior do conjunto X, e designa-se por intX (ou

◦ X); definem-se de forma

análoga o exterior de X (extX) e a fronteira de X (frontX ou ∂X).

Assim, no exemplo do conjunto K há pouco considerado, o interior de K é o conjunto de todos os pontos (x, y) tais que:

0 < x < 1 e 0 < y < 1

e a fronteira é formada pelos pontos que pertencem a algum dos lados do quadrado (incluindo os vértices); o exterior de K é constitúıdo por todos os restantes pontos do plano.

Outro exemplo, agora em R (m = 1): sendo L = [0, 1[ ∪ {2} verifica-se imediatamente que o interior de L é o intervalo aberto ]0, 1[ (para qualquer ponto a deste intervalo existe  > 0 tal que B(a) = ]a− , a+ [ ⊂ L, e os únicos pontos de R que possuem esta propriedade são os do intervalo ]0, 1[); a fronteira de L é o conjunto {0, 1, 2} e o exterior é o complementar, em R, do conjunto [0, 1]∪ {2}.

No caso de R3, as bolas devem, como sabemos, ser interpretadas como esferas abertas: por exemplo, para o subconjunto de R3 formado pelos ternos (x, y, z) tais que z = 0 — que geometricamente corresponde ao plano dos xy — reconhece-se facilmente que o interior é o conjunto vazio, a fronteira coincide com o próprio conjunto e o exterior é o seu complementar em R3.

No caso geral de um subconjunto X do espaço Rm, ao qual nos referimos nas definições anteriores, tudo é análogo, salvo a possibilidade de interpretação geométrica, que não subsiste para m > 3.

Reconhece-se imediatamente que, qualquer que seja o conjunto X ⊂ Rm, os três conjuntos intX, extX e frontX (dos quais um, ou mesmo dois, podem ser vazios) têm por reunião o conjunto Rm e são disjuntos dois a dois.

Outra definição importante é a seguinte: chama-se aderência ou fecho do conjunto X ⊂ Rm à reunião do seu interior com a sua fronteira; a aderência de X

34

2.3. Noções topológicas em Rm

é usualmente designada pelo śımbolo X̄:

X̄ = intX ∪ frontX,

e coincide, portanto, com o complementar do exterior de X. Aos elementos de X̄ chama-se pontos aderentes ao conjunto X, sendo fácil

reconhecer que, para que a ∈ Rm seja aderente ao conjunto X é necessário e suficiente que qualquer bola centrada em a tenha pelo menos um ponto comum com o conjunto X (B(a) ∩X 6= ∅, para todo o  > 0).

Uma outra caracterização dos pontos aderentes é facultada no seguinte:

Teorema 2.4. Seja X ⊂ Rm e a ∈ Rm; a é aderente a X sse existe uma sucessão un de termos em X que converge para a.

Demonstração. Se existe uma sucessão em X convergente para a, é óbvio que qualquer bola centrada em a contém pelo menos um ponto de X, isto é, que a ∈ X̄. Em sentido inverso, se a ∈ X̄, para todo o  > 0 tem-se B(a) ∩X 6= ∅; escolhendo arbitrariamente um ponto un em B 1

n (a)∩X, para n = 1, 2, . . . , obtém-

se uma sucessão em X que converge para a, visto que para todo o n se tem ‖un − a‖ < 1/n.

A aderência de um conjunto X foi definida como reunião de dois con- juntos disjuntos: o interior de X e a fronteira de X. Há uma outra maneira, também significativa, de decompor X̄ como reunião de dois conjuntos dis- juntos: um deles é o conjunto dos pontos de acumulação do conjunto X — ou derivado de X, designado por X ′ — o outro o conjunto dos seus pontos isolados. Antes de dar as definições formais, recordemos o exemplo do subconjunto L = [0, 1[ ∪ {2}, em R, cuja aderência é o conjunto

L̄ = [0, 1] ∪ {2},

e observemos o seguinte: para o ponto 2, existe uma bola centrada neste ponto na qual ele é o único elemento do conjunto L (é o que se passa em qualquer «bola» ]2−, 2+[, desde que seja 0 <  ≤ 1); para qualquer outro ponto a ∈ L, verifica-se que, para todo o  > 0, há elementos do conjunto L distintos de a, em ]a− , a+ [. De acordo com as definições subsequentes, poderemos dizer que o ponto 2 é um ponto isolado de L e que todos os pontos de [0, 1] são pontos de acumulação do mesmo conjunto.

Em geral, sendo X ⊂ Rm e a ∈ X̄, diremos que a é um ponto isolado do conjunto X sse existe  > 0 tal que B(a) não contém qualquer elemento de X distinto de a (é fácil ver que, nesta hipótese, se tem necessariamente a ∈ X pois, de contrário não seria a ∈ X̄); e diremos que a é ponto de acumulação de X no caso oposto, isto é, se qualquer bola centrada em a tem pelo menos um ponto de X distinto de a (claro que, neste caso, pode ser a ∈ X ou a /∈ X).

O conjunto dos pontos de acumulação de X é, por definição, o deri- vado X ′, do conjunto X. Reconhece-se facilmente que, para que a ∈ X ′, é

35

Caṕıtulo 2. Estruturação de Rm. Sucessões

necessário e suficiente que qualquer bola centrada em a contenha infinitos elementos do conjunto X (se nalguma de tais bolas houvesse apenas um nú- mero finito de elementos de X : x1,x2, . . . ,xk, designando por  o mı́nimo das distâncias ao ponto a de cada um desses elementos — com exclusão do próprio ponto a, se fosse um deles — logo se vê que B(a) não conteria qualquer ponto de X distinto de a).

Os pontos de acumulação de um conjunto podem caracterizar-se de modo análogo ao expresso no Teorema 2.4 para os pontos aderentes; enun- ciaremos essa caracterização no seguinte teorema, cuja demonstração, intei- ramente análoga à do Teorema 2.4, poderá ficar como exerćıcio:

Teorema 2.4’. Seja X ⊂ Rm e a ∈ Rm; a é ponto de acumulação de X sse existe uma sucessão em X, de termos distintos de a, que converge para a.

É fácil verificar que, em Rm, qualquer ponto interior de um conjunto é ponto de acumulação do mesmo conjunto (para o reconhecer, basta recordar que qualquer bola é um conjunto infinito): intX ⊂ X ′, para todo o X ⊂ Rm; dáı resulta imediatamente (dado que a reunião de X ′ com o conjunto dos pontos isolados de X coincide com a reunião do interior com a fronteira do mesmo conjunto) que qualquer ponto isolado de X pertence à fronteira de X.

É óbvio que qualquer ponto interior a um conjunto X ⊂ Rm pertence necessa- riamente ao conjunto X e também que qualquer ponto do conjunto X não pode ser exterior a X, pertencendo, portanto, a X̄. Assim, qualquer que seja X ⊂ Rm, verificam-se necessariamente as relações:

intX ⊂ X ⊂ X̄.

Pode, em particular, suceder que um conjunto X coincida com o seu interior (isto é, que nenhum dos seus pontos fronteiros lhe pertença: frontX ⊂ C(X)); ou que coincida com a sua aderência (o que se passa se pertencerem a X todos os seus pontos fronteiros: frontX ⊂ X). No primeiro caso, diz-se que X é um conjunto aberto, no segundo que é um conjunto fechado. Os conjuntos abertos e os conjuntos fechados são, portanto, respectivamente caracterizados pelas igualdades:

intX = X e X̄ = X.

As noções de conjunto aberto e conjunto fechado têm grande interesse, como veremos na sequência.

É fácil ver que, em Rm, qualquer bola aberta é um conjunto aberto e qualquer bola fechada é um conjunto fechado.

Para verificar que B(a) é um conjunto aberto (qualquer que seja o ponto a ∈ Rm e o número positivo ) basta reconhecer que, se b for um ponto arbitrário de B(a), existe uma bola centrada em b, Bδ(b), contida em B(a); ora para que tal se verifique basta escolher δ por forma que se tenha 0 < δ ≤  − ‖b − a‖ (o

36

2.3. Noções topológicas em Rm

que é posśıvel visto que, por ser b ∈ B(a), se tem ‖b − a‖ < ). Na realidade, escolhido δ desta forma, ter-se-á, para qualquer x ∈ Bδ(b),

‖x− a‖ = ‖(x− b) + (b− a)‖ ≤ ‖x− b‖+ ‖b− a‖ < δ + ‖b− a‖ ≤ ,

o que mostra que x ∈ B(a) e portanto que Bδ(b) ⊂ B(a). Por outro lado, para reconhecer que a bola fechada de centro a e raio — que,

de momento, designaremos por B∗ (a) — é um conjunto fechado, será suficiente verificar que qualquer ponto c que não pertença a essa bola não lhe pode ser aderente (e ser-lhe-á portanto exterior). Ora se c /∈ B∗ (a), isto é se ‖c− a‖ > , escolhido λ tal que 0 < λ < ‖c− a‖ − , ter-se-á B∗ (a) ∩ Bλ(c) = ∅ visto que, se existisse um ponto x ∈ B∗ (a) ∩Bλ(c) deveria ter-se:

‖c− a‖ ≤ ‖c− x‖+ ‖x− a‖ < λ+  < ‖c− a‖

o que é absurdo. Pode assim concluir-se que c é exterior a B∗ (a) e portanto que este conjunto é fechado.

Exprimem-se no teorema seguinte algumas propriedades importantes da noção de conjunto aberto.

Teorema 2.5. i) A reunião de qualquer famı́lia (finita ou infinita) de conjuntos abertos é um conjunto aberto.

ii) A intersecção de qualquer famı́lia finita de conjuntos abertos é um conjunto aberto.

Demonstração. i) Seja {Ai}i∈I uma famı́lia qualquer de conjuntos abertos, A =⋃ i∈I Ai a sua reunião. Por definição de reunião, se x é um ponto qualquer de

A poderá escolher-se um ı́ndice j ∈ I tal que x ∈ Aj; como Aj é aberto, por hipótese, existirá  > 0 tal que B(x) ⊂ Aj. Segue-se que B(x) ⊂ A (visto que Aj ⊂ A) o que mostra que x é interior a A, e portanto que A é aberto.

ii) Seja {A1, A2, . . . , An} uma famı́lia finita de conjuntos abertos e seja agora A = A1∩A2∩. . .∩An. Se for A = ∅ é claro que A será aberto (visto que int ∅ = ∅). De contrário, sendo x um ponto qualquer do conjunto A (que pertencerá portanto a cada um dos conjuntos abertos A1, . . . , An) existirão necessariamente números positivos 1, . . . , n tais que

B1(x) ⊂ A1, . . . , Bn(x) ⊂ An.

Se for então  = min{1, . . . , n} ter-se-á também

B(x) ⊂ A1, . . . , B(x) ⊂ An e portanto

B(x) ⊂ A1 ∩ . . . ∩ An = A, o que prova que A é aberto.

37

Caṕıtulo 2. Estruturação de Rm. Sucessões

Convém notar que a intersecção de uma famı́lia infinita de conjuntos abertos pode não ser um conjunto aberto; por exemplo, sendo a ∈ Rm, a intersecção de todas as bolas B 1

n (a) — com n = 1, 2, . . . — é o conjunto

singular {a}, que não é aberto. Pode ainda observar-se que qualquer conjunto aberto do espaço Rm é

reunião de uma famı́lia (finita ou infinita) de bolas desse espaço. Com efeito, sendo A ⊂ Rm um conjunto aberto, para cada x ∈ A existirá x > 0 tal que Bx(x) ⊂ A; e logo se reconhece que se terá então A =

⋃ x∈ABx(x).

Como é evidente, um conjunto pode não ser aberto nem fechado (é o que se passa, por exemplo, em R com um intervalo da forma [α, β[, com α, β ∈ R e α < β; em R2 com o conjunto K, considerado no primeiro exemplo referido neste parágrafo, etc.). Convém observar, porém, que existem conjuntos que são abertos e fechados; é claro que, para que o conjunto X ⊂ Rm seja aberto e fechado é necessário e suficiente que se verifique a igualdade

intX = X̄,

isto é que não exista qualquer ponto fronteiro do conjunto X (pode provar-se, aliás, que os únicos subconjuntos de Rm que têm fronteira vazia e que, portanto, são simultaneamente abertos e fechados, são o próprio conjunto Rm e o conjunto vazio).

Antes de enunciar (no Teorema 2.7) algumas propriedades da noção de con- junto fechado (correspondentes às referidas no Teorema 2.5 para os conjuntos abertos) convém salientar que — como decorre imediatamente da própria defini- ção de ponto fronteiro — para qualquer conjunto X ⊂ Rm se verifica a igualdade: frontX = frontC(X).

Daqui decorre trivialmente o:

Teorema 2.6. Um conjunto é aberto sse o seu complementar é fechado (e portanto é fechado sse o seu complementar é aberto).

Demonstração. Dizer que X é aberto equivale a dizer que frontX ⊂ C(X) ou, o que é o mesmo, frontC(X) ⊂ C(X), o que significa que C(X) é fechado.

Pode agora enunciar-se o

Teorema 2.7. i) A intersecção de uma famı́lia (finita ou infinita) de conjuntos fechados é um conjunto fechado.

ii) A reunião de qualquer famı́lia finita de conjuntos fechados é um conjunto fechado.

Demonstração. Daremos apenas uma justificação de i), dado que ii) se prova de forma análoga. Sendo {Fi}i∈I uma famı́lia qualquer de conjuntos fechados, ponha- se, para cada i ∈ I, Ai = C(Fi). Os conjuntos Ai são abertos e portanto é também aberta a sua reunião A =

⋃ i∈I Ai. Segue-se que é fechado o conjunto

C(A) = C

(⋃ i∈I

Ai

) = ⋂ i∈I

C(Ai) = ⋂ i∈I

Fi,

38

2.3. Noções topológicas em Rm

como se pretendia verificar.

Os conjuntos fechados (e portanto também os conjuntos abertos) podem ser caracterizados recorrendo ao conceito de limite de uma sucessão; com efeito:

Teorema 2.8. Um conjunto X ⊂ Rm é fechado sse, para toda a sucessão conver- gente un, de termos em X, se tem limun ∈ X.

Demonstração. Sendo X fechado e un uma sucessão de termos em X convergente para um ponto a (em Rm), mostra o Teorema 2.4 que a é aderente a X e portanto, por ser X = X̄, que a ∈ X.

Se X não é fechado existe pelo menos um ponto aderente a X e não pertencente a este conjunto; e basta observar que (também pelo Teorema 2.4) esse ponto é o limite de alguma sucessão de termos em X para completar a demonstração.

É também fácil ver que um conjunto X é fechado sse contém o seu derivado; na realidade, X ′ ⊂ X̄ e portanto, se X é fechado, X = X̄ ⊃ X ′; reciprocamente, se se tiver X ′ ⊂ X ter-se-á também X̄ ⊂ X (visto que, como já observámos, os pontos isolados de X pertencem necessariamente a este conjunto) e portanto X̄ = X.

Introduziremos agora um outro conceito importante, o de conjunto limitado7: diz-se que um conjunto X ⊂ Rn é limitado sse existe um real k tal que, para todo o x ∈ X, se tem ‖x‖ ≤ k (pode também dizer-se, equivalentemente, que o conjunto X é limitado sse existe uma bola que o contém).

Em R, os conjuntos limitados nos termos desta definição são precisamente os conjuntos majorados e minorados (aos quais chamávamos já conjuntos limitados). Em Rm, é limitado qualquer conjunto finito, qualquer bola, etc. Não são limitados em Rm (comm > 1), por exemplo, o conjunto dos x = (x1, . . . , xm) tais que x1 = 0 ou, sendo a ∈ Rm, o conjunto dos x tais que a · x = 0; não é também limitado em Rm o complementar de qualquer conjunto limitado.

Um resultado importante na sequência — por exemplo, para a demonstração de algumas propriedades fundamentais das funções cont́ınuas — é o seguinte:

Teorema 2.9. Um conjunto X ⊂ Rm é limitado e fechado sse qualquer sucessão de termos em X tem uma subsucessão convergente para um ponto de X.

Demonstração. Suponha-se X limitado e fechado e seja un uma sucessão qualquer de termos em X. un é limitada (porque un ∈ X para todo o n ∈ N1 e X é limitado) e, portanto, pelo Teorema 2.3, pode extrair-se de un uma subsucessão convergente, upn ; como X é fechado, decorre do Teorema 2.8 que limupn ∈ X.

7Veremos em estudos mais avançados que a noção de conjunto limitado, aqui definida a partir dos mesmos conceitos (o de bola ou o de norma) utilizados para definir as outras noções introduzidas neste parágrafo, não é, no entanto, propriamente uma «noção topológica», no sentido atribúıdo a esta expressão em certos contextos mais gerais.

39

Caṕıtulo 2. Estruturação de Rm. Sucessões

Suponha-se agora que X não é limitado ou não é fechado (podendo evidente- mente não ser uma coisa nem outra). Se X não for limitado para todo o n ∈ N1 poderá escolher-se un ∈ X tal que ‖un‖ > n; obter-se-á assim uma sucessão que não terá qualquer subsucessão limitada nem, portanto, qualquer subsucessão con- vergente. Se X não for fechado, escolhido um ponto a ∈ X̄ \ X, existirá (pelo Teorema 2.4) uma sucessão un de termos em X convergente para a. Tal sucessão não poderá ter qualquer subsucessão convergente para um ponto de X (visto que todas as suas subsucessões convergem para a /∈ X).

Na sequência, diremos que um conjunto X ⊂ Rm é compacto sse for limitado e fechado.

Diz-se por vezes que um conjunto X é sequencialmente compacto sse é verificada a propriedade seguinte: qualquer sucessão de termos em X tem uma subsucessão que converge para um ponto de X. Assim, poderia exprimir-se o enunciado do precedente Teorema 2.9 dizendo que, em Rm um conjunto é compacto sse for sequencialmente compacto.

Teremos oportunidade de ver posteriormente que algumas das proprie- dades mais importantes das funções cont́ınuas num conjunto compacto de R — tais como a continuidade uniforme (teorema de Heine--Cantor), a existência de máximo e mı́nimo (teorema de Weierstrass) — se generali- zam facilmente ao caso de funções reais, cont́ınuas num conjunto compacto de Rm (naturalmente, haverá que definir de forma adequada a noção de continuidade para tais funções).

Uma outra propriedade importante — que nos parece útil referir, em- bora não nos vá ser necessária na sequência — é a seguinte: qualquer conjunto compacto e infinito tem pelo menos um ponto de acumulação (decerto pertencente ao conjunto, por este ser fechado). Mais geralmente, pode provar-se que qualquer conjunto infinito e limitado tem pelo menos um ponto de acumulação (pertencente ou não ao conjunto). Este resultado, que pode deduzir-se sem dificuldade do Teorema 2.3, é também correntemente designado por «teorema de Bolzano--Weierstrass».

Para finalizar este parágrafo, introduziremos outra noção topológica impor- tante (que, em particular, nos permitirá generalizar para funções cont́ınuas de mais de uma variável real o «teorema do valor intermédio»); trata-se da noção de conjunto conexo. A ideia intuitiva de conjunto conexo é a de conjunto formado por «uma só peça» (e não por diversas «peças separadas»). Por exemplo, po- derá ver-se que (em R) o intervalo [0, 1] é um conjunto conexo, mas já não o é o seu complementar. No plano, um ćırculo ou uma circunferência são conjuntos conexos, tal como o complementar de um ćırculo; não é conexo o complemen- tar de uma circunferência, formado por «duas peças», «separadas» pela própria circunferência.

Antes de darmos uma definição precisa de conjunto conexo, convém introduzir a seguinte: sendo A e B dois subconjuntos não vazios de Rm, diremos que A e B são separados sse cada um destes conjuntos não contém qualquer ponto que seja

40

2.3. Noções topológicas em Rm

aderente ao outro; noutros termos: os conjuntos A e B (tais que A 6= ∅ e B 6= ∅) são separados sse forem verificadas as duas igualdades:

A ∩ B̄ = ∅, B ∩ Ā = ∅.

É óbvio que dois conjuntos separados são necessariamente disjuntos (de B ⊂ B̄ resulta A∩B ⊂ A∩ B̄ = ∅). Mas é fácil ver que a rećıproca é falsa. Por exemplo, em R, os conjuntos disjuntos ]−1, 0[ e [0, 1] não são separados (o ponto 0, aderente ao primeiro, pertence ao segundo); em R2, o gráfico da função sen 1/x e o conjunto formado apenas pelo ponto (0, a) são disjuntos (qualquer que seja a ∈ R), mas só são separados se for |a| > 1.

Seja agora X um subconjunto de Rm. Diz-se que X é um conjunto desconexo sse existirem dois conjuntos separados A e B tais que

X = A ∪B.

Na hipótese contrária, isto é, no caso de não existirem dois conjuntos separados A e B verificando a igualdade precedente, diz-se que X é um conjunto conexo.

São exemplos triviais de conjuntos conexos, em Rm, o vazio e qualquer conjunto formado por um só ponto; não é conexo qualquer conjunto finito X, com mais de um ponto (se A for uma parte própria de X — isto é, uma parte de X não vazia e distinta de X — e B = X \A o complementar de A em X, vê-se imediatamente que A e B são conjuntos separados).

No caso de R (m = 1), o conjunto dos números racionais, Q, é um conjunto desconexo: com efeito, sendo a um irracional qualquer, tem-se:

Q = (Q ∩ ]−∞, a[) ∪ (Q ∩ ]a, +∞[)

e é fácil ver que os conjuntos Q ∩ ]−∞, a[ e Q ∩ ]a, +∞[ são separados. É útil observar que esta mesma ideia permite reconhecer que, em R, qualquer

conjunto conexo X verifica necessariamente a condição seguinte: se pertencerem ao conjunto X dois números reais a e b — com a < b — pertencerão também a esse conjunto todos os reais compreendidos entre a e b, isto é, ter-se-á:

[a, b] ⊂ X

(tal como no exemplo precedente, basta observar que, se algum ponto c de ]a, b[ não pertencesse a X, este conjunto seria a reunião dos conjuntos separados X ∩ ]−∞, c[ e X ∩ ]c, +∞[).

Ora é fácil mostrar (e poderá ficar como exerćıcio) que os únicos subconjuntos de R que verificam a condição indicada são os intervalos.

Pode assim concluir-se que, em R, qualquer conjunto conexo é um intervalo. Em sentido inverso — e embora não nos seja indispensável na sequência —

provaremos agora que qualquer intervalo de R é um conjunto conexo, o que nos permite enunciar o

41

Caṕıtulo 2. Estruturação de Rm. Sucessões

Teorema 2.10. Em R, os conjuntos conexos são precisamente os intervalos.

Demonstração. Atendendo ao que vimos anteriormente, a demonstração poderá considerar-se terminada se mostrarmos que, sendo I um intervalo qualquer de R, a hipótese de existirem conjuntos separados A e B tais que

I = A ∪B

conduz necessariamente a uma contradição. Admitamos então essa hipótese e escolhamos arbitrariamente um ponto x ∈ A

e um ponto z ∈ B; como A e B são disjuntos, ter-se-á necessariamente x < z ou x > z. Vamos supor que é x < z (de contrário, bastaria trocar as designações dos conjuntos A e B).

Como I é um intervalo, ter-se-á [x, z] ⊂ I, pertencendo então cada ponto do intervalo [x, z] a A ou a B (e apenas a um destes conjuntos).

Designemos agora por y o supremo do conjunto [x, z] ∩ A. É óbvio que y ∈ [x, z] (devendo portanto ter-se y ∈ A ou y ∈ B).

Observando que, como facilmente se reconhece, o supremo de um conjunto é sempre um ponto aderente a esse conjunto, pode inferir-se que y é aderente a [x, z] ∩ A, e portanto também a A (visto que [x, z] ∩ A é um subconjunto de A). Mas, devendo ter-se Ā ∩ B = ∅, o facto de ser y ∈ Ā mostra que y /∈ B e que, portanto, y ∈ A. Pode então deduzir-se que y 6= z (visto que z ∈ B) e também que o intervalo ]y, z] não contém qualquer elemento do conjunto A (de contrário não seria y o supremo de [x, z]∩A), devendo portanto ter-se ]y, z] ⊂ B. Nestas condições, porém, y seria aderente ao conjunto B e ter-se-ia A ∩ B̄ 6= ∅, em contradição com a hipótese de A e B serem conjuntos separados.

42

Caṕıtulo 3

Continuidade e limite

3.1 Continuidade

A definição de continuidade para funções escalares ou vectoriais de variável vec- torial é, como vamos ver, uma generalização natural da definição correspondente para funções reais de variável real. A ideia intuitiva essencial continua a ser a seguinte: dizer que f é cont́ınua num ponto a equivale a dizer que todos os va- lores assumidos por f em pontos «próximos» de a estão «próximos» de f(a) ou, um pouco melhor, que poderá garantir-se que f(x) está «tão próximo quanto se queira» de f(a) desde que se considerem apenas valores de x (pertencentes ao domı́nio de f e) «suficientemente próximos» de a.

Consideremos em primeiro lugar o caso de uma função real de n variáveis reais (n ∈ N1). Sendo f : D → R, com D ⊂ Rn e sendo a um ponto de D, diz-se que f é cont́ınua no ponto a sse, qualquer que seja a vizinhança de f(a) — isto é, qualquer que seja o intervalo ]f(a) − δ, f(a) + δ[, com δ > 0 — existe uma bola (de Rn) centrada em a, B(a), tal que para todo o x ∈ B(a) ∩ D se tem f(x) ∈ ]f(a)− δ, f(a) + δ[. Pode também dizer-se, de forma equivalente, que f é cont́ınua em a sse para todo o δ > 0 existe  > 0 tal que, se x ∈ D e ‖x−a‖ < , então |f(x)− f(a)| < δ.

Como primeiro exemplo, consideremos a função f : R2 → R referida no parágrafo 1.2, ex. 4.a). Mudando as notações, f pode definir-se pela forma seguinte:

f(x1, x2) =

{ 0 se x1 e x2 são inteiros 1 se x1 ou x2 não são inteiros.

É fácil ver que f é cont́ınua nos pontos em que toma o valor 1 e não o é naqueles em que toma o valor 0. Para tal, observe-se primeiramente que estes últimos pontos são os vértices de uma «quadŕıcula» (formada pelas rectas verticais com equações da forma x = k, com k ∈ Z, e pelas horizontais de equação y = `, ` ∈ Z), sendo evidente que, em qualquer bola centrada num desses vértices, há sempre pontos que não são vértices da quadŕıcula, nos quais f toma o valor 1. Assim, sendo a = (a1, a2) um ponto com ambas as coordenadas inteiras, tem-se por um lado f(a) = 0,

43

Caṕıtulo 3. Continuidade e limite

por outro sabe-se que qualquer bola centrada em a contém pontos x tais que f(x) = 1. Pode, portanto, concluir-se que, se for δ um número positivo ≤ 1, não existirá  > 0 tal que ‖x − a‖ <  ⇒ |f(x) − f(a)| < δ, o que mostra que f não é cont́ınua em a.PSfrag replacements

x1

x2

0 1 2 3

1

2

3

a

a ′

Figura 3.1

Sendo agora a′ = (a′1, a ′ 2) um ponto cujas coordenadas não sejam ambas

números inteiros, vê-se facilmente que pode determinar-se  > 0 por forma que a bola B(a′) não contenha qualquer vértice da quadŕıcula; ter-se-á então f(x) = 1 para todo o x ∈ B(a′) e portanto, sendo δ > 0 arbitrário, ter-se-á também |f(x) − f(a′)| < δ sempre que seja ‖x − a′‖ < . Pode assim concluir-se que f é cont́ınua em a′ (recorde-se no entanto que o facto, verificado neste último caso, de ter sido posśıvel determinar «» indepen- dentemente do valor de «δ» é absolutamente excepcional; em geral, sendo f cont́ınua em a, é posśıvel determinar um  para cada δ, mas não um  que convenha simultaneamente para todos os valores positivos de δ).

Como segundo exemplo, provaremos que a função g : Rn → R definida por g(x) = ‖x‖ é cont́ınua em qualquer ponto a ∈ Rn. Para tal comecemos por observar que, das igualdades:

x = a + (x− a) e a = x + (a− x)

se deduz, por propriedades conhecidas da norma:

‖x‖ ≤ ‖a‖+ ‖x− a‖ e ‖a‖ ≤ ‖x‖+ ‖a− x‖ = ‖x‖+ ‖x− a‖,

e portanto também

‖x‖ − ‖a‖ ≤ ‖x− a‖ e ‖a‖ − ‖x‖ ≤ ‖x− a‖,

relações que evidenciam que, para quaisquer vectores a,x ∈ Rn, se tem:∣∣‖x‖ − ‖a‖∣∣ ≤ ‖x− a‖ ou

|g(x)− g(a)| ≤ ‖x− a‖.

Assim, dado δ > 0 bastará tomar  = δ para que se tenha ‖x− a‖ <  ⇒ |g(x)− g(a)| < δ, o que prova o que se pretendia.

44

3.1. Continuidade

Antes de passarmos ao estudo da continuidade no quadro mais geral das fun- ções vectoriais convém fazer algumas observações.

Em primeiro lugar, consideremos um conjunto qualquer D (na sequência ter- se-á quase sempre D ⊂ Rn mas por agora não há necessidade de supô-lo) e uma função f definida em D e com valores em Rm. Para cada x ∈ D o vector f(x) ∈ Rm terá m coordenadas (variáveis, em geral, quando x variar em D) que designaremos por f1(x), f2(x), . . . , fm(x). Assim, a função vectorial f determina m funções escalares definidas em D, f1, f2, . . . , fm, às quais chamaremos natural- mente funções coordenadas de f .

No caso particular de D ser um subconjunto de Rn, cada vector x ∈ D é, por sua vez, uma sequência x = (x1, . . . , xn), e uma igualdade da forma:

y = f(x),

com x ∈ D e y = (y1, . . . , ym) ∈ Rm, poderá ser traduzida por um sistema de m igualdades:

y1 = f1(x1, . . . , xn)

y2 = f2(x1, . . . , xn)

· · · ym = fm(x1, . . . , xn).

É desta forma (em termos de coordenadas), que muitas vezes são explicitadas as funções vectoriais utilizadas nas aplicações.

Um exemplo particularmente importante neste contexto é o das aplica- ções lineares de Rn em Rm. Recorde-se que uma aplicação f : Rn → Rm se diz linear sse, quaisquer que sejam os vectores u,v ∈ Rn e o escalar α, se tem:

f(u + v) = f(u) + f(v) e f(αu) = αf(u).

Convencionemos designar por e1, . . . , en os vectores da base canónica de Rn, por e′1, . . . , e′m os vectores da base canónica de Rm e ainda — sendo f : Rn → Rm uma aplicação linear — por aij a coordenada de ordem i do vector f(ej) (para i ∈ {1, 2, . . . ,m} e j ∈ {1, 2, . . . , n}). Dado um vector qualquer x = (x1, . . . , xn) de Rn e sendo y = (y1, . . . , ym) o valor de f em x, deduz-se imediatamente da definição de aplicação linear que deverá ter-se:

y = f(x) = f

 n∑ j=1

xjej

 = n∑ j=1

f (xjej) = n∑

j=1

xjf (ej) ,

donde, atendendo a que

f(ej) = m∑ i=1

aije ′ i

45

Caṕıtulo 3. Continuidade e limite

resulta:

y = n∑

j=1

m∑ i=1

xjaije ′ i =

m∑ i=1

 n∑ j=1

aijxj

 e′i. Como, por outro lado, se verifica também a igualdade:

y = m∑ i=1

yie ′ i,

a unicidade da expressão de um vector qualquer de Rm como combinação linear dos vectores de uma base (mencionada em 2.1, quando recordámos a definição de base de um espaço vectorial real) permite deduzir que deverá ter-se, para i = 1, 2, . . . ,m:

yi = n∑

j=1

aijxj .

Assim, no caso de f : Rn → Rm ser uma aplicação linear, à igualdade y = f(x) corresponde (adoptadas as notações acima descritas) o sistema de equações lineares:

y1 = a11x1 + a12x2 + · · ·+ a1nxn · · ·

ym = am1x1 + am2x2 + · · ·+ amnxn.

Outra representação posśıvel é, como é sabido, a igualdade matricial: y1 y2 . . . ym

 =  a11 a12 · · · a1n a21 a22 · · · a2n . . . . . . . . . . . . . . . . . . . . am1 am2 · · · amn

  x1 x2 . . . xn

 , que, como facilmente se reconhece, permite estabelecer uma correspondên- cia bijectiva entre as matrizes do tipo m × n de elementos reais e as apli- cações lineares de Rn em Rm (convirá reter que os elementos da coluna de ordem j da matriz correspondente à aplicação f são, ordenadamente, as coordenadas na base canónica de Rm do vector f(ej), para j = 1, . . . , n).

Outro exemplo com interesse, a que nos referiremos na sequência, este de uma aplicação de Rn em si mesmo (com n > 1), é o da função — que designaremos por µ — determinada pelo sistema:

y1 = x1 cosx2 · · · cosxn−1 cosxn y2 = x1 cosx2 · · · cosxn−1 senxn y3 = x1 cosx2 · · · senxn−1

· · · yn−1 = x1 cosx2 senx3 yn = x1 senx2.

46

3.1. Continuidade

Como casos particulares (n = 2 e n = 3) obtêm-se as fórmulas usuais de mudança de coordenadas cartesianas em coordenadas polares, no plano, ou em coordenadas esféricas, no espaço, as quais, em notações mais correntes, podem escrever-se (ver Figura 3.2):{

x = r cos θ y = r sen θ

ou  x = r cos θ cosϕ y = r cos θ senϕ z = r sen θ.

r

P

x

y

θ

r P

z

x

y

ϕ

θ

Figura 3.2

Não seria talvez necessário dizer que as operações algébricas introduzidas em Rm no parágrafo 2.1 se podem estender, de maneira óbvia, às funções vectoriais. Assim, por exemplo, sendo D um conjunto qualquer, f e g duas funções definidas em D e com valores em Rm e α um número real, a soma de f e g e o produto de α por f são as funções (designadas respectivamente por f + g e αf) definidas em D e tais que, para cada x ∈ D:

(f + g)(x) = f(x) + g(x)

(αf)(x) = αf(x).

Verifica-se sem dificuldade que o conjunto de todas as funções definidas em D e com valores em Rm munido destas duas operações, é um espaço vectorial real.

Pode também definir-se o produto αf no caso mais geral de α ser, não já um escalar, mas uma função escalar definida em D, pondo:

(αf)(x) = α(x)f(x), (x ∈ D).

De modo análogo se definem as funções escalares f · g e ‖f‖. A definição de continuidade para funções vectoriais é uma extensão imediata

da que estudámos no ińıcio deste parágrafo. Seja de novo D um subconjunto de

47

Caṕıtulo 3. Continuidade e limite

Rn, f : D → Rm e a um ponto de D. Diz-se que f é cont́ınua no ponto a sse para toda a bola (de Rm) centrada em f(a), Bδ(f(a)), existir uma bola (de Rn) centrada em a, B(a) tal que se tenha f(x) ∈ Bδ(f(a)) sempre que x pertença a B(a) ∩D. Noutros termos: f é cont́ınua em a sse qualquer que seja δ > 0 existe  > 0 tal que para todo o x que verifique as condições: x ∈ D e ‖x − a‖ <  se tenha ‖f(x)−f(a)‖ < δ (como é óbvio, na expressão ‖x−a‖ a norma considerada é a de Rn, enquanto em ‖f(x) − f(a)‖ é a de Rm; na sequência, cometeremos muitas vezes o «abuso» de usar o mesmo śımbolo para designar normas relativas a espaços diferentes, o que não terá inconveniente de maior, porque o contexto sempre tornará evidente qual o espaço que deve ser considerado em cada caso).

Como primeiro exemplo, vejamos que qualquer aplicação linear f : Rn → Rm é cont́ınua em cada ponto a ∈ Rn. Para tal, recorde-se em primeiro lugar que, sendo x = (x1, . . . , xn) um vector qualquer de Rn, se verificam as desigualdades:

|xj | ≤ ‖x‖ ≤ n∑

j=1

|xj | (j ∈ {1, 2, . . . , n})

e observe-se que, de |xj | ≤ ‖x‖ para todo o inteiro positivo j ≤ n se deduz imediatamente a relação:

n∑ j=1

|xj | ≤ n‖x‖.

Sendo agora f : Rn → Rm uma aplicação linear, deverá ter-se:

‖f(x)‖ =

∥∥∥∥∥∥f  n∑

j=1

xjej

∥∥∥∥∥∥ = ∥∥∥∥∥∥

n∑ j=1

xjf(ej)

∥∥∥∥∥∥ ≤

n∑ j=1

‖xjf(ej)‖ = n∑

j=1

|xj |‖f(ej)‖.

Designando por M um número positivo maior ou igual a cada um dos n números:

‖f(e1)‖, ‖f(e2)‖, . . . , ‖f(en)‖,

ter-se-á então também:

‖f(x)‖ ≤ n∑

j=1

M |xj | =M n∑

j=1

|xj | ≤Mn‖x‖.

Obtida esta relação, válida para qualquer x ∈ Rn, seja agora a um ponto fixado arbitrariamente em Rn; substituindo na relação referida x por x−a e atendendo a que, por f ser linear, f(x−a) = f(x)−f(a), obtém-se:

‖f(x)− f(a)‖ ≤Mn‖x− a‖,

48

3.1. Continuidade

desigualdade que torna evidente a continuidade de f no ponto a: dado δ > 0, bastará tomar  positivo e menor do que δ/Mn para que se tenha ‖f(x)− f(a)‖ < δ sempre que seja ‖x− a‖ < .

Antes de iniciar o estudo de algumas propriedades importantes das fun- ções cont́ınuas, mostraremos ainda que a aplicação de Rn em si mesmo atrás designada por µ é cont́ınua na origem de Rn (de posse das propri- edades que iremos estudar adiante o resultado obter-se-á mais facilmente e poderá ver-se até que µ é cont́ınua em qualquer ponto a ∈ Rn, o que seria dif́ıcil neste momento). Com efeito, do sistema de equações que usá- mos para definir a função µ deduz-se facilmente, por um lado que µ é nula na origem (µ(O) = O), por outro que, sendo x = (x1, . . . , xn) e y = (y1, . . . , yn) = µ(x), se tem:

y21 + y 2 2 + · · ·+ y2n = x21,

isto é: ‖µ(x)‖2 = x21

e portanto também: ‖µ(x)‖ = |x1| ≤ ‖x‖,

para qualquer x ∈ Rn. Assim, dado δ > 0 basta tomar  = δ para que se verifique a desigualdade ‖µ(x)− µ(O)‖ < δ sempre que seja ‖x‖ < .

0 teorema seguinte revela que, tal como no caso das funções reais de variável real, a noção de continuidade pode exprimir-se em termos da noção de limite de sucessões:

Teorema 3.1. Seja f : D → Rm (D ⊂ Rn) e a ∈ D; para que f seja cont́ınua no ponto a é necessário e suficiente que, sempre que xk seja uma sucessão

1 em D convergente para a, a sucessão f(xk) convirja para f(a).

Demonstração. Daremos uma demonstração praticamente idêntica à do caso das funções reais de variável real.

Suponha-se em primeiro lugar que f é cont́ınua em a e seja xk uma sucessão em D convergente para a. Dado um número positivo arbitrário δ, existe  > 0 tal que, se x ∈ D e ‖x−a‖ < , ‖f(x)−f(a)‖ < δ. Como xk → a, existe um inteiro positivo p tal que ‖xk−a‖ <  para todo o k > p; e então, como xk ∈ D qualquer que seja k ∈ N1, ter-se-á também, para k > p, ‖f(xk) − f(a)‖ < δ, o que prova que f(xk)→ f(a).

Em sentido inverso, se a função f não é cont́ınua no ponto a, existe δ > 0 tal que, qualquer que seja  > 0 haverá pelo menos um ponto x pertencente a D e verificando ambas as condições:

‖x− a‖ <  e ‖f(x)− f(a)‖ ≥ δ. 1Evitaremos, naturalmente, o uso (já de si «abusivo») do śımbolo xn para designar a sucessão

considerada, dado que a letra n está a ser utilizada para designar a dimensão do espaço que contém o domı́nio de f .

49

Caṕıtulo 3. Continuidade e limite

Pondo  = 1/k poderá portanto escolher-se (para cada k ∈ N1) um ponto xk ∈ D por forma que sejam conjuntamente verificadas as desigualdades:

‖xk − a‖ < 1/k e ‖f(xk)− f(a)‖ ≥ δ.

Obter-se-á assim uma sucessão de termos em D, convergente para a (como resulta da primeira dessas desigualdades) e tal que f(xk) não converge para f(a) (como mostra a segunda), o que termina a demonstração.

De forma sugestiva, embora um pouco imprecisa, pode dizer-se que a conti- nuidade de f no ponto a equivale à possibilidade de permutar os śımbolos «f» e «lim»:

lim f(xk) = f(limxk),

quando aplicados sucessivamente a qualquer sucessão em D convergente para a. Tendo em conta o precedente Teorema 3.1 e algumas propriedades da noção de

limite de uma sucessão mencionadas em 2.2, obtêm-se sem qualquer dificuldade os resultados seguintes (em cujos enunciados se supõe a ∈ D ⊂ Rn; f, g : D → Rm e α : D → R).

• Se f é constante em D, é cont́ınua em qualquer ponto de D.

• Se f e g são cont́ınuas no ponto a, também o são f + g, f − g, f · g e ‖f‖ (como caso particular — para m = 1 — resulta que se as funções reais f e g são cont́ınuas no ponto a ∈ D, são também cont́ınuos no mesmo ponto o seu produto usual, fg, e a função |f |).

• Se α e f são cont́ınuas no ponto a, αf também o é; se, além disso, for α(a) 6= 0, o cociente f/α = 1/αf — função definida nos pontos x ∈ D tais que α(x) 6= 0 — é cont́ınuo no ponto a (em particular, o cociente de duas funções reais definidas em D e cont́ınuas no ponto a é uma função cont́ınua no mesmo ponto, desde que nele se não anule a função que figura em denominador).

Sejam agora m, n e p três números inteiros positivos, D um subconjunto de Rn e E um subconjunto de Rp; sejam ainda g uma aplicação de D em Rp cujo contradomı́nio esteja contido em E e f uma aplicação de E em Rm. Nestas condições, a composta f ◦ g, definida por:

(f ◦ g)(x) = f ( g(x)

) é uma aplicação de D em Rm, reconhecendo-se imediatamente (utilizando, por exemplo, o Teorema 3.1) que:

• Se g é cont́ınua num ponto a ∈ D e f é cont́ınua no ponto g(a), então f ◦ g é cont́ınua no ponto a.

50

3.1. Continuidade

Com estes resultados, fica muito facilitado o estudo da continuidade para a generalidade das funções de variável vectorial que surgem mais frequentemente nas aplicações.

Consideremos em primeiro lugar o caso das funções reais (m = 1) e, para maior facilidade, suponhamos por agora que são apenas duas as variáveis independentes, que designaremos por x e y, em lugar de x1 e x2 (voltamos assim de momento às notações usadas de ińıcio, no parágrafo 1.2).

É fácil ver que as funções p1 e p2 definidas em R2 pelas fórmulas:

p1(x, y) = x e p2(x, y) = y

são cont́ınuas em qualquer ponto (a, b) ∈ R2 (para p1, por exemplo, basta atender a que

|p1(x, y)− p1(a, b)| = |x− a| ≤ √ (x− a)2 + (y − b)2 = ‖(x, y)− (a, b)‖,

o que mostra que se terá |p1(x, y)− p1(a, b)| < δ sempre que (x, y) pertença à bola de centro (a, b) e raio  = δ).

Deste facto resulta imediatamente, atendendo a propriedades da continuidade acabadas de referir, que a função f considerada no exemplo 1. de 1.2:

f(x, y) = x2 + y2 ( (x, y) ∈ R2

) é cont́ınua em qualquer ponto (a, b) ∈ R2 (basta notar que f = p1p1+p2p2 é a soma de produtos de funções cont́ınuas nesse ponto); mais geralmente, pode concluir- se de modo análogo que qualquer função polinomial P (x, y) — isto é, qualquer função que possa representar-se como soma de (um número finito de) «monómios» da forma geral cxrys, onde c é uma constante real e r e s inteiros não negativos — é cont́ınua em qualquer ponto de R2; e também que qualquer função racional de duas variáveis reais, representável como cociente de duas funções polinomiais:

P (x, y)

Q(x, y)

(não sendo Q(x, y) o polinómio nulo) é cont́ınua em todos os pontos (x, y) ∈ R2 tais que Q(x, y) 6= 0, isto é, em todos os pontos do seu domı́nio.

Por sua vez o resultado relativo à continuidade de uma função composta de funções cont́ınuas e alguns dos conhecimentos obtidos no estudo das funções reais de variável real permitem analisar facilmente, do ponto de vista da continuidade, muitas funções não racionais correntes nas aplicações.

A t́ıtulo de exemplo, consideremos a função

ϕ(x, y) = arctg x3 + y3

1− x2

(suposta definida no subconjunto D de R2 formado por todos os pontos (x, y) que verificam as condições x 6= 1 e x 6= −1). Como se tem ϕ = ψ ◦ θ, com:

ψ(u) = arctg u (u ∈ R)

51

Caṕıtulo 3. Continuidade e limite

e

θ(x, y) = x3 + y3

1− x2 (x ∈ D),

sendo θ cont́ınua em todos os pontos de D (por ser uma função racional) e ψ cont́ınua em cada ponto do contradomı́nio de θ (visto que é cont́ınua em R) pode concluir-se que ϕ é cont́ınua em todos os pontos do seu domı́nio.

Claro que estas ideias se estendem de forma óbvia ao caso de funções reais de n variáveis reais x1, x2, . . . , xn (com n > 2). Por exemplo, a continuidade em qual- quer ponto a = (a1, . . . , an) ∈ Rn de uma função polinomial P (x) = P (x1, . . . , xn) — isto é, de uma função representável como soma de «monómios» do tipo cxr11 x

r2 2 . . . x

rn n — resulta imediatamente da continuidade (facilmente provada) das

«projecções» pj:

pj(x) = pj(x1, . . . , xn) = xj (j ∈ {1, . . . , n})

e dos resultados há pouco enunciados sobre a continuidade das funções constantes e das somas e produtos de funções cont́ınuas. De forma análoga se conclui a continuidade de uma função racional de n variáveis reais:

P (x1, x2, . . . , xn)

Q(x1, x2, . . . , xn)

em todos os pontos x = (x1, . . . , xn) ∈ Rn tais que Q(x) 6= 0; e o teorema que relaciona a continuidade com a composição de funções permite uma vez mais alargar consideravelmente o quadro das funções cujo estudo, deste ponto de vista, pode efectuar-se com extrema simplicidade.

Assim, por exemplo, reconhece-se imediatamente que a função de m variáveis reais mencionada como exemplo em 1.4:

y = h(x1, . . . , xm) = log(x 2 1 + · · ·+ x2m),

que é o resultado da composição de y = log u (cont́ınua para u > 0) com a função polinomial u = x21 + · · · + x2m (cont́ınua em todos os pontos de Rm) é cont́ınua em qualquer ponto de Rm distinto da origem, isto é, em todos os pontos do seu domı́nio.

Passemos agora ao caso das funções vectoriais, o qual, como vamos ver, se reduz trivialmente ao das funções reais que acabamos de analisar; neste sentido, o resultado essencial é o que se exprime no seguinte:

Teorema 3.2. Seja f : D → Rm, com D ⊂ Rn e a ∈ D; para que f seja cont́ınua no ponto a é necessário e suficiente que sejam cont́ınuas no mesmo ponto todas as suas funções coordenadas.

Demonstração. Consideremos as relações já habituais (verificadas para todo o x ∈ D e para i ∈ {1, . . . ,m}):

|fi(x)− fi(a)| ≤ ‖f(x)− f(a)‖ ≤ m∑ i=1

∣∣fi(x)− fi(a)∣∣. 52

3.1. Continuidade

A primeira desigualdade mostra que, dado δ > 0, se determinarmos  > 0 por forma que se tenha ‖f(x)−f(a)‖ < δ sempre que x pertença ao conjunto B(a)∩ D — o que é posśıvel, se f for cont́ınua em a — se terá também (para qualquer inteiro positivo i ≤ m) |fi(x) − fi(a)| < δ para todo o x nesse mesmo conjunto: assim, a continuidade de f implica a de todas as suas funções coordenadas.

Reciprocamente, suponha-se que, para i ∈ {1, . . . ,m}, fi é cont́ınua no ponto a e seja δ um número positivo arbitrário; determine-se para cada inteiro positivo i ≤ m um número positivo i tal que

x ∈ Bi(a) ∩D =⇒ |fi(x)− fi(a)| < δ

m

e designe-se por  o menor dos números 1, . . . , m. Então, sempre que se tenha x ∈ B(a) ∩D ter-se-á também:

‖f(x)− f(a)‖ ≤ m∑ i=1

|fi(x)− fi(a)| < m∑ i=1

δ

m = δ,

o que prova a continuidade de f no ponto a.

Seria agora bastante fácil justificar a continuidade em qualquer ponto a ∈ Rn de uma aplicação linear f de Rn em Rm: bastaria observar que cada uma das coordenadas de f é uma função polinomial; e seria também quase imediata a prova de uma afirmação anterior, relativa à continuidade em cada ponto do seu domı́nio da aplicação de Rn em si mesmo atrás designada por µ: com efeito, facilmente se verifica que cada uma das funções coordenadas de µ é cont́ınua em qualquer ponto a ∈ Rn.

Um outro exemplo muito simples: designemos por I a aplicação idêntica de Rn em si mesmo, I(x) = x para cada x ∈ Rn; para cada inteiro positivo j ≤ n, a função coordenada de ordem j da aplicação I é precisamente a projecção pj ,

pj(x) = pj(x1, . . . , xn) = xj .

E, atendendo a que I é evidentemente cont́ınua em qualquer ponto de Rn, logo se confirma a continuidade, atrás mencionada, de cada projecção pj em qualquer ponto a ∈ Rn.

Antes de passarmos ao estudo da continuidade de um ponto de vista global, enunciaremos ainda dois resultados muito simples — consequências imediatas da definição de continuidade — cujas demonstrações poderão ficar como exerćıcios para o leitor.

O primeiro pode enunciar-se nos termos seguintes: Se f é uma função real definida em D ⊂ Rn e cont́ınua no ponto a ∈ D e se

f(a) > 0, então existe  > 0 tal que, para todo o x ∈ B(a) ∩D se tem f(x) > 0; no caso de uma função vectorial f : D → Rm, cont́ınua no ponto a, poderá por exemplo afirmar-se que, se f(a) 6= b (com b ∈ Rm), existe  > 0 tal que f(x) 6= b sempre que x ∈ B(a) ∩D.

53

Caṕıtulo 3. Continuidade e limite

Antes de enunciar o segundo resultado convém referir que, sendo ainda f uma função definida em D e com valores em Rm, se diz que f é limitada sse existe k ∈ R tal que ‖f(x)‖ ≤ k para todo o x ∈ D, isto é, sse o contradomı́nio de f , f(D), é um conjunto limitado. Mais geralmente, sendo A um subconjunto de D, diz-se que f é limitada em A sse a restrição de f a A (isto é, a função f/A que tem por domı́nio o conjunto A e verifica a condição f/A(x) = f(x) para todo o x ∈ A) é limitada; ou, o que é o mesmo, sse for limitado o conjunto:

f(A) = {f(x) : x ∈ A},

que é o contradomı́nio de f/A, também designado por transformado do conjunto A pela função f .

Após estas definições, podemos enunciar o segundo dos resultados acima refe- ridos:

Se f : D → Rm, com D ⊂ Rn é uma função cont́ınua no ponto a, existe  > 0 tal que f é limitada no conjunto B(A) ∩D.

Seja agora D um subconjunto de Rn e f uma função definida em D e com valores em Rm; nestas condições, diz-se que f é cont́ınua em D (ou apenas que f é cont́ınua) sse f é cont́ınua em cada ponto a ∈ D. Mais geralmente, sendo A um subconjunto de D, diz-se que f é continua em A sse f/A é cont́ınua (em A).

Dispomos agora de todos os elementos necessários para a generalização dos teoremas fundamentais — teoremas de Weierstrass e de Heine--Cantor, teorema do valor intermédio, etc. — que estudámos no quadro das funções cont́ınuas de variável real.

Começaremos pelo seguinte:

Teorema 3.3. Seja D um conjunto compacto de Rn e f : D → Rm uma função cont́ınua (em D). Nestas condições, o contradomı́nio de f , f(D), é um conjunto compacto.

Demonstração. De acordo com o Teorema 2.9, bastará provar que qualquer su- cessão de termos em f(D) tem uma subsucessão convergente para um ponto de f(D). Seja então yk uma sucessão qualquer em f(D) e, para cada inteiro positivo k, escolha-se um ponto xk ∈ D tal que f(xk) = yk. Como D é um conjunto com- pacto, poderá extrair-se da sucessão xk uma subsucessão xpk convergente para um ponto x0 ∈ D; e como f é cont́ınua em D (e portanto em x0), do facto de xpk convergir para x0 pode deduzir-se que ypk = f(xpk) — que é uma subsucessão da sucessão yk — converge para o ponto y0 = f(x0) ∈ f(D), o que termina a demonstração.

Registaremos agora mais algumas definições importantes, que quase seria des- necessário formular explicitamente dada a sua semelhança com as que conhecemos do estudo das funções de variável real.

Sendo f uma função real definida em D ⊂ Rn, diz-se que f tem máximo (em D) sse existe x0 ∈ D tal que f(x) ≤ f(x0) para todo o x ∈ D; qualquer

54

3.1. Continuidade

ponto x0 que verifique a condição indicada diz-se um ponto de máximo (ou um maximizante) de f e o valor f(x0) é o máximo da função (em D), designado por maxD f ou maxx∈D f(x). Definem-se de forma análoga as noções de mı́nimo, ponto de mı́nimo, etc.

Mais geralmente, sendo A um subconjunto qualquer do domı́nio D da função f , diz-se que f tem máximo em A sse f/A tem máximo (em A); e nessa hipótese chama-se máximo de f em A (maxA f ou maxx∈A f(x)) ao máximo da sua res- trição, maxA f/A. Como é óbvio, f tem máximo em A sse o conjunto f(A) tiver máximo, verificando-se então a igualdade:

max x∈A

f(x) = max f(A).

Definem-se ainda, de forma óbvia, as noções de supremo e ı́nfimo de uma função real f num subconjunto A do seu domı́nio D (supA f , infA f , etc.) podendo, em particular, ser A = D. Para que existam conjuntamente o supremo e o ı́nfimo de f em A (suposto não vazio) é necessário e suficiente que f seja limitada em A e, em tal hipótese, f terá máximo em A sse existir um ponto x0 ∈ A tal que

f(x0) = sup x∈A

f(x),

tendo-se então maxA f = supA f ; e analogamente para o mı́nimo e o ı́nfimo. Como simples consequência do Teorema 3.3, podemos agora enunciar:

Teorema 3.4 (Weierstrass). Se D ⊂ Rn é um conjunto compacto não vazio, qualquer função real f , definida e cont́ınua em D, tem máximo e mı́nimo nesse conjunto.

Demonstração. Nas condições da hipótese, decorre do teorema anterior que f(D) é um subconjunto compacto, não vazio, de R; por ser limitado e não vazio, f(D) terá supremo e ı́nfimo em R, os quais serão necessariamente pontos aderentes a f(D) — é evidente que lhe não podem ser exteriores — e portanto pertencerão a f(D), por este conjunto ser fechado. Conclui-se assim que f(D) tem máximo e mı́nimo, isto é, que f tem máximo e mı́nimo no conjunto D.

Trataremos agora de generalizar uma outra noção de extrema importância, a de continuidade uniforme. Seja f : D → Rm, com D ⊂ Rn, e seja A um subcon- junto de D (podendo ser, em particular, A = D); diz-se que f é uniformemente cont́ınua no conjunto A sse para todo o δ > 0 existe  > 0 tal que, quaisquer que sejam os pontos x,x′ ∈ A verificando a condição ‖x − x′‖ < , se tiver ‖f(x)− f(x′)‖ < δ.

Como exemplo com interesse, mencionaremos o de uma aplicação linear f : Rn → Rm. Para provar que uma tal aplicação é cont́ınua em qualquer ponto a ∈ Rn, deduzimos atrás a relação (válida para a,x ∈ Rn):

‖f(x)− f(a)‖ ≤Mn‖x− a‖,

55

Caṕıtulo 3. Continuidade e limite

onde M designava um número positivo, independente de a e x. É fácil reconhecer agora, a partir desta mesma relação, que f é uniformemente cont́ınua em Rn: com efeito, dado δ > 0, bastará tomar um número positivo  < δ/Mn para que se tenha ‖f(x) − f(a)‖ < δ sempre que a e x sejam dois pontos de Rn tais que ‖x− a‖ < .

Reconhece-se sem dificuldade que uma função uniformemente cont́ınua num conjunto é cont́ınua no mesmo conjunto, sendo a rećıproca falsa, em geral, como é sabido do estudo das funções de uma variável real. Verifica-se, no entanto, o seguinte resultado fundamental:

Teorema 3.5 (Heine–Cantor). Seja D um subconjunto compacto de Rn. Qual- quer função f : D → Rm cont́ınua em D, é uniformemente cont́ınua no mesmo conjunto.

Demonstração. Suponha-se que alguma função f , nas condições da hipótese, não era uniformemente cont́ınua em D. Existiria então um número positivo δ tal que, para cada  > 0 seria posśıvel determinar dois pontos x,x′ ∈ D por forma que fossem conjuntamente verificadas as desigualdades:

‖x− x′‖ <  e ‖f(x)− f(x′)‖ ≥ δ.

Pondo  = 1/k (com k = 1, 2, . . .) poderia assim obter-se para cada k ∈ N1 um par de pontos xk,x

′ k ∈ D verificando as condições:

‖xk − x′k‖ < 1

k e ‖f(xk)− f(x′k)‖ ≥ δ.

Da sucessão xk, de termos no conjunto compacto D, poderia extrair-se uma subsucessão xpk , convergente para um ponto x0 ∈ D. E, atendendo às relações:

‖x′pk − x0‖ = ‖(x ′ pk − xpk) + (xpk − x0)‖

≤ ‖x′pk − xpk‖+ ‖xpk − x0‖

< 1

pk + ‖xpk − x0‖,

logo se reconhece que também a sucessão x′pk seria convergente para x0. Ter-se-ia assim, dada a continuidade de f em D (e portanto em x0)

lim k→∞

f(xpk) = f(x0) = lim k→∞

f(x′pk)

e portanto também: lim k→∞

( f(xpk)− f(x′pk)

) = 0,

em contradição com o facto de dever ser verificada, para todo o k ∈ N1, a desi- gualdade:

‖f(xk)− f(x′k)‖ ≥ δ. Esta contradição permite dar por conclúıda a demonstração do teorema.

56

3.1. Continuidade

A noção de continuidade uniforme e o precedente teorema de Heine--Cantor ser-nos-ão indispensáveis em diversas fases ulteriores do nosso curso. Um outro resultado com interesse na sequência é o que se exprime no Teorema 3.6, o qual constitui a generalização adequada de um resultado conhecido, relativo à conti- nuidade da função inversa de uma função cont́ınua que aplique injectivamente um intervalo I ⊂ R na recta real R.

Teorema 3.6. Seja f : D → Rm uma função cont́ınua no conjunto compacto D ⊂ Rn e suponha-se que f aplica injectivamente D em Rm; então a função inversa g = f−1 : f(D)→ Rn é cont́ınua em f(D).

Demonstração. Tendo em conta o Teorema 3.1, bastará provar que, sendo y0 um ponto arbitrário de f(D) e yk uma sucessão qualquer de termos em f(D) convergente para y0, se tem necessariamente g(yk)→ g(y0).

Ponha-se x0 = g(y0) e, para todo o inteiro positivo k, xk = g(yk); xk será uma sucessão de termos em D, x0 um ponto de D e ter-se-á:

yk = f(xk)→ y0 = f(x0),

interessando agora provar que xk → x0. Recorrendo directamente à definição de limite de uma sucessão logo se vê que,

se xk não convergisse para x0, existiria  > 0 tal que, para uma infinidade de valores inteiros positivos de k, não seria verificada a condição ‖xk − x0‖ < ; ou, de outra forma: existiria uma subsucessão xpk de xk para a qual se teria ‖xpk − x0‖ ≥  para todo o k ∈ N1. Pelo Teorema 2.9, a sucessão xpk , de termos no conjunto compacto D, admitiria por sua vez uma subsucessão xqk (também subsucessão de xk) convergente para um ponto x

′ 0 ∈ D; mas, verificando-

se necessariamente, para todo o inteiro positivo k, a condição:

‖xqk − x0‖ ≥ ,

o limite x′0 da sucessão xqk seria certamente distinto do ponto x0 e portanto — pondo y′0 = f(x

′ 0) — ter-se-ia também, dada a injectividade de f :

y′0 = f(x ′ 0) 6= f(x0) = y0.

Nestas condições, porém, a continuidade de f em x′0 e a convergência de xqk para x′0 implicariam que a sucessão yqk = f(xqk) convergisse para y

′ 0, o que é

absurdo, porque yqk é uma subsucessão de yk e yk, por hipótese, converge para y0. Pode assim considerar-se terminada a demonstração.

Cada um dos dois teoremas seguintes constitui, de certo ponto de vista, uma generalização natural do clássico teorema do valor intermédio, relativo a funções cont́ınuas num intervalo da recta R; porém, o Teorema 3.8 não é mais do que um simples corolário do:

57

Caṕıtulo 3. Continuidade e limite

Teorema 3.7. Seja f : D → Rm, com D ⊂ Rn; se f é cont́ınua (em D) e D é um conjunto conexo, f(D) é também conexo.

Demonstração. Suponha-se que, sendo f cont́ınua em D, f(D) não era conexo. f(D) seria então a reunião de dois conjuntos separados, isto é, existiriam dois conjuntos não vazios A∗ e B∗ verificando as condições:

A∗ ∩ B̄∗ = ∅, Ā∗ ∩B∗ = ∅

e f(D) = A∗ ∪B∗.

Designemos2 por A o conjunto de todos os pontos x ∈ D tais que f(x) ∈ A∗ e por B o conjunto dos x ∈ D tais que f(x) ∈ B∗.

Deduz-se imediatamente que A e B seriam não vazios (porque A∗ e B∗, contidos em f(D) são não vazios) e também que A ∪ B = D (porque sendo f(D) = A∗ ∪ B∗, para qualquer x ∈ D se verificaria necessariamente uma das condições f(x) ∈ A∗ ou f(x) ∈ B∗).

Ter-se-ia ainda, como vamos ver,

A ∩ B̄ = ∅ e Ā ∩B = ∅

(provaremos apenas a primeira igualdade, já que a prova da segunda seria idên- tica). Com efeito, se algum ponto x0 ∈ A fosse aderente ao conjunto B, existiria (pelo Teorema 2.4) uma sucessão xk de termos em B convergente para x0; mas então, dada a continuidade de f em x0, a sucessão f(xk), de termos em B

∗, con- vergiria para f(x0) ∈ A∗ e (pelo mesmo teorema há pouco mencionado) poderia deduzir-se que f(x0) era aderente ao conjunto B

∗, isto é, que A∗ ∩ B̄∗ 6= ∅. Assim, na hipótese de f ser cont́ınua e f(D) não ser conexo, concluir-se-ia que

o conjunto D era a reunião de dois conjuntos separados, isto é, que o conjunto D era desconexo; esta conclusão é obviamente equivalente ao que pretend́ıamos provar.

Uma consequência imediata é o seguinte:

Teorema 3.8 (teorema do valor intermédio). Seja f uma função real, de- finida e cont́ınua no conjunto conexo D ⊂ Rn; se os números reais α e β, com α < β, pertencem ao contradomı́nio de f e se γ é um real tal que α < γ < β, então existe pelo menos um ponto x ∈ D tal que f(x) = γ.

Demonstração. Basta observar que, nas condições da hipótese, f(D) é um con- junto conexo de R, isto é, um intervalo (Teorema 2.10).

2Usa-se correntemente em situações como esta a notação f−1(A∗) para designar o conjunto A, chamado imagem rećıproca ou imagem inversa por meio de f do conjunto A∗; convém observar que tais notações são usadas mesmo em casos, como o presente, em que se não supõe que f seja injectiva, podendo portanto não existir a função inversa, f−1.

58

3.1. Continuidade

De uma forma geral, os precedentes Teoremas 3.3 a 3.8 estabelecem certas propriedades importantes do contradomı́nio de uma função (ou da própria função, ou da sua inversa, quando existente) decorrentes da hipó- tese da função ser cont́ınua e do seu domı́nio ser um conjunto com certas caracteŕısticas especiais (compacto ou conexo). Como é óbvio, qualquer desses resultados é suscept́ıvel de uma extensão trivial, resultante de se considerar, em lugar do domı́nio D da função f , um subconjunto qualquer A de D que possua também as caracteŕısticas em causa; a função poderá então ser substitúıda nos racioćınios pela sua restrição ao conjunto A e só a respeito desta restrição haverá que pôr a hipótese de continuidade. Assim, por exemplo, sendo f : D → Rm (com D ⊂ Rn), A ⊂ D e f cont́ınua no conjunto A poderá concluir-se que, se A for compacto o mesmo se verificará com f(A) (abreviadamente: as funções cont́ınuas transformam conjuntos compactos em conjuntos compactos); que, na mesma hipótese sobre A, f é uniformemente cont́ınua em A (as funções cont́ınuas em conjuntos compac- tos são uniformemente cont́ınuas); que f(A) é conexo se A o for (as funções cont́ınuas transformam conjuntos conexos em conjuntos conexos), etc.

No caso m = 1, pode ainda concluir-se que, sendo A um compacto não vazio, f(A) tem máximo e mı́nimo (qualquer função real cont́ınua num conjunto compacto não vazio tem máximo e mı́nimo nesse conjunto), etc.

Como exerćıcio útil, o leitor poderá procurar exemplos capazes de mos- trar que, nos enunciados dos teoremas referidos, não seria posśıvel «en- fraquecer» as hipóteses sem prejudicar a generalidade das conclusões; por exemplo: num conjunto que não seja compacto há sempre funções que não são uniformemente cont́ınuas e funções reais cont́ınuas que não têm máximo ou mı́nimo; num conjunto desconexo há sempre funções cont́ınuas com con- tradomı́nio desconexo; uma função não cont́ınua pode transformar conjun- tos conexos em conjuntos desconexos e conjuntos compactos em conjuntos que o não sejam, etc.

Outra consequência interessante do Teorema 3.7 é a que se exprime no se- guinte:

Teorema 3.9. Seja X um subconjunto de Rn; se, para qualquer par (a, b) de pontos de X existe uma função cont́ınua ϕ : [0, 1]→ Rn verificando as condições: ϕ(0) = a, ϕ(1) = b e ϕ(t) ∈ X para todo o t ∈ [0, 1], então o conjunto X é conexo.

PSfrag replacements

X

a

b

Figura 3.3

59

Caṕıtulo 3. Continuidade e limite

A condição referida no enunciado pode ser expressa, de forma mais sugestiva, dizendo que quaisquer pontos a, b ∈ X podem ser «unidos por uma curva contida em X». Para a demonstração observe-se que, se X não fosse conexo, existiriam conjuntos separados A∗ e B∗ tais que A∗ ∪ B∗ = X. Escolhidos arbitrariamente dois pontos a ∈ A∗ e b ∈ B∗, existiria também, por hipótese, uma função cont́ınua ϕ : [0, 1] → Rn tal que ϕ(0) = a, ϕ(1) = b e ϕ([0, 1]) ⊂ X. Nestas condições, pondo:

A = ϕ([0, 1]) ∩ A∗ e B = ϕ([0, 1]) ∩B∗

ter-se-ia:

ϕ([0, 1]) = A ∪B

(visto que ϕ([0, 1]) ⊂ A∗ ∪ B∗ = X), sendo A e B conjuntos separados (para o reconhecer, basta observar que A e B são não vazios — porque a ∈ A e b ∈ B — e ter em conta as relações A ⊂ A∗, B ⊂ B∗ e o facto de A∗ e B∗ serem conjuntos separados). Assim, concluir-se ia que o conjunto ϕ([0, 1]) era desconexo o que é absurdo, porque o intervalo [0, 1] é conexo e a função ϕ é cont́ınua.

Costuma-se chamar conjuntos conexos por arcos aos conjuntos X ⊂ Rn que verificam a condição mencionada no enunciado do Teorema 3.9 (isto é, tais que dois pontos quaisquer a, b ∈ X podem sempre ser unidos por uma curva contida em X). Nestes termos, o enunciado desse teorema poderia sintetizar-se dizendo que qualquer conjunto conexo por arcos é conexo.

Observe-se, de passagem, que a rećıproca é falsa (por exemplo, pode provar-se que o subconjunto X de R2 formado pelo gráfico da função sen 1/x ampliado com a origem é conexo, mas que não existe qualquer curva contida em X unindo a origem a outro ponto qualquer do mesmo conjunto).

Observaremos ainda que, na sua generalidade, os resultados obtidos neste parágrafo são válidos em espaços muito mais gerais do que os espaços Rn — por exemplo, em espaços métricos — sendo as demonstrações prati- camente idênticas às que aqui foram feitas (haverá contudo nalguns pontos necessidade de certas «adaptações»: assim, por exemplo, no caso dos Te- oremas 3.3, 3.4 e 3.5, haverá que ter em conta que, no quadro geral dos espaços métricos, a noção de conjunto compacto não equivale à de conjunto limitado e fechado).

No entanto, pareceu prefeŕıvel — mesmo para quem tencione vir a de- senvolver bastante os seus estudos no domı́nio da Análise — que a primeira abordagem destas ideias (para além do estudo das funções reais de variável real) se processasse no quadro particularmente importante e sugestivo facul- tado pelos espaços Rn. Julga-se assim ter evitado um tratamento demasiado abstracto, cuja profundidade e alcance dificilmente poderiam ser apreen- didos neste momento, até por impossibilidade de motivação adequada; e pensa-se também que, ultrapassada esta fase, ficará bastante facilitado o acesso aos pontos de vista mais elevados que alguns leitores decerto deseja- rão vir a alcançar neste domı́nio.

60

3.2. Limite

3.2 Limite

A noção de limite está muito intimamente relacionada com a de continuidade; em muitos textos, o estudo do conceito de limite precede o das funções cont́ınuas ou é feito a par e passo com o das primeiras propriedades destas funções. Julgou- se contudo prefeŕıvel estudar em primeiro lugar as propriedades essenciais das funções cont́ınuas, sem qualquer referência à noção de limite, que é talvez um pouco mais elaborada; o estudo dos limites ficará agora muito facilitado e surgirá de modo natural, imediatamente antes do caṕıtulo em que pela primeira vez eles irão ser necessários: a introdução ao cálculo diferencial em Rn.

Para introduzir mais simplesmente a noção de limite, consideraremos em pri- meiro lugar o caso das funções reais; veremos depois que a extensão às funções vectoriais não oferece a menor dificuldade.

Antes de dar as definições formais, faremos ainda algumas considerações pre- paratórias. Neste sentido, recorde-se que, sendo f uma função real definida num conjunto D ⊂ Rn e a um ponto de D, dizemos que f é cont́ınua no ponto a sse para todo o δ > 0 existe  > 0 tal que

x ∈ B(a) ∩D =⇒ |f(x)− f(a)| < δ.

De acordo com as definições que enunciaremos adiante, o facto de esta condição ser verificada poderá também traduzir-se dizendo que «f(x) tende para f(a) quando x tende para a» ou que «f(a) é o limite de f(x) quando x tende para a», e escrevendo3:

lim x→a

f(x) = f(a).

Suponhamos agora que a é um ponto aderente ao domı́nio D da função f , não pertencente a esse domı́nio (neste caso, a será necessariamente ponto de acumulação de D). Não existe então valor da função f no ponto a e f não pode evidentemente ser cont́ınua nesse ponto; mas pode acontecer que exista um número b ∈ R com o qual — no lugar de f(a) — seja verificada a condição atrás indicada. Se existir de facto b ∈ R nessas condições — isto é, tal que, qualquer que seja δ > 0 exista  > 0 por forma que todo o x ∈ D que satisfaça a condição ‖x − a‖ <  verifique também |f(x) − b| < δ — diremos ainda que f(x) tende para b quando x tende para a e escreveremos:

lim x→a

f(x) = b.

No caso que estamos a considerar (a ∈ D̄\D) é fácil ver que a existência de limite equivale à possibilidade de «prolongar por continuidade a função f ao ponto a», isto é, equivale à existência de uma função f̃ — chamada prolongamento por continuidade de f ao ponto a — definida em D ∪ {a}, cont́ınua em a e tal que

3Esta notação e também o artigo definido incluido na última das afirmações precedentes só ficarão inteiramente justificados quando se tiver reconhecido a unicidade do limite.

61

Caṕıtulo 3. Continuidade e limite

f̃/D = f . Na realidade, se for limx→a f(x) = b ver-se-á sem dificuldade que a única

função f que satisfaz as condições acabadas de indicar é a função f̃ : D∪{a} → R tal que:

f̃(x) =

{ f(x) se x ∈ D b se x = a.

A t́ıtulo de exemplo, consideremos a função definida pela fórmula:

f(x, y) = x2 − y2√ x2 + y2

,

no conjunto D = R2\{(0, 0)}. Resultados obtidos no parágrafo precedente permitem reconhecer imediata-

mente que f é cont́ınua em todo o seu domı́nio; quando (x, y) tender para um ponto qualquer (a, b) ∈ D, a função tenderá portanto para um limite, igual ao seu valor no ponto considerado. Quanto ao ponto (0, 0), é claro que f não é cont́ınua nesse ponto, não existindo sequer o valor f(0, 0). Tem-se, contudo, como vamos ver (em notação de significado evidente):

lim (x,y)→(0,0)

f(x, y) = 0.

Com efeito, sendo (x, y) 6= (0, 0), tem-se:

|f(x, y)| = |x 2 − y2|√ x2 + y2

≤ x 2 + y2√ x2 + y2

= √ x2 + y2

e portanto a condição |f(x, y)| < δ será verificada por todo o ponto (x, y) ∈ D tal que ‖(x, y)‖ =

√ x2 + y2 < δ.

Fica assim provado que f(x, y) tende para 0 quando (x, y) → (0, 0) e é claro que para prolongar por continuidade a função f à origem bastaria «atribuir-lhe» nesse ponto o valor 0 (esta frase é incorrecta: o prolongamento por continuidade é uma função distinta da função f , visto que não tem o mesmo domı́nio).

Consideremos agora a função ϕ, definida no mesmo conjunto D do exemplo anterior, pela fórmula:

ϕ(x, y) = x2 − y2

x2 + y2

Esta função também é cont́ınua em qualquer ponto do seu domı́nio e, para (α, β) 6= (0, 0), tem-se:

lim (x,y)→(α,β)

ϕ(x, y) = α2 − β2

α2 + β2 .

Para averiguar da existência de limite na origem observemos primeiramente que, sendo x e y números reais diferentes de zero, se tem:

ϕ(x, 0) = 1 e ϕ(0, y) = −1

62

3.2. Limite

o que mostra que a restrição de ϕ ao «eixo das abcissas privado da origem» (isto é, ao conjunto de todos os pontos (x, 0), com x 6= 0) é a função identicamente igual a 1 e que a restrição de ϕ ao «eixo das ordenadas privado da origem» é a função que toma o valor −1 em qualquer ponto deste conjunto. Esta observação torna evidente que em qualquer bola centrada na origem, por menor que seja o seu raio, haverá sempre pontos em que ϕ toma o valor 1 e pontos em que ϕ toma o valor −1 (aliás infinitos, num caso e no outro; na bola de raio , os pontos (/2, 0) e (0, /2) podem servir de exemplo de cada um desses casos).

PSfrag replacements

x

y

(

²

2 , 0

)

(

0, ² 2

)

ϕ = −1

ϕ = 1

Figura 3.4

Daqui decorre facilmente a impossibilidade da existência de limite. Com efeito, se para algum número real b fosse verdadeira a proposição:

lim (x,y)→(0,0)

ϕ(x, y) = b,

fixado δ, por exemplo, no valor 1, deveria existir  > 0 tal que, para qualquer (x, y) pertencente a D e à bola centrada na origem e com raio , se teria:

|ϕ(x, y)− b| < 1.

Porém, escolhido um  nessas condições, ter-se-ia:

2 = ∣∣∣ϕ( 

2 , 0 ) − ϕ

( 0, 

2

)∣∣∣ = ∣∣∣[ϕ(  2 , 0 ) − b ] + [ b− ϕ

( 0, 

2

)]∣∣∣ ≤ ∣∣∣ϕ( 

2 , 0 ) − b ∣∣∣+ ∣∣∣ϕ(0, 

2

) − b ∣∣∣ < 1 + 1 = 2,

o que é absurdo. Assim, a função ϕ não tem limite no ponto (0, 0); e imediatamente se reconhece

também que, seja qual for o valor real de b, o «prolongamento» ϕ̃ de ϕ definido por:

ϕ̃(x, y) =

{ ϕ(x, y) se (x, y) ∈ D b se (x, y) = (0, 0),

63

Caṕıtulo 3. Continuidade e limite

nunca será cont́ınuo na origem. Feitas estas considerações, introduziremos agora formalmente a definição de

limite, que neste momento já deve ser óbvia: Seja f uma função real definida num subconjunto D de Rn, e sejam a =

(a1, . . . , an) um ponto aderente a D e b um número real. Diz-se que f(x) tende para b quando x → a sse para todo o δ > 0 existe  > 0 tal que, sempre que x ∈ Rn verifique as condições x ∈ D e ‖x− a‖ < , se tenha |f(x)− b| < δ.

Convém observar que, em alguns textos, a definição de limite adoptada não é equivalente à que acaba de ser enunciada (tanto no caso, agora consi- derado, das funções reais de n variáveis reais como no das funções vectoriais que veremos dentro em pouco, e tanto para n > 1 como para n = 1).

As diferenças entre as duas definições são as seguintes:

1. Em vez de se exigir, como aqui fizemos, que a condição |f(x)−b| < δ seja verificada sempre que se tenha x ∈ D e ‖x−a‖ < , impõe-se que essa mesma desigualdade seja satisfeita por todos os pon- tos x ∈ D tais que 0 < ‖x − a‖ < . É óbvio que, no caso de a não pertencer a D, as duas definições conduzem exactamente aos mesmos resultados; mas se for a ∈ D, o valor de f em a será «ignorado» na definição aqui não adoptada — sendo o limite, se existir, inteiramente independente de f(a) — enquanto pela definição que usaremos neste texto a existência do limite de f num ponto a do seu domı́nio impõe que se verifique necessariamente a igualdade:

lim x→a

f(x) = f(a),

e equivale assim à continuidade de f no ponto a.

2. Em vez de se exigir que a seja um ponto aderente ao domı́nio D da função f , como aqui foi feito, impõe-se que a seja ponto de acumula- ção do mesmo conjunto (deixando-se, assim, de considerar limites em pontos isolados do conjunto D). Esta modificação está inteiramente relacionada com a anterior e, por assim dizer, decorre dela: é fácil ver que o que se impõe ao ponto a, em cada caso, é precisamente o que importa para se poder garantir a unicidade do limite.

A diferença entre os dois pontos de vista não é importante, em termos conceptuais; trata-se mais de um «pormenor de ordem técnica», ao qual nos referimos apenas para prevenir o leitor e evitar-lhe eventuais dúvidas e perdas de tempo. Pensamos que a definição que decidimos adoptar — mesmo que obrigue alguns leitores a um pequeno esforço de adaptação que, nesta fase do seu estudo, não poderá já comportar qualquer dificuldade séria — permite organizar de forma mais natural e harmoniosa alguns as- pectos da teoria, e por isso a preferimos. De resto, como poderemos ver na sequência, o conceito correspondente à outra definição surgirá aqui também, como caso particular da noção mais geral de limite relativo a um subcon- junto A do domı́nio D da função considerada (precisamente no caso de ser A = D\{a}).

64

3.2. Limite

Consideremos agora o caso mais geral das funções vectoriais. Naturalmente, sendo f : D → Rm (com D ⊂ Rn), a um ponto aderente a D e sendo agora b = (b1, . . . , bm) um vector qualquer de Rm, diremos que f(x) tende para b quando x tende para a sse qualquer que seja δ > 0 existir  > 0 tal que, para todo o ponto x ∈ Rn que verifique as condições x ∈ D e ‖x − a‖ < , se tenha ‖f(x)− b‖ < δ.

Prova-se sem qualquer dificuldade (e será consequência imediata de resultados posteriores) que, se f(x) tende para b e também para b′ quando x tende para a, então é necessariamente b = b′. Nesta hipótese, o (único) vector b que verifica esta condição é designado por limite de f(x) quando x tende para a ou limite de f no ponto a, podendo escrever-se:

lim x→a

f(x) = b

ou lim

(x1,...,xn)→(a1,...,an) f(x1, . . . , xn) = (b1, . . . , bm).

ou ainda, mais simplesmente: lim

a f = b.

Vê-se também sem a menor dificuldade (tendo em conta as definições de con- tinuidade e de limite) que a existência do limite de f no ponto a equivale à existência de um prolongamento por continuidade de f ao ponto a, isto é, de uma função f̃ : D∪{a} → Rm cont́ınua no ponto a e tal que f̃/D = f . No caso em que a (sempre aderente a D) não pertence a D, esse prolongamento é definido por:

f̃(x) =

{ f(x) se x ∈ D lim

a f se x = a.

No caso em que a ∈ D, tem-se evidentemente D∪{a} = D e o prolongamento f̃ coincide com a própria função f (a qual, por existir o limite, é então necessaria- mente cont́ınua no ponto a). Tanto num caso como no outro, é óbvio que (fixado o ponto a ∈ D) o prolongamento f̃ é univocamente determinado pela função f .

Pode ver-se ainda que, se a ∈ Rn é um ponto exterior ao domı́nio D de f (caso exclúıdo na definição de limite) existem sempre infinitas funções f̃ : D ∪ {a} → Rm, cont́ınuas em a e tais que f̃/D = f : para obter uma tal função bastaria pôr:

f̃(x) =

{ f(x) se x ∈ D c se x = a,

onde c designa um vector arbitrário de Rm. Assim, para os pontos não aderentes ao domı́nio de f , haveria sem-

pre possibilidade de «prolongar continuamente» a função, mas o prolonga- mento, não sendo univocamente determinado, ficaria totalmente desprovido

65

Caṕıtulo 3. Continuidade e limite

de interesse. É por uma razão semelhante que, na definição de limite, ape- nas considerámos pontos aderentes ao domı́nio da função. Com a definição adoptada, o limite (quando existe) é único e a sua existéncia equivale à de um único prolongamento da função f definido em D ∪ {a} e cont́ınuo no ponto a.

Registaremos agora algumas propriedades da noção de limite, em correspon- dência com propriedades da continuidade estudadas no parágrafo precedente; as demonstrações, que omitiremos, podem fazer-se de modo análogo ao adoptado no caso da continuidade, ou então reduzir-se a esse caso, como se sugere a propósito do seguinte:

Teorema 3.1’. Seja f : D → Rm (D ⊂ Rn), a um ponto aderente a D e b um vector de Rm; para que se verifique a igualdade: lima f = b é necessário e suficiente que, sempre que xk seja uma sucessão em D convergente para a, a sucessão f(xk) convirja para b.

A demonstração pode fazer-se de forma quase idêntica à do Teorema 3.1; mas pode também pensar-se que, para que a igualdade lima f = b seja verificada, é necessário e suficiente, no caso de ser a ∈ D, que f seja cont́ınua em a e se tenha f(a) = b; e no caso de ser a ∈ D̄\D, que seja cont́ınua no ponto a a função f̃ : D∪{a} → R, que prolonga f e assume no ponto a o valor b; assim, a questão do limite fica reduzida à da continuidade e o recurso ao Teorema 3.1 permite completar imediatamente a demonstração.

Nas propriedades seguintes, que nos limitaremos a enunciar, deve supor-se que D ⊂ Rn, a ∈ D̄; f, g : D → Rm e α : D → R.

• Se f é constante em D, existe lima f e é igual ao valor de f num ponto qualquer de D.

• Se f e g têm limite no ponto a, também o têm as funções f + g, f − g, f · g e ‖f‖, verificando-se as igualdades:

lim a (f + g) = lim

a f + lim

a g,

lim a (f − g) = lim

a f − lim

a g,

lim a (f · g) = lim

a f · lim

a g

e

lim a ‖f‖ = ‖ lim

a f‖.

• Se α e f têm limite no ponto a, αf também e tem-se:

lim a (αf) = (lim

a α)(lim

a f);

66

3.2. Limite

se for ainda lima α 6= 0, o cociente f/α terá limite quando x → a, verifi- cando-se a igualdade:

lim a

f

α =

lima f

lima α .

Também no caso do limite o estudo das funções vectoriais pode reduzir-se imediatamente ao das funções reais, nos termos do seguinte:

Teorema 3.2’. Seja f : D → Rm (com D ⊂ Rn), a um ponto aderente a D, b = (b1, . . . , bm) um vector de Rm e designemos por fj a função coordenada de ordem j de f ; nestas condições, para que se verifique a igualdade lima f = b é necessário e suficiente que, para cada inteiro positivo j ≤ m, se tenha lima fj = bj.

Tem também interesse o seguinte resultado, que relaciona da forma desejável a noção de limite com a composição de funções:

Seja D ⊂ Rn, E ⊂ Rp, g : D → E e f : E → Rm; suponha-se ainda que a é um ponto aderente ao conjunto D. Nestas condições, vê-se imediatamente que, se se tiver lima g = b, b será necessariamente um ponto aderente ao conjunto E; e também (usando, por exemplo, o Teorema 3.1’) que, se existir ainda o limite de f no ponto b, existirá também o limite no ponto a da função composta f ◦ g : D → Rn, verificando-se a igualdade:

lim a (f ◦ g) = lim

b f.

ou, com outra notação:

lim x→a

(f ◦ g)(x) = lim y→b

f(y).

Assim, por exemplo, das igualdades:

lim (x,y)→(0,0)

x2 − y2√ x2 + y2

= 0

e lim u→0

cosu = 1,

poderá imediatamente deduzir-se que:

lim (x,y)→(0,0)

cos x2 − y2√ x2 + y2

= 1.

Antes de indicarmos algumas outras aplicações do resultado anterior, convém introduzir uma definição:

Nas hipóteses já habituais de D ser um subconjunto de Rn, a um ponto aderente a D e f uma aplicação de D em Rm, consideremos agora um subconjunto A de D ao qual o ponto a seja ainda aderente; a será portanto um ponto aderente ao domı́nio da função f/A, podendo existir ou não o lima f/A. Quando este limite

67

Caṕıtulo 3. Continuidade e limite

exista, diremos que a função f tem limite no ponto a relativo ao conjunto A (o qual será designado por limx→a

x∈A f(x)) e poremos, por definição:

lim x→a x∈A

f(x) = lim x→a

f/A(x).

Por exemplo, no caso da função

ϕ(x, y) = x2 − y2

x2 + y2 (x, y) ∈ R2\{(0, 0)}

ter-se-á, pondo:

A = {(x, 0) : x ∈ R\{0}} e B = {(0, y) : y ∈ R\{0}},

lim (x,y)→(0,0)

(x,y)∈A

ϕ(x, y) = 1 e lim (x,y)→(0,0)

(x,y)∈B

ϕ(x, y) = −1.

Voltando ao caso geral considerado na definição de limite relativo a um con- junto (e às notações áı adoptadas) designemos agora por g a aplicação de A em D definida por g(x) = x, para todo o x ∈ A (aplicação a que costuma chamar-se injecção canónica de A em D); ter-se-á então, obviamente:

f/A = f ◦ g

e também limx→a g(x) = a. Nestas condições, a relação entre o limite e a composi- ção de funções expressa num resultado precedente permite concluir imediatamente que, se existir o limite de f no ponto a, existirá necessariamente — e com o mesmo valor — o limite no ponto a da função f/A, isto é, o limx→a

x∈A f(x). Assim:

Se existe limx→a f(x), existe também o limite de f no ponto a relativo a qualquer conjunto A ⊂ D tal que a ∈ Ā e tem-se necessariamente:

lim x→a x∈A

f(x) = lim x→a

f(x).

É este o fundamento de uma técnica corrente para a prova da não existência de determinados limites: sempre que seja posśıvel determinar conjuntos A, B ⊂ D (com a ∈ Ā e a ∈ B̄) para os quais se tenha:

lim x→a x∈A

f(x) 6= lim x→a x∈B

f(x)

(ou então um só conjunto A, nas mesmas condições, tal que não exista o limite de f no ponto a relativo a A) poderá concluir-se que não existe limx→a f(x). Assim, a observação feita há pouco sobre os limites relativos aos «eixos coordenados pri- vados da origem» para a função ϕ permitiria agora concluir com grande facilidade a não existência do limite de ϕ no ponto (0, 0), já atrás reconhecida com mais algum trabalho.

68

3.2. Limite

Antes de passar a outros exemplos mencionaremos que, como já foi assinalado, a definição de limite de f num ponto a anteriormente referida como não adoptada neste texto, é um caso particular da de limite relativo a um conjunto; com efeito, vê-se imediatamente que o limite considerado nessa definição se identifica com o que designaŕıamos agora por

lim x→a

x∈D\{a} f(x)

e também que, para que este limite possa ser considerado, deverá o ponto a ser aderente ao conjunto D\{a}, o que equivale a dizer que deverá ser ponto de acumulação do conjunto D.

Vejamos outro exemplo de aplicação da técnica, há pouco referida, utili- zável para provar a não existência de limites; seja ψ a função definida (em D = R2\{(0, 0)}) pela fórmula:

ψ(x, y) = xy

x2 + y2

e designemos por Am o subconjunto de D formado por todos os pontos da recta de equação y = mx com excepção da origem:

Am = {(x,mx) : x 6= 0}.

A igualdade (válida para qualquer x 6= 0):

ψ(x,mx) = m

1 +m2

mostra que a função ψ é constante em qualquer dos conjuntos Am, tendo-se por- tanto:

lim (x,y)→(0,0) (x,y)∈Am

ψ(x, y) = m

1 +m2 ;

do facto deste limite variar com m, deduz-se imediatamente que ψ não tem limite na origem.

A consideração de rectas correntes pela origem — ou, de semirectas com origem nesse ponto — é uma técnica usual, quando se pretende averiguar da eventual não existência do limite de uma função f(x, y) no ponto (0, 0). O processo é, aliás, aplicável ao estudo de limites num ponto qualquer (a, b), caso em que podem usar-se rectas passando por este ponto ou semirectas com origem nele (e pode-se também, se se preferir, começar por «transferir o limite para a origem», através da composição de f(x, y) com x = a+u, y = b+v, reconhecendo-se imediatamente que qualquer dos limites:

lim (x,y)→(a,b)

f(x, y) e lim (u,v)→(0,0)

f(a+ u, b+ v)

69

Caṕıtulo 3. Continuidade e limite

existe sse o outro existir e que, na hipótese de existência, têm o mesmo valor). A utilização de técnicas deste tipo no caso de funções de n variáveis reais

requer algumas ideias muito simples sobre Geometria Anaĺıtica em Rn, a que vamos fazer uma rápida referência.

Sendo a = (a1, . . . , an) um ponto de Rn e v = (v1, . . . , vn) ∈ Rn um vector não nulo, a recta que passa por a e tem a direcção do vector v é, por definição, o conjunto de todos os pontos x = (x1, . . . , xn) ∈ Rn representáveis na forma:

x = a + tv,

com t ∈ R (na interpretação geométrica, válida para n ≤ 3, esta equação re- presenta de facto uma recta, satisfazendo as condições indicadas). A equação x = a + tv é chamada equação paramétrica da recta considerada, na forma vec- torial; e as equações correspondentes, em termos de coordenadas:

x1 = a1 + tv1

· · · xn = an + tvn,

constituem o sistema de equações paramétricas da mesma recta, na forma escalar (Figura 3.5).

PSfrag replacements

x2

x1

x3

a

a− v

a + v

a + 2v

v

Figura 3.5

Se, em vez de supormos que o parâmetro t assume todos os valores reais, admitirmos que varia num intervalo limitado de R, I, ao conjunto de todos os pontos

x = a + tv (t ∈ I) chamaremos um segmento de recta (se for I = [t1, t2], com t1 < t2, os pontos a + t1v e a + t2v serão os extremos do segmento).

Analogamente, a semirecta (aberta) de origem no ponto a e com a direcção e o sentido do vector v será o conjunto definido pela equação x = a + tv, com t ∈ ]0, +∞[ (t ∈ [0, +∞[ para a semirecta fechada), etc. Na sequência, designaremos a semirecta definida pela equação:

x = a + tv,

70

3.2. Limite

com t > 0, pelo śımbolo Sa,v ou, quando o ponto a estiver claramente fixado, apenas por Sv.

Consideremos agora uma função real f (o caso de uma função vectorial re- duzir-se-ia a este por passagem às funções coordenadas), a qual, por razões de comodidade, suporemos definida em todo o conjunto Rn, com eventual excepção de um dado ponto, a (no entanto, tornar-se-á evidente que não haveria qualquer alteração essencial ao que vai seguir-se se admit́ıssemos, mais geralmente, que f estava definida num conjunto D ⊂ Rn tal que, para algum  > 0, se verificasse a relação B(a)\{a} ⊂ D). Sendo v um vector não nulo, ao limite de f no ponto a relativo ao conjunto Sv costuma também chamar-se limite direccional de f no ponto a segundo o vector v (ou na direcção e sentido de v). Reconhece-se facilmente que este limite existe sse a função ϕv : ]0, +∞[ → R definida pela fórmula:

ϕv(t) = f(a + tv)

tiver limite quando t→ 0+, verificando-se nessa hipótese a igualdade:

lim x→a x∈Sv

f(x) = lim t→0+

ϕv(t).

Assim, o cálculo de um limite direccional (ou a verificação da sua não existên- cia) reduz-se ao estudo de um problema de limites para uma função de uma só variável real.

É claro que, se existir o limite de f no ponto considerado, existirá também — e com o mesmo valor — o limite direccional segundo qualquer vector v 6= 0; portanto, se for posśıvel encontrar dois vectores v1,v2 aos quais correspondam limites direccionais diferentes, poderá concluir-se que a função não tem limite no ponto considerado.

Poderá também concluir-se, em sentido inverso, que se existirem os limites direccionais relativos a todos os vectores (não nulos) v ∈ Rn e se todos esses limites direccionais tiverem o mesmo valor, f tem limite no ponto considerado?

Veremos facilmente que a resposta a esta questão deverá ser negativa, se no- tarmos que, no estudo de cada um dos limites direccionais, os únicos valores de f que se consideram são os que a função assume sobre uma determinada semirecta aberta com origem no ponto a; assim, se f estiver definida neste ponto, o valor f(a) será «ignorado» na pesquisa de todos os limites direccionais e é óbvio que estes limites poderão existir e ser todos iguais sem que f tenha limite no ponto a (é o que se passa, por exemplo, com a função f : Rn → R que toma o valor 1 em dado ponto a ∈ Rn e o valor 0 em todos os outros pontos).

Porém, o que poderá ser um pouco surpreendente é que a existência e igualdade de todos os limites direccionais no ponto a nem sequer garante a existência de limite para a restrição de f a Rn\{a}, isto é, do

lim x→a

x∈Rn\{a} f(x)

71

Caṕıtulo 3. Continuidade e limite

(o qual, na sequência, designaremos mais simplesmente pelo śımbolo lim x→a x6=a

f(x)).4

Para o mostrar, recorreremos a um exemplo simples, relativo ao caso n = 2 (é fácil — e poderá ficar como exerćıcio — a adaptação desse exemplo por forma a provar que, também para n > 2, a existência e igualdade de todos os limites direccionais no ponto a não garante a existência de lim

x→a x6=a

f(x)).

Seja f : R2 → R a função definida pela forma seguinte:

f(x, y) =

{ 1 se x 6= 0 e y = x2

0 se x = 0 ou y 6= x2

Assim, f toma o valor 1 em todos os pontos da parábola de equação y = x2

com excepção da origem e o valor 0 em todos os outros pontos do plano. Vê-se imediatamente que a restrição de f a qualquer semirecta (aberta) com origem em (0, 0) assume o valor 0 em todos os pontos dessa semirecta excepto, quando muito, num ponto (aquele em que a semirecta em causa intersecta a parábola, nos casos em que tal intersecção não é vazia); e dáı logo se deduz que todos os limites direccionais de f no ponto (0, 0) são iguais a 0. No entanto, tanto a função como a sua restrição a R2\{(0, 0)} não podem ter o limite 0 — nem, evidentemente, qualquer outro — quando (x, y) tende para (0, 0): basta notar que, em qualquer bola centrada na origem, há infinitos pontos em que f assume o valor 1 (Figura 3.6).

PSfrag replacements

x

y

f = 0

f = 0

f = 1

f = 1

f = 0

Figura 3.6

O que o exemplo precedente nos permitiu reconhecer pode também ob- servar-se com funções definidas de forma «menos artificial»; para o verificar,

4Salvo no caso de ser n = 1 (isto é, de f ser uma função de uma variável real); em tal caso, vê-se facilmente que os limites direccionais se identificam com os limites laterais f(a+) = limx→a+ f(x) e f(a−) = limx→a− f(x) (mais precisamente, o limite segundo o vector ke1 coincide com f(a+) se k > 0 e com f(a−) se k < 0) e é sabido que a existéncia e igualdade dos dois limites laterais assegura a existência de lim

x→a x 6=a

f(x).

72

3.2. Limite

poderá por exemplo estudar-se, do mesmo ponto de vista, a função racional definida pela expressão:

x2y

x4 + y2 ,

para a qual todos os limites direccionais na origem são nulos, não exis- tindo também limite no mesmo ponto (considere-se, em particular, o limite relativo ao conjunto {(x, x2) : x 6= 0}).

Faremos agora uma breve referência a um outro processo, por vezes muito útil para o cálculo de limites de funções de duas variáveis, ou para a verificação da sua não existência. O processo é correntemente designado por «passagem a coordenadas polares» (no caso de funções de três variáveis reais, poderá usar-se a «passagem a coordenadas esféricas» e, mesmo para n > 3, poderá recorrer-se de forma análoga à aplicação µ : Rn → Rn mencionada no parágrafo 3.1).

Designemos por Σ o subconjunto de R2 formado por todos os pares (r, θ) que verificam a condição r > 0 e consideremos a aplicação µ de Σ em R2 que transforma cada ponto (r, θ) ∈ Σ no ponto (x, y) tal que:{

x = r cos θ

y = r sen θ.

Vê-se imediatamente que, qualquer que seja o número positivo , a recta de equação r =  é transformada5 por µ na circunferência de raio  centrada na origem O do plano xOy; portanto, a faixa plana Σ, constitúıda por todos os pontos (r, θ) tais que 0 < r <  será transformada na bola centrada em O = (0, 0), privada do próprio ponto O (Figura 3.7):

µ(Σ) = B(O)\{O}.

Consideremos agora uma função real f(x, y) que, para maior simplicidade, suporemos definida em R2\{O} (seria imediata a adaptação ao caso de f estar definida num conjunto D tal que O ∈ D̄). Pondo F = f ◦ µ, isto é:

F (r, θ) = f(r cos θ, r sen θ)

para r > 0 e θ ∈ R, logo se vê que o conjunto dos valores que F assume em todos os pontos da faixa Σ coincide com o conjunto dos valores assumidos por f em B(O)\{O}:

F (Σ) = f ( B(O)\{O}

) .

Sendo assim, para que se verifique a igualdade:

lim (x,y)→(0,0)

f(x, y) = b,

5É óbvio que a aplicação µ não é injectiva; qualquer que seja o ponto (r, θ) ∈ Σ e o inteiro k tem-se µ(r, θ+2kπ) = µ(r, θ); porém, como é sabido, a restrição de µ ao conjunto formado pelos pontos (r, θ) tais que r > 0 e 0 ≤ θ < 2π aplica bijectivamente este conjunto em R2\{(0, 0)}.

73

Caṕıtulo 3. Continuidade e limite

PSfrag replacements

x

y

B²(O)\{O}

r

θ

²

Σ²

µ

Figura 3.7

a qual — dado que o ponto O não pertence ao domı́nio de f — significa que, para todo o δ > 0 existe  > 0 tal que (x, y) ∈ B(O)\{O} implica |f(x, y) − b| < δ, é necessário e suficiente que qualquer que seja δ > 0 exista  > 0 por forma que, para todo o ponto (r, θ) pertencente à faixa Σ, se tenha |F (r, θ)− b| < δ.

Noutros termos: a função f(x, y) tende para o limite b quando (x, y) tende para (0, 0) sse F verifica a condição seguinte: para todo o δ > 0 existe  > 0 tal que a desigualdade:

|F (r, θ)− b| < δ

é verificada sempre que seja 0 < r <  (independentemente do valor real atribúıdo a θ).

A t́ıtulo de exemplo, consideremos a função:

f(x, y) = x3 + 3x2y − y3

x2 + y2 ,

para a qual é F (r, θ) = r(cos3 θ + 3 cos2 θ sen θ − sen3 θ)

e portanto

|F (r, θ)| ≤ r(| cos θ|3 + 3| cos θ|2| sen θ|+ | sen θ|3) < 5r;

ter-se-á assim |F (r, θ)| < δ desde que seja 0 < r < δ/5, o que prova que

lim (x,y)→(0,0)

f(x, y) = 0.

Aproveitaremos esta oportunidade para introduzir, num contexto em que surgem de modo natural, algumas ideias cujo alcance transcende, de longe, a questão particular a que iremos aplicá-las. De qualquer modo essas ideias, aliás estreitamente relacionadas com algumas outras que abordámos anteriormente, no estudo das sucessões e séries de funções de uma variável real, permitir-nos-ão esclarecer melhor alguns aspectos do problema que temos vindo a analisar.

74

3.2. Limite

Consideremos uma função g(u, v), definida no conjunto dos pontos (u, v) ∈ R2 tais que u > 0. Se, para cada v0 ∈ R, a função (de uma variável real) f(u, v0) tem limite (finito) quando u → 0+ — limite em ge- ral dependente de v0, que designaremos por h(v0) — diremos que, quando u→ 0+, a função g(u, v) converge pontualmente sobre R para a função h(v) e escreveremos:

lim u→0+

g(u, v) = h(v) (v ∈ R).

Por exemplo, para v ∈ R:

lim u→0+

(u sen v + v cosu) = v

e lim u→0+

e v−|v|

u = H(v),

onde H designa a função de Heaviside (H(v) = 1 se v ≥ 0, H(v) = 0 se v < 0); observe-se que, como mostra o último exemplo, uma função cont́ınua em todo o semiplano u > 0 pode convergir pontualmente, quando u → 0+, para uma função que não é cont́ınua.

De acordo com a definição de convergência pontual, a expressão:

lim u→0+

g(u, v) = h(v) (v ∈ R)

significa que, dado arbitrariamente δ > 0, existe, para cada v0 ∈ R, um  > 0 tal que, para 0 < u < , se verifica a desigualdade

|g(u, v0)− h(v0)| < δ ;

claro que  depende não só de δ como do ponto v0 considerado6, não sendo geralmente posśıvel fixar, para cada δ > 0 um número  — independente de v0 — por forma que a desigualdade precedente seja verificada sempre que se tenha 0 < u <  (e qualquer que seja v0 ∈ R).

Por exemplo, com g(u, v) = u(1 + v2), função que suporemos definida no semiplano u > 0, tem-se

lim u→0+

g(u, v) = 0 (v ∈ R).

Mas se fixarmos δ, por exemplo, no valor 1, não existirá  > 0 tal que, para 0 < u <  e v real arbitrário, se tenha |g(u, v)| < 1; para o reconhecer, basta notar que esta desigualdade equivale a:

0 < u < 1

1 + v2

e que o conjunto dos números da forma 1/(1 + v2), com v ∈ R, tem ı́nfimo nulo (ver Figura 3.8).

6Esta frase é pouco precisa: pode talvez sugerir que  ficaria univocamente determinado se se fixassem δ e v0, o que é obviamente falso.

75

Caṕıtulo 3. Continuidade e limite

PSfrag replacements u

v

v1

v0

1

1

1 + v2 0

1

1 + v2 1

Figura 3.8

Assim, o facto de g(u, v) convergir pontualmente sobre R para a função h(v), quando u → 0+, não garante que seja verificada a condição seguinte: qualquer que seja δ > 0 existe uma faixa Σ (de largura «uniforme» , independente de v) tal que, para todo o ponto (u, v) ∈ Σ, se tenha |g(u, v)− h(v)| < δ.

Precisamente quando esta última condição se verifica é que dizemos que g(u, v) converge uniformemente sobre R para a função h(v), quando u→ 0+ (e de forma análoga se define a convergência uniforme sobre um conjunto qualquer A ⊂ R).

A noção de convergência uniforme é muito importante em Análise. Em diversas situações, com a convergência pontual (que decerto parece mais natural num primeiro contacto) verificam-se «anomalias» que não são pos- śıveis quando a convergência é uniforme: por exemplo, vimos há pouco que uma função cont́ınua pode convergir pontualmente para uma função não cont́ınua; com convergência uniforme, isso não é posśıvel (prová-lo seria neste momento um bom exerćıcio).

Voltemos agora à questão que nos serviu de pretexto para introduzir estas ideias; seja f(x, y) uma função real definida em R2\{(0, 0)} e F (r, θ) = f(r cos θ, r sen θ). As conclusões que obtivemos podem agora sintetizar-se do modo seguinte: a condição lim(x,y)→(0,0) f(x, y) = b é verificada sse, quando r → 0+, F (r, θ) converge uniformemente sobre R para a (função) constante b.

Por outro lado, é fácil ver que o facto de F (r, θ) convergir pontualmente sobre R, quando r → 0+, corresponde precisamente à existência de todos os limites direccionais de f(x, y) no ponto (0, 0); no entanto, mesmo que o limite (pontual) seja uma constante, b (caso em que os limites direccionais

76

3.2. Limite

serão todos iguais a b) a função f só terá limite na origem se a convergência de F (r, θ) para b for uniforme.

Assim, no caso já atrás considerado de

ψ(x, y) = xy

x2 + y2 ,

como a função

ψ(r cos θ, r sen θ) = 1 2 sen 2θ,

independente de r, converge pontualmente (e até uniformemente) sobre R para si própria quando r → 0+, existem todos os limites direccionais de ψ na origem; porém, não sendo estes limites todos iguais (visto que a função 1 2 sen 2θ não é constante), ψ não tem limite neste ponto, como já sab́ıamos.

Como último exemplo, considere-se a função:

f(x, y) = H

(√ x2 + y2 − y√

x2 + y2

) +H

( y√

x2 + y2 − √ x2 + y2

) ,

onde H designa de novo a função de Heaviside. Passando a coordenadas polares obtém-se:

F (r, θ) = H(r − sen θ) +H(sen θ − r),

isto é, a função, definida no semiplano r > 0 e que assume o valor 1 em todos os pontos (r, θ) deste semiplano, com excepção dos que verificam a condição r = sen θ, nos quais toma o valor 2.

Vê-se facilmente que:

lim r→0+

F (r, θ) = 1 (θ ∈ R)

sendo portanto iguais a 1 todos os limites direccionais de f na origem. Porém, como a convergência expressa na fórmula precedente não é uniforme sobre R (basta observar que, em qualquer faixa Σ há pontos (r, θ) com r = sen θ) pode concluir-se que f não tem limite no ponto (0, 0).

Terminaremos este parágrafo com uma breve referência a algumas variantes da noção de limite não enquadradas no estudo anterior (mas tão naturais que quase podeŕıamos dispensar-nos de mencioná-las explicitamente) e com a introdução de uma notação que nos será útil na sequência.

Sendo f uma função real definida num conjunto D ⊂ Rn e a um ponto aderente a D, diz-se que f(x) tende para +∞ quando x tende para a, e escreve-se:

lim x→a

f(x) = +∞,

sse, para todo o k > 0 existe  > 0 tal que, para qualquer ponto x ∈ D que verifique a condição ‖x− a‖ <  se tenha f(x) > k.7

7Observe-se que, de acordo com esta definição, uma função real cujo domı́nio contenha o ponto a não poderá ter limite +∞ nesse ponto.

77

Caṕıtulo 3. Continuidade e limite

De maneira análoga se atribui sentido à expressão:

lim x→a

f(x) = −∞.

Assim, ter-se-á, por exemplo:

lim (x,y,z)→(0,0,0)

1√ x2 + y2 + z2

= +∞.

Convém também algumas vezes considerar o limite de uma função real ou vectorial f(x) quando x se «afasta indefinidamente (da origem)»; sendo f uma função definida num conjunto não limitado D ⊂ Rn e com valores em Rm e b um vector deste espaço, escreve-se:

lim ‖x‖→+∞

f(x) = b

sse para todo o δ > 0 existe k tal que, sempre que um ponto x ∈ D verifique a condição ‖x‖ > k se tenha ‖f(x)− b‖ < δ.

Por exemplo, sendo a um vector qualquer de Rn e x ∈ Rn, tem-se:

lim ‖x‖→+∞

a · x ‖x‖2

= 0 ;

basta notar que, para x 6= 0,∣∣∣∣a · x‖x‖2 ∣∣∣∣ = |a · x|‖x‖2 ≤ ‖a‖‖x‖‖x‖2 = ‖a‖‖x‖

e que portanto a desigualdade ∣∣∣ a·x‖x‖2 ∣∣∣ < δ será verificada desde que seja ‖x‖ >

‖a‖/δ. De forma óbvia se atribuiria ainda um sentido a expressões tais como:

lim ‖x‖→+∞

f(x) = +∞, lim ‖x‖→+∞

g(x) = −∞,

com f e g funções reais.

Seja D um subconjunto de Rn e a um ponto interior a D.8 Sendo f uma função definida em D e com valores em Rm diremos, naturalmente, que f é um infinitésimo no ponto a (ou quando x → a) sse limx→a f(x) = 0, onde 0 é o vector nulo de Rm.

Seja agora ϕ uma função real definida em D, verificando a condição ϕ(x) 6= 0 para todo o x ∈ D\{a}, e seja ainda f : D → Rm; diremos que f é desprezável em relação a ϕ no ponto a (ou quando x → a) e escreveremos:

f = o(ϕ) (quando x → a) 8Para introduzir as ideias e notações subsequentes bastaria supôr que a era um ponto ade-

rente a D; porém a hipótese a ∈ intD é a única que nos vai interessar no cálculo diferencial e, admitindo-a, simplificam-se ligeiramente alguns dos enunciados deste parágrafo.

78

3.2. Limite

(ou apenas f = o(ϕ), quando o ponto a estiver claramente fixado) sse existir uma função f ∗ : D → Rm, infinitésima no ponto a e tal que:

f(x) = ϕ(x)f ∗(x),

para todo o x ∈ D.

No caso de ser ϕ(a) 6= 0 (e portanto ϕ(x) 6= 0 para todo o x ∈ D), tem-se f = o(ϕ) sse:

lim x→a

f(x) ϕ(x)

= 0.

Se for ϕ(a) = 0, a relação f = o(ϕ) equivale à conjunção das condições:

lim x→a

f(x) ϕ(x)

= 0 e f(a) = 0

(observe-se que neste caso, não pertencendo o ponto a ao domı́nio de f(x)/ϕ(x), a primeira das referidas condições não implica a segunda, que é indispensável para que a relação f = o(ϕ) seja verificada).

Por exemplo, com m = n = 1, a = 0 e sendo:

f(x) = x, g(x) = x3, h(x) = 1,

tem se: g = o(f), f = o(h), g = o(h),

relações que se escrevem correntemente na forma:

x3 = o(x), x = o(1), x3 = o(1).

Tem-se também, com m = 1, n = 2 e a = (0, 0):

x2 − y2 = o (√

x2 + y2 ) ,

o que pode ainda escrever-se:

x2 = y2 + o (√

x2 + y2 ) .

Para utilização posterior convém observar desde já (voltando ao caso geral e supondo fixado um dado ponto a) que as relações:

f = o(ϕ) e f = o(|ϕ|)

são equivalentes. Verificaremos apenas que a condição f = o(ϕ) implica f = o(|ϕ|), dado que a prova da implicação oposta é idêntica.

79

Caṕıtulo 3. Continuidade e limite

Na realidade, existindo uma função f ∗ : D → Rm, infinitésima no ponto a e tal que f(x) = ϕ(x)f ∗(x) para x ∈ D, bastará pôr, por definição:

f̄(x) =

{ ϕ(x) |ϕ(x)|f

∗(x) se x ∈ D\{a} 0 se x = a,

para que se tenha f(x) = |ϕ(x)|f̄(x), sendo f̄ : D → Rm infinitésima no ponto a. É óbvio que a condição f = o(1), quando x → a, significa precisamente que

f é infinitésima no ponto a (convirá talvez notar que, em geral, o facto de se ter f = o(ϕ) não assegura que f seja um infinitésimo: por exemplo, se for f(x) = 1 e ϕ(x) = 1/x para x ∈ R\{0} , com f(0) = ϕ(0) = 0, a condição f = o(ϕ) quando x → 0 será verificada). E é também evidente que, se ϕ for um infinitésimo no ponto a e se tiver f = o(ϕ), f será também infinitésima no mesmo ponto.

Neste último caso, costuma-se dizer que f é um infinitésimo de ordem superior à de ϕ no ponto a; a ideia intuitiva é a de que, quando x → a, f(x) tende para 0 «mais rapidamente» do que ϕ(x) tende para 0.

Um caso de especial importância é o de ϕ(x) ser uma função da forma:

ϕ(x) = ‖x− a‖α,

com α real positivo e x ∈ D ⊂ Rn. Para se exprimir que a condição:

f(x) = o(‖x− a‖α)

é verificada, diz-se que f é um infinitésimo de ordem superior a α, no ponto a. Interessar-nos-á muito especialmente no próximo caṕıtulo o caso particular dos infinitésimos de ordem superior a 1, que também se dizem infinitésimos de ordem superior à primeira e que são portanto as funções para as quais se tem:

f(x) = o(‖x− a‖) (quando x → a)

Como exemplo, mencione-se que a função sen2(x + y) é um infinitésimo de ordem superior à primeira (e também de ordem superior a α, para qualquer α ∈ ]0, 2[) quando (x, y)→ (0, 0).

Consideremos novamente um conjunto D ⊂ Rn, um ponto a ∈ D e duas funções f : D → Rm e ϕ : D → R, supondo ainda que ϕ(x) 6= 0 para todo o x ∈ D\{a}. No caso de existir  > 0 e uma função f ∗ : D → Rm, limitada em B(a), por forma que se verifique a igualdade:

f(x) = ϕ(x)f ∗(x)

em todo o ponto x ∈ D, diremos que f é dominada por ϕ no ponto a (ou quando x → a) e escreveremos:

f = O(ϕ) (quando x → a),

ou, se não houver risco de confusão, apenas f = O(ϕ).

80

3.2. Limite

É claro que, se ϕ(a) 6= 0, dizer que f = O(ϕ) equivale a dizer que o cociente f(x)/ϕ(x) é limitado nalguma bola centrada no ponto a; se for ϕ(a) = 0, porém, a condição f = O(ϕ) será verificada sse esse cociente (definido em D\{a}) for limitado na intersecção do seu domı́nio com uma bola B(a) e se, além disso, for f(a) = 0.

Assim, por exemplo, ter-se-á (com m = 1, n = 2 e sendo a a origem):

x2 = y2 +O(x2 + y2).

Outro exemplo, que será útil na sequência: sendo f : Rn → Rm uma apli- cação linear, verifica-se a relação f(x) = O(‖x‖); é o que imediatamente se reconhece tendo em conta que (como vimos na pág. 48 ao provar a continuidade das aplicações lineares) pode garantir-se a existência de uma constante C tal que ‖f(x)‖ ≤ C‖x‖, qualquer que seja x ∈ Rn.

Indicaremos agora algumas propriedades das relações expressas pelos śımbolos «O» e «o», que utilizaremos eventualmente em caṕıtulos seguintes; as demons- trações, com base nas definições dos referidos śımbolos e em propriedades bem conhecidas das noções de limite e de função limitada, poderão ficar como exerćı- cios.

Supondo verificadas as condições: D ⊂ Rn; a ∈ D; f, g : D → Rm; α, ϕ, ψ : D → R e ainda que os śımbolos o(ϕ), O(ϕ), o(ψ), etc., se referem todos ao mesmo ponto a, tem-se:

• Se f = o(ϕ), então também f = O(ϕ).

• Se f = o(ϕ) e g = o(ϕ), então f ± g = o(ϕ); se f = O(ϕ) e g = O(ϕ), f ± g = O(ϕ) (estas proposições exprimem-se por vezes, de forma algo imprecisa, escrevendo: o(ϕ)± o(ϕ) = o(ϕ), O(ϕ)±O(ϕ) = O(ϕ)).

• Se f = o(ϕ) e α = O(ψ) (ou f = O(ϕ) e α = o(ψ)), então αf = o(ϕψ) (abreviadamente: O(ψ)o(ϕ) = o(ψ)O(ϕ) = o(ϕψ)).

• Se f = o(ϕ) e g = O(ψ) (ou f = O(ϕ) e g = o(ψ)) então f ·g = o(ϕψ) ( o(ϕ) ·

O(ψ) ) = o(ϕψ), etc.)

Vem aqui a propósito transcrever (do livro «Introdução à Análise Matemá- tica», do mesmo autor) os dois parágrafos seguintes (adaptados à situação pre- sente):

As notações «O» e «o», devidas ao matemático alemão Landau, são usadas frequentemente em textos de Matemática e, em determinadas situações, a sua utilidade é manifesta. No entanto, do ponto de vista da coerência lógica, po- dem merecer algum reparo (por exemplo, contrariamente às regras usuais, das igualdades f = o(ϕ), g = o(ϕ) não pode deduzir-se f = g; e é óbvio que de o(ϕ) + o(ϕ) = o(ϕ) não decorre o(ϕ) = 0).

Seria na realidade prefeŕıvel, em lugar de f = o(ϕ), escrever f ∈ o(ϕ), enca- rando o śımbolo o(ϕ) como representativo de um conjunto de funções definido de

81

Caṕıtulo 3. Continuidade e limite

maneira conveniente. Não é isto, porém, o que se faz na generalidade dos textos e a verdade é que, do ponto de vista prático, o uso das notações de Landau é muitas vezes cómodo e não conduz a qualquer confusão nos casos habituais.

82

Caṕıtulo 4

Cálculo diferencial

4.1 Introdução. Alguns aspectos da diferenciabilidade, para funções de uma variável real

Este parágrafo tem carácter introdutório e, salvo por razões de ordem pedagógica, poderia mesmo ser omitido. A noção fundamental do cálculo diferencial — a de derivada — será aqui considerada apenas no quadro das funções reais de variável real, procurando-se destacar alguns aspectos que (embora neste momento possam parecer um pouco rebuscados) virão a constituir a chave para as generalizações a empreender em parágrafos seguintes.

Se pensarmos nas razões do interesse vital do conceito de derivada no estudo das funções de variável real, poderemos detectar dois aspectos distintos, embora estreitamente relacionados.

Em primeiro lugar, a derivada surge como o instrumento natural para medir, localmente, a «taxa de variação» de uma função.

Como é bem sabido, no caso muito particular de uma função polinomial de grau ≤ 1, ϕ(x) = mx + b, que tem por gráfico uma recta, é natural adoptar o declive m dessa recta como uma medida da «taxa de variação» da função: atribúıdo um dado acréscimo positivo à variável x, quanto maior for |m| maior será, em valor absoluto, o acréscimo (positivo ou negativo consoante m > 0 ou m < 0) sofrido por ϕ(x). Mais geralmente, sendo f uma função real cujo domı́nio contenha um intervalo aberto I ⊂ R e a, a + h dois pontos distintos de I, o cociente:

f(a+ h)− f(a) h

pode ser encarado como uma medida da «taxa média de variação» de f , por unidade de comprimento, entre os pontos a e a + h, e o limite desse cociente quando h→ 0 (se existir) será um indicador natural da maior ou menor «rapidez» com que varia f(x) quando x se afasta (pouco) do ponto a.

Veremos no ińıcio do parágrafo seguinte como podem estender-se ao caso das funções de n variáveis reais as ideias que acabamos de expor (aliás de forma um tanto imprecisa).

83

Caṕıtulo 4. Cálculo diferencial

Uma outra ordem de ideias que está na base do interesse fundamental do conceito de derivada insere-se no quadro da «aproximação funcional»; quando, ao pretender estudar uma função sob determinado ponto de vista se depara com dificuldades muito consideráveis, é natural pensar em substitúı-la por outra fun- ção «mais simples», que permita ainda obter a informação pretendida sem erro excessivo.

Para concretizar as ideias, suponha-se que se conhecia o valor de uma função f no ponto 0 e se pretendia avaliar f(x) num ponto x «próximo» de 0.

Na ausência de qualquer outra informação sobre f , nada poderia fazer-se. Mas se se soubesse que f era cont́ınua na origem, já se tornaria razoável usar, como valor aproximado de f(x), o valor conhecido f(0). Ao fazê-lo cometer-se-ia um erro:

r0(x) = f(x)− f(0),

do qual se saberia apenas que era um infinitésimo na origem (r0(x) = o(1)), quando x → 0 e que, portanto, seria decerto «muito pequeno» se x estivesse «suficientemente próximo» de 0.

É claro que este conhecimento seria demasiado escasso para permitir uma ma- joração do erro em termos quantitativos, que só poderia obter-se se se dispusesse de muito mais informação sobre a função f ; no entanto, em determinadas situa- ções concretas, poderia já ter alguma utilidade.

Admitamos agora que a função era, não apenas cont́ınua, mas diferenciável na origem, sendo também conhecido o valor f ′(0). Seria então prefeŕıvel, em prinćıpio, adoptar como valor aproximado de f(x) o número f(0) + f ′(0)x (o que corresponderia a usar como aproximação do gráfico de f a sua tangente no ponto( 0, f(0)

) , em vez da horizontal de equação y = f(0) (Figura 4.1).

PSfrag replacements

xx

y

0

r0(x) r1(x)

Figura 4.1

0 erro correspondente a esta nova aproximação seria:

r1(x) = f(x)− f(0)− f ′(0)x,

verificando-se imediatamente que, quando x → 0, se teria, não só r1(x) = o(1), mas também r1(x) = o(x); assim, o erro seria agora um infinitésimo de ordem superior à primeira no ponto 0 (de acordo com a definição introduzida no parágrafo

84

4.1. Introdução

precedente, esta última afirmação significa que r1(x) = o(|x|); mas vimos também que esta condição equivale a r1(x) = o(x)).

Poderia prosseguir-se nesta ordem de ideias,1 mas não é isso o que nos inte- ressa agora. Convém-nos antes salientar um aspecto, que talvez não pareça muito significativo à primeira vista, mas que acabará por revelar-se essencial. A obser- vação que queremos fazer é a seguinte: no caso de f ser diferenciável na origem, há um e um só número real m que verifica a condição

f(x)− f(0) = mx+ o(x)

(precisamente o número m = f ′(0)); no caso de f não ser diferenciável na origem, nenhum número verifica a condição referida.

Para verificar estas afirmações basta notar que, se existe (pelo menos) um m ∈ R satisfazendo a condição em causa, se tem necessariamente, em qualquer ponto x do domı́nio de f distinto de 0:

f(x)− f(0) x

= m+ o(x) x

,

donde, atendendo a que o segundo membro tende para m quando x → 0, pode concluir-se que f é diferenciável na origem e que f ′(0) = m; e é óbvio que, reciprocamente, sendo f diferenciável na origem, o número m = f ′(0) satisfaz a condição em referência.

Assim, dizer que f é diferenciável no ponto 0 equivale a afirmar a existência de um real m (que aliás será único) tal que o produto mx aproxima o acréscimo f(x) − f(0) com um erro que é um infinitésimo de ordem superior à primeira quando x→ 0.

Para podermos dar a esta condição de diferenciabilidade a forma que nos interessará definitivamente, convém recordar (como aliás foi feito no parágrafo 3.1) que uma aplicação linear de Rq em Rp pode sempre repre- sentar-se por uma matriz de elementos reais do tipo p × q, sendo bijectiva a correspondência entre estas matrizes e aquelas aplicações. Daqui decorre imediatamente que as aplicações lineares de R em si mesmo (caso p = q = 1) se correspondem bijectivamente com as matrizes do tipo [m], com um só elemento real, isto é, com os próprios números reais.

Na realidade, qualquer aplicação linear L : R → R é representável na forma:

L(x) = mx (x ∈ R),

em que m é um número real determinado univocamente pela aplicação L (m é precisamente o valor de L no ponto 1) e, em sentido inverso, a todo o número real m pode associar-se, por meio da fórmula precedente, uma única aplicação linear de R em si mesmo.

1Como é sabido, poderia em particular reconhecer-se que uma função n vezes diferenciável na origem é aproximável por um polinómio de grau ≤ n, o seu polinómio de Mac-Laurin, com um erro rn(x) = o(xn).

85

Caṕıtulo 4. Cálculo diferencial

Tendo em conta o resultado expresso na nota anterior — segundo o qual as aplicações lineares de R em si mesmo podem praticamente «identificar-se» com os próprios números reais — podeŕıamos então dizer que, para que f seja diferenciável na origem, é necessário e suficiente que exista uma aplicação linear L0 : R → R tal que, em todo o ponto x do domı́nio de f , se verifique a igualdade:

f(x)− f(0) = L0(x) + o(x).

Considerando, em vez da origem, um ponto qualquer a ∈ R (e uma função f cujo domı́nio contivesse uma vizinhança do ponto a) obteŕıamos de forma análoga a conclusão seguinte: f é diferenciável no ponto a sse existe uma aplicação linear La : R → R tal que, em qualquer ponto x do domı́nio de f , se tenha:

f(x)− f(a) = La(x− a) + o(x− a),

ou, pondo x− a = h:

f(a+ h)− f(a) = La(h) + o(h),

(para todo o real h tal que a+ h pertença ao domı́nio de f). Por exemplo, para f(x) = x3 tem-se, em qualquer ponto a ∈ R:

(a+ h)3 − a3 = 3a2h+ 3ah2 + h3,

com h real arbitrário. Neste caso, a aplicação linear La é definida por La(h) = 3a 2h

para todo o h ∈ R, sendo o termo de erro 3ah2 + h3, que é evidentemente o(h); o número real 3a2, que determina a aplicação linear La, é precisamente f

′(a). Pode assim dizer-se que as funções diferenciáveis no ponto a são precisamente

aquelas cujo acréscimo, f(a + h) − f(a), pode ser aproximado por uma função linear de h, sendo o erro correspondente a essa aproximação um infinitésimo de ordem superior à primeira quando h → 0 (em termos mais intuitivos: a menos de um infinitésimo de ordem superior à primeira, o acréscimo da função é uma função linear do acréscimo da variável independente).

Convirá reter esta conclusão porque, como veremos, ela será a base mais con- veniente para a generalização do conceito de derivada ao caso das funções, reais ou vectoriais, de variável vectorial.

4.2 Cálculo diferencial de primeira ordem: derivadas parciais, diferenciabilidade; teorema do valor médio

Seja f(x, y) uma função real definida num conjunto D ⊂ R2 e (a, b) um ponto interior a D; procuraremos agora avaliar a «taxa de variação» de f(x, y) quando se atribuam «pequenos acréscimos» ao ponto (x, y), a partir da posição (a, b) (Figura 4.2).

86

4.2. Cálculo diferencial de primeira ordem

PSfrag replacements

xa

y

b

D

Figura 4.2

Convém observar já que, enquanto no caso das funções de uma variável os «acréscimos» posśıveis tinham todos a mesma direcção — a do eixo das abcissas — agora podemos considerar acréscimos (h, k) com qualquer das direcções do plano (deverá naturalmente exigir-se que o ponto (a + h, b + k) pertença ainda ao domı́nio de f , mas isso decerto se verificará se o módulo do vector (h, k) for suficientemente pequeno, visto que supusemos que o ponto (a, b) era interior a D); e será natural esperar que, em geral, a «taxa de variação» de f dependa da direcção considerada (assim, por exemplo, se f(x, y) designasse a temperatura no ponto (x, y), situado no chão de uma oficina com um forno em funcionamento e uma porta aberta para o exterior, era de esperar que a temperatura aumentasse rapidamente nas direcções que conduziam ao forno e diminuisse nas que levavam à sáıda).

Para maior simplicidade, consideremos em primeiro lugar duas direcções «pri- vilegiadas»: as dos eixos coordenados. Se (h, k) tiver a direcção do eixo dos x — isto é, se for k = 0 e h 6= 0 — a «razão incremental» a considerar será:

f(a+ h, b)− f(a, b) h

Ao limite desta razão quando h → 0, se existir, chama-se derivada parcial da função f , no ponto (a, b), em ordem à primeira variável, usando-se para designá- la qualquer dos śımbolos: D1f(a, b), f ′1(a, b) ou, se estiver convencionado que a primeira variável é designada por x, Dxf(a, b), f ′x(a, b), ∂f/∂x(a, b); quando se tenha escrito z = f(x, y), poderá usar-se ainda o śımbolo ∂z/∂x(a, b) para designar a mesma derivada.

Reconhece-se imediatamente que a derivada parcial ∂f/∂x(a, b), quando existe, coincide com a derivada (ordinária) no ponto a de uma função de uma única variável real: precisamente a «função parcial» ϕ que se obtém de f por fixação de y no valor b. Com efeito, pondo ϕ(x) = f(x, b), tem-se (desde que exista uma das

87

Caṕıtulo 4. Cálculo diferencial

derivadas ϕ′(a) ou ∂f/∂x(a, b)):

ϕ′(a) = lim h→0

ϕ(a+ h)− ϕ(a) h

= lim h→0

f(a+ h, b)− f(a, b) h

= ∂f

∂x (a, b).

De forma análoga se define a derivada parcial de f no ponto (a, b), em ordem à segunda variável (ou em ordem a y), designada por D2f(a, b), Dyf(a, b), f ′y(a, b), ∂f/∂y(a, b), etc.:

∂f

∂y (a, b) = lim

k→0

f(a, b+ k)− f(a, b) k

.

Quando existe, esta derivada coincide com a derivada ordinária da função ψ(y) = f(a, y) no ponto b.

Por exemplo, sendo z = f(x, y) = x2 + senxy e (a, b) ∈ R2, as funções parciais a considerar serão:

ϕ(x) = x2 + sen bx, ψ(y) = a2 + sen ay,

obtendo-se portanto:

∂z

∂x (a, b) = ϕ′(a) = 2a+ b cos ab

e ∂z

∂y (a, b) = ψ′(b) = a cos ab.

Considerando em vez de (a, b) um ponto qualquer (x, y) — cuja indicação expĺıcita a seguir aos śımbolos ∂z/∂x, ∂z/∂y é muitas vezes omitida — poderia escrever-se:

∂z

∂x = 2x+ y cosxy

∂z

∂y = x cosxy.

Na prática, para calcular a primeira destas derivadas parciais, derivar-se-ia o segundo membro da igualdade z = x2 + sen xy em ordem a x pelas regras usuais da derivação ordinária, considerando y como se fosse uma constante; e de modo análogo para ∂z/∂y. Com efeito, o facto da derivação parcial se reduzir à derivação ordinária da função parcial correspondente torna óbvio que as regras de derivação habituais no caso de uma variável manterão inteira validade para o cálculo de derivadas parciais.

Trataremos agora do problema da derivação em termos mais gerais. Sendo v = (α, β) um vector qualquer de R2, consideremos as equações paramétricas da

88

4.2. Cálculo diferencial de primeira ordem

recta r que passa por (a, b) e tem a direcção do vector v (Figura 4.3):{ x = a+ tα

y = b+ tβ (t ∈ R).

PSfrag replacements

xa

y

b

r

v

D

Figura 4.3

Tendo em conta que o ponto (a, b) se supôs interior ao conjunto D, logo se vê que, compondo a função f com a aplicação t → (x, y) definida pelas equações precedentes, se obterá uma função ϕv(t) = f(a+tα, b+tβ), definida num conjunto ao qual o ponto 0 será interior; em qualquer ponto deste conjunto distinto da origem ter-se-á então:

ϕv(t)− ϕv(0) t

= f(a+ tα, b+ tβ)− f(a, b)

t .

Ao limite de qualquer destas razões quando t → 0 (se existir) chamaremos derivada da função f , no ponto (a, b), segundo o vector v; designá-lo-emos por qualquer dos śımbolos Dvf(a, b), ∂f/∂v(a, b), f ′v(a, b).

Ter-se-á portanto:

Dvf(a, b) = lim t→0

f(a+ tα, b+ tβ)− f(a, b) t

= ϕ′v(0)

sempre que o limite exista; assim, também a derivação segundo um vector arbi- trário pode reduzir-se à derivação ordinária.

No caso particular de v ser um vector unitário (‖v‖ = √ α2 + β2 = 1), o

comprimento do segmento de recta de extremos (a, b) e (a + tα, b + tβ) é igual a |t| e a razão incremental:

f(a+ tα, b+ tβ)− f(a, b) t

pode interpretar-se como uma «taxa média de variação» de f , por unidade de comprimento, ao longo do referido segmento; nesse caso é habitual chamar a ∂f/∂v(a, b) a derivada direccional de f na direcção (e sentido) de v.

89

Caṕıtulo 4. Cálculo diferencial

As derivadas parciais são casos particulares do conceito de derivada direcci- onal: ∂f/∂x(a, b) é evidentemente a derivada de f em (a, b) segundo o vector unitário e1 = (1, 0) e, analogamente, tem-se ∂f/∂y(a, b) = ∂f/∂e2(a, b) (admitida a existência de tais derivadas).

Como exemplo, consideremos a função definida em R2 pela fórmula: z = x2y, um ponto qualquer (a, b) e um vector v = (α, β); ter-se-á:

∂z

∂v (a, b) = lim

t→0

(a+ tα)2(b+ tβ)− a2b t

= 2abα + a2β.

Em particular, para v = e1 e v = e2, obtêm-se as derivadas parciais:

∂z

∂x (a, b) = 2ab,

∂z

∂y (a, b) = a2.

Do facto de a derivação segundo um vector se poder reduzir à derivação ordiná- ria decorre facilmente a validade das regras de derivação usuais no novo caso. As- sim, por exemplo, sendo f, g funções reais definidas num conjunto D ⊂ R2, (a, b) ∈ intD e v ∈ R2, se existirem (finitas) as derivadas ∂f/∂v(a, b) e ∂g/∂v(a, b), exis- tirão também as derivadas das funções f + g, f − g e fg segundo o vector v, no ponto (a, b) e verificar-se-ão as igualdades:

∂(f ± g) ∂v

(a, b) = ∂f

∂v (a, b)± ∂g

∂v (a, b),

∂(fg)

∂v (a, b) =

∂f

∂v (a, b)g(a, b) + f(a, b)

∂g

∂v (a, b);

se, além disso, for g(x, y) 6= 0 em D — ou numa bola centrada em (a, b) — ter-se-á também:

∂ ( f g

) ∂v

(a, b) = ∂f ∂v (a, b)g(a, b)− f(a, b) ∂g

∂v (a, b)

[g(a, b)]2 ,

etc.

Nas condições anteriormente fixadas sobre D, (a, b) e v, consideremos agora o conjunto de todas as funções f : D → R que admitem, no ponto (a, b), uma derivada (finita) segundo o vector v. É fácil ver que este con- junto, munido das operações usuais de adição de funções e de multiplicação de um número real por uma função, é um espaço vectorial real; além disso, mostram as relações (onde omitimos a indicação do ponto (a, b)):

Dv(f + g) = Dv(f) +Dv(g)

e Dv(cf) = cDv(f),

válidas para quaisquer funções f, g do referido espaço e qualquer real c, que a aplicação (desse espaço vectorial em R) que faz corresponder a cada função f o número Dvf(a, b) é uma aplicação linear.

90

4.2. Cálculo diferencial de primeira ordem

Por outro lado, tem também interesse ver como varia a derivada se, fixando a função f e o ponto (a, b), substituirmos o vector v = (α, β) por outro vector com a mesma direcção, cv (com c ∈ R \ {0}); ter-se-á, sempre que exista algum dos limites considerados:

Dcvf(a, b) = lim t→0

f(a+ tcα, b+ tcβ)− f(a, b) t

= c lim t→0

f(a+ tcα, b+ tcβ)− f(a, b) tc

= cDvf(a, b).

Este resultado poderia talvez sugerir a questão seguinte: será também verdade que, se existirem as derivadas de f segundo dois vectores quaisquer v1, e v2, existirá necessariamente a derivada Dv1+v2f (sempre no ponto (a, b), cuja indicação omitimos) verificando-se a relação:

Dv1+v2f = Dv1f +Dv2f?

Se tal conjectura fosse verdadeira, esta relação, em conjunto com a igualdade acima provada (apenas no caso c 6= 0, mas também obviamente válida se for c = 0), Dcvf = cDvf , traduziriam um «comportamento linear» da operação de derivação, já não a respeito das funções sobre as quais actua, mas relativamente aos vectores v ∈ R2 segundo os quais essa operação é efectuada.

Veremos oportunamente que a resposta à questão anterior é afirmativa, quando se considerem apenas funções com um certo grau de «regularidade»; em geral, porém, essa resposta é negativa, como vamos ver.

Para esse efeito, consideremos em primeiro lugar a função f : R2 → R definida pela forma seguinte:

f(x, y) =

{ 0 se xy = 0√ x2 + y2 se xy 6= 0.

Reconhece-se imediatamente que

De1f(0, 0) = ∂f

∂x (0, 0) = 0

De2f(0, 0) = ∂f

∂y (0, 0) = 0

e, portanto, quaisquer que sejam c1, c2 ∈ R,

Dc1e1f(0, 0) = 0 = Dc2e2f(0, 0).

Porém, se for v = c1e1 +c2e2 um vector com direcção distinta das dos eixos coordenados (c1c2 6= 0) não existirá a derivada Dvf(0, 0), visto que não existe o limite quando t→ 0 da função:

f(c1t, c2t)− f(0, 0) t

= √ c21 + c

2 2

|t| t .

91

Caṕıtulo 4. Cálculo diferencial

Mostra este exemplo que podem existir as derivadas de f segundo dois vectores e não existir a derivada segundo a sua soma; mas é fácil ver que, mesmo que esta última derivada também exista, poderá não ser igual à soma das duas primeiras. Para tal, basta considerar a função definida por:

g(x, y) =

{ 0 se xy = 0 x+ y se xy 6= 0.

e verificar, por exemplo, que De1+e2g(0, 0) = 2, enquanto De1g(0, 0) = De2g(0, 0) = 0.

Contrariamente ao que talvez pudesse ser sugerido, a uma primeira vista, por certos resultados válidos no caso das funções de uma variável (no qual, por exemplo, o facto de uma função ter derivada finita num ponto garante a sua continuidade nesse ponto e até a possibilidade de uma «boa aproximação linear», no sentido indicado na parte final do parágrafo 4.1), para funções de duas variáveis reais a existência de derivadas parciais finitas num ponto não assegura sequer que a função nele seja cont́ınua; aliás, não seria dif́ıcil prevê-lo se se tivesse em conta que a existência ou não existência das derivadas ∂f/∂x(a, b) e ∂f/∂y(a, b), bem como os valores que elas eventualmente assumam, dependem apenas dos valores de f em pontos situados sobre as rectas de equações y = b e x = a, não sendo portanto afectados por uma alteração arbitrária da função nos pontos do seu domı́nio não pertencentes a qualquer dessas rectas (alteração que certamente poderia afectar a continuidade de f em (a, b)).

Mais dif́ıcil, porém, seria imaginar que uma função de duas variáveis reais poderia ter derivada (finita), num dado ponto, segundo qualquer vector v ∈ R2 e não ser cont́ınua nesse ponto. No entanto, um exemplo a que já nos referimos no parágrafo 3.2, o da função f : R2 → R definida por:

f(x, y) =

{ 1 se x 6= 0 e y = x2

0 se x = 0 ou y 6= x2,

permite reconhecê-lo facilmente. Na verdade é óbvio que, para qualquer vector v ∈ R2 , se tem Dvf(0, 0) = 0 e já sabemos que f não é cont́ınua na origem.

Recorde-se que, no caso das funções de uma variável, a noção de diferenciabili- dade foi definida pela forma seguinte: dizia-se que uma função era diferenciável no ponto a sse tivesse derivada finita nesse ponto; nestas condições, poderia ocorrer que, para funções de duas variáveis, se adoptasse um conceito «análogo», dizendo que f(x, y) era diferenciável no ponto (a, b) sse existissem (finitas) as derivadas parciais ∂f/∂x(a, b) e ∂f/∂y(a, b) ou, mais restritivamente, todas as derivadas ∂f/∂v(a, b), com v vector arbitrário de R2. As considerações anteriores, porém, revelam que uma tal noção de «diferenciabilidade» não possuiria pelo menos uma das propriedades essenciais verificadas no caso das funções de variável real (a de «diferenciabilidade implicar continuidade»); além disso, será fácil ver poste- riormente (o último exemplo indicado poderá servir ainda para esse efeito) que

92

4.2. Cálculo diferencial de primeira ordem

também não ficaria garantida a existência de uma «boa aproximação linear» para as funções diferenciáveis, se esta noção fosse definida por qualquer dos modos há pouco referidos.

A conclusão a tirar é a de que não serão estas as vias convenientes para a generalização do conceito de diferenciabilidade ao caso das funções de duas ou mais variáveis reais. Antes de vermos qual a ordem de ideias que convirá adoptar, vamos estender rapidamente, para funções reais ou vectoriais de n variáveis, as noções definidas na parte inicial deste parágrafo.

Seja D um subconjunto de Rn, a um ponto interior a D e f : D → R. Dado um vector v ∈ Rn, chamaremos derivada de f no ponto a segundo o

vector v ao limite:

lim t→0

f(a + tv)− f(a) t

,

sempre que exista. Mais geralmente, com as mesmas hipóteses — excepto a de f ser uma função

real definida em D, que deverá ser substitúıda pela de ser f : D → Rm — a derivada da função vectorial f , no ponto a e segundo v ∈ Rn, designada ainda por Dvf(a), ∂f/∂v(a) ou f ′v(a) será definida precisamente da mesma maneira:

∂f

∂v (a) = lim

t→0

f(a + tv)− f(a) t

,

se existir o limite indicado no segundo membro (o qual será agora um vector do espaço Rm). Designando por fi a função coordenada de ordem i de f , decorre imediatamente do Teorema 3.2’ (parágrafo 3.2) que, para que exista ∂f/∂v(a) é necessário e suficiente que existam (e sejam finitas) as derivadas ∂fi/∂v(a), para i = 1, . . . ,m; em tal hipótese, ∂fi/∂v(a) será a coordenada de ordem i do vector ∂f/∂v(a).

As propriedades do conceito de derivada segundo um vector, atrás indicadas para o caso das funções de duas variáveis, mantêm-se na situação mais geral agora considerada, com os ajustamentos evidentes.

No caso do vector v ∈ Rn ser unitário, costuma ainda dizer-se que ∂f/∂v(a) é a derivada direccional de f no ponto a, na direcção e sentido do vector v. Quando, em particular, v coincide com o vector ej da base canónica de Rn, obtém-se a derivada parcial de ordem j da função f no ponto a, que pode ser designada pelos śımbolos Djf(a), ∂f/∂xj(a), f ′xj(a), etc. (j = 1, . . . , n).

Pondo x = (x1, . . . , xn), a = (a1, . . . , an), ter-se-á evidentemente:

∂f

∂xj (a1, . . . , an) = lim

t→0

f(a1, . . . , aj−1, aj + t, aj+1, . . . , an)− f(a1, . . . , aj, . . . , an) t

,

sempre que o limite exista; nos casos mais correntes na prática, o cálculo da derivada parcial ∂f/∂xj de uma função vectorial num dado ponto, faz-se separa- damente para cada uma das suas funções coordenadas, utilizando as regras usuais na derivação em ordem a xj e considerando todas as outras variáveis como se fossem constantes.

93

Caṕıtulo 4. Cálculo diferencial

Por exemplo, para a função que designámos por µ no parágrafo 3.1, definida pelo sistema: {

x = r cos θ

y = r sen θ

ter-se-á, em qualquer ponto (r, θ) do seu domı́nio:{ ∂x ∂r

= cos θ ∂y ∂r

= sen θ

{ ∂x ∂θ

= −r sen θ ∂y ∂θ

= r cos θ

Trataremos agora de generalizar ao caso das funções de n variáveis reais a noção fundamental de função diferenciável. Como teremos oportunidade de ver pelas propriedades que estabeleceremos posteriormente, a «boa definição» é a que ficou claramente sugerida nas considerações finais do parágrafo 4.1.

Consideremos em primeiro lugar o caso de uma função real f , definida num conjunto D ⊂ Rn: dizer que f é diferenciável no ponto a equivalerá a dizer que o acréscimo f(a+h)− f(a) pode ser aproximado por uma função linear de h, com um erro que será um infinitésimo de ordem superior à primeira quando h → 0.

Em termos precisos: sendo a um ponto interior ao domı́nio D da função f , diz- se que f é diferenciável no ponto a sse existir uma aplicação linear La : Rn → R tal que se tenha:

f(a + h) = f(a) + La(h) + o(‖h‖)

em todo o ponto h tal que a + h ∈ D. De maneira obviamente equivalente, poderá dizer-se que f é diferenciável em a

sse existe uma aplicação linear La : Rn → R e uma função ϕ : D → R, infinitésima quando x → a, por forma que se verifique a igualdade:

f(x) = f(a) + La(x− a) + ‖x− a‖ϕ(x),

em todo o ponto x ∈ D. É sabido que se estabelece uma correspondência bijectiva entre o conjunto das

aplicações lineares de Rn em R e o conjunto das matrizes (linha) do tipo 1 × n se se associar a cada uma de tais aplicações, L, a matriz [c1 c2 . . . cn] tal que c1 = L(e1), . . . , cn = L(en) (sendo e1, . . . , en, os vectores da base canónica de Rn); e também que, se for x = (x1, . . . , xn) um vector qualquer de Rn, se terá então:

L(x) = c1x1 + · · ·+ cnxn.

Assim, poderia ainda dizer-se que f é diferenciável no ponto a ∈ intD sse existem números reais α1, . . . , αn tais que, sempre que o ponto a + h = (a1 + h1, · · · , an + hn) pertença a D, se tenha:

f(a1+h1, . . . , an+hn) = f(a1, . . . , an)+α1h1+ · · ·+αnhn+o (√

h21 + · · ·+ h2n ) .

94

4.2. Cálculo diferencial de primeira ordem

Antes de passarmos ao caso das funções vectoriais, vejamos um exemplo: a função

f(x, y, z) = x2 − z2 + 2x− y + 3,

para (x, y, z) ∈ R3, é diferenciável no ponto (0, 0, 0). Basta observar que se tem, para x, y, z ∈ R:

f(x, y, z) = 3 + 2x− y + o (√

x2 + y2 + z2 )

ou f(x, y, z) = f(0, 0, 0) + Lo[(x, y, z)] + o

(√ x2 + y2 + z2

) ,

designando por Lo a aplicação linear de R3 em R correspondente à matriz [2 −1 0]. A extensão do conceito de diferenciabilidade às funções vectoriais é agora ime-

diata. Sendo f : D → Rm, com D ⊂ Rn e a ∈ intD, diremos que f é diferenciável no ponto a sse existir uma aplicação linear La : Rn → Rm tal que, em todo o ponto h tal que a + h ∈ D, se tenha:

f(a + h) = f(a) + La(h) + o ( ‖h‖

) ;

ou, de modo equivalente, sse existir uma matriz de elementos reais,

Ma =

α11 α12 · · · α1n. . . . . . . . . . . . . . . . . . . . αm1 αm2 · · · αmn

 e uma função ϕ : D → Rm, infinitésima no ponto a, tais que se verifique, em todo o ponto x ∈ D, a igualdade:

f(x) = f(a) +Ma(x− a) + ‖x− a‖ϕ(x),

(com a interpretação óbvia dos vectores f(x), f(a), ϕ(x) e (x−a) como matrizes coluna).

Em termos de coordenadas, esta igualdade traduzir-se-á pelo sistema de m equações:

fi(x1, . . . , xn) = fi(a1, . . . , an) + αi1(x1 − a1) + · · · · · ·+ αin(xn − an) + ‖x− a‖ϕi(x1, . . . , xn) (i = 1, . . . ,m).

Tendo em conta que ϕ : D → Rm é infinitésima quando x → a sse cada uma das suas funções coordenadas ϕi o for, pode então concluir-se imediatamente que:

Teorema 4.1. Seja f : D → Rm (com D ⊂ Rn) e a ∈ intD; para que f seja diferenciável no ponto a é necessário e suficiente que cada uma das suas funções coordenadas seja diferenciável no mesmo ponto.

95

Caṕıtulo 4. Cálculo diferencial

O esforço feito para obtermos uma boa definição de diferenciabilidade irá agora ser compensado com um série de propriedades enunciadas nos teoremas seguintes, que inclui praticamente todas as que podeŕıamos considerar desejáveis:

Teorema 4.2. Se f é diferenciável no ponto a:

1. f é cont́ınua em a,

2. para todo o vector v ∈ Rn, existe a derivada Dvf(a).

Demonstração.

1. Sendo f diferenciável no ponto a, ter-se-á para todo o x ∈ D:

f(x) = f(a) + La(x)− La(a) + ‖x− a‖ϕ(x)

(sendo La uma aplicação linear de Rn em Rm e ϕ : D → Rm um infinitésimo quando x → a); e é claro que cada um dos termos do 2o membro é uma função cont́ınua no ponto a (o primeiro e o terceiro por serem constantes; o segundo, porque, como vimos oportunamente, uma aplicação linear é cont́ı- nua em qualquer ponto; e o último por ser o produto de uma função escalar cont́ınua em todo o seu domı́nio pelo infinitésimo ϕ, obviamente cont́ınuo no ponto a).

2. Seja v um vector qualquer de Rn; substituindo, na última igualdade anterior, x por a + tv (o que é leǵıtimo, pelo menos para valores suficientemente pequenos de |t|, por a ser interior ao domı́nio D das funções f e ϕ) obtém- se:

f(a + tv) = f(a) + tLa(v) + |t|‖v‖ϕ(a + tv)

ou, supondo agora também t 6= 0:

f(a + tv)− f(a) t

= La(v) + ‖v‖ |t| t ϕ(a + tv)

Quando t→ 0, a segunda parcela do 2o membro (produto da função escalar limitada ‖v‖ |t|

t por ϕ(a+tv), que tende evidentemente para 0 quando t→ 0)

é infinitésima e a primeira é constante; existe portanto Dvf(a) e verifica-se a igualdade:

Dvf(a) = La(v).

Corolário. Sendo f : D → Rm (D ⊂ Rn) uma função diferenciável no ponto a, existe uma única aplicação linear La tal que:

f(x) = f(a) + La(x− a) + o (‖x− a‖) ,

96

4.2. Cálculo diferencial de primeira ordem

para todo o x no domı́nio de f , e a matriz correspondente a La é a matriz:

Ma =

 ∂f1 ∂x1

(a) · · · ∂f1 ∂xn

(a)

. . . . . . . . . . . . . . . . . . . .

∂fm ∂x1

(a) · · · ∂fm ∂xn

(a)

 (onde fi é a i

a função coordenada de f).

Demonstração. Atendendo à igualdade final da demonstração do Teorema 4.2:

La(v) = Dvf(a)

e ao facto de a derivada de f segundo um vector v ser única (quando existe), logo se reconhece que, nas condições da hipótese, fica univocamente determinado o valor da aplicação La em cada vector v ∈ Rn, o que prova a unicidade de La. Por outro lado (sendo e1, . . . , en os vectores da base canónica de Rn) os elementos da coluna de ordem j da matriz Ma devem ser as coordenadas, na base canónica de Rm, do vector La(ej) = Dejf(a) = ∂f/∂xj(a); e já sabemos que essas coordenadas são precisamente as derivadas parciais, ∂fi/∂xj(a) (i = 1, . . . ,m) das funções coordenadas de f .

Registaremos agora algumas definições importantes: Quando f é diferenciável no ponto a, chama-se derivada de f no ponto a, e

designa-se por f ′(a), a (única) aplicação linear La que verifica a condição expressa no enunciado do corolário anterior; tem-se, portanto, em qualquer ponto x do domı́nio de f :

f(x) = f(a) + f ′(a)(x− a) + o (‖x− a‖) .

À matriz Ma, correspondente à aplicação f ′(a), chama-se matriz jacobiana de

f no ponto a. Sendo h um vector arbitrário de Rn, ao valor da aplicação f ′(a) no ponto h,

f ′(a)(h), costuma-se chamar diferencial da função f no ponto a relativo ao vector h, por vezes designado por dfa(h); porém, tendo em conta as igualdades:

dfa(h) = f ′(a)(h) = La(h) = Dhf(a),

logo se vê que o diferencial de f relativo a um vector qualquer h não é mais do que a derivada da função f segundo esse mesmo vector.

Antes de prosseguirmos na descrição de propriedades importantes da noção de diferenciabilidade, convirá talvez destacar alguns aspectos e casos particulares significativos que decorrem das ideias já expostas e ver alguns exemplos.

Em primeiro lugar recorde-se que, numa observação anterior, vimos que era posśıvel em geral existirem as derivadas Dv1f(a) e Dv2f(a) sem existir, ou exis- tindo com valor diferente da soma daquelas, a derivada Dv1+v2f(a). Tal não

97

Caṕıtulo 4. Cálculo diferencial

poderá verificar-se, porém, se f for diferenciável no ponto a; com efeito, a igual- dade:

Dvf(a) = La(v) mostra precisamente que, fixada a função f e o ponto a (no qual f seja diferen- ciável) Dvf(a) é uma função linear de v.

Consideremos agora o caso de f ser uma função real, diferenciável no ponto a = (a1, . . . , an) ∈ intD; sendo h = (h1, . . . , hn) um vector tal que a + h ∈ D ter-se-á, como vimos:

f(a1 + h1, . . . , an + hn) = f(a1, . . . , an) + ∂f

∂x1 (a1, . . . , an)h1 + · · ·

· · ·+ ∂f ∂xn

(a1, . . . , an)hn + o(‖h‖).

Ao vector que tem por coordenadas, na base canónica de Rn, as derivadas parciais ∂f/∂x1(a), . . . , ∂f/∂xn(a) isto é, ao vector:

∂f

∂x1 (a)e1 + · · ·+

∂f

∂xn (a)en,

costuma-se chamar gradiante de f no ponto a; designá-lo-emos por ∇f(a) ou grad f(a). Poderá assim escrever-se:

f(a + h) = f(a) +∇f(a) · h + o(‖h‖)

onde ∇f(a) · h designa o produto interno dos vectores ∇f(a) e h; claro que este produto interno é precisamente a derivada de f no ponto a segundo o vector h:

Dhf(a) = ∇f(a) · h.

Como exemplos triviais de funções diferenciáveis surgem, naturalmente, as constantes; em termos um pouco mais gerais, consideremos uma função f cujo domı́nio D ⊂ Rn contenha uma bola B(a) e que assuma em todos os pontos desta bola um valor constante c ∈ Rm. Ter-se-á então, em qualquer ponto x ∈ D:

f(x) = c + o(‖x− a‖)

ou, designando por 0̃ a aplicação (linear) identicamente nula de Rn em Rm,

f(x) = f(a) + 0̃(x− a) + o(‖x− a‖);

esta igualdade mostra que f é diferenciável no ponto a e que f ′(a) é a aplicação nula.

Outros exemplos simples de funções diferenciáveis são facultados pelas próprias aplicações lineares; sendo g : Rn → Rm uma tal aplicação e a, x pontos de Rn, decorre da igualdade:

g(x) = g(a) + g(x− a) + o(‖x− a‖)

98

4.2. Cálculo diferencial de primeira ordem

(onde, desta vez, o śımbolo o(‖x−a‖) está de facto a representar o vector nulo de Rm) que g é diferenciável em a — ponto arbitrário de Rn — tendo-se precisamente:

g′(a) = g.

Assim, a derivada de uma aplicação linear coincide com a própria aplicação (e é portanto independente do ponto a considerado).

Em particular, para as projecções pj, isto é, para as aplicações lineares de Rn em R definidas por:

pj(x) = pj(x1, . . . , xn) = xj,

(para j = 1, . . . , n) tem-se, em qualquer ponto a ∈ Rn,

p′j(a) = pj

e o diferencial de pj relativo a um vector h = (h1, . . . , hn) — diferencial que é também independente do ponto a, cuja indicação expĺıcita nas notações poderá portanto ser omitida — é dado por:

dpj(h) = pj(h) = hj.

Convém lembrar agora que, na prática, a projecção pj é muitas vezes designada de preferência pelo śımbolo xj, correspondente ao valor por ela assumido no ponto x = (x1, . . . , xn) (trata-se uma vez mais do abuso de notação corrente que consiste em usar o śımbolo f(x) para designar a função f); adoptando este abuso de notação, a fórmula precedente assumiria a forma:

dxj(h) = hj,

a que recorremos dentro em pouco. Voltemos a considerar uma função real f , diferenciável num ponto a ∈ Rn e a

expressão já conhecida do seu diferencial:

dfa(h) = ∂f

∂x1 (a)h1 + · · ·+

∂f

∂xn (a)hn.

Como, de acordo com as convenções acabadas de mencionar, se tem hj = dxj(h) para j = 1, . . . , n, esta expressão poderá também escrever-se:

dfa(h) = ∂f

∂x1 (a)dx1(h) + · · ·+

∂f

∂xn (a)dxn(h).

Na prática, esta fórmula — por vezes chamada «fórmula do diferencial total» — escreve-se habitualmente de modo mais abreviado, omitindo-se a indicação do ponto a (em que f deverá ser diferenciável) e do vector h ∈ Rn:

df = ∂f

∂x1 dx1 + · · ·+

∂f

∂xn dxn.

99

Caṕıtulo 4. Cálculo diferencial

Assim, por exemplo, para f(x) = log ‖x‖ (com x = (x1, . . . , xn) ∈ Rn\{0}) ter-se-á, em qualquer ponto x em que f seja diferenciável:2

df = d ( log √ x21 + · · ·+ x2n

) =

x1 x21 + · · ·+ x2n

dx1 + · · ·+ xn

x21 + · · ·+ x2n dxn

= x1dx1 + · · ·+ xndxn

‖x‖2 ,

o que pode também escrever-se, mais simplesmente,

df = x · dx ‖x‖2

.

Outro exemplo: para a função definida em R2 pela fórmula:

p(x, y) = xy,

(que, como veremos, é diferenciável em qualquer ponto de R2 e cujo valor num ponto (x, y) tal que x > 0 e y > 0 representa a área do rectângulo de base x e altura y) tem-se:

dp = ∂p

∂x dx+

∂p

∂y dy = y dx+ x dy.

Se os valores de dx e dy forem «pequenos» em relação a x e y, o diferen- cial dp dará uma «boa aproximação» do acréscimo da área do rectângulo correspondente à substituição da «base» x por x + dx e da «altura» y por y + dy (Figura 4.4): o erro correspondente a essa aproximação, dx dy, será um infinitésimo de ordem superior á primeira se o «acréscimo» (dx, dy) tender para (0, 0).

xy

x

y

x dydy

y d x

dx

dx dy

Figura 4.4

2Veremos posteriormente que f é diferenciável em qualquer ponto do seu domı́nio.

100

4.2. Cálculo diferencial de primeira ordem

Naturalmente, a fórmula do diferencial total estende-se, (de maneira óbvia, para funções vectoriais, reconhecendo-se imediatamente que para uma função f = (f1, . . . , fm) diferenciável em dado ponto x ∈ Rn poderá escrever-se, em notação abreviada análoga à que indicámos para o caso das funções reais:

df1 = ∂f1 ∂x1 dx1 + · · ·+ ∂f1∂xndxn

· · · dfm =

∂fm ∂x1

dx1 + · · ·+ ∂fm∂xn dxn

Em termos matriciais, este sistema corresponderá à igualdade:df1. . . dfm

 = 

∂f1 ∂x1

· · · ∂f1 ∂xn

. . . . . . . . . . . . . .

∂fm ∂x1

· · · ∂fm ∂xn

 dx1. . . dxn

 , que pode representar-se também, de forma mais sintética e designando por Mx a matriz jacobiana de f no ponto x considerado:

df =Mxdx.

Outra forma de representar abreviadamente o sistema acima indicado seria escrever:

df = f ′(x)(dx)

ou, mais simplesmente: df = f ′(x)dx

(nesta última forma, convém notar que o segundo membro não designa propria- mente um «produto», mas sim o valor que a aplicação linear f ′(x) : Rn → Rm assume em dx ∈ Rn).

Para evitar qualquer possibilidade de eqúıvoco convirá talvez observar que, nas notações mais precisas que adoptámos de ińıcio, quando definimos a noção de diferencial de uma função, as fórmulas precedentes deveriam escrever-se:

dfx(dx) = f ′(x)(dx).

Do ponto de vista prático, porém, há toda a vantagem em nos habituarmos ao uso das notações simplificadas que são mais correntes, (sem permitir no entanto que dáı resulte qualquer prejúızo para a precisão e clareza das ideias).

Como outro exemplo do uso das notações abreviadas usuais, considere- mos a função µ : R3 → R3 definida pelo sistema:

x = µ1(r, θ, ϕ) = r cos θ cosϕ y = µ2(r, θ, ϕ) = r cos θ senϕ z = µ3(r, θ, ϕ) = r sen θ.

101

Caṕıtulo 4. Cálculo diferencial

Neste caso o diferencial dµ (em qualquer ponto em que µ seja diferen- ciável3) ficará determinado pelo sistema:

dx = cos θ cosϕdr − r sen θ cosϕdθ − r cos θ senϕdϕ dy = cos θ senϕdr − r sen θ senϕdθ + r cos θ cosϕdϕ dz = sen θ dr + r cos θ dθ.

Retomaremos agora o estudo das propriedades gerais das funções diferenciá- veis. Seja D ⊂ Rn e a um ponto interior a D. Se f, g : D → Rm são funções diferenciáveis no ponto a, ter-se-á, em todo o ponto h tal que a + h ∈ D:

f(a + h) = f(a) + f ′(a)(h) + o ( ‖h‖

) g(a + h) = g(a) + g′(a)(h) + o

( ‖h‖

) Adicionando membro a membro estas igualdades — e tendo em conta que,

segundo as notações introduzidas no final do parágrafo 3.2, o(‖h‖) + o(‖h‖) = o(‖h‖) — obtém-se:

(f + g)(a + h) = (f + g)(a) + [f ′(a) + g′(a)] (h) + o ( ‖h‖

) relação que prova a diferenciabilidade de f + g no ponto a e mostra ainda que (f + g)′(a) = f ′(a) + g′(a); por outro lado, multiplicando ambos os membros da primeira daquelas igualdades por um escalar arbitrário α, obtém-se imediata- mente:

(αf)(a + h) = (αf)(a) + [αf ′(a)] (h) + o ( ‖h‖

) ,

donde se infere que a função αf é diferenciável em a e que (αf)′(a) = αf ′(a).

Teorema 4.3. O conjunto das funções f : D → Rm que são diferenciáveis no ponto a (munido das operações usuais de adição de funções e de multiplicação de escalares por funções) é um espaço vectorial real. Sendo f e g duas funções deste espaço e α ∈ R tem-se:

(f + g)′(a) = f ′(a) + g′(a)

(αf)′(a) = αf ′(a).

Sendo E e F dois espaços vectoriais reais, designa-se frequentemente por L(E,F ) o conjunto formado por todas as aplicações lineares de E em F ; e é bem fácil reconhecer que L(E,F ) fica munido de uma estrutura de espaço vectorial real se, como é natural, definirmos a soma de duas aplicações u, v ∈ L(E,F ) como sendo a aplicação (linear) u+ v : E → F tal que

(u+ v)(x) = u(x) + v(x) (∀x ∈ E)

e o produto do número real α pela aplicação u pela fórmula:

(αu)(x) = αu(x) (∀x ∈ E). 3Veremos adiante que µ é diferenciável em qualquer ponto (r, θ, ϕ) ∈ R3.

102

4.2. Cálculo diferencial de primeira ordem

Nestas condições, as duas igualdades finais do enunciado do Teorema 4.3 poderiam também exprimir-se dizendo que a aplicação que associa a cada função f , do espaço vectorial considerado nesse enunciado, a sua derivada no ponto a, f ′(a), é uma aplicação linear desse espaço em L(Rn,Rm).

Para a sequência, convém-nos ainda recordar outro resultado simples de Álgebra Linear, relativo à representação matricial da composta de duas aplicações lineares.

Sejam m, n e p três números inteiros positivos, u ∈ L(Rp,Rm) e v ∈ L(Rn,Rp), as aplicações lineares correspondentes às matrizes:

U =

u11 · · · u1p. . . . . . . . . . . . . . . um1 · · · ump

 e V = v11 · · · v1n. . . . . . . . . . . . . vp1 · · · vpn

 , nas bases canónicas de Rn, Rp e Rm, que representaremos respectivamente por (e1, . . . , en), (ē1, . . . , ēp) e (e∗1, . . . ,e

∗ m). Reconhece-se sem qualquer

dificuldade que w = u ◦ v é uma aplicação linear de Rn em Rm, à qual corresponderá então certa matriz:

W =

w11 · · · w1n. . . . . . . . . . . . . . . wm1 · · · wmn

 . Para ver como pode obter-se W a partir de U e V basta ter em conta

que (como relembrámos em nota, páginas 45–46) deverá ter-se:

v(ej) = p∑

k=1

vkj ēk (j = 1, . . . , n)

u(ēk) = m∑ i=1

uike ∗ i (k = 1, . . . , p),

e portanto, para cada inteiro positivo j ≤ n:

(u ◦ v)(ej) = p∑

k=1

u(vkj ēk)

= p∑

k=1

m∑ i=1

vkjuike ∗ i

= m∑ i=1

( p∑

k=1

uikvkj

) e∗i .

Como, por outro lado, deve ter-se também:

(u ◦ v)(ej) = w(ej) = m∑ i=1

wije ∗ i ,

103

Caṕıtulo 4. Cálculo diferencial

pode concluir-se que será:

wij = p∑

k=1

uikvkj (i = 1, . . . ,m; j = 1, . . . , n),

o que corresponde à usual regra de multiplicarão de matrizes, «linhas por colunas» (segundo a qual o elemento da linha i e coluna j da matriz pro- duto, W , é o «produto interno» da «linha i» da matriz U pela «coluna j» da matriz V ).

Assim, à igualdade w = u◦v entre aplicações lineares corresponde, para as matrizes que as representam, a igualdade W = UV (à composição de aplicações corresponde a multiplicação de matrizes).

Obteremos agora um resultado de interesse fundamental: a generalização, ao caso das funções vectoriais de variável vectorial, da regra de derivação das funções compostas (ou regra da cadeia). Consideremos de novo três números naturais m, n e p, um subconjunto D de Rn e um subconjunto E de Rp; consideremos ainda uma aplicação g : D → Rp tal que g(D) ⊂ E e uma aplicação f : E → Rm. Nestas condições:

Teorema 4.4. Se g é diferenciável no ponto a e f é diferenciável no ponto b = g(a), f ◦ g é diferenciável em a e verifica-se a igualdade:

(f ◦ g)′(a) = f ′ ( g(a)

) ◦ g′(a)

Demonstração. Sendo g diferenciável no ponto a, ter-se-á, sempre que a+h ∈ D:

g(a + h) = g(a) + g′(a)(h) + ψ(h),

com ψ(h) = o(‖h‖); analogamente, do facto de f ser diferenciável em b = g(a) resulta que, para todo o k tal que b + k ∈ E:

f(b + k) = f(b) + f ′(b)(k) + ϕ(k),

com ϕ(k) = o(‖k‖). Substituindo nesta igualdade b por g(a) e k por g(a + h) − g(a) (o que é

leǵıtimo, visto que b + k = g(a + h) ∈ E) obtém-se:

(f ◦ g)(a + h) = (f ◦ g)(a) + f ′ ( g(a)

)( g(a + h)− g(a)

) + ϕ

( g(a + h)− g(a)

) ou, atendendo a que g(a + h)− g(a) = g′(a)(h) + ψ(h):

(f ◦ g)(a + h) = (f ◦ g)(a) + [ f ′ ( g(a)

) ◦ g′(a)

] (h)

+ f ′ ( g(a)

)( ψ(h)

) + ϕ

( g(a + h)− g(a)

) .

Assim, para terminar a demonstração, bastará provar que se tem:

f ′ ( g(a)

)( ψ(h)

) = o(‖h‖)

104

4.2. Cálculo diferencial de primeira ordem

e

ϕ ( g(a + h)− g(a)

) = o(‖h‖).

Para este efeito, ponhamos ψ(h) = ‖h‖ψ∗(h), para todo o h 6= 0 tal que a + h ∈ D (com a função ψ∗ nula na origem de Rn) e ϕ(k) = ‖k‖ϕ∗(k), para qualquer k 6= 0 tal que b + k ∈ E (com ϕ também nula no vector nulo de Rp). Ter-se-á limh→0 ψ

∗(h) = 0 e limk→0 ϕ ∗(k) = 0 (aliás, sendo k = g(a + h)− g(a)

e g cont́ınua no ponto a, por áı ser diferenciável, ter-se-á também limh→0 k = 0 e portanto limh→0 ϕ

∗(k) = limh→0 ϕ ∗(g(a + h)− g(a)) = 0).

Observe-se ainda que, como g′(a) e f ′ ( g(a)

) são aplicações lineares (a primeira

de Rn em Rp, a segunda de Rp em Rm), existem constantes M e N tais que

‖g′(a)(x)‖ ≤M‖x‖ e ‖f ′ ( g(a)

) (y)‖ ≤ N‖y‖,

para qualquer x ∈ Rn e qualquer y ∈ Rp. Nestas condições pode concluir-se, por um lado que

‖f ′ ( g(a)

)( ψ(h)

) ‖ ≤ N‖ψ(h)‖ ≤ N‖h‖‖ψ∗(h)‖,

(o que mostra que f ′ ( g(a)

)( ψ(h)

) = o(‖h‖)), e por outro que:∥∥ϕ(g(a + h)− g(a))∥∥ = ‖g(a + h)− g(a)‖∥∥ϕ∗(g(a + h)− g(a))∥∥

= ‖g′(a)(h) + ‖h‖ψ∗(h)‖ ∥∥ϕ∗(g(a + h)− g(a))∥∥

≤ (‖g′(a)(h)‖+ ‖h‖‖ψ∗(h)‖) ∥∥ϕ∗(g(a + h)− g(a))∥∥

≤ ‖h‖(M + ‖ψ∗(h)‖) ∥∥ϕ∗(g(a + h)− g(a))∥∥ .

Assim, observando que a função M + ‖ψ∗(h)‖ é limitada numa vizinhança da origem de Rn e que

∥∥ϕ∗(g(a + h) − g(a))∥∥ tende para 0 quando h → 0, imediatamente se obtém a relação ϕ

( g(a + h) − g(a)

) = o(‖h‖), que permite

considerar a demonstração terminada.

Observe-se que, nas condições expressas na hipótese do Teorema 4.4, g′(a) é uma aplicação linear de Rn em Rp, f ′

( g(a)

) uma aplicação linear de Rp em

Rm e portanto a composta, f ′ ( g(a)

) ◦ g′(a), será uma aplicação linear de Rn em

Rm; acabamos de ver precisamente que esta aplicação coincide com a derivada no ponto a da função composta, f ◦ g. Tendo em conta o resultado que recordámos na nota anterior ao teorema, é agora muito fácil exprimir, em termos das matrizes jacobianas das funções intervenientes, a regra de derivação das funções compos- tas e obter, a partir dela, as regras correspondentes para o cálculo de derivadas parciais.

Com efeito, seja x = (x1, . . . , xn) ∈ D, g(x) = y = (y1, . . . , yp) e f(y) = z = (z1, . . . , zm); designando da forma habitual as funções coordenadas de f e g, as matrizes correspondentes às aplicações lineares g′(a) e f ′(b) — com b = g(a) —

105

Caṕıtulo 4. Cálculo diferencial

serão, respectivamente, as matrizes jacobianas:

Ma(g) =

 ∂g1 ∂x1

(a) · · · ∂g1 ∂xn

(a)

. . . . . . . . . . . . . . . . . . .

∂gp ∂x1

(a) · · · ∂gp ∂xn

(a)



Mb(f) =

 ∂f1 ∂y1

(b) · · · ∂f1 ∂yp

(b)

. . . . . . . . . . . . . . . . . . . .

∂fm ∂y1

(b) · · · ∂fm ∂yp

(b)

 . Pondo, por comodidade de escrita, h = f ◦ g, entre a matriz correspondente a

h′(a):

Ma(h) =

 ∂h1 ∂x1

(a) · · · ∂h1 ∂xn

(a)

. . . . . . . . . . . . . . . . . . . .

∂hm ∂x1

(a) · · · ∂hm ∂xn

(a)

 e as matrizes Ma(g) e Mb(f) verificar-se-á então a relação:

Ma(h) =Mb(f)Ma(g),

isto é, ter-se-á, para qualquer par (i, j) de inteiros positivos tais que i ≤ m e j ≤ n:

∂hi ∂xj

(a) = ∂fi ∂y1

(b) ∂g1 ∂xj

(a) + ∂fi ∂y2

(b) ∂g2 ∂xj

(a) + · · ·+ ∂fi ∂yp

(b) ∂gp ∂xj

(a).

Omitindo a referência expressa aos pontos a e b = g(a) (nos quais g e f , respectivamente, devem supor-se diferenciáveis) e cometendo o abuso de notação habitual que consiste em substituir as designações mais precisas ∂hi/∂xj, ∂fi/∂yk e ∂gk/∂xj por ∂zi/∂xj, ∂zi/∂yk e ∂yk/∂xj, a fórmula anterior assume o aspecto muito corrente:4

∂zi ∂xj

= ∂zi ∂y1

∂y1 ∂xj

+ ∂zi ∂y2

∂y2 ∂xj

+ · · ·+ ∂zi ∂yp

∂yp ∂xj

,

(i = 1, . . . ,m; j = 1, . . . , n). Em termos pouco precisos a regra para o cálculo de derivadas parciais expressa por esta fórmula — também chamada regra da cadeia — pode traduzir-se dizendo que, para obter a derivada de zi em ordem a uma dada «variável final» xj, basta somar os produtos que se obtêm multiplicando a derivada de zi em ordem a cada uma das «variáveis intermédias», yk, pela derivada desta em ordem à variável xj.

4Observe-se que, nesta fórmula, o śımbolo zi é usado com dois significadas distintos: no primeiro membro designa a coordenada de ordem i da função composta, z = h(x); no segundo, a coordenada da mesma ordem da função z = f(y).

106

4.2. Cálculo diferencial de primeira ordem

Quando, em particular, é n = 1 — isto é, quando há uma só variável final, x — a fórmula costuma escrever-se:

dzi dx

= ∂zi ∂y1

dy1 dx

+ ∂zi ∂y2

dy2 dx

+ · · ·+ ∂zi ∂yp

dyp dx

(i = 1, . . . ,m)

(usando os śımbolos dzi/dx, dyk/dx, em lugar de ∂zi/∂x, ∂yk/∂x, para indicar que as derivadas em causa não são parciais, mas «totais»). Quando há apenas uma variável intermédia, y, tem-se analogamente:

∂zi ∂xj

= dzi dy

∂y

∂xj (i = 1, . . . ,m; j = 1, . . . , n).

Evidentemente, no caso particular m = n = p = 1, obtém-se a fórmula usual no cálculo diferencial de funções de uma variável:

dz

dx = dz

dy

dy

dx .

Antes de aplicarmos a regra da cadeia a alguns exemplos concretos, utilizá-la- emos por diversas vezes na demonstração do seguinte teorema:

Teorema 4.5. Seja D ⊂ Rn e f , g duas funções reais definidas em D e diferen- ciáveis no ponto a. Então a função produto fg é diferenciável em a e tem-se:

(fg)′(a) = g(a)f ′(a) + f(a)g′(a).

Se, além disso, for g(a) 6= 0, o cociente f/g será também diferenciável no ponto a, verificando-se a igualdade:(

f

g

)′ (a) =

g(a)f ′(a)− f(a)g′(a)( g(a)

)2 . Demonstração. Em primeiro lugar, observemos que a função p : R2 → R definida por:

p(x, y) = xy

é diferenciável em qualquer ponto (α, β) ∈ R2; para o reconhecer, basta atender à definição de diferenciabilidade e ter em conta a igualdade:

(α+ h)(β + k) = αβ + (βh+ αk) + hk

a qual, designando de momento por L a aplicação linear de R2 em R correspon- dente à matriz [β α], pode também escrever-se:

p(α+ h, β + k) = p(αβ) + L(h, k) + o (√

h2 + k2 ) .

Portanto, p é diferenciável e a matriz que corresponde a p′(α, β) é [β α].

107

Caṕıtulo 4. Cálculo diferencial

Em segundo lugar, designando por q a aplicação de D em R2 definida por

q(x) = ( f(x), g(x)

) (x ∈ D),

notemos que q é diferenciável no ponto a, visto que as suas funções coordenadas f e g, são por hipótese diferenciáveis nesse ponto.

Nestas condições, basta observar que, para todo o x ∈ D, se tem:

f(x)g(x) = p ( f(x), g(x)

) = (p ◦ q)(x),

isto é, fg = p ◦ q , para que o Teorema 4.4 permita concluir imediatamente que fg é diferenciável no ponto a e também que:

(fg)′(a) = p′ ( q(a)

) ◦ q′(a) = g(a)f ′(a) + f(a)g′(a).

Suponhamos agora g(a) 6= 0 e consideremos a função

ϕ(x) = 1

g(x) ,

definida nos pontos x ∈ D tais que g(x) 6= 0 (observe-se que, sendo g(a) 6= 0 e g cont́ınua — por ser diferenciável — em a, será também g(x) 6= 0 em todo o ponto x de alguma bola centrada em a, donde resulta que a, por hipótese interior a D, será também interior ao domı́nio de ϕ).

Pondo, para todo o t ∈ R\{0}, ψ(t) = 1/t, ter-se-á evidentemente ϕ = ψ ◦ g e portanto, atendendo de novo ao Teorema 4.4, pode concluir-se que ϕ é diferenciá- vel no ponto a, obtendo-se imediatamente a relação:

ϕ′(a) = − 1( g(a)

)2 g′(a). Finalmente, os resultados já obtidos permitem concluir que, nas condições

referidas na hipótese do teorema, o cociente f/g = (1/g)f é diferenciável em a e também que: (

f

g

)′ (a) = f(a)

( 1

g

)′ (a) +

1

g(a) f ′(a)

= g(a)f ′(a)− f(a)g′(a)(

g(a) )2 .

Os Teoremas 4.3 e 4.5, em conjunto com o facto já verificado de serem diferen- ciáveis as constantes e as funções coordenadas pj(x) = xj, permitem reconhecer imediatamente que qualquer função polinominal P (x1, . . . , xn) é diferenciável em todos os pontos de Rn e que qualquer função racional de n variáveis reais é di- ferenciável em qualquer ponto do seu domı́nio. 0 Teorema 4.4, por sua vez, com alguns dos resultados obtidos no estudo da diferenciabilidade das funções de uma

108

4.2. Cálculo diferencial de primeira ordem

variável real, permite concluir a diferenciabilidade de muitas outras funções reais de n variáveis correntes nas aplicações. Finalmente, o estudo das funções vectori- ais sob o mesmo ponto de vista pode reduzir-se ao caso das funções reais por meio do Teorema 4.1.

Como primeiro exemplo, consideremos a função f : Rn → R definida pela fórmula:

f(x) = ea·x (x ∈ Rn)

onde a = (a1, . . . , an) ∈ Rn. A função f é o resultado da composição de ϕ(u) = eu com

u = ψ(x) = a · x = a1x1 + · · ·+ anxn e, como ϕ é diferenciável em R e ψ (polinómio do 1o grau em x1, . . . , xn) é diferenciável em Rn, f é diferenciável em Rn.

Num ponto qualquer x ∈ Rn tem-se:

∂f

∂xj =

∂xj ea1x1+···+anxn = aje

a·x

e portanto a matriz jacobiana de f é a matriz linha:

[a1e a·x · · · anea·x]

ou, equivalentemente, o gradiante de f (no ponto x) é o vector:

∇f(x) = ea·x(a1e1 + · · ·+ anen) = ea·xa.

Consideremos agora a função definida pela fórmula:

z = g(x, y) = xy,

no conjunto dos pontos (x, y) ∈ R2 tais que x > 0. Tem-se, em todo o domı́nio de g:

z = ey log x

e portanto (sendo g a composta de z = eu com u = yv e v = log x, funções dife- renciáveis em todos os pontos dos respectivos domı́nios) g é também diferenciável em todo o seu domı́nio.

A matriz jacobiana de g num ponto (x, y) desse domı́nio é:

M(x,y)(g) = [ yxy−1 xy log x

] .

Se forem agora x = α(t), y = β(t) duas funções diferenciáveis em R, a primeira das quais assuma apenas valores positivos (funções que poderemos encarar como as coordenadas de uma aplicação ϕ de R em R2, com contradomı́nio contido no domı́nio de g) a função composta:

h(t) = g ( α(t), β(t)

) = α(t)β(t)

109

Caṕıtulo 4. Cálculo diferencial

será diferenciável em R e a sua matriz jacobiana no ponto t ∈ R poderá obter-se multiplicando as matrizes:

M(α(t),β(t))(g) = [ β(t)α(t)β(t)−1 α(t)β(t) logα(t)

] e

Mt(ϕ) =

[ α′(t)

β′(t)

] O resultado (matriz 1× 1, que identificamos com o seu único elemento) é uma

confirmação da conhecida regra de derivação de uma «potência-exponencial»:

h′(t) = β(t)α(t)β(t)−1α′(t) + α(t)β(t)β′(t) logα(t).

Como último exemplo, consideremos uma função f : R3 → R2 de funções coordenadas:

u = f1(x, y, z)

v = f2(x, y, z)

que suporemos diferenciáveis em qualquer ponto de R3 e a função µ : R3 → R3 definida pelo sistema:

x = r cos θ cosϕ

y = r cos θ senϕ

z = r sen θ.

Como cada uma das funções coordenadas de µ é diferenciável (por ser um produto de funções diferenciáveis) a função composta f ◦ µ é diferenciável em qualquer ponto (r, θ, ϕ) ∈ R3. Para obter a sua matriz jacobiana basta efectuar o produto: [

∂u ∂x

∂u ∂y

∂u ∂z

∂v ∂x

∂v ∂y

∂v ∂z

]cos θ cosϕ −r sen θ cosϕ −r cos θ senϕcos θ senϕ −r sen θ senϕ r cos θ cosϕ sen θ r cos θ 0

 . Em particular, se for:

u = x2 + y2 + z2

v = x2 + y2 − z2

obtém-se como resultado: [ 2r 0 0

2r cos 2θ −2r2 sen 2θ 0

] (observe-se que, neste caso, teria sido menos trabalhoso efectuar previamente a composição, o que conduziria a:

u = r2

v = r2 cos 2θ,

e obter a partir deste sistema a matriz jacobiana da função composta).

110

4.2. Cálculo diferencial de primeira ordem

Faremos ainda uma breve referência à questão da diferenciabilidade do produto interno de duas funções vectoriais e do produto de uma função escalar por uma função vectorial.

Sendo f, g : D → Rm, com D ⊂ Rn, duas funções diferenciáveis no ponto a, ter-se-á, com as notações habituais:

f · g = m∑ i=1

figi

e portanto dos Teoremas 4.1, 4.5 e 4.3 resulta imediatamente que f · g é diferenciável em a e também que:

(f · g)′(a) = m∑ i=1

(figi)′(a) = m∑ i=1

( gi(a)f ′i(a) + fi(a)g

′ i(a)

) .

Assim, se for v = (v1, . . . , vn) um vector arbitrário de Rn, ter-se-á:

(f · g)′(a)(v) = m∑ i=1

[ gi(a)

( f ′i(a)(v)

) + fi(a)

( g′i(a)(v)

)] = g(a) ·

( f ′(a)(v)

) + f(a).

( g′(a)(v)

) .

Para a derivada parcial em ordem a xj obtém-se (por exemplo, substi- tuindo v por ej na igualdade precedente):

∂(f · g) ∂xj

(a) = g(a) · ∂f ∂xj

(a) + f(a) · ∂g ∂xj

(a).

Se for agora α : D → R uma função diferenciável no ponto a pode reconhecer-se também sem dificuldade (por exemplo, analisando separada- mente cada função coordenada do produto αf) que a função vectorial αf é diferenciável em a e que, sendo v ∈ Rn, é válida a igualdade:

(αf)′(a)(v) = ( α′(a)(v)

) f(a) + α(a)

( f ′(a)(v)

) ;

em particular, para v = ej , obtém-se a expressão da derivada parcial em ordem a xj :

∂(αf) ∂xj

(a) = ∂α

∂xj (a)f(a) + α(a)

∂f

∂xj (a).

Sendo m e n inteiros positivos e D ⊂ Rn um conjunto aberto, convencionemos agora designar5 por C(D,Rm) o conjunto das funções definidas em D, com valores em Rm, cont́ınuas em cada ponto x ∈ D. No caso particular m = 1, em lugar de C(D,R) escrevemos apenas C(D).

5O śımbolo C(D,Rm) poderá eventualmente ser usado para designar o conjunto das funções definidas e cont́ınuas em D com valores em Rm, mesmo que o subconjunto D de Rn não seja aberto. Por vezes escreve-se também C0(D,Rm), em lugar de C(D,Rm).

111

Caṕıtulo 4. Cálculo diferencial

Como é óbvio, C(D,Rm) é um espaço vectorial real, em relação às operações usuais de adição de funções e de multiplicação de um número real por uma função.

Convencionemos ainda designar por C1(D,Rm) — ou apenas C1(D), se m = 1 — o subespaço vectorial de C(D,Rm) formado pelas funções f que verificam as duas condições seguintes:

1. em cada ponto x ∈ D e para cada j ∈ {1, . . . , n} existe a derivada parcial Djf(x);

2. cada uma das funções Djf : D → Rm pertence a C(D,Rm).

As funções do espaço C1(D,Rm) — ou C1(D) — são por vezes designadas por funções de classe C1, definidas em D.

É fácil reconhecer que, sendo f uma função definida em D com valores em Rm e fi = pi ◦ f a correspondente função coordenada de ordem i, a condição f ∈ C(D,Rm) é verificada sse fi ∈ C(D), para cada i ∈ {1, . . . ,m}. De modo análogo f ∈ C1(D,Rm) equivale a fi ∈ C1(D), para i = 1, . . . , n.

Segue-se que em grande parte os resultados enunciados na sequência para funções escalares pertencentes a C(D) ou C1(D) estender-se-iam imediatamente ao caso de funções vectoriais, de C(D,Rm) ou C1(D,Rm), respectivamente.

O primeiro destes resultados é o objecto do teorema seguinte, no qual se regista uma condição suficiente de diferenciabilidade de grande utilidade na prática:

Teorema 4.6. Seja D ⊂ Rn um conjunto aberto. Qualquer função f ∈ C1(D) é diferenciável em cada ponto a ∈ D.

Demonstração. Para maior clareza, faremos a demonstração na hipótese n = 2 e indicaremos depois, de modo abreviado, a sua extensão ao caso geral.

Sendo a = (a1, a2) um ponto de D e h = (h1, h2) um vector de R2 tal que a + h ∈ D, ponhamos:

θ(h1, h2) = f(a1 + h1, a2 + h2)− f(a1, a2)−D1f(a1, a2)h1 −D2f(a1, a2)h2.

O teorema ficará provado (no caso n = 2) se mostrarmos que

lim (h1,h2)→(0,0)

θ(h1, h2)√ h21 + h

2 2

= 0.

Como o ponto a é interior a D, existirá uma bola Br(a) ⊂ D; nestas condições, se o vector h verificar a condição suplementar ‖h‖ =

√ h21 + h

2 2 < r, todos os

pontos da forma (a1 + th1, a2) ou (a1 + h1, a2 + th2), com t ∈ [0, 1], pertencerão a Br(a).

Considere-se então a igualdade:

f(a1 + h1, a2 + h2)− f(a1, a2) = = [ f(a1 + h1, a2 + h2)− f(a1 + h1, a2)

] + [ f(a1 + h1, a2)− f(a1, a2)

] ,

112

4.2. Cálculo diferencial de primeira ordem

que, se pusermos ϕ1(t) = f(a1 + th1, a2) e ϕ2(t) = f(a1 + h1, a2 + th2), poderá escrever-se:

f(a1 + h1, a2 + h2)− f(a1, a2) = [ ϕ2(1)− ϕ2(0)

] + [ ϕ1(1)− ϕ1(0)

] .

Aplicando o teorema de Lagrange às funções ϕ1 e ϕ2 em relação ao intervalo [0, 1] — o que é evidentemente leǵıtimo nas condições da hipótese — obtém-se

f(a1 + h1, a2 + h2)− f(a1, a2) = ϕ′2(c2) + ϕ′1(c1),

onde c1 e c2 são pontos convenientes do intervalo [0, 1]. Tem-se, porém, para t ∈ [0, 1],

ϕ′1(t) = D1f(a1 + th1, a2)h1, ϕ′2(t) = D2f(a1 + h1, a2 + th2)h2

e portanto

ϕ′1(c1) = h1D1f(a1 + c1h1, a2), ϕ′2(c2) = h2D2f(a1 + h1, a2 + c2h2)

donde resulta

θ(h1, h2) = h1 [ D1f(a1 + c1h1, a2)−D1f(a1, a2)

] + h2

[ D2f(a1 + h1, a2 + h2c2)−D2f(a1, a2)

] .

Segue-se que

θ(h1, h2)√ h21 + h

2 2

= h1√ h21 + h

2 2

[D1f(a1 + c1h1, a2)−D1f(a1, a2)]

+ h2√ h21 + h

2 2

[D2f(a1 + h1, a2 + c2h2)−D2f(a1, a2)]

e portanto∣∣∣∣∣ θ(h1, h2)√h21 + h22 ∣∣∣∣∣ ≤ |D1f(a1 + c1h1, a2)−D1f(a1, a2)|

+ |D2f(a1 + h1, a2 + c2h2)−D2f(a1, a2)| .

Quando (h1, h2)→ (0, 0) os pontos (a1 + c1h1, a2) e (a1 +h1, a2 + c2h2) tendem ambos para (a1, a2) e a continuidade das derivadas D1f e D2f no ponto a — resultante da hipótese de ser f ∈ C1(D) — permite concluir que

lim h→0

θ(h1, h2)√ h21 + h

2 2

= 0,

o que termina a demonstração (no caso n = 2).

113

Caṕıtulo 4. Cálculo diferencial

No caso geral, sendo a = (a1, a2, . . . , an) ∈ D e h = (h1, h2, . . . , hn) ∈ Rn com a + h ∈ D, pôr-se-ia:

θ(h) = f(a + h)− f(a)− n∑

j=1

hjDjf(a).

Supondo ainda ‖h‖ < r, com Br(a) ⊂ D, designando como habitualmente por e1, . . . , en os vectores da base canónica de Rn e pondo, por comodidade de notação,

z0 = a, z1 = a + h1e1, . . . ,zj = a + h1e1 + · · ·+ hjej, zn = a + h,

ter-se-ia:

f(a + h)− f(a) = f(zn)− f(z0) = n∑

j=1

[f(zj)− f(zj−1)]

ou, pondo ainda, ϕj(t) = f(zj−1 + thjej)

f(a + h)− f(a) = n∑

j=1

ϕ′j(cj) = n∑

j=1

hjDjf(zj−1 + cjhjej),

com cj ∈ [0, 1], para j = 1, . . . , n. Segue-se a igualdade

θ(h)

‖h‖ =

n∑ j=1

hj ‖h‖

[Djf(zj−1 + cjhjej)−Djf(a)]

da qual, tendo em conta a continuidade das derivadas Djf em a, se conclui que

lim h→0

θ(h)

‖h‖ = 0.

Pode portanto considerar-se a demonstração terminada.

Exemplo: As funções coordenadas da função ϕ : R2 → R2 tal que

ϕ(r, θ) = (x, y) com

{ x = r cos θ

y = r sen θ ,

pertencem ambas a C1(R2), o que permite concluir que ϕ é diferenciável em cada ponto (r, θ) ∈ R2. No ponto (r0, θ0) a derivada de ϕ é a aplicação linear ϕ′(r0, θ0) determinada (na base canónica de R2) pela matriz[

∂x ∂r

∂x ∂θ

∂y ∂r

∂y ∂θ

] (r0,θ0)

=

[ cos θ0 −r0 sen θ0 sen θ0 r0 cos θ0

] .

114

4.2. Cálculo diferencial de primeira ordem

É claro que uma função diferenciável pode não ser de classe C1. É o que se passa, por exemplo, com a função ψ : R → R tal que ψ(x) = x2 sen 1/x para x 6= 0 (com ψ(0) = 0).

O teorema de Lagrange para funções reais de uma variável real tem várias generalizações ao caso de n variáveis. Eis uma das de maior utilidade:

Teorema 4.7. (Lagrange, do valor médio ou dos acréscimos finitos) Seja D um aberto de Rn, a e b pontos de D tais que o segmento6 [a, b] esteja contido em D; seja ainda f ∈ C1(D); então existe um ponto c ∈ ]a, b[ tal que

f(b)− f(a) = f ′(c)(b− a).

Demonstração. Nas condições da hipótese pode aplicar-se o teorema de Lagrange no intervalo [0, 1] à função (real de variável real) ϕ definida no mesmo intervalo pela fórmula ϕ(t) = f

( a + t(b − a)

) , obtendo-se a garantia de existência de um

ponto θ ∈ ]0, 1[ tal que ϕ(1)−ϕ(0) = ϕ′(θ). Pondo então a+ θ(b−a) = c, basta observar que ϕ(1) = f(b), ϕ(0) = f(a) e

ϕ′(θ) = lim λ→0

ϕ(θ + λ)− ϕ(θ) λ

= lim λ→0

f ( a + θ(b− a) + λ(b− a)

) − f

( a + θ(b− a)

) λ

= Db−af ( a + θ(b− a)

) = f ′

( a + θ(b− a)

) (b− a)

= f ′(c)(b− a),

para se poder considerar a demonstração terminada.

1. Observando a demonstração anterior reconhece-se imediatamente que o teorema poderia ter sido enunciado sob forma mais geral: por exem- plo, em vez de impôr a condição f ∈ C1(D) bastaria exigir que a função ϕ fosse cont́ınua no intervalo [0, 1] e diferenciável em ]0, 1[ para se poder obter da mesma forma a conclusão que figura no enun- ciado. Uma observação análoga poderia aliás ser feita em relação a alguns outros enunciados de teoremas precedentes e seguintes. Po- rém, tendo em conta que não nos será necessária maior generalidade nas aplicações que temos em vista, pareceu-nos prefeŕıvel adoptar em todos os casos enunciados tão simples quanto posśıvel.

2. Convém observar que, se pusermos b − a = h, a fórmula indicada no final do teorema 4.7 pode revestir a forma:

f(a + h) = f(a) +Dhf(a + θh),

6Como sabemos, designa-se por [a, b] o conjunto dos pontos da forma a + t(b − a), com t ∈ [0, 1] e por ]a, b[ o conjunto dos pontos da mesma forma, agora com t ∈ ]0, 1[.

115

Caṕıtulo 4. Cálculo diferencial

ou ainda, com ‖h‖ = r e h∗ = 1rh (onde se supõe agora h 6= 0, isto é, b 6= a):

f(a + h) = f(a) + rDh∗f(a + θh).

Convém notar também que, na forma indicada, o teorema não subsiste para o caso de funções vectoriais. Por exemplo, sendo ϕ : R → R2 a função definida por ϕ(t) = (x, y), com x = cos t e y = sen t, para quaisquer reais c e t, ϕ′(c)(t) é a aplicação linear de R em R2 determinada pela matriz[

−t sen c t cos c

] não podendo portanto existir um ponto c ∈ [0, 2π] para o qual se verifique a igualdade: [

0 0

] = ϕ(2π)− ϕ(0) = ϕ′(c)(2π) =

[ −2π sen c 2π cos c

] .

É no entanto válido o seguinte:

Corolário. Seja D um aberto de Rn, a e b pontos de D tais que o segmento [a, b] esteja contido em D. Seja ainda f ∈ C1(D,Rm). Nestas condições existem pontos c1, c2, . . . , cm no segmento [a, b] tais que, designando por f1, f2, . . . , fm as funções coordenadas de f , se tem: f1(b)− f1(a)...

fm(b)− fm(a)

 = 

∂f1 ∂x1

(c1) · · · ∂f1∂xn (c1) ...

. . . ...

∂fm ∂x1

(cm) · · · ∂fm∂xn (cm)

 b1 − a1...

bn − an

 . Obtém-se imediatamente este corolário, aplicando o teorema anterior, sepa-

radamente, a cada uma das funções coordenadas de f ; nem sempre é posśıvel, porém, atribuir um valor comum aos pontos c1, . . . , cm, como o exemplo anterior torna evidente.

Para funções reais de variável real, a condição f ′(x) = 0 em cada ponto x do domı́nio de f garante que a função f é constante se o domı́nio em causa é um intervalo de R. Eis a generalização natural deste resultado:

Teorema 4.8. Seja D um aberto conexo de Rn, f : D → Rm uma função diferenciável em cada ponto de D e tal que (designando por Õ a aplicação nula de Rn em Rm) se tenha f ′(x) = Õ para cada x ∈ D.

Então f é constante em D, isto é, existe um vector c ∈ Rm tal que f(x) = c para cada x ∈ D.

Demonstração. Sendo x0 um ponto arbitrário de D ponhamos:

A = {x ∈ D : f(x) = f(x0)}, B = {x ∈ D : f(x) 6= f(x0)}.

116

4.3. Cálculo diferencial de ordem superior à primeira

Tem-se evidentemente D = A ∪ B e A não é vazio (x0 ∈ A); vamos ver que, se não fosse B = ∅ (isto é, se f não fosse constante), os conjuntos A e B seriam separados, e portanto D seria desconexo, contrariamente à hipótese.

Se x1 é um ponto arbitrário de B (suposto B 6= ∅) é f(x1) 6= f(x0) e então a continuidade de f em x1 (resultante da hipótese de diferenciabilidade de f), assegura a existência de uma bola B(x1) ⊂ D tal que, para qualquer x ∈ B(x1),

‖f(x)− f(x1)‖ < ‖f(x0)− f(x1)‖.

Segue-se que nenhum ponto de A pertence a B(x1) (visto que, para x ∈ A, é f(x) = f(x0)), isto é, que x1 6∈ Ā. Conclui-se assim que

B ∩ Ā = ∅.

Seja agora x′ = (x′1, . . . ,x ′ n) um ponto arbitrário de A, Bδ(x

′) uma bola centrada em x′ e contida em D; seja ainda x = (x1, . . . , xn) um ponto de Bδ(x

′) distinto de x′. Designando por f1, . . . , fm as funções coordenadas de f , o corolário anterior assegura a existência de pontos c1, . . . , cm, pertencentes ao segmento de extremos x, x′ e portanto a Bδ(x

′) ⊂ D tais que f1(x)− f1(x ′)

... fm(x)− fm(x′)

 = 

∂f1 ∂x1

(c1) · · · ∂f1∂xn (c1) ...

. . . ...

∂fm ∂x1

(cm) · · · ∂fm∂xn (cm)

 x1 − x

′ 1

... xn − x′n

 . Como se tem ∂fi

∂xj (cj) = 0 para quaisquer valores de i e j, pode concluir-se

que f(x) = f(x′). Assim, na bola Bδ(x ′) não há qualquer ponto do conjunto B,

tendo-se portanto A ∩ B̄ = ∅,

o que termina a demonstração.

Não poderia dispensar-se a exigência de o aberto D ser conexo no enun- ciado do teorema 4.8: por exemplo, a função g : R \ {0} → R definida pela fórmula g(x) = |x|x tem derivada nula em todos os pontos do seu domı́nio sem ser evidentemente constante; e não é dif́ıcil reconhecer que poderiam ser dados exemplos análogos nos quais o domı́nio da função considerada, em vez de R\{0}, fosse qualquer conjunto aberto desconexo de Rn previamente escolhido.

4.3 Cálculo diferencial de ordem superior à primeira; teoremas de Schwarz e Taylor.

Tratemos em primeiro lugar da noção de derivada parcial de ordem superior à primeira; o processo a adoptar para defini-la é praticamente evidente. Considere- se, por exemplo, uma função f(x, y, z), definida num subconjunto D de R3. Já

117

Caṕıtulo 4. Cálculo diferencial

sabemos então como podem considerar-se definidas em certos subconjuntos de D (eventualmente vazios) as funções (primeiras) derivadas de f : ∂f

∂x , ∂f ∂y

e ∂f ∂z .

A primeira destas funções, por exemplo, admitirá por sua vez em certos pontos do seu domı́nio (eventualmente em nenhum) derivada parcial em ordem a x, ou a y ou a z. Ficarão assim definidas três novas funções, ∂

∂x

( ∂f ∂x

) , ∂ ∂y

( ∂f ∂x

) e ∂

∂z

( ∂f ∂x

) , que

designaremos respectivamente por ∂ 2f

∂x2 , ∂

2f ∂y∂x

e ∂ 2f

∂z∂x . De modo análogo se definiriam

as derivadas ∂ 2f

∂x∂y , ∂

2f ∂y2

e ∂ 2f

∂z∂y , etc. Assim para a função f(x, y, z) = x sen(yz), ter-

se-ia, em qualquer ponto (x, y, z) ∈ R3:

∂2f

∂x2 = 0,

∂2f

∂y2 = −xz2 sen(yz), ∂

2f

∂z2 = −xy2 sen(yz),

∂2f

∂x∂y =

∂2f

∂y∂x = z cos(yz),

∂2f

∂x∂z =

∂2f

∂z∂x = y cos(yz),

∂2f

∂y∂z =

∂2f

∂z∂y = x cos(yz)− xyz sen(yz).

As derivadas de ordem superior à segunda definem-se de forma análoga. Eis algumas das derivadas de 3a ordem da função do exemplo anterior (todas definidas em R3):

∂3f

∂x3 =

∂3f

∂y∂x2 =

∂3f

∂x∂y∂x =

∂3f

∂x2∂y = 0,

∂3f

∂x∂y2 =

∂3f

∂y∂x∂y =

∂3f

∂y2∂x = −z2 sen(yz),

∂3f

∂y3 = −xz3 cos(yz), etc.

Convém encarar agora a questão em termos mais gerais. Seja f uma função real7 definida num conjunto D ⊂ Rn; em certos subconjuntos de D estarão então definidas as derivadas parciais D1f, . . . ,Dnf (ou ∂f∂x1 , . . . ,

∂f ∂xn

). Sendo i e j inteiros positivos menores ou iguais a n, poderá então considerar-se definida, no conjunto formado por todos os pontos em que a função Djf admite derivada parcial (finita) em relação à variável xi, a derivada de 2

a ordem Di(Djf) = Di,jf (que poderá também ser designada por ∂

2f ∂xi∂xj

ou f ′′xixj); naturalmente, o valor da função Di,jf em cada ponto do seu domı́nio será precisamente a derivada de Djf , em ordem a xi, no ponto considerado.

7A extensão ao caso de funções vectoriais é trivial, reconhecendo-se imediatamente que a existência de determinada derivada parcial (de qualquer ordem) de uma função vectorial equivale à existência das derivadas parciais correspondentes para cada uma das suas funções coordenadas, sendo precisamente estas as coordenadas daquelas, na hipótese de existência.

118

4.3. Cálculo diferencial de ordem superior à primeira

De modo análogo se definiriam as derivadas de 3a ordem, Di,j,k, de 4a ordem, Di,j,k,l, etc. Por exemplo, para a função f : Rn → R definida pela fórmula:

f(x) = ea·x

onde a = (a1, . . . , an) ∈ Rn, tem-se, em qualquer ponto x = (x1, . . . , xn) ∈ Rn e para qualquer sequência de n inteiros não negativos (p1, p2, . . . , pn),

∂p1+p2+···+pnf

∂xp11 · · · ∂x pn n

(x) = ap11 a p2 2 · · · apnn ea.x.

Sendo p um inteiro positivo, convencionaremos dizer que a função real f , defi- nida num aberto D ⊂ Rn é uma função de classe Cp em D (e escrever f ∈ Cp(D)) sse f admitir em cada ponto x ∈ D derivadas parciais de todas as ordens ≤ p, sendo cada uma destas derivadas uma função cont́ınua em cada ponto de D; nou- tros termos, sse para qualquer sequência de n inteiros não negativos (p1, p2, . . . , pn)

verificando a condição p1+p2+ · · ·+pn ≤ p, a função ∂ p1+···+pnf ∂x

p1 1 ···∂x

pn n

pertencer a C(D). Diremos ainda que f é uma função de classe C∞ em D, ou uma função indefinida- mente diferenciável em D (e escreveremos f ∈ C∞(D)) sse a condição f ∈ Cp(D) for verificada qualquer que seja p ∈ N.

Define-se de modo semelhante o conceito de função vectorial (definida em D e com valores em Rm) de classe Cp, com p inteiro positivo ou p = ∞; designando por Cp(D,Rm) o conjunto destas funções, ter-se-á f ∈ Cp(D,Rm) sse cada uma das funções coordenadas de f for um elemento de Cp(D).

É fácil verificar que uma função de n variáveis tem np funções derivadas de ordem p, para qualquer inteiro p ≥ 0.8 No entanto em certos casos particulares importantes, identificam-se as derivadas que comportam igual número de deri- vações em relação a cada uma das variáveis; é o que se verifica com a função f(x, y, z) = x sen(yz) atrás mencionada, para a qual se tem, por exemplo,

∂2f

∂x∂y =

∂2f

∂y∂x ,

∂3f

∂y∂x2 =

∂3f

∂x∂y∂x =

∂3f

∂x2∂y , etc.

Um dos resultados mais importantes neste sentido é o que se exprime no seguinte teorema (propositadamente enunciado para o caso de uma função de duas variáveis e de derivadas de 2a ordem mas que se estenderá depois trivialmente a situações mais gerais).

Teorema 4.9 (Schwarz). Seja D um aberto de R2 e f ∈ C2(D); então em qualquer ponto (a, b) ∈ D verifica-se a igualdade:

∂2f

∂x∂y (a, b) =

∂2f

∂y∂x (a, b).

8Claro que algumas dessas funções derivadas podem ter domı́nio vazio, isto é, podem reduzir- se à função vazia.

119

Caṕıtulo 4. Cálculo diferencial

Demonstração. Supondo contida em D a bola centrada em (a, b) e de raio r, Br(a, b), considere-se a função ∆(a,b)f (ou mais simplesmente ∆f) definida em Br(0, 0) pela fórmula:

∆f(h, k) = f(a+ h, b+ k)− f(a+ h, b)− f(a, b+ k) + f(a, b),

(onde (h, k) é um vector arbitrário de norma < r). Pondo ϕ(t) = f(a+ th, b+ k)− f(a+ th, b), ter-se-á

∆f(h, k) = ϕ(1)− ϕ(0)

donde se obtém, por duas aplicações sucessivas do teorema de Lagrange (leǵıtimas, visto que f é de classe C2 em D):

∆f(h, k) = ϕ′(c1) = h

[ ∂f

∂x (a+ c1h, b+ k)−

∂f

∂x (a+ c1h, b)

] = hk

∂2f

∂y∂x (a+ c1h, b+ c2k),

com c1, c2 ∈ [0, 1]. Pondo agora ψ(t) = f(a+ h, b+ tk)− f(a, b+ tk) ter-se-á, de modo análogo:

∆f(h, k) = ψ(1)− ψ(0) = ψ′(d2)

= k[ ∂f

∂y (a+ h, b+ d2k)−

∂f

∂y (a, b+ d2k)]

= hk ∂2f

∂x∂y (a+ d1h, b+ d2k)

com d1, d2 ∈ [0, 1]. Tem-se, portanto, para ‖(h, k)‖ < r e h 6= 0, k 6= 0,

∂2f

∂y∂x (a+ c1h, b+ c2k) =

∆f(h, k)

hk =

∂2f

∂x∂y (a+ d1h, b+ d2k).

Quando (h, k)→ (0, 0) os pontos (a+ c1h, b+ c2k) e (a+ d1h, b+ d2k) tendem ambos para (a, b); por passagem ao limite, atendendo à hipótese de f ser de classe C2 em D, obtém-se então imediatamente:

∂2f

∂y∂x (a, b) =

∂2f

∂x∂y (a, b).

Deduz-se facilmente do teorema anterior que, no caso de f ser uma função de classe Cp no aberto D ⊂ Rn, serão idênticas todas as derivadas que possam obter-se derivando f , por qualquer ordem, p1 vezes em ordem a x1, p2 vezes em ordem a x2, . . . , pn vezes em ordem a xn, desde que seja p1 + p2 + · · · + pn ≤

120

4.3. Cálculo diferencial de ordem superior à primeira

p. Com efeito, a passagem de uma a outra de tais derivadas poderá sempre ser efectuada por trocas sucessivas da ordem de duas operações de derivação consecutivas, efectuadas sobre funções de classe C2 e relativas apenas a duas das variáveis consideradas, intervindo nessas operações como se fossem constantes todas as variáveis restantes; e é claro que essas trocas de ordem das derivadas estão legitimadas pelo teorema anterior. Assim, por exemplo, prova-se que

∂4f

∂x2∂y∂z =

∂4f

∂z∂y∂x2

(com f de classe C4), atendendo às sucessivas igualdades:

∂4f

∂x2∂y∂z =

∂2

∂x2

( ∂2f

∂y∂z

) =

∂2

∂x2

( ∂2f

∂z∂y

) =

∂x

[ ∂2

∂x∂z

( ∂f

∂y

)] =

∂x

[ ∂2

∂z∂x

( ∂f

∂y

)] =

∂2

∂x∂z

( ∂2f

∂x∂y

) =

∂2

∂z∂x

( ∂2f

∂y∂x

) =

∂z

[ ∂2

∂x∂y

( ∂f

∂x

)] =

∂z

[ ∂2

∂y∂x

( ∂f

∂x

)] =

∂4f

∂z∂y∂x2 .

Para justificar estas igualdades basta invocar o teorema 4.4 (além de conven- ções óbvias relativas à notação das derivadas parciais).

Não seria necessário dizer que a regra de derivação das funções compostas pode aplicar-se, aliás de modo evidente, ao cálculo de derivadas de ordem superior à primeira. Para fixar as ideias num exemplo simples, consideremos a composição de uma função real y = f(x) = f(x1, x2, . . . , xn) de classe Cp num aberto D ⊂ Rn, com n funções x1 = g1(t), . . . , xn = gn(t), de classe Cp, num intervalo aberto I ⊂ R, tal que g1(I)× · · · × gn(I) ⊂ D.

Ter-se-á então, pondo ϕ(t) = f ( g1(t), . . . , gn(t)

) (e supondo p ≥ 2),

dt =

n∑ i=1

∂f

∂xi

dxi dt

e portanto, d2ϕ

dt2 =

n∑ i=1

[ d

dt

( ∂f

∂xi

) dxi dt

+ ∂f

∂xi

d2xi dt2

] .

Em geral ∂f ∂x1 , . . . , ∂f

∂xn serão ainda funções compostas de t por intermédio de

x1, . . . , xn, de modo que as suas derivadas (em ordem a t) poderão exprimir-se pelas fórmulas:

d

dt

( ∂f

∂xi

) =

n∑ j=1

∂2f

∂xi∂xj

dxj dt .

121

Caṕıtulo 4. Cálculo diferencial

Pode assim concluir-se que

d2ϕ

dt2 =

n∑ i=1

∂f

∂xi

d2xi dt2

+ n∑

i,j=1

∂2f

∂xi∂xj

dxi dt

dxj dt .

Para derivadas de ordem p > 2 (e supondo sempre f e g1, . . . , gn funções de classe Cp) tudo seria análogo. Por exemplo, com p = 3, ter-se-ia

d3ϕ

dt3 =

n∑ i=1

∂f

∂xi

d3xi dt3

+ 3 n∑

i,j=1

∂2f

∂xi∂xj

d2xi dt2

dxj dt

+ n∑

i,j,k=1

∂3f

∂xi∂xj∂xk

dxi dt

dxj dt

dxk dt

.

No caso particular em que as funções g1, . . . , gn são lineares afins, isto é, da forma gi(t) = ai + thi com ai, hi ∈ R — e com uma ligeira alteração das notações adoptadas — os resultados precedentes conduziriam imediatamente às fórmulas:

ϕ′(t) = n∑ i=1

∂f

∂xi (a+ th)hi,

ϕ′′(t) = n∑

i,j=1

∂2f

∂xi∂xj (a+ th)hihj,

e em geral, supondo a função f de classe Cp:

ϕ(p)(t) = n∑

i1,i2,...,ip=1

∂pf

∂xi1 · · · ∂xip (a+ th)hi1hi2 . . . hip .

Teremos oportunidade de reencontrar estas fórmulas brevemente, a propósito da demonstração do teorema de Taylor.

Como vimos, no caso de f ser uma função real definida num aberto D ⊂ Rn e diferenciável no ponto a ∈ D, a derivada f ′(a) é uma aplicação linear de Rn em R (isto é, um elemento do espaço L(Rn,R)); vimos também que o valor dessa aplicação num vector h (tal que a + h ∈ D), f ′(a)(h), faculta uma aproximação da diferença f(a+h)−f(a) que é, em certo sentido, melhor do que a que poderia conseguir-se com qualquer outra aplicação linear de Rn em R (dado que, de acordo com o corolário do teorema 4.2, § 4.2, f ′(a) é o único elemento de L(Rn,R) cujo valor em h difere de f(a + h) − f(a) por um infinitésimo de ordem superior à primeira, quando h → 0).

Embora as aproximações desta forma sejam amplamente suficientes para mui- tos dos objectivos mais correntes (e tenham a grande vantagem de serem par- ticularmente simples) há por vezes necessidade de recorrer a funções de h mais complicadas do que as lineares (funções quadráticas, cúbicas, etc.) para aproximar convenientemente o acréscimo f(a + h)− f(a); e é natural pensar que, para esse efeito, convirá começar-se por definir de forma conveniente as derivadas de ordem superior à primeira da função f no ponto a, f ′′(a), f ′′′(a), etc.

122

4.3. Cálculo diferencial de ordem superior à primeira

Começando por f ′′(a), a ideia que ocorre naturalmente para defini-la é a de considerar a derivada, no ponto a, da função f ′. Mas aqui podem seguir alguns obstáculos, talvez inesperados.

Supondo, para simplificar, que f é diferenciável em todos os pontos de D, f ′ será uma função com o domı́nio D (tal como f), mas cujo contrado- mı́nio não está já contido em R (como o da própria função f) mas sim no espaço L(Rn,R) (visto que, para cada x ∈ D, f ′(x) é um elemento deste último espaço). Ora para que se pudesse definir o conceito de diferenciabi- lidade para uma função com valores em L(Rn,R) seria necessário que este espaço estivesse munido, não apenas da sua estrutura de espaço vectorial (que considerámos na página 90), mas também de algumas noções de ca- rácter topológico (e, para este efeito, o ideal seria dispormos de uma norma sobre o espaço L(Rn,R), fixada de modo conveniente).

Na realidade, a definição de uma tal norma não se reveste de qual- quer dificuldade.9 No entanto, por esta via, tudo parece ir-se complicando mais do que seria desejável (principalmente se repararmos que, para defi- nir f ′′′(a), f (4)(a), etc., deveria ter-se em conta que o contradomı́nio da função f ′′ seria um subconjunto de L

( Rn, L(Rn,R)

) (isto é, do espaço

das aplicações lineares de Rn em L(Rn,R)), o de f ′′′ um subconjunto de L ( Rn, L(Rn, L(Rn,R))

) , etc.

É certo que estas dificuldades são mais aparentes do que reais, podendo ser ultrapassadas directamente com relativa simplicidade. No entanto, numa primeira abordagem do tema, será talvez prefeŕıvel a via alternativa que seguiremos na sequência. Para torná-la mais natural convirá observar precisamente que, tal como a aplicação linear f ′(a) assume um valor real quanto aplicada a um vector u ∈ Rn (de acordo com a fórmula f ′(a)(u) = Duf(a)), f ′′(a) deverá assumir um valor real se for sucessivamente aplicada a dois vectores u,v de Rn (visto que, sendo f ′′(a) ∈ L

( Rn, L(Rn,R)

) , ter-

se-á f ′′(a)(u) ∈ L(Rn,R) e portanto ( f ′′(a)(u)

) (v) ∈ R); e é bem razoável

supor que o valor final obtido, que poderemos designar por f ′′(a)(u,v), será precisamente Dv(Duf)(a).

Consideremos então uma função f de classe C2 no aberto D ⊂ Rn e, sendo u = (u1, u2, . . . , un) e v = (v1, v2, . . . , vn) dois vectores quaisquer de Rn, observemos que se tem, em qualquer ponto x ∈ D:

Duf(x) = ∇f(x) · u = n∑ i=1

∂f

∂xi (x)ui

9É fácil reconhecer que, como espaço vectorial, L(Rn,R) é isomorfo ao próprio espaço Rn (isto é, que existe uma aplicação linear bijectiva ϕ : Rn → L(Rn,R)), o que permite «transportar» para L(Rn,R) a norma que temos vindo a considerar sobre Rn (ou qualquer das outras infinitas normas que podem considerar-se neste espaço); e pode também provar-se que, qualquer que fosse a aplicação linear bijectiva ϕ escolhida e qualquer que fosse a norma sobre Rn que se decidisse transportar para L(Rn,R) por meio de ϕ, as noções topológicas resultantes neste último espaço — e a própria noção de diferenciabilidade para funções f : D → L(Rn,R) — seriam sempre as mesmas. Assim, qualquer norma fixada sobre L(Rn,R) serviria para o efeito visado.

123

Caṕıtulo 4. Cálculo diferencial

ou, omitindo a referência expĺıcita ao ponto x:

Duf = n∑ i=1

∂f

∂xi ui;

ter-se-á também, portanto:

Dv (Duf) = n∑

j=1

∂xj

( n∑ i=1

∂f

∂xi ui

) vj =

n∑ i,j=1

∂2f

∂xi∂xj uivj.

Nestas condições, a definição que adoptaremos para a segunda derivada de f no ponto a será a seguinte: supondo f de classe C2(D), chamaremos segunda derivada de f no ponto a ∈ D, e designaremos pelos śımbolos f ′′(a) ou D2f(a), a aplicação de Rn ×Rn em R que a cada par (u,v) ∈ Rn ×Rn faz corresponder o número real

f ′′(a)(u,v) = D2f(a)(u,v) = n∑

i,j=1

∂2f

∂xi∂xj (a)uivj.

No caso particular, importante na sequência, de ser u = v, ter-se-á, convenci- onando agora escrever f ′′(a)u2 (ou D2f(a)u2) em lugar de f ′′(a)(u,u),

f ′′(a)u2 = n∑

i,j=1

∂2f

∂xi∂xj (a)uiuj,

fórmula a que poderemos dar a forma simbólica:

f ′′(a)u2 = [ (u1D1 + u2D2 + · · ·+ unDn)2f

] (a),

na qual os «produtos» DiDj, que surgirão no desenvolvimento do «quadrado» que figura no 2o membro, deverão naturalmente ser interpretados como se sugere nas igualdades:

DiDjf(a) = [ ∂

∂xi

( ∂

∂xj f

)] (a) =

∂2f

∂xi∂xj (a).

De forma análoga, mas supondo agora f de classe C3, a terceira derivada de f no ponto a, f ′′′(a) ou D3f(a), será, por definição, a aplicação de Rn × Rn × Rn em R que associa a cada terno (u,v,w) de vectores de Rn o número real

f ′′′(a)(u,v,w) = n∑

i,j,k=1

∂3f

∂xi∂xj∂xk (a)uivjwk

e, se for u = v = w, ter-se-á, escrevendo agora f ′′′(a)u3 em vez de f ′′′(a)(u,u,u),

f ′′′(a)u3 = n∑

i,j,k=1

∂3f

∂xi∂xj∂xk (a)uiujuk

124

4.3. Cálculo diferencial de ordem superior à primeira

ou, simbolicamente,

f ′′′(a)u3 = [ (u1D1 + · · ·+ unDn)3f

] (a),

com a interpretação óbvia para os «produtos» DiDjDk. Mais geralmente, se p for um inteiro ≥ 1 e f uma função de classe Cp ter-se-á,

com as adaptações de notação já evidentes:10

f (p)(a)up = [ (u1D1 + · · ·+ unDn)pf

] (a).

Por exemplo, no caso de uma função de três variáveis, f(x, y, z), ter-se-á (de- signando agora por (a, b, c) o ponto considerado e sendo (α, β, γ) o vector u):

f (p)(a, b, c)(α, β, γ)p = ∑

i+j+k=p i≥0,j≥0,k≥0

p!

i! j! k!

∂pf

∂xi∂yj∂zk (a, b, c)αiβjγk.

Estamos agora em condições de provar o

Teorema 4.10 (Taylor). Seja D um aberto de Rn, a e a + h pontos de D tais que o segmento [a, a + h] esteja contido em D, p um inteiro positivo e f uma função real de classe Cp em D; então existe θ ∈ ]0, 1[ tal que:

f(a + h) = f(a) + f ′(a)h + 1

2! f ′′(a)h2 + · · ·+ 1

(p− 1)! f (p−1)(a)hp−1 + rp(h),

onde rp(h) = 1 p! f (p)(a + θh)hp.

Demonstração. O processo adoptado na demonstração é análogo ao que usámos para provar o teorema do valor médio. Pondo ϕ(t) = a+th, as condições impostas na hipótese são (amplamente) suficientes para que possa aplicar-se a fórmula de Taylor (com resto de Lagrange) à função ϕ no intervalo ]0, 1[, o que conduz a

ϕ(1) = ϕ(0) + ϕ′(0) + 1

2! ϕ′′(0) + · · ·+ 1

(p− 1)! ϕ(p−1)(0) +

1

p! ϕ(p)(θ)

(para algum θ ∈ ]0, 1[). 10Para o desenvolvimento da potência

(∑n i=1 uiDi

)p poderá ser útil a chamada fórmula do polinómio de Leibniz , generalização da fórmula do binómio que se justifica facilmente — a partir desta última — por indução (sobre n):

(z1 + z2 + · · ·+ zn)p = ∑

p1+p2+···+pn=p p1≥0,...,pn≥0

p! p1! p2! · · · pn!

zp11 z p2 2 · · · zpnn .

Convém observar que a função que figura no segundo membro é um polinómio homogéneo (de grau p = p1 + p2 + · · ·+ pn) em z1, z2, . . . , zn.

125

Caṕıtulo 4. Cálculo diferencial

Basta agora observar que (com a = (a1, . . . , an), h = (h1, . . . , hn) e x = (x1, . . . , xn) = a + th) se tem:

ϕ′(t) = n∑ i=1

∂f

∂xi (a + th)hi = f

′(a + th)h,

ϕ′′(t) = n∑

i,j=1

∂2f

∂xi∂xj (a + th)hihj = f

′′(a + th)h2,

etc., e portanto

ϕ′(0) = f ′(a)h

...

ϕ(p−1)(0) = f (p−1)(a)hp−1

ϕ(p)(θ) = f (p)(a + θh)hp,

para terminar a demonstração.

1. Supondo h 6= 0, r = ‖h‖ e h∗ = 1/rh, ter-se-á evidentemente:

f ′(a)h = rf ′(a)h∗, f ′′(a)h2 = r2f ′′(a)h2∗, . . .

A fórmula precedente pode portanto assumir o aspecto:

f(a + h) = f(a + rh∗)

= f(a) + rf ′(a)h∗ + r2

2! f ′′(a)h2∗ + · · ·

· · ·+ r p−1

(p− 1)! f (p−1)(a)hp−1∗ +

rp

p! f (p)(a + θrh∗)hp∗.

No caso particular n = 1 e supondo, por exemplo, h > 0, obtém-se imediatamente:

f(a+ r) = f(a) + rf ′(a) + r2

2! f ′′(a) + · · ·

· · ·+ r p−1

(p− 1)! f (p−1)(a) +

rp

p! f (p)(a+ θr),

isto é, a clássica fórmula de Taylor com resto de Lagrange conhecida do cálculo diferencial para funções reais de (uma) variável real.

2. Não é dif́ıcil reconhecer — atendendo a que, como vimos,f (p)(a)hp é um polinómio homogéneo de grau p em h1, . . . , hn e a que a função f se supõe de classe Cp num aberto contendo o ponto a — que o termo complementar da fórmula de Taylor,

rp(h) = 1 p! f (p)(a + θh)hp,

126

4.3. Cálculo diferencial de ordem superior à primeira

(designado ainda por resto de Lagrange da mesma fórmula) é um infinitésimo com h de ordem superior a p− 1:

lim h→0

rp(h) ‖h‖p−1

= 0;

e é também fácil verificar (atendendo ainda às mesmas razões há pouco invocadas) que esse termo complementar pode assumir a forma:

rp(h) = 1 p! f (p)(a)hp + o(‖h‖p)

(resto de Peano).

3. Algumas das convenções de escrita que temos vindo a adoptar per- mitiram-nos dar à «fórmula de Taylor» inserta no enunciado do teo- rema 4.10 um aspecto gráfico muito semelhante ao habitual no caso n = 1 (isto é, quando se consideram apenas funções de uma variável real). Porém, em muitas situações em que intervêm funções de vá- rias variáveis, pode haver vantagem em dar a essa fórmula uma forma mais expĺıcita, o que aliás não tem qualquer dificuldade se tivermos em conta as referidas convenções de notação. Assim, por exemplo, é fácil reconhecer que, no caso de uma função de três variáveis reais, f(x, y, z), suposta de classe C3 numa vizinhança do ponto (x0, y0, z0), a fórmula poderia assumir o aspecto:

f(x, y, z) =f(x0, y0, z0)

+ ( ∂f

∂x

) 0

(x− x0) + ( ∂f

∂y

) 0

(y − y0) + ( ∂f

∂z

) 0

(z − z0)

+ 1 2

[( ∂2f

∂x2

) 0

(x− x0)2 + 2 ( ∂2f

∂x∂y

) 0

(x− x0)(y − y0)

+ 2 ( ∂2f

∂x∂z

) 0

(x− x0)(z − z0) + ( ∂2f

∂y2

) 0

(y − y0)2

+ 2 ( ∂2f

∂y∂z

) 0

(y − y0)(z − z0) + ( ∂2f

∂z2

) 0

(z − z0)2 ]

+ r3(x− x0, y − y0, z − z0),

sendo o termo de resto o ( ‖(x, y, z) − (x0, y0, z0)‖2

) quando (x, y, z)

tende para (x0, y0, z0) (e onde se escreveu (∂f ∂x

) 0 ,. . . ,

(∂2f ∂z2

) 0 em lu-

gar de ∂f∂x (x0, y0, z0),. . . , ∂2f ∂z2

(x0, y0, z0)). Feita esta observação, não haverá qualquer inconveniente em regressarmos às notações mais con- densadas que temos vindo a utilizar.

No caso de f ser uma função de classe C∞ — isto é, de classe Cp para qualquer p ∈ N (caso em que se podem escrever fórmulas de Taylor de ordem p, para todo o inteiro positivo p) — e de se verificar a igualdade limp→∞ rp(h) = 0, qualquer que seja o vector h de norma suficientemente pequena, dir-se-á que a função f é

127

Caṕıtulo 4. Cálculo diferencial

anaĺıtica no ponto a; em alguma bola centrada neste ponto f poderá então ser representada pela sua série de Taylor:

f(a) + f ′(a)h+ 1

2! f ′′(a)h2 + · · ·+ 1

p! f (p)(a)hp + · · ·

Para fixar as ideias num exemplo muito simples, considere-se a função f(x, y) = ex−y, obviamente de classe C∞ em R2. Para esta função a fórmula de Mac-Lau- rin — isto é, a fórmula de Taylor relativa ao ponto (0, 0) — poderá escrever-se (designando agora por (x, y) o acréscimo anteriormente designado por h):

f(x, y) = f(0, 0) + f ′(0, 0)(x, y) + · · ·+ 1 (p− 1)!

f (p−1)(0, 0)(x, y)p−1 + rp(x, y),

com rp(x, y) = 1 p! f (p)(θx, θy)(x, y)p, para algum θ ∈ ]0, 1[.

Facilmente se verifica que, para qualquer inteiro positivo p e qualquer inteiro i tal que 0 ≤ i ≤ p, se tem

∂pf

∂xi∂yp−i (x, y) = (−1)p−iex−y

e portanto:

∣∣rp(x, y)∣∣ = 1 p!

∣∣∣∣∣ p∑

i=0

p!

i!(p− i)! (−1)p−ieθx−θyxiyp−i

∣∣∣∣∣ ≤

p∑ i=0

e|x|+|y| |x|i|y|p−i

i! (p− i)! = e|x|+|y|

(|x|+ |y|)p

p! .

Daqui imediatamente decorre que, qualquer que seja (x, y) ∈ R2, se terá:

lim p→∞

rp(x, y) = 0,

o que permite afirmar que, em qualquer ponto do plano, o valor da função f(x, y) coincide com a soma da sua série de Mac-Laurin:

f(x, y) = ∞∑ p=0

1

p! f (p)(0, 0)(x, y)p

(aceitando a convenção natural: f 0(0, 0)(x, y)0 = f(0, 0)). Como, para qualquer inteiro positivo p,

fp(0, 0)(x, y)p =

p∑ i=0

p!

i! (p− i)! ∂pf

∂xi∂yp−i (0, 0)xiyp−i

=

p∑ i=0

p!

i! (p− i)! xi(−y)p−i

= (x− y)p,

128

4.4. Teoremas das funções impĺıcitas e da função inversa

poderá ainda concluir-se que a igualdade ex−y = ∑∞

p=0 1 p! (x − y)p será verificada,

qualquer que seja o par (x, y) de números reais. Não será necessário dizer que, se o objectivo fosse apenas obter este resultado,

teria sido bastante mais simples aproveitar os conhecimentos relativos à série de Mac-Laurin da função exponencial ex e substituir nessa série x por x− y.

4.4 Teoremas das funções impĺıcitas e da função inversa

Para dar uma ideia da natureza dos problemas que iremos estudar neste parágrafo (sob a designação tradicional, embora algo imprópria, de «funções impĺıcitas») consideremos em primeiro lugar uma função de duas variáveis, para concretizar F (x, y) = x4 − y2, e um ponto (a, b) tal que F (a, b) = 0. É fácil reconhecer que, se for a 6= 0, existirá um rectângulo I × J centrado no ponto (a, b) no qual a equação F (x, y) = 0 poderá ser univocamente resolvida em ordem a y, ficando assim determinada uma função y = f(x) tal que, para (x, y) ∈ I × J as condições F (x, y) = 0 e y = f(x) sejam equivalentes (no nosso caso ter-se-á precisamente f(x) = x2, se for b > 0, e f(x) = −x2, se b < 0).

PSfrag replacements

y

x

Figura 4.5

Exprimindo a mesma ideia de outro modo: sendo a 6= 0, existirão números positivos α e β tais que a cada x ∈ ]a − α, a + α[ corresponda um e um só y ∈ ]b − β, b + β[ por forma que se verifique a igualdade F (x, y) = 0. Pelo contrário, se for a = 0 (caso em que terá de ser também b = 0 para que se tenha F (a, b) = 0) a situação será diferente: quaisquer que sejam os números positivos α e β haverá sempre valores de x no intervalo ]−α, α[ para cada um dos quais a equação F (x, y) = 0 não determinará univocamente um valor de y em ]−β, β[. Veremos adiante que este facto está relacionado com o anulamento da derivada parcial ∂F

∂y no ponto (0, 0).

Outro exemplo que poderá ser útil é o da função definida pela expressão x2 + y2 − 1 (que designaremos de novo por F (x, y)). Reconhece-se facilmente que a qualquer ponto (a, b) tal que F (a, b) = 0 e ∂F

∂y (a, b) 6= 0 (isto é, a qualquer ponto

129

Caṕıtulo 4. Cálculo diferencial

da circunferência de raio 1 centrada na origem, com excepção de (−1, 0) e (1, 0)) há possibilidade de associar um rectângulo I × J , centrado em (a, b), por forma que a cada x ∈ I corresponda um e um só y ∈ J tal que a igualdade F (x, y) = 0 seja verificada; para qualquer dos pontos (−1, 0) e (1, 0) (nos quais a derivada ∂F

∂y

se anula) é claro que essa possibilidade não existe.

PSfrag replacements

y

x

Figura 4.6

No teorema seguinte, que é uma forma ainda bastante particular do chamado teorema das funções impĺıcitas, registam-se condições suficientes para que uma equação da forma F (x, y) = 0 permita definir (localmente) uma função y = f(x) e, sob hipóteses convenientes a respeito de F , deduzem-se algumas propriedades da função f e indicam-se processos de cálculo das suas derivadas.

Teorema 4.11. Seja D um aberto de R2, (a, b) ∈ D, F ∈ C1(D), F (a, b) = 0 e ∂F ∂y (a, b) 6= 0; então:

1. existem α > 0 e β > 0 tais que a cada x ∈ I = ]a − α, a + α[ corresponde um e um só yx ∈ J = ]b− β, b+ β[ por forma que se tenha F (x, yx) = 0;

2. pondo f(x) = yx para cada x ∈ I, a função f é de classe C1 e tem-se, para qualquer x ∈ I,

f ′(x) = − ∂F ∂x

( x, f(x)

) ∂F ∂y

( x, f(x)

) . Demonstração. Pode evidentemente supor-se ∂F

∂y (a, b) > 0 (tudo seria análogo no

caso ∂F ∂y (a, b) < 0). Sendo F de classe C1, existirá β > 0 tal que ∂F

∂y (x, y) > 0

sempre que se tenha (x, y) ∈ I∗ × J∗, onde I∗ = [a − β, a + β] e J∗ = [b − β, b + β]. Segue-se que, se atribuirmos a x um valor qualquer no intervalo I∗, a função (de y) F (x, y) será estritamente crescente no intervalo J∗ (visto que a sua derivada é positiva em todos os pontos desse intervalo); é o que terá de passar-se, em particular, com a função F (a, y), donde — atendendo a que F (a, b) = 0 — imediatamente decorrem as desigualdades:

F (a, b− β) < 0, F (a, b+ β) > 0.

A continuidade da função F permite agora reconhecer a existência de um número α > 0 (que pode evidentemente supor-se ≤ β) tal que, para cada x ∈ I =

130

4.4. Teoremas das funções impĺıcitas e da função inversa

]a− α, a+ α[, se tenha

F (x, b− β) < 0, F (x, b+ β) > 0.

Destas desigualdades e do facto de a função (de y) F (x, y) ser estritamente cres- cente e cont́ınua em J∗ para qualquer x fixado em I (visto que I ⊂ I∗), segue-se que para cada x ∈ I existirá um e um só yx ∈ J = ]b−β, b+β[ tal que F (x, yx) = 0 (o que termina a primeira parte da demonstração).

Ponhamos então f(x) = yx, para cada x ∈ I; antes de provar que a função f é da classe C1 convém ver que é cont́ınua em todos os pontos de I. A continuidade no ponto a é quase evidente: com efeito, o resultado que acabámos de obter (para além de ter possibilitado a definição da própria função f) evidencia que para qualquer x tal que |x−a| < α (isto é, para qualquer x ∈ I) se tem |f(x)−f(a)| < β ou seja f(x) ∈ J); assim, se for dado um número positivo δ (que podemos evidentemente supor ≤ β) bastará repetir o racioćınio precedente (agora com δ no lugar de β) para concluir que existe  > 0 (que poderá supor-se ≤ α) tal que se tenha |f(x) − f(a)| < δ sempre que seja |x − a| <  (isto é, para se reconhecer a continuidade de f no ponto a).

Agora, se a′ for outro ponto qualquer do intervalo I e b′ = f(a′) ter-se-á F (a′, b′) = 0 e ∂F

∂y (a′, b′) > 0 (atendendo à definição da função f e ao facto de se ter

I×J ⊂ I∗×J∗); poder-se-ia portanto — recomeçando a demonstração da primeira parte, agora com (a′, b′) no lugar de (a, b) — garantir a existência de números positivos α′, β′ (podendo evidentemente supor-se I ′ = ]a′ − α′, a′ + α′[ ⊂ I), tais que a cada x ∈ I ′ correspondesse um e um só y′x = g(x) ∈ J ′ = ]b′ − β′, b′ + β′[ por forma que F

( x, g(x)

) = 0. Mas então a unicidade da função f anteriormente

assegurada permitiria reconhecer que g seria necessariamente a restrição de f ao intervalo I ′ e, da mesma forma que se provara a continuidade de f no ponto a, provar-se-ia agora a continuidade de g no ponto a′, isto é, a continuidade de f neste mesmo ponto.

Trataremos agora de mostrar que, para qualquer x ∈ I, se tem:

f ′(x) = − ∂F ∂x

( x, f(x)

) ∂F ∂y

( x, f(x)

) ; aliás, por um argumento análogo ao que usámos para provar a continuidade de f , também aqui bastará provar que se verifica a igualdade:

f ′(a) = − ∂F ∂x (a, b)

∂F ∂y (a, b)

.

Para qualquer h tal que a + h ∈ I ponhamos f(a + h) − f(a) = k (é claro que, sempre que h tender para 0 ter-se-á também k → 0, dada a continuidade de f). Como, por hipótese, F é uma função de classe C1 e portanto diferenciável, ter-se-á:

F (a+ h, b+ k)− F (a, b) = h∂F ∂x

(a, b) + k ∂F

∂y (a, b) + ϕ(h, k)

√ h2 + k2,

131

Caṕıtulo 4. Cálculo diferencial

onde ϕ(h, k) tende para zero se ‖(h, k)‖ = √ h2 + k2 tender para zero (e portanto

também se h → 0, visto que h → 0 implica √ h2 + k2 → 0). Tendo em conta que

F (a, b) = 0 e que F (a+ h, b+ k) = F ( a+ h, f(a) + k

) = F

( a+ h, f(a+ h)

) = 0,

conclui-se facilmente que, para h 6= 0, deverá ter-se:

k

h = −

∂F ∂x (a, b)

∂F ∂y (a, b)

− ϕ(h, k) h∂F ∂y (a, b)

√ h2 + k2,

ou

k

h = −

∂F ∂x (a, b)

∂F ∂y (a, b)

− ϕ(h, k) ∂F ∂y (a, b)

|h| h

√ 1 +

( k

h

)2 .

Se |h| for suficientemente pequeno, será certamente verificada a desigualdade

|ϕ(h, k)|∣∣∣∂F∂y (a, b)∣∣∣ < 1

2

e portanto também

|k| |h|

≤ ∣∣∂F ∂x (a, b)

∣∣∣∣∣∂F∂y (a, b)∣∣∣ + 1

2

√ 1 +

( k

h

)2 ≤ ∣∣∂F ∂x (a, b)

∣∣∣∣∣∂F∂y (a, b)∣∣∣ + 1

2

( 1 +

|k| |h|

) ,

o que permite reconhecer que para |h| pequeno (e não nulo), |k||h| é limitado. Da última das igualdades precedentes deduz-se então que, quando h → 0, existe o limite de k

h = f(a+h)−f(a)

h e que esse limite é precisamente

− ∂F ∂x (a, b)

∂F ∂y (a, b)

.

Como já referimos, este resultado permite concluir que, para qualquer x ∈ I, se terá:

f ′(x) = − ∂F ∂x

( x, f(x)

) ∂F ∂y

( x, f(x)

) . Por sua vez esta igualdade — atendendo a que F é uma função de classe C1 e

a que f é cont́ınua — mostra que a função f ′ é cont́ınua, isto é, que f é da classe C1 no intervalo I.

Antes de registar outras versões mais gerais do teorema das funções impĺıcitas convém fazer algumas observações:

Em primeiro lugar pode notar-se que, depois de assegurada a diferenciabili- dade da função y = f(x) definida pela equação F (x, y) = 0 nas condições indica- das no Teorema 4.11, a expressão da sua derivada, registada no final do enunci- ado desse teorema, pode obter-se facilmente por derivação, a partir da igualdade F ( x, f(x)

) = 0; uma observação análoga poderá ser feita a propósito das fórmulas,

132

4.4. Teoremas das funções impĺıcitas e da função inversa

relativas a derivadas de funções definidas implicitamente, insertas nos enunciados dos restantes teoremas desta secção.

Deve observar-se também que o não anulamento da derivada ∂F ∂y

no ponto (a, b)

não é condição necessária para a existência de uma função y = f(x) univocamente definida, nalguma vizinhança deste ponto11, pela equação F (x, y) = 0. Por exem- plo, sendo F (x, y) = x − y3, tem-se ∂F

∂y (0, 0) = 0, embora a equação defina —

até globalmente, em todo o conjunto R — a função y = 3 √ x (pode notar-se que

esta função não é diferenciável no ponto 0, mas basta considerar o caso da função F (x, y) = x3−y3 para se reconhecer que o anulamento de ∂F

∂y (0, 0) não é incompa-

t́ıvel com o facto de a função definida pela equação F (x, y) = 0 ser diferenciável no ponto considerado).

Uma outra observação, decerto óbvia para o leitor: se, no enunciado do Te- orema 4.11, a hipótese ∂F

∂y (a, b) 6= 0 fosse substituida por ∂F

∂x (a, b) 6= 0, o que

poderia concluir-se era a possibilidade de definir univocamente, numa vizinhança conveniente do ponto (a, b), uma função x = g(y), de classe C1, para a qual se teria (em qualquer ponto y suficientemente próximo de b):

g′(y) = − ∂F ∂y

( g(y), y

) ∂F ∂x

( g(y), y

) . Consideremos agora, a t́ıtulo de exemplo, a função F (x, y) = xy − yx,

definida no 1o quadrante aberto e comecemos por procurar os pontos (a, b) (situados nesse quadrante) que são soluções da equação F (x, y) = 0.

É evidente que todos os pontos da forma (a, a) — com a > 0 — sa- tisfazem essa condição; mas é fácil ver que há outras soluções. Para tal observemos que a igualdade F (x, y) = 0 é equivalente a

log x x

= log y y

e que, enquanto para qualquer x ∈ ]0, 1] ∪ {e} não há nenhum y 6= x que verifique essa igualdade, já para cada x ∈ ]1, e[ ∪ ]e, +∞[ existe um e um só y distinto de x (que poderemos designar por h(x)) tal que

log h(x) h(x)

= log x x

ou, o que é o mesmo, xh(x) = ( h(x)

)x (cf. Fig. 4.7). Assim, a igualdade xy = yx (com x, y > 0) é verificada sse for y = x

(com x > 0) ou y = h(x) (para x ∈ ]1, +∞[\{e}). Na Figura 4.8 esboçam-se os gráficos dessas funções e embora o esboço

seja pouco cuidado, chega para sugerir que a equação F (x, y) = 0 definirá certamente, numa vizinhança suficientemente pequena de qualquer ponto da

11Recorde-se que se chama vizinhança de um ponto c ∈ Rm a qualquer subconjunto de Rm que contenha uma bola centrada em c.

133

Caṕıtulo 4. Cálculo diferencial

PSfrag replacements

w

1

e

1 x e h(x) 3 2 e

w = log x

x

Figura 4.7

forma (a, a) — com a > 0 e a 6= e— uma função univocamente determinada (precisamente a função y = x) e numa vizinhança suficientemente pequena de qualquer ponto

( a, h(a)

) uma outra função (precisamente y = h(x))

também determinada de forma única.

PSfrag replacements

y = x

y = h(x)

1

e

4

1 e

Figura 4.8

Para o ponto (e, e) é óbvio que não será posśıvel determinar uma vi- zinhança na qual a equação em causa defina univocamente uma função y = f(x) (ou x = g(y)), facto que (atendendo ao Teorema 4.11) implica o anulamento nesse ponto da derivada ∂F∂y (e da derivada

∂F ∂x ). É fácil verifi-

car que, de facto, ∂F∂y (e, e) = 0 (e ∂F ∂x (e, e) = 0) e também que, em qualquer

ponto (a, b) 6= (e, e) e tal que F (a, b) = 0, as derivadas parciais da função F

134

4.4. Teoremas das funções impĺıcitas e da função inversa

se não anulam; assim, a possibilidade de definir univocamente y como fun- ção de x (ou x como função de y) numa vizinhança de tais pontos estaria de facto assegurada, nos termos do teorema das funções impĺıcitas.

Se pretendermos determinar uma equação da tangente ao gráfico da função h num ponto do seu domı́nio, por exemplo no ponto 2, onde a função assume o valor 4, bastará derivar ambos os membros da igualdade xy − yx = 0 em ordem a x — supondo y = h(x) — o que conduz a

xyy′ log x+ yxy−1 − xyx−1y′ − yx log y = 0,

donde decorre imediatamente:

h′(2) = 4(1− log 2) 1− 2 log 2

.

Uma equação da tangente será então:

y = 4 + 4(1− log 2) 1− 2 log 2

(x− 2).

Por um processo inteiramente análogo ao que usámos na demonstração do Teorema 4.11, obter-se-ia a seguinte versão algo mais geral do teorema das funções impĺıcitas:

Teorema 4.12. Seja D um aberto de Rn+1, (a, b) = (a1, . . . , an, b) ∈ D, F ∈ C1(D), F (a, b) = 0 e ∂F

∂y (a, b) 6= 0; então:

1. existem α > 0 e β > 0 tais que a cada x = (x1, . . . , xn) ∈ I = ]a1 − α, a1 + α[ × · · · × ]an − α, an + α[ corresponde um e um só yx ∈ J = ]b− β, b+ β[ por forma que se tenha F (x, yx) = F (x1, . . . , xn, yx) = 0;

2. pondo f(x) = f(x1, . . . , xn) = yx para cada x ∈ I, a função f é de classe C1 e tem-se, para cada x ∈ I e cada i ∈ {1, . . . , n}:

∂f

∂xi (x1, . . . , xn) = −

∂F ∂xi

( x1, . . . , xn, f(x)

) ∂F ∂y

( x1, . . . , xn, f(x)

) . A demonstração da parte 1. é praticamente idêntica à do Teorema 4.11; para

o restante, não há mais que considerar separadamente cada uma das variáveis x1, . . . , xn, encarando as restantes variáveis como constantes.

Se, nos enunciados dos Teoremas 4.11 e 4.12, substitúıssemos a hipótese F ∈ C1(D) por F ∈ Cp(D), com p inteiro maior do que 1 ou p =∞ (conservando todas as restantes hipóteses), podeŕıamos concluir que seria também f ∈ Cp(I) (e não apenas f ∈ C1(I)); é o que se verifica sem dificuldade se se tiverem em conta as fórmulas relativas às derivadas da função f que figuram no final dos enunciados dos referidos teoremas.

135

Caṕıtulo 4. Cálculo diferencial

Como exemplo, determinemos o polinómio de Mac-Laurin de 2a ordem da função z = f(x, y) definida — numa vizinhança do ponto (0, 0, 0) — pela equação:

F (x, y, z) = xz − y + sen z = 0. Ter-se-á:

∂F

∂x = z + x

∂z

∂x + cos z

∂z

∂x = 0,

∂F

∂y = x

∂z

∂y − 1 + cos z ∂z

∂y = 0,

∂2F

∂x2 = 2

∂z

∂x + x

∂2z

∂x2 − sen z

( ∂z

∂x

)2 + cos z

∂2z

∂x2 = 0,

∂2F

∂x∂y = ∂z

∂y + x

∂2z

∂x∂y − sen z ∂z

∂x

∂z

∂y + cos z

∂2z

∂x∂y = 0,

∂2F

∂y2 = x

∂2z

∂y2 − sen z

( ∂z

∂y

)2 + cos z

∂2z

∂y2 = 0,

donde imediatamente decorre que o polinómio de Mac-Laurin em causa é y − xy.

Na formulação mais geral do teorema das funções impĺıcitas que estudare- mos na sequência tratar-se-á de determinar condições para que um sistema de m equações da forma: 

F1(x1, . . . , xn, y1, . . . , ym) = 0

· · · Fm(x1, . . . , xn, y1, . . . , ym) = 0,

onde F1, . . . , Fm são funções definidas num aberto D de Rm+n, possa ser resolvido em ordem às m variáveis y1, . . . , ym, por forma que cada uma destas fique expressa (localmente) como função das restantes variáveis, x1, . . . , xn.

Antes de iniciar o estudo desse problema convirá fazer uma breve referência ao caso particular em que as funções F1, . . . , Fm são lineares, assumindo o sistema a forma: 

a11x1 + · · ·+ a1nxn + b11y1 + · · ·+ b1mym = 0 · · ·

am1x1 + · · ·+ amnxn + bm1y1 + · · ·+ bmmym = 0. É sabido que, neste caso, as variáveis y1, . . . , ym podem exprimir-se, de forma única, como funções de x1, . . . , xn sse for diferente de zero o determinante

12∣∣∣∣∣∣ b11 · · · b1m . . . . . . . . . . . . . . bm1 · · · bmm

∣∣∣∣∣∣ . 12Sobre o conceito e propriedades dos determinantes e sobre a resolução de sistemas de equa-

ções lineares poderá consultar-se Álgebra Linear como Introdução à Matemática Aplicada, Lúıs T. Magalhães, Texto Editora, ou Introdução à Álgebra Linear e Geometria Anaĺıtica, F. Dias Agudo, Escolar Editora.

136

4.4. Teoremas das funções impĺıcitas e da função inversa

Assim, atendendo a que, na hipótese de as funções F serem lineares:

Fi(x1, . . . , xn, y1, . . . , ym) = ai1x1 + · · ·+ ainxn + bi1y1 + . . .+ bimym,

se tem bij = ∂Fi ∂yj

(i, j ∈ {1, . . . ,m}) (e tendo em conta que, no caso geral, as funções Fi — se forem suficientemente «regulares» — poderão ser localmente aproximadas por funções lineares) é-se naturalmente conduzido a conjecturar que o não anulamento do determinante∣∣∣∣∣∣

∂F1 ∂y1

· · · ∂F1 ∂ym

. . . . . . . . . . . . . . ∂Fm ∂y1

· · · ∂Fm ∂ym

∣∣∣∣∣∣ , será uma hipótese significativa, quando se pretenda garantir, em termos locais, a resolubilidade do sistema em relação às variáveis y1, . . . , ym.

O determinante em causa, a que usualmente se chama jacobiano das funções F1, . . . , Fm em relação às variáveis y1, . . . , ym, costuma ser designado pelo śımbolo ∂(F1,...,Fm) ∂(y1,...,ym)

. Quanto à conjectura há pouco referida (relativa ao papel desempenhado pela hipótese de não anulamento do jacobiano na resolução do problema que temos vindo a considerar) teremos oportunidade de vê-la confirmada no enunciado do Teorema 4.14.

No entanto, antes de analisar a situação geral considerada nesse teorema,poderá ser conveniente encarar o caso particular a que se refere o

Teorema 4.13. Seja D um aberto de Rn+2, (a, b, c) = (a1, a2, . . . , an, b, c) ∈ D, F,G ∈ C1(D), F (a, b, c) = G(a, b, c) = 0 e ∂(F,G)

∂(y,z) (a, b, c) 6= 0; nestas condições:

1. Existe um intervalo aberto I (de Rn, centrado no ponto a) e um intervalo aberto J (de R2, centrado em (b, c)) tais que a cada x = (x1, . . . , xn) ∈ I corresponde um e só um par (yx, zx) ∈ J por forma que se verifiquem as igualdades:

F (x, yx, zx) = 0, G(x, yx, zx) = 0.

2. Pondo f(x) = yx e g(x) = zx, qualquer que seja x ∈ I, as funções f e g são de classe C1 e tem-se, para cada i ∈ {1, . . . , n} e em cada ponto( x, f(x), g(x)

) ∈ I × J ,

∂f

∂xi (x) = − 1

J ∂(F,G)

∂(xi, z) ,

∂g

∂xi (x) = − 1

J ∂(F,G)

∂(y, xi) ,

onde

J = ∂(F,G) ∂(y, z)

=

∣∣∣∣∂F∂y ∂F∂z∂G ∂y

∂G ∂z

∣∣∣∣ . 137

Caṕıtulo 4. Cálculo diferencial

Demonstração. É muito simples a ideia da demonstração que vamos fazer (usando um método que poderia chamar-se «de substituição»): trata-se essencialmente de resolver uma das equações — digamos F (x, y, z) = 0 — em ordem a uma das «incógnitas» — digamos z — substituindo depois o resultado obtido, z = f ∗(x, y) na outra equação, G(x, y, z) = 0, o que conduz a uma nova equação só com x e y, H(x, y) = G

( x, y, f∗(x, y)

) = 0. Designando por y = f(x) a solução desta

equação e pondo z = g(x) = f ∗ ( x, f(x)

) , as funções f e g constituirão a solução

do sistema. Em termos precisos: o não anulamento do jacobiano no ponto (a, b, c) implica

que alguma das derivadas ∂F ∂y , ∂F

∂z será diferente de zero nesse ponto (de contrário

seriam nulos os elementos da primeira linha do jacobiano e este não seria diferente de zero). Supondo, por exemplo, ∂F

∂z (a, b, c) 6= 0 poderá deduzir-se, nos termos do

Teorema 4.12 e atendendo às restantes hipóteses do Teorema 4.13, que existem dois intervalos abertos, I ′ (de Rn+1, centrado em (a, b)) e J ′ (de R, centrado no ponto c) tais que a cada par (x, y) ∈ I ′ corresponda um e um só ponto zxy ∈ J ′ por forma que seja verificada a igualdade F (x, y, zxy) = 0.

É óbvio que zab = c e também que, pondo f ∗(x, y) = zxy e

H(x, y) = G ( x, y, f∗(x, y)

) ,

(para cada par (x, y) ∈ I ′) se terá H(a, b) = 0; e é também evidente que o par (y, z) será solução do sistema F (x, y, z) = 0, G(x, y, z) = 0 — com (x, y) ∈ I ′ e z ∈ J ′ — sse for z = f ∗(x, y) e H(x, y) = 0.

Decorre ainda do Teorema 4.12 que a função f ∗ é de classe C1 e que se verifica a igualdade:

∂f ∗

∂y = −

∂F ∂y

∂F ∂z

.

Nestas condições, ter-se-á:

∂H

∂y = ∂G

∂y + ∂G

∂z

∂f ∗

∂y = − 1

∂F ∂z

∂(F,G)

∂(y, z) ,

o que evidencia que ∂H ∂y (a, b) 6= 0, permitindo-nos portanto, por novo recurso ao

Teorema 4.12, concluir que existe um intervalo aberto I (de Rn, centrado em a), e um intervalo aberto J ′′ (de R, centrado em b), tais que a cada x ∈ I corresponde um e um só yx ∈ J ′′ por forma que H(x, yx) = 0.

Pode naturalmente supor-se que os intervalos I e J ′′ são tais que I × J ′′ ⊂ I ′. Nestas condições, pondo J = J ′′ × J ′, zx = f ∗(x, yx), f(x) = yx, g(x) = zx, reconhece-se imediatamente que os intervalos I e J e as funções f e g satisfazem as condições referidas no enunciado do teorema, faltando apenas verificar as fórmulas relativas às derivadas parciais dessas funções.

Para esse efeito, derivem-se em ordem a xi ambos os membros de cada uma das equações

F ( x1, . . . , xn, f(x), g(x)

) = 0 e G

( x1, . . . , xn, f(x), g(x)

) = 0,

138

4.4. Teoremas das funções impĺıcitas e da função inversa

o que conduz ao sistema: ∂F

∂xi + ∂F

∂y

∂f

∂xi + ∂F

∂z

∂g

∂xi = 0

∂G

∂xi + ∂G

∂y

∂f

∂xi + ∂G

∂z

∂g

∂xi = 0.

Bastará resolver este sistema pela regra de Cramer (considerando como incóg- nitas ∂f

∂xi e ∂g

∂xi ) para se obterem as fórmulas referidas no final do enunciado do

teorema.

A t́ıtulo de exemplo, verifiquemos se o sistema{ F (x, y, u, v) = eu + x cos v = 0 G(x, y, u, v) = eu + y sen v − 1 = 0

define univocamente, nalguma vizinhança do ponto (−1, 1, 0, 0), 1.o x e y como funções de u e v;

2.o u e v como funções de x e y.

No primeiro caso, como o jacobiano ∂(F,G)∂(x,y) = 1 2 sen 2v se anula no ponto

considerado, o Teorema 4.13 não é aplicável. Basta, porém, resolver em ordem a y a equação G(x, y, u, v) = 0 para se reconhecer que não poderá existir uma vizinhança do ponto (0, 0) tal que a cada par (u, v) pertencente a essa vizinhança corresponda um par (x, y) por forma que essa equação seja verificada.

Para analisar a possiblidade de considerar definidas pelo sistema dado as variáveis u e v como funções de x e y, nalguma vizinhança do ponto (−1, 1, 0, 0), interessa considerar o jacobiano ∂(F,G)∂(u,v) , que assume nesse ponto o valor 1; desta vez, portanto a conclusão seria afirmativa.

Supondo u = f(x, y), v = g(x, y) — com o par (x, y) «próximo» de (−1, 1) e o par (u, v) «próximo» de (0, 0) — se pretendêssemos determinar os planos tangentes13 às superf́ıcies de equações u = f(x, y) e v = g(x, y) no

13Supondo ϕ(x, y) diferenciável no ponto (x0, y0), a equação do plano tangente à superf́ıcie de equação z = ϕ(x, y) no ponto (x0, y0, z0) (onde z0 = ϕ(x0, y0)) é:

z = z0 + ∂ϕ

∂x (x0, y0)(x− x0) +

∂ϕ

∂y (x0, y0)(y − y0).

Mais geralmente, sendo f : D → R (com D ⊂ Rn) uma função diferenciável no ponto a = (a1, . . . , an), uma equação do “hiperplano” tangente à “hipersuperf́ıcie” y = f(x) no ponto (a1, . . . , an, f(a)) é:

y = f(a1, . . . , an) + ∂f

∂x1 (a)(x1 − a1) + · · ·+

∂f

∂xn (a)(xn − an)

ou, usando notação mais condensada:

y = f(a) + f ′(a)(x− a).

139

Caṕıtulo 4. Cálculo diferencial

ponto (−1, 1, 0), bastaria derivar ambos os membros de cada uma das equa- ções F (x, y, u, v) = 0, G(x, y, u, v) = 0 em ordem a x e também em ordem a y (considerando u e v como funções de x e y) e resolver os dois sistemas obtidos em relação às «incógnitas» ∂u∂x ,

∂v ∂x e

∂u ∂y ,

∂v ∂y (depois de substituir as

variáveis x, y, u, v pelas coordenadas correspondentes do ponto (−1, 1, 0, 0)). Obter-se-iam assim os sistemas:{

eu ∂u∂x + cos v − x sen v ∂v ∂x = 0

eu ∂u∂x + y cos v ∂v ∂x = 0,

{ eu ∂u∂y − x sen v

∂v ∂y = 0

eu ∂u∂y + sen v + y cos v ∂v ∂y = 0

e portanto, no ponto considerado:{ ∂u ∂x + 1 = 0 ∂u ∂x +

∂v ∂x = 0,

{ ∂u ∂y = 0 ∂u ∂y +

∂v ∂y = 0.

Segue-se que as equações dos planos tangentes são, respectivamente,

u = −x− 1 e v = x+ 1

Enunciaremos agora o teorema das funções impĺıcitas, na forma mais geral aqui considerada.

Teorema 4.14. Seja D um aberto de Rm+n, (a, b) = (a1, . . . , an, b1, . . . , bm) um ponto de D e, para cada j ∈ {1, . . . ,m}, Fj(x,y) = Fj(x1, . . . , xn, y1, . . . , ym) uma função definida e de classe C1 em D; suponham-se ainda verificadas as condições:

Fj(a, b) = 0 (j ∈ {1, . . . ,m})

e ∂(F1, . . . , Fm)

∂(y1, . . . , ym) (a, b) 6= 0

Então:

1. existe um intervalo aberto I (de Rn, centrado em a) e um intervalo aberto J (de Rm, centrado em b) tais que a cada x ∈ I corresponde um e só um yx = (y1x, . . . , ymx) ∈ J por forma que Fj(x,yx) = 0 (para j = 1, . . . ,m);

2. pondo f1(x) = y1x, . . . , fm(x) = ymx, as funções f1, . . . , fm são de classe C1 em I e tem-se, para i ∈ {1, . . . , n} e j ∈ {1, . . . ,m}:

∂fj ∂xi

= − ∂(F1,F2,...,Fm)

∂(y1,...,yj−1,xi,yj+1,...,ym)

∂(F1,F2,...,Fm) ∂(y1,y2,...,ym)

.

Demonstração. A demonstração pode fazer-se por indução (sobre m): assegurada a veracidade da proposição no caso m = 1 (pelo Teorema 4.12), admita-se, como hipótese de indução, a sua validade quando se considerem sistemas de m − 1

140

4.4. Teoremas das funções impĺıcitas e da função inversa

equações em m − 1 «incógnitas» (qualquer que seja o número de variáveis inde- pendentes) e comecemos por observar que, sendo diferente de zero no ponto (a, b) o jacobiano

J =

∣∣∣∣∣∣ ∂F1 ∂y1

· · · ∂F1 ∂ym

. . . . . . . . . . . . . . ∂Fm ∂y1

· · · ∂Fm ∂ym

∣∣∣∣∣∣ sê-lo-á também pelo menos um dos determinantes de ordem m − 1 que podem obter-se suprimindo-lhe a última linha e uma das suas colunas14. Assim, alterando, se necessário, a ordenação das colunas do determinante J , podemos supor que é diferente de zero em (a, b) o determinante

J ∗ =

∣∣∣∣∣∣∣ ∂F1 ∂y1

· · · ∂F1 ∂ym−1

. . . . . . . . . . . . . . . . . . ∂Fm−1 ∂y1

· · · ∂Fm−1 ∂ym−1

∣∣∣∣∣∣∣ . Utilizando a hipótese de indução reconhece-se então a existência de intervalos

I ′ (de Rn+1, centrado no ponto (a1, . . . , an, bm)) e J ′ de (de Rm−1, centrado em (b1, . . . , bm−1)) tais que a cada vector (x, ym) = (x1, . . . , xn, ym) ∈ I ′ corresponda um e um só y′ = (y′1, . . . , y

′ m−1) ∈ J ′ por forma que se tenha (para cada j ∈

{1, . . . ,m− 1}): Fj(x, y

′ 1, . . . , y

′ m−1, ym) = 0. (4.1)

Ponhamos então:

f ∗j (x, ym) = f ∗ j (x1, . . . , xn, ym) = y

′ j (j ∈ {1, . . . ,m− 1})

e ainda H(x, ym) = Fm

( x, f∗1 (x, ym), . . . , f

∗ m−1(x, ym), ym

) . (4.2)

Se verificarmos que ∂H ∂ym

(a, bm) 6= 0, o Teorema 4.12 permitirá reconhecer que a equação H(x, ym) = 0 poderá ser resolvida (localmente) em ordem a ym, donde decorrerão facilmente os resultados que pretendemos provar. Para tal derivemos em ordem a ym as m− 1 equações( 4.1) (tendo em conta que y′j = f ∗j (x, ym), para j = 1, . . . ,m− 1) e ainda a equação (4.2).

Obteremos o sistema:

m−1∑ k=1

∂Fj ∂yk

∂f ∗k ∂ym

+ ∂Fj ∂ym

= 0 (j ∈ {1, . . . ,m− 1})

m−1∑ k=1

∂Fm ∂yk

∂f ∗k ∂ym

− ∂H ∂ym

+ ∂Fm ∂ym

= 0.

14Recorde-se que, de acordo com um Teorema de Laplace, o determinante J é igual à soma dos produtos que se obtêm multiplicando cada um dos elementos da sua última linha pelos respectivos complementos algébricos; e também que, a menos do sinal, estes complementos algébricos são precisamente os determinantes de ordem m− 1 acima mencionados.

141

Caṕıtulo 4. Cálculo diferencial

A resolução deste sistema (considerando como incógnitas ∂f∗1 ∂ym

, . . . , ∂f∗m−1 ∂ym

e ∂H ∂ym

), conduz imediatamente à igualdade:

∂H

∂ym =

J J ∗

,

donde decorre o não anulamento da derivada ∂H ∂ym

que pretend́ıamos verificar.

Assim, pode garantir-se que existe um intervalo I (de Rn, centrado no ponto a) e um intervalo J ′′ (de R, centrado em b) por forma que a cada x ∈ I corresponda um único ymx ∈ J ′′ de modo que se verifique a igualdade H(x, ymx) = 0.

É claro que podemos supor I×J ′′ ⊂ I ′; nestas condições, pondo J = J ′×J ′′ e, para cada x ∈ I, fm(x) = ymx e fj(x) = f ∗j

( x, fm(x)

) , para j = 1, . . . ,m−1, vê-se

imediatamente que os intervalos I e J e as funções f1, . . . , fm satisfazem todas as condições mencionadas no enunciado do teorema, faltando apenas, para terminar a demonstração, verificar as fórmulas relativas às derivadas destas funções. Para este efeito bastará derivar em ordem a xi ambos os membros de cada uma das equações do sistema dado, o que conduz ao sistema:

∂Fj ∂xi

+ ∂Fj ∂y1

∂f1 ∂xi

+ · · ·+ ∂Fj ∂ym

∂fm ∂xi

= 0 (j ∈ {1, . . . ,m})

e resolver este sistema considerando como incógnitas as derivadas ∂fj ∂xi

. Aliás, como já foi observado, as fórmulas assim obtidas, para além de eviden-

ciarem que, nas condições da hipótese do teorema, as funções fj são de classe C1, permitem também reconhecer que estas funções seriam de classe Cp (com p inteiro > 1 ou p =∞) se o mesmo se passasse com as funções Fj.

Uma aplicação simples do teorema das funções impĺıcitas permite obter outro teorema importante, habitualmente designado por teorema da função inversa15. Preparando o enunciado desse teorema começaremos por recordar algumas defini- ções e resultados muito correntes, que convém ter presentes no que vai seguir-se.

Como é bem sabido, sendo A e B dois conjuntos quaisquer e f uma aplicação injectiva (ou, como também se diz, invert́ıvel) de A em B, a inversa de f é a aplicação f−1 : f(A) → A tal que, para qualquer x ∈ A e qualquer y ∈ f(A), f−1(y) = x sse f(x) = y.

Segundo um resultado bem conhecido da teoria das funções reais de variável real, uma função cont́ınua f : I → R (onde I é um intervalo de R) é injectiva sse for estritamente monótona; em tal caso o seu contradomı́nio é um intervalo J e a inversa f−1 : J → I é também cont́ınua (e estritamente monótona). Suponhamos agora que o intervalo I é aberto e que a função f é de classe C1: então, para que f seja invert́ıvel e f−1 seja também de classe C1 é necessário e suficiente que seja

15Tal possibilidade de aplicação do teorema das funções impĺıcitas é praticamente evidente: basta notar que (em termos pouco precisos) inverter uma função f equivale a resolver em ordem a x a equação y − f(x) = 0.

142

4.4. Teoremas das funções impĺıcitas e da função inversa

verificada a condição f ′(x) 6= 0 qualquer que seja x ∈ I; nesta hipótese ter-se-á, como é sabido (designando agora por g a inversa de f):

g′ ( f(x)

) = ( f ′(x)

)−1 ,

para cada x ∈ I. Convém agora notar que, em certos casos em que a função f : I → R não é

injectiva (nem, portanto, «globalmente» invert́ıvel, isto é, invert́ıvel na acepção anteriormente considerada), pode ter interesse analisar a possibilidade de inverter a restrição de f a alguma vizinhança de um ou outro ponto particular do seu do- mı́nio; e, quando tal inversão «local» é posśıvel, interessa frequentemente estudar certas propriedades das inversas locais que assim podem obter-se. Por exemplo, se f : I → R for uma função de classe Cp nalguma vizinhança de certo ponto a, é fácil ver que a condição f ′(a) 6= 0 garante a existência de uma vizinhança U do ponto a tal que a restrição de f a U seja invert́ıvel e que f−1 seja também uma função de classe Cp.

Exprime-se no enunciado do Teorema 4.15 uma extensão destes resultados ao quadro das funções definidas em abertos de Rn e com valores neste mesmo espaço.

Como era de esperar, nessa extensão desempenha também um papel fundamen- tal o comportamento da derivada no ponto considerado; porém, no caso n > 1, a condição a impor para garantir a invertibilidade local de f (além das propriedades desejáveis de f−1) não será já o não anulamento16 da derivada f ′(a), mas sim que esta aplicação linear de Rn em si mesmo seja ela própria invert́ıvel. Ora para este efeito o que interessa (o que é necessário e suficiente) é que se não anule o jacobiano correspondente.

Antes de enunciar o teorema da aplicação inversa convém introduzir a definição seguinte: sendo p um inteiro ≥ 1 ou p =∞, A e B dois conjuntos abertos de Rn e f : A→ B uma aplicação bijectiva, diz-se que f é um difeomorfismo de classe Cp sse tanto f como f−1 forem funções de classe Cp (por exemplo, a função f(x) = x3, suposta definida num aberto A de R é um difeomorfismo de classe C∞ sse 0 6∈ A e não é sequer um difeomorfismo de classe C1 se 0 ∈ A). Convém recordar ainda que, sendo a um ponto qualquer de Rn, é costume chamar vizinhança de a a qualquer subconjunto de Rn que contenha uma bola centrada no ponto a.

Teorema 4.15 (Teorema da função inversa). Seja D um aberto de Rn, f : D → Rn uma função de classe C1 definida pelo sistema:

y1 = f1(x1, . . . , xn)

. . .

yn = fn(x1, . . . , xn)

16Observe-se que até no caso particular de a função f ser ela própria uma aplicação linear de Rn em si mesmo (caso em que, qualquer que seja a ∈ Rn, f ′(a) = f) a condição f 6= 0 é claramente insuficiente para garantir a invertibilidade de f (excepto se for n = 1).

143

Caṕıtulo 4. Cálculo diferencial

(abreviadamente y = f(x)). Seja ainda a = (a1, . . . , an) um ponto de D, b = (b1, . . . , bn) = f(a) e suponha-se que

∂(f1, . . . , fn)

∂(x1, . . . , xn) (a) 6= 0

(isto é, que a derivada f ′(a) é uma aplicação bijectiva de Rn sobre si mesmo). Nestas condições existe uma vizinhança aberta U do ponto a tal que a restrição

de f a U é um difeomorfismo de classe C1 e, designando por g a inversa de f|U , tem-se, em qualquer ponto x ∈ U ,

g′ ( f(x)

) = ( f ′(x)

)−1 .

Demonstração. Pondo

F1(x1, . . . , xn, y1, . . . , yn) = f1(x1, . . . , xn)− y1 . . .

Fn(x1, . . . , xn, y1, . . . , yn) = fn(x1, . . . , xn)− yn,

as funções Fi(x,y) serão de classe C1 no aberto (de R2n) D × Rn e ter-se-á, para cada i ∈ {1, . . . , n},

Fi(a, b) = 0, e ∂(F1, . . . , Fn)

∂(x1, . . . , xn) (a, b) 6= 0.

O Teorema 4.14 garante então a existência de um intervalo aberto J (de Rn, centrado em b) e de um intervalo aberto I (de Rn, centrado em a) tais que para cada y ∈ J exista um e só um xy ∈ I tal que y = f(xy); e ainda que, se pusermos g(y) = xy para cada y ∈ J , a função g será de classe C1 em J . Designando por U a imagem de J por g, g(J) = U , reconhece-se imediatamente, não só que U ⊂ I, como também que a ∈ U (visto que a = g(b) e b ∈ J) e ainda que f|U é uma aplicação bijectiva de U sobre J , precisamente a inversa de g (na realidade tem-se:

g ◦ f|U = IU , f|U ◦ g = IJ ,

designando por IU a aplicação idêntica definida em U e analogamente para IJ). Para terminar a prova de que f|U é um difeomorfismo de classe C1 falta apenas

verificar que o conjunto U é aberto (porque é óbvio que então a restrição de f a U será, tal como f , uma função de classe C1). Para tal, comecemos por notar que a imagem por f de um ponto que pertença ao conjunto I\U (se este conjunto não for vazio) não poderá pertencer a J (visto que para cada y ∈ J existe um e um só xy em I que tem y por imagem e esse ponto xy = g(y) pertence necessariamente a U). Agora, se c for um ponto qualquer de U ter-se-á f(c) ∈ J e, por J ser aberto, existirá δ > 0 tal que Bδ

( f(c)

) ⊂ J . Por outro lado, como a função f

é cont́ınua em c, para algum  > 0 (que pode supor-se suficientemente pequeno para que B(c) esteja contida no aberto I) se terá

f(B ( c) ) ⊂ Bδ

( f(c)

) ⊂ J.

144

4.4. Teoremas das funções impĺıcitas e da função inversa

Dado, porém, que em B(c) não pode existir qualquer ponto de I\U (pois que, como observámos há pouco, as imagens por f de tais pontos não pertencem a J) pode concluir-se que B(c) ⊂ U e portanto que U é aberto.

Seja agora x um ponto qualquer de U . Da igualdade g ◦ f|U = IU segue-se imediatamente, atendendo à regra de derivação das funções compostas e ao facto de se ter I ′U(x) = I, designando por I a aplicação idêntica de Rn em si mesmo (visto que IU é a restrição da aplicação linear I a um aberto que contém x),

g′ ( f(x)

) ◦ f ′(x) = I.

Finalmente desta relação, tendo em conta o facto de g′(x) ser uma aplicação

bijectiva17, decorre a igualdade g′ ( f(x)

) = ( f ′(x)

)−1 , que pretend́ıamos provar.

Convém notar agora que, passando às matrizes jacobianas correspondentes às aplicações lineares que figuram na igualdade g′

( f(x)

) ◦ f ′(x) = I, se obtem a

relação: ∂x1 ∂y1

· · · ∂x1 ∂yj

· · · ∂x1 ∂yn

. . . . . . . . . . . . . . . . . . . . . . . ∂xi ∂y1

· · · ∂xi ∂yj

· · · ∂xi ∂yn

. . . . . . . . . . . . . . . . . . . . . . . ∂xn ∂y1

· · · ∂xn ∂yj

· · · ∂xn ∂yn



 ∂y1 ∂x1

· · · ∂y1 ∂xi

· · · ∂y1 ∂xn

. . . . . . . . . . . . . . . . . . . . . . . ∂yj ∂x1

· · · ∂yj ∂xi

· · · ∂yj ∂xn

. . . . . . . . . . . . . . . . . . . . . . . ∂yn ∂x1

· · · ∂yn ∂xi

· · · ∂yn ∂xn

 =  1 · · · 0 · · · 0 . . . . . . . . . . . . . . . . . 0 . . . . . . . . . . . 0 . . . . . . . . . . . . . . . . . 0 · · · 0 · · · 1

 ,

onde as funções ∂xi ∂yj

se supõem calculadas no ponto f(x), as funções ∂yj ∂xi

no ponto

x e onde a matriz que figura no 2o membro é evidentemente a matriz identidade de ordem n. Por sua vez desta igualdade decorre imediatamente18 a relação entre os jacobianos

∂(x1, . . . , xn)

∂(y1, . . . , yn) =

( ∂(y1, . . . , yn)

∂(x1, . . . , xn)

)−1 ,

que generaliza a fórmula dx dy

= 1/ dy dx , correspondente ao caso n = 1.

Por outro lado, efectuando o produto das matrizes do primeiro membro e igualando-o à matriz identidade, obtêm-se as n2 igualdades:

∂xi ∂y1

∂y1 ∂xj

+ ∂xi ∂y2

∂y2 ∂xj

+ · · ·+ ∂xi ∂yn

∂yn ∂xj

= δij (i, j = 1, . . . , n),

(onde δij = 1 se i = j e δij = 0 se i 6= j).

17 É muito fácil verificar que uma aplicação linear ϕ : Rn → Rn é injectiva sse for sobrejectiva (e portanto bijectiva); e ainda que, para que seja bijectiva a composta de duas aplicações lineares de Rn em si mesmo, é necessário e suficiente que ambas o sejam.

18Atendendo a que o determinante do produto de duas matrizes (quadradas, da mesma ordem) é igual ao produto dos determinantes dessas matrizes.

145

Caṕıtulo 4. Cálculo diferencial

Se se pretender determinar as primeiras derivadas parciais da função xi = gi(y1, . . . , yn), bastará resolver em ordem a essas derivadas o sistema de n equações que se obtem se, nas igualdades anteriores, fixarmos i e fizermos j = 1, . . . , n.

O resultado obtido,

∂xi ∂yj

= (−1)i+j ∂(y1,...,yj−1,yj+1,...,yn) ∂(x1,...,xi−1,xi+1,...,xn)

∂(y1,...,yn) ∂(x1,...,xn)

,

permite reconhecer uma vez mais que, se no enunciado do teorema da função inversa substitúıssemos a hipótese f ∈ C1(D) por f ∈ Cp(D) (p inteiro ≥ 1 ou p =∞), podeŕıamos concluir que g seria uma função de classe Cp (e portanto um difeomorfismo de classe Cp).

A t́ıtulo de exemplo, consideremos a função f definida pelo sistema:{ u = x+ cos 1y v = 1 + cos 1x

no aberto D ⊂ R2 formado pelos pontos (x, y) tais que xy 6= 0. Como f ∈ C∞(D) e o jacobiano

∂(u, v) ∂(x, y)

= − 1 x2y2

sen 1 x sen

1 y

se anula apenas nos pontos (x, y) ∈ D que verificam pelo menos uma das condições x = 1kπ ou y =

1 `π (para algum valor de k, ` ∈ Z\{0}), podemos

concluir que qualquer outro ponto de D tem uma vizinhança U tal que f|U é um difeomorfismo de classe C∞; e é aliás muito fácil verificar que, em relação aos pontos de D em que o jacobiano se anula, não há de facto possibilidade de inverter a função, mesmo localmente.

Se pretendêssemos determinar a matriz jacobiana da função inversa num dos pontos em que a inversão é posśıvel, bastaria derivar em ordem a u e também em ordem a v o sistema que define a função f , o que conduziria a:{

1 = ∂x∂u + 1 y2 sen 1y

∂y ∂u

0 = 1 x2

sen 1x ∂x ∂u

{ 0 = ∂x∂v +

1 y2 sen 1y

∂y ∂v

1 = 1 x2

sen 1x ∂x ∂v

,

donde resulta:

∂x

∂u = 0,

∂y

∂u =

y2

sen 1y ,

∂x

∂v =

x2

sen 1x ,

∂y

∂v = − x

2y2

sen 1x sen 1 y

.

Assim, por exemplo, no ponto (x, y) = (

2 π ,

2 π

) a matriz jacobiana da

inversa de f (definida numa vizinhança conveniente do ponto f (

2 π ,

2 π

) =(

2 π , 1 ) ), seria [

0 (

2 π

)2( 2 π

)2 − ( 2π)4 ] .

146

4.5. Extremos

Uma consequência importante do teorema da função inversa é o

Teorema 4.16 (Teorema da aplicação aberta). Seja D um aberto de Rn, f : D → Rn uma função de classe C1 e suponha-se que, para cada x ∈ D, a aplicação linear f ′(x) é bijectiva. Então a imagem por f de qualquer subconjunto aberto de D é um conjunto aberto.

Demonstração. Seja A ⊂ D, A aberto, e seja y um ponto qualquer de f(A). Escolhido um ponto x ∈ A tal que y = f(x), basta aplicar o teorema da função inversa à restrição de f ao conjunto A, f|A, em relação ao ponto x, para se poder garantir a existência de uma vizinhança aberta U de x contida em A, tal que f(U) é um subconjunto aberto de f(A) e, evidentemente, contém y; assim, como cada ponto y ∈ f(A) tem uma vizinhança contida em f(A), pode concluir-se que este conjunto é aberto.

4.5 Extremos

Recordámos no parágrafo 3.1 as noções de máximo e mı́nimo de uma função f : D → R num conjunto A ⊂ D, às quais se referem as notações maxA f,minA f . Como sabemos é frequente o uso do termo extremo para designar indistintamente um máximo ou um mı́nimo, podendo recorrer-se ao adjectivo absoluto (máximo absoluto, mı́nimo absoluto) para precisar que a noção considerada se refere a todo o domı́nio da função, isto é, que se trata de maxD f (também designado apenas por max f) ou minD f (min f).

Em muitos casos, porém, interessa considerar os chamados extremos relativos (ou extremos locais), cujas definições recordaremos agora. Sendo ainda f : D → R (com D ⊂ Rn) e a um ponto de D, diz-se que a é um ponto de máximo (ou um maximizante) relativo da função f , ou ainda que f(a) é um máximo relativo de f sse existe  > 0 tal que f(x) ≤ f(a) sempre que x ∈ D e ‖x − a‖ < . Se, para algum  > 0, for verificada a condição f(x) < f(a) em qualquer ponto x tal que x ∈ D e 0 < ‖x − a‖ < , dir-se-á que o máximo relativo f(a) é estrito. Evidentemente, as definições de mı́nimo relativo e mı́nimo relativo estrito são análogas. É também óbvio que um máximo (ou mı́nimo) absoluto é também máximo (ou mı́nimo) relativo.

Assim, por exemplo, a função ϕ : R3 → R definida pela fórmula ϕ(x, y, z) = x2 + y2 + z2 não tem qualquer máximo mas tem um mı́nimo (absoluto, estrito) assumido na origem do espaço R3; e é também fácil reconhecer que a função ψ(x) = x sen x tem um único extremo relativo (estrito), em cada um dos intervalos [(2k − 1)π

2 , (2k + 1)π

2 ], com k ∈ Z (mı́nimo se k é par, máximo se k é ı́mpar), não

sendo nenhum deles extremo absoluto. Um resultado por vezes útil na pesquisa de extremos é o teorema de Weiers-

trass (teorema 3.4): se o conjunto (não vazio) D for compacto qualquer função definida e cont́ınua em D tem máximo e mı́nimo absolutos. Outro resultado muito simples e do maior interesse para o mesmo objectivo é o que se exprime no seguinte:

147

Caṕıtulo 4. Cálculo diferencial

Teorema 4.17. Seja f : D → R, com D ⊂ Rn; então se f é diferenciável no ponto19 a e f(a) é um extremo (relativo) de f , tem-se ∂f

∂xi (a) = 0 para qualquer

i ∈ {1, . . . , n} isto é, a derivada de f no ponto a, f ′(a), é a aplicação nula de Rn em R.

Demonstração. Nas condições da hipótese, e supondo a = (a1, . . . , an), para qual- quer i ∈ {1, . . . , n}, a função definida (para todos os valores suficientemente pe- quenos de |t|) pela fórmula ψ(t) = f(a + tei) terá um extremo no ponto 0, o que implica o anulamento da derivada ψ

′ i(0) =

∂f ∂xi

(a).

Os pontos (interiores) de D nos quais se anula a derivada de f são chamados pontos de estacionaridade ou pontos cŕıticos da função; assim, de acordo com o teorema anterior, para que f(a) seja extremo (com f diferenciável em a) é necessário que a seja ponto de estacionaridade de f .

Sabemos bem que esta condição não é suficiente (por exemplo, f(x) = x3 tem um ponto de estacionaridade na origem sem que tenha qualquer extremo nesse ponto); e sabemos também que pode haver extremos em pontos que não são de estacionaridade: pontos do domı́nio que não sejam interiores ou então pontos interiores do domı́nio nos quais a função não seja diferenciável (por exemplo, a restrição de

√ x2 + y2 ao ćırculo x2 + y2 ≤ 1 assume o máximo nos pontos da

circunferência que limita esse ćırculo e o mı́nimo na origem sem que qualquer destes seja ponto cŕıtico).

Convém referir ainda que os pontos de estacionaridade em que a função não tem extremo são por vezes chamados pontos de sela.

Antes de vermos alguns exemplos registaremos o seguinte resultado, que é uma consequência muito simples dos teoremas acabados de mencionar e que pode ser considerado como uma generalização do teorema de Rolle ao quadro das funções reais de mais de uma variável real:

Seja D um aberto limitado não vazio de Rn e f uma função real cont́ınua na aderência de D, diferenciável em todos os pontos deste conjunto e cuja restrição à fronteira de D é uma função constante; então f ′ anula-se em algum ponto de D.

A demonstração, praticamente idêntica à do caso n = 1 poderá ficar como exerćıcio.

A t́ıtulo de exemplo, consideremos agora a função f : R2 → R,

f(x, y) = xy e− 1 2 (x2+y2).

Verifica-se imediatamente que os pontos cŕıticos são, além da origem, os quatro pontos (1, 1), (1,−1), (−1, 1) e (−1,−1). Dado que f assume valores positivos em todos os pontos dos quadrantes ı́mpares e valores negativos nos pontos dos quadrantes pares (quadrantes abertos), logo se vê que a origem

19Recorde-se que, de acordo com a definição de diferenciabilidade que adoptámos, o facto de f ser diferenciável em a exige que este ponto seja interior ao domı́nio de f .

148

4.5. Extremos

é um ponto de sela; portanto os únicos extremantes posśıveis são os pontos (1, 1) e (−1,−1), onde f assume o valor 1e , ou (1,−1) e (−1, 1) onde o valor de f é −1e . Para ver que estes valores são de facto extremos de f (e até extremos absolutos), comecemos por observar que f(x, y) tende para 0 quando ‖(x, y)‖ → ∞ (como se reconhece imediatamente, por exemplo se passarmos a coordenadas polares); assim, será posśıvel determinar um número k > 0 tal que para ‖(x, y)‖ ≥ k se tenha |f(x, y)| < 12e . Como a restrição de f ao compacto K = {(x, y) : ‖(x, y)‖ ≤ k} é cont́ınua, deverá assumir um máximo e um mı́nimo (absolutos) em pontos de K, pontos decerto interiores a K porque os valores assumidos por f na fronteira e no exterior de K têm módulo menor do que 12e e f(1, 1) =

1 e , f(1,−1) = −

1 e ;

porém, sendo f diferenciável, esses pontos serão necessariamente pontos de estacionaridade e terão portanto de coincidir com alguns dos quatro pontos (1, 1), (1,−1), (−1, 1) e (−1,−1). Pode então concluir-se que os valores f(1, 1) = f(−1,−1) = 1e e f(−1, 1) = f(1,−1) = −

1 e são extremos relativos

(e portanto absolutos) da própria função f , visto que |f(x, y)| < 12e para (x, y) /∈ K; daqui decorre também, atendendo aos teoremas 2.10, 3.7 e 3.9 e ao facto evidente de R2 ser conexo por arcos, que o contradomı́nio de f é o intervalo

[ −1e ,

1 e

] .

Consideremos agora a função definida em R2 pela fórmula:

g(x, y) = x4 − x2y2 + y4.

Como g(x, y) = (x2 − y2)2 + x2y2 só assume valores não negativos logo se vê que g(0, 0) = 0 é o mı́nimo absoluto de função; por outro lado, sendo g cont́ınua e lim‖(x,y)‖→∞ g(x, y) = +∞, poderá também concluir-se que o contradomı́nio de g é o intervalo [0,+∞[. Existirão extremos relativos de g, para além do mı́nimo absoluto? Se existissem, deveriam ser atingidos em pontos de estacionaridade, visto que g é diferenciável em R2. Porém, dado que o sistema: {

∂g ∂x = 2x(

√ 2x− y)(

√ 2x+ y) = 0

∂g ∂y = 2y(

√ 2y − x)(

√ 2y + x) = 0

tem (0, 0) como solução única, logo se conclui que g não tem quaisquer outros pontos de extremo.

Seja ainda h(x, y) = x2 + 3y4 − 4y3 − 12y2,

cujos pontos cŕıticos são (0, 0), (0, 2) e (0,−1), aos quais correspondem respectivamente os valores da função 0, −32 e −5. Sendo fácil verificar que h(x, y) tende para +∞ quando ‖(x, y)‖ → ∞, poderá concluir-se, como num dos exemplos precedentes, que h(0, 2) é o mı́nimo absoluto da função e que o seu contradomı́nio é o intervalo [−32,+∞[; também é fácil reconhecer que o ponto (0, 0) é um ponto de sela: basta notar que a função h assume valores positivos em todos os pontos do eixo das abcissas, com excepção da

149

Caṕıtulo 4. Cálculo diferencial

origem, e valores negativos nos pontos do eixo das ordenadas distintos da origem mas suficientemente próximos dela.

Já a determinação da natureza do ponto cŕıtico (0,−1) não será tão sim- ples. Poderemos começar por transferir para esse ponto a origem do sistema de coordenadas (mediante uma translação dos eixos) e, simultaneamente, passar a coordenadas polares; efectuada uma tal mudança de variáveis (que poderá supor-se definida pelo sistema x = r cos θ, y = −1 + r sen θ) obtere- mos a igualdade:

h(x, y)− h(0,−1) = h(r cos θ,−1 + r sen θ) + 5 = r2(18 sen2 θ + cos2 θ + 3r2 sen4 θ − 16r sen3 θ),

a qual nos vai permitir reconhecer que, para (x, y) “próximo” de (0,−1) mas distinto deste ponto (isto é, para r “próximo” de 0 mas positivo), o valor h(x, y) é sempre maior do que h(0,−1), tendo portanto a função h um mı́nimo relativo estrito no ponto considerado. Para tal será suficiente mostrar que, se o número positivo r for suficientemente pequeno, todos os valores da função

18 sen2 θ + cos2 θ + 3r2 sen4 θ − 16r sen3 θ

serão positivos; para este efeito, porém, basta observar que se tem, para qualquer valor de θ, 18 sen2 θ + cos2 θ ≥ 1 (visto que 18 sen2 θ ≥ sen2 θ) — e portanto também, para qualquer θ e qualquer r, 18 sen2 θ + cos2 θ + 3r2 sen4 θ ≥ 1 — e ainda que, se for por exemplo r < 116 , será também |16r sen3 θ| ≤ 16r < 1.

A classificação dos pontos de estacionaridade das funções consideradas nos exemplos precedentes foi efectuada por processos mais ou menos casúısticos, que dificilmente parecerão suscept́ıveis de aplicação em situações de razoável gene- ralidade: um dos objectivos do procedimento adoptado foi precisamente fazer ressaltar o interesse que, para o esclarecimento de questões desta natureza, po- dem ter alguns dos resultados subsequentes. Como seria fácil prever atendendo ao que se verificou no caso das funções reais de variável real, todos esses resultados decorrem facilmente do teorema de Taylor.

Teorema 4.18. Seja D um aberto de Rn, f : D → R uma função de classe C2 e a um ponto de estacionaridade de f ; nestas condições:

a) se f ′′(a)h2 > 0 para qualquer vector não nulo h ∈ Rn, a é um ponto de mı́nimo relativo estrito da função f ;

b) se a é um ponto de mı́nimo de f , tem-se f ′′(a)h2 ≥ 0 para qualquer h ∈ Rn;

c) se f ′′(a)h2 < 0 para qualquer vector não nulo h ∈ Rn, a é um ponto de máximo relativo estrito de f ;

d) se a é um ponto de máximo de f , f ′′(a)h2 ≤ 0 para qualquer h ∈ Rn;

150

4.5. Extremos

e) se existem vectores k, l ∈ Rn tais que f ′′(a)k2 < 0 e f ′′(a)l2 > 0, a é ponto de sela.

Antes de iniciar a demonstração recordemos que, de acordo com as notações adoptadas em 4.3 e supondo h = (h1, . . . , hn) ∈ Rn, se tem:

f ′′(a)h2 = n∑

i,j=1

∂2f

∂xi∂xj (a)hihj.

Assim, f ′′(a)h2 é uma forma quadrática, isto é, um polinómio homogéneo do 2o grau em h1, . . . , hn (em geral chama-se forma de grau p a qualquer polinómio homogéneo de grau p; para p = 1, 2, 3, . . ., a forma diz-se linear, quadrática, cúbica, etc.). Costuma dizer-se que uma forma é definida positiva (resp. definida negativa) se assume apenas valores positivos (resp. negativos) sempre que seja h 6= 0; semi- definida positiva20 (resp. semi-definida negativa) se não assumir qualquer valor negativo (resp. positivo); indefinida se for suscept́ıvel de assumir valores de sinais contrários.

Nestas condições (e continuando a supor que f é uma função de classe C2 e a um ponto de estacionaridade de f), o teorema 4.18 poderia reenunciar-se nos termos seguintes:

a) se f ′′(a)h2 é definida positiva, a é um ponto de mı́nimo relativo estrito;

b) se a é um ponto de mı́nimo, a forma f ′′(a)h2 é semi-definida positiva;

c) se a forma f ′′(a)h2 é definida negativa, a é um ponto de máximo relativo estrito;

d) se a é um ponto de máximo, a forma f ′′(a)h2 é semi-definida negativa;

e) se a forma f ′′(a)h2 é indefinida, a é um ponto de sela.

Demonstração. a) Provaremos que, sendo a forma f ′′(a)h2 definida positiva, existe uma bola centrada em a, Bδ(a), tal que f(x) > f(a) para qualquer x ∈ Bδ(a) \ {a}. Com efeito, como f ′′(a)h2 é uma função cont́ınua de h e assume valores positivos em todos os pontos do compacto S = {h ∈ Rn : ‖h‖ = 1}, admitirá neste conjunto um mı́nimo positivo, m : f ′′(a)h2 ≥ m, para qualquer h ∈ S. Por outro lado, como f é de classe C2, é fácil ver que existe δ > 0 tal que, para qualquer z ∈ Bδ(a) e qualquer h ∈ S, f ′′(z)h2 ≥ 12m. Seja então x um ponto qualquer de Bδ(a) distinto de a e ponhamos t = ‖x− a‖,h = 1

t (x− a); ter-se-á evidentemente t ∈ ]0, δ[, h ∈ S e o teorema de

Taylor garante a existência de θ ∈ ]0, 1[ tal que

f(x)− f(a) = f(a + th)− f(a) = f ′(a)(th) + 1 2 f ′′(a + θth)(th)2.

20Em alguns textos adopta-se uma definição diferente: só se chamam semi-definidas positivas as formas que, não assumindo qualquer valor negativo, se anulam em algum ponto h 6= 0 (e de modo análogo para as formas semi-definidas negativas).

151

Caṕıtulo 4. Cálculo diferencial

Como f ′(a)(th) = 0 por a ser ponto de estacionaridade de f e 1 2 f ′′(a +

θth)(th)2 = 1 2 t2f ′′(a + θth)h2 ≥ 1

4 mt2 > 0, (visto que a + θth ∈ Bδ(a)), pode

concluir-se que f(x) > f(a), isto é, que f(a) é um mı́nimo relativo estrito da função f .

b) Como f é de classe C2, se existe k ∈ Rn tal que f ′′(a)k2 < 0 existirá também  > 0 tal que f ′′(a+ tk)k2 < 0 sempre que seja |t| < ; ter-se-á então também, para qualquer t tal que |t| <  e algum θ ∈ ]0, 1[:

f(a + tk)− f(a) = 1 2 t2f(a + θtk)k2 < 0.

Existirão portanto pontos arbitrariamente próximos de a nos quais f assume valores menores do que f(a) e este não poderá ser um mı́nimo de f .

As proposições c) e d) decorrem de a) e b), respectivamente, por substituição de f por −f ; e) é consequência também imediata de b) e d).

Como primeiro exemplo consideremos a função definida em R3\{(0, 0, 0)} pela fórmula f(x, y, z) = z log(x2 + y2 + z2). O sistema que determina os pontos de estacionaridade:

∂f

∂x =

2xz x2 + y2 + z2

= 0,

∂f

∂y =

2yz x2 + y2 + z2

= 0,

∂f

∂z = log(x2 + y2 + z2) +

2z2

x2 + y2 + z2 = 0

tem apenas duas soluções situadas fora do plano z = 0 — precisamente (0, 0, 1e ) e (0, 0 −

1 e ) — e uma infinidade de soluções situadas nesse plano:

todos os pontos da circunferência em que este plano é intersectado pela superf́ıcie ciĺındrica x2 + y2 = 1.

Sendo (h, k, l) ∈ R3 tem-se, como é fácil verificar:

f ′′(0, 0, 1e )(h, k, l) 2 = 2e(h2 + k2 + l2),

f ′′(0, 0,−1e )(h, k, l) 2 = −2e(h2 + k2 + l2).

A primeira das formas precedentes é definida positiva, a segunda é definida negativa; segue-se que f(0, 0, 1e ) = −

2 e é um mı́nimo estrito e f(0, 0,−

1 e ) =

2 e um máximo estrito da função f ; trata-se, evidentemente, de extremos relativos, visto que a função assume todos os valores reais (basta notar que o mesmo se passa com a sua restrição ao eixo dos zz, privado da origem, f(0, 0, z) = z log(z2)).

Em qualquer outro ponto de estacionaridade — isto é, em qualquer ponto da forma (a, b, 0) com a2 + b2 = 1 — ter-se-á, como logo se reconhece

f ′′(a, b, 0)(h, k, l)2 = 4l(ah+ bk).

152

4.5. Extremos

Se for a 6= 0, esta forma assumirá valores de sinais contrários nos pontos (1, 0, 1) e (1, 0,−1); se a = 0 (e portanto b 6= 0), os valores da forma em (0, 1, 1) e (0, 1,−1) serão também de sinais contrários. Pode portanto concluir-se que qualquer dos pontos da circunferência determinada pelas equações x2 + y2 = 1 e z = 0 é um ponto de sela da função f .

Sejam agora c1 = (c11, . . . , c1n), . . . , cq = (cq1, . . . , cqn) q pontos do es- paço Rn e seja g : Rn → R a função definida pela fórmula:

g(x) = g(x1, . . . , xn) = q∑

i=1

‖x− ci‖2 = q∑

i=1

n∑ j=1

(xj − cij)2.

Como ∂g∂xj = 2qxj − 2 ∑q

i=1 cij , para j = 1, . . . , n, a função tem um único ponto de estacionaridade, o ponto a = 1q

∑q i=1 ci. Por outro lado, sendo

∂2g ∂x2j

= 2q (j = 1, . . . , n) e ∂ 2g

∂xi∂xj = 0 (i, j = 1, . . . , n, com i 6= j) ter-se-á,

para qualquer vector h = (h1, . . . , hn) ∈ Rn,

g′′(a)h2 = 2q(h21,+ . . .+ h 2 n) = 2q‖h‖2.

Pode portanto concluir-se que g(a) = ∑q

i=1 ‖a − ci‖2 é um mı́nimo da função g; e se adoptarmos um processo já utilizado num dos exemplos anteriores, tendo em conta que lim‖x‖→∞ g(x) = +∞, será fácil reconhecer que esse mı́nimo é absoluto e que o contradomı́nio da função é [g(a),+∞[.

No caso particular das funções de duas variáveis reais (n = 2) é muitas vezes útil o seguinte:

Corolário 4.19. Seja f uma função de classe C2 no aberto D ⊂ R2 e (a, b) um ponto de estacionaridade de f ; sendo

A = ∂2f

∂x2 (a, b), B =

∂2f

∂x∂y (a, b), C =

∂2f

∂y2 (a, b),

tem-se:

a) Se AC − B2 > 0, f(a, b) é um mı́nimo relativo estrito ou um máximo relativo estrito da função f consoante A > 0 ou A < 0;

b) Se AC −B2 < 0, (a, b) é um ponto de sela.

Demonstração. Adoptando as notações referidas no enunciado do Corolário, ter- se-á, se for (h, k) um vector qualquer de R2:

f ′′(a, b)(h, k)2 = Ah2 + 2Bhk + Ck2.

Assim, no caso AC −B2 > 0 (o que implica A 6= 0) será também:

f ′′(a, b)(h, k)2 = 1

A [(Ah+Bk)2 + (AC −B2)k2] (4.3)

153

Caṕıtulo 4. Cálculo diferencial

e portanto — para qualquer vector (h, k) 6= (0, 0) — o sinal da forma f ′′(a, b)(h, k)2 será o mesmo do de A: (a, b) será ponto de mı́nimo relativo estrito se A > 0 e ponto de máximo relativo estrito se A < 0.

Na hipótese AC − B2 < 0 poderá ter-se A 6= 0 ou A = 0. Se for A 6= 0 (caso em que a igualdade (4.3) continuará a ser válida) a forma f ′′(a, b)(h, k)2 terá o sinal de A se for k = 0 e h 6= 0 e o sinal contrário ao de A se h = B e k = −A; finalmente, se A = 0 (ainda com AC −B2 < 0, o que implica B 6= 0), a forma em referência reduzir-se-á a k(2Bh + Ck) e assumirá valores de sinais contrários se, fixado k 6= 0, atribuirmos a h dois valores, um maior e outro menor do que −kC

2B ;

pode portanto concluir-se que, quando AC −B2 < 0, (a, b) é ponto de sela.

Voltando à situação considerada no enunciado do teorema 4.18, observemos ainda que, para a classificação da forma quadrática f ′′(a)h2 é muitas vezes útil o resultado seguinte21: designando por H(a) a matriz hessiana da função f no ponto

a, H(a) = [

∂2f ∂xi∂xj

(a) ]n i,j=1

, a forma f ′′(a)h2 é definida positiva (resp. definida

negativa) se os valores próprios de H(a) são todos positivos (resp. negativos) e indefinida se H(a) tiver algum valor próprio positivo e algum valor próprio negativo; não havendo valores próprios de sinais contrários, a forma será semi- definida.

A t́ıtulo de exemplo, consideremos a função:

ϕ(x, y, z) = x4 + y4 + z4 − 4xyz.

O sistema que determina os pontos cŕıticos é x3 = yz, y3 = xz, z3 = xy. Uma solução óbvia — e a única com alguma coordenada nula — é a origem. Para x 6= 0, y 6= 0 e z 6= 0, as duas primeiras equações conduzem imediatamente à relação x

3

y3 = yx — e portanto a x = ±y— e as duas últimas

a y = ±z. Segue-se que (além da origem) os pontos de estacionaridade são (1, 1, 1), (1,−1,−1), (−1, 1,−1) e (−1,−1, 1). Para qualquer destes quatro pontos a equação caracteŕıstica da matriz hessiana:

(12− λ)3 − 48(12− λ)− 128 = 0

tem a ráız dupla 16 e a ráız simples 4. Pode portanto concluir-se que cada um desses pontos é um minimizante e é fácil ver que o valor assumido pela função em qualquer deles, −1, é o seu mı́nimo absoluto.

Esta mesma ordem de ideias não permitiria classificar o ponto de es- tacionaridade (0, 0, 0), porque os valores próprios da matriz hessiana cor- respondente a esse ponto são todos nulos. Mas basta reparar que, sobre a recta de equações x = y = z a função assume, em pontos arbitrariamente próximos da origem, tanto valores positivos como valores negativos, para se poder concluir que se trata de um ponto de sela.

21A demonstração deste resultado, bem como o enunciado e demonstração de outros critérios para a classificação de pontos de estacionaridade, podem ser estudados no texto Álgebra Linear como Introdução à Matemática Aplicada de Lúıs Magalhães, já anteriormente citado.

154

4.5. Extremos

Voltando ao caso n = 2 e às condições expressas no enunciado do Coro- lário 4.19, se designarmos por λ1 e λ2 os valores próprios da matriz hessiana da função f no ponto a:

H(a) = [ A B B C

] ,

ter-se-á λ1λ2 = AC −B2, λ1 + λ2 = A+ C. Se for AC−B2 > 0 (o que implica AC > 0), λ1 e λ2 são do mesmo sinal,

o sinal de A (ou de C)22: a forma Ah2 + 2Bhk+Ck2 será definida positiva ou definida negativa (e (a, b) será ponto de mı́nimo ou ponto de máximo) consoante A > 0 ou A < 0; se for AC − B2 < 0, λ1 e λ2 terão sinais contrários, a forma será indefinida e (a, b) ponto de sela (evidentemente, estes resultados são apenas uma confirmação do corolário em referência).

Para observar algumas possibilidades de extensão dos resultados prece- dentes, consideremos novamente um aberto D de Rn, uma função f : D → R e suponhamos agora que f é da classe Cp, com p ≥ 2 e que, em certo ponto a ∈ D e para qualquer inteiro k tal que 1 ≤ k < p, todas as formas f (k)(a)hk são identicamente nulas. Nestas condições, a fórmula de Taylor:

f(a + th) = f(a) + 1 p! tpf (p)(a + θth)hp

permite concluir (de forma inteiramente análoga à que utilizámos ao es- tabelecer o teorema 4.18) que, consoante a forma f (p)(a)hp seja definida positiva, definida negativa ou indefinida, assim o ponto a será um minimi- zante estrito, um maximizante estrito ou um ponto de sela da função f ; em particular, dado que uma forma de grau ı́mpar é sempre indefinida (visto que os seus valores em pontos simétricos são simétricos), se p for ı́mpar (com f (p)(a)hp não identicamente nula) a será um ponto de sela23. Tam- bém se confirmará agora sem dificuldade que, se a for um ponto de mı́nimo ou um ponto de máximo, a forma será semidefinida (positiva no primeiro caso, negativa no segundo).

Consideremos agora a hipótese de a forma f (p)(a)hp ser semidefinida (mas não definida nem identicamente nula); neste caso, é usual designar por direcções singulares da forma considerada as direcções dos vectores (não nulos) nas quais ela se anula. Para fixar as ideias, suponhamos — até menção expressa em contrário — que a forma é semidefinida positiva; existirão então vectores de Rn nos quais a forma se anulará (o vector nulo e os que tenham uma direcção singular) e existirão também vectores (todos os restantes) nos quais a forma assumirá um valor positivo.

22Tenha-se em conta que os valores próprios da matriz hessiana de uma função de classe C2 são sempre reais, dado que a matriz é simétrica.

23Pode utilizar-se este resultado para verificar que, no caso há pouco mencionado da função ϕ(x, y, z) = x4 + y4 + z4 − 4xyz, a origem é um ponto de sela: com efeito tem-se, para qualquer vector h = (h1, h2, h3) ∈ R3, ϕ′(0, 0, 0)h = ϕ′′(0, 0, 0)h2 = 0 e ϕ′′′(0, 0, 0)h3 = −4h1h2h3.

155

Caṕıtulo 4. Cálculo diferencial

Se h for um destes últimos vectores, mostra a fórmula de Taylor (4.18) que, sempre que o valor absoluto de t for suficientemente pequeno (mas não nulo), se terá f(a + th) > f(a); assim, em tal caso, a função definida (nalguma vizinhança do ponto t = 0) pela fórmula ϕh(t) = f(a + th) terá um mı́nimo estrito no ponto 0 (ou, o que é o mesmo, terá um mı́nimo estrito no ponto a a restrição da função f à intersecção do seu domı́nio com a recta do espaço Rn que contém esse ponto e tem a direcção do vector h). Porém, no caso de h ser um vector com direcção singular, já o ponto 0 poderá ser um minimizante, um ponto de sela ou um maximizante da função ϕh;24 e quando se tratar de um ponto de sela ou de um ponto de máximo estrito, é claro que a função f não poderá ter um mı́nimo no ponto a (nem um máximo, pelo que vimos no peŕıodo precedente): o ponto a será portanto um ponto de sela.

Um caso particular em que esta conclusão será leǵıtima — como decorre de resultados bem conhecidos sobre a existência de extremos para funções reais de uma variável real — é o que se verifica se, para algum vector h com direcção singular, a função ϕh(t) admitir derivadas de ordem superior a p no ponto 0 e se a primeira de tais derivadas que não seja nula (se alguma existir) for de ordem ı́mpar ou, se de ordem par, for negativa (visto que ϕh terá então um ponto de sela ou um máximo estrito no ponto 0). Exemplos muito simples de situações deste tipo verificam-se com as funções β e γ mencionadas na nota 24.

Poderia surgir agora naturalmente a questão seguinte: continuando a supor que a forma f (p)(a)hp é semidefinida positiva, o que poderá concluir- se se, para qualquer vector h com direcção singular (tal como para todos os vectores com outras direcções), a correspondente função ϕh tiver um mı́nimo estrito no ponto 0? Ou, equivalentemente, se a restrição de f a uma recta arbitrária de Rn que contenha o ponto a (intersectada com D) tiver neste ponto um mı́nimo estrito? Poderá em tal caso afirmar-se que o ponto a é um minimizante da própria função f?

Será natural desconfiar da correcção desta conjectura se se tiver presente que (como oportunamente observámos) para funções de mais de uma variá- vel, o comportamento da função ao longo de todas as rectas que concorrem num ponto não dá informação suficiente sobre algumas caracteŕısticas im- portantes da função, tais como a continuidade ou a existência de limite no ponto considerado.

A conjectura referida é de facto incorrecta. Um exemplo simples (ver figura 4.9) que o evidencia é o da função f(x, y) = 2x4 − 3x2y + y2, no seu único ponto de estacionaridade, a origem. A forma quadrática f ′′(0, 0)h2 = 2h22 (ainda com h = (h1, h2) ∈ R2) é semidefinida positiva e tem por direcção singular a do eixo das abcissas; a restrição da função a este eixo, como aliás a qualquer outra recta do plano que contenha a

24As funções α(x, y) = x2 + y4, β(x, y) = x2 + y3 e γ(x, y) = x2 − y4, para as quais se tem, com h = (h1, h2) ∈ R2, α′′(0, 0)h2 = β′′(0, 0)h2 = γ′′(0, 0)h2 = 2h21 (sendo portanto singular, para qualquer das formas consideradas, a direcção do eixo das ordenadas) e ainda α(0, t) = t4, β(0, t) = t3, γ(0, t) = −t4, exemplificam os três casos.

156

4.5. Extremos

origem, tem um mı́nimo estrito neste ponto. No entanto o ponto (0, 0) não é um ponto de mı́nimo, mas sim um ponto de sela da função f .

PSfrag replacements

x

y

y = x2

y = 2x2

1/2

1/2

1/2

− −

+

+ +

+

+ +

Figura 4.9

Para o reconhecer basta ter em conta a igualdade

f(x, y) = (y − x2)(y − 2x2),

da qual resulta que se tem f(x, y) < 0 se x2 < y < 2x2 e f(x, y) > 0 se y < x2 ou y > 2x2, o que torna evidente que em qualquer vizinhança da origem há pontos onde f assume valores maiores e pontos em que assume valores menores do que f(0, 0) = 0.

Voltando ao caso geral anteriormente considerado e mantendo todas as restantes hipóteses sobre a função f e o ponto a, passemos a supor agora que a forma f (p)(a)hp é semidefinida negativa (sem ser definida nem identicamente nula); é claro que poderemos ainda concluir que a é um ponto de sela da função f se, para algum vector h (necessariamente de direcção singular) o ponto 0 for um ponto de sela ou um minimizante estrito da função ϕh(t) = f(a + th) (e para que alguma destas circunstâncias se verifique será suficiente que, na hipótese de ϕh admitir derivadas de ordem superior a p no ponto 0, a primeira destas derivadas que se não anule seja de ordem ı́mpar ou, se de ordem par, tenha valor positivo). Evidentemente, se para qualquer vector25 h com direcção singular a função ϕh for máxima no ponto 0 não será posśıvel, por esta via, tirar qualquer conclusão.

A t́ıtulo de exemplo, consideremos a função

f(x, y) = ax6 − 4x4 + 4x2y − y2

(onde a é um parâmetro real), para a qual a origem é o único ponto de estacionaridade. A forma f ′′(0, 0)(h1, h2)2 = −2h22 é semidefinida negativa

25Como é óbvio, se h e k são dois vectores com a mesma direcção, e se ϕh(t) tiver um minimizante, um maximizante ou um ponto de sela no ponto 0, o mesmo se passará com ϕk(t); assim, neste tipo de questões bastará - para cada direcção singular - considerar apenas um vector com essa direcção.

157

Caṕıtulo 4. Cálculo diferencial

(logo, se houver extremo será um máximo) e a única direcção singular é a do eixo das abcissas. Mas f(t, 0) = −t4(4− at2) tem um máximo no ponto t = 0, o que não permite tirar qualquer conclusão.

No entanto, se notarmos que f(x, y) = ax6 − (y − 2x2)2, tornar-se-á evidente que, se a > 0, a restrição da função à parábola y = 2x2 tem um mı́nimo estrito na origem, donde logo decorre que o ponto (0, 0) é, nessa hipótese, um ponto de sela da função f ; por observação directa dos valores assumidos pela função é também fácil reconhecer que, se for a ≤ 0, f(0, 0) = 0 será o seu máximo absoluto (estrito, excepto se a = 0).

158

Índice Remissivo

Índice Remissivo

aderência, ver fecho adição em Rm, 17 ângulo de dois vectores, 22 aplicação

aberta, 147 linear, 45

base, 20 canónica, 20

bola, 25 aberta, 25 fechada, 25

combinação linear, 19 conjunto

aberto, 36 compacto, 40 conexo, 41 por arcos, 59

conexo por arcos, 60 desconexo, 41 fechado, 36 limitado, 39 sequencialmente compacto, 40

conjuntos separados, 40

continuidade, 43, 47 da função inversa, 57 das funções diferenciáveis, 96 num ponto, 43 uniforme, 55

contradomı́nio, 7 convergência

de uma sucessão, ver sucessão con- vergente

pontual, 75 uniforme, 76

coordenadas esféricas, 73 polares, 73

derivada, 83, 97 direccional, 89, 93 parcial, 87 de ordem superior à primeira, 117

segundo um vector, 89, 93 derivado, 35 desigualdade

de Cauchy-Schwarz, 21 triangular, 24

desprezável, 78 difeomorfismo

de classe Cp, 143 diferenciabilidade, 94

da função composta, 104 das aplicações lineares, 98 do produto, 107 do produto de uma função escalar

por uma função vectorial, 111 do produto interno, 111

diferencial, 97 total, 99

direcções singulares, 155 distância, 24 domı́nio, 7

espaço métrico, 24, 60 normado, 23

exterior, 34

159

Índice Remissivo

extremo, 147 absoluto, 147 local, ver extremo relativo relativo, 147

fórmula de Mac-Laurin, 128 do polinómio de Leibniz, 125

fecho, 34 forma

cúbica, 151 de grau p, 151 definida negativa, 151 positiva, 151

indefinida, 151 linear, 151 quadrática, 151 semi-definida negativa, 151 positiva, 151

fronteira, 34 função, 7

anaĺıtica, 127 cont́ınua, 54 num subconjunto do domı́nio, 54

de classe C0, 111 C1, 112 C∞, 119 Cp, 119

diferenciável, 86, 94 impĺıcita, 129 inversa, 129 limitada, 54 num subconjunto do domı́nio, 54

uniformemente cont́ınua, 55 funções

coordenadas, 45

gráfico, 10 gradiante, 98

hipersuperf́ıcie, 14

imagem inversa de um conjunto por meio de uma função, 58

ı́nfimo, 55 infinitésimo, 78

de ordem superior, 80 injecção canónica, 68 interior, 34

jacobiano, 137

limite de uma função, 61 relativamente a um conjunto, 68

de uma sucessão, 29 direccional, 71

linhas de ńıvel, 12

máximo, 54, 55, 147 absoluto, 147 relativo, 147

mı́nimo, 55, 147 absoluto, 147 relativo, 147 estrito, 147

matriz hessiana, 154 jacobiana, 97

maximizante, 55, 147 minimizante, 55, 147 multiplicação por escalares, ver produto

por escalares

noções topológicas, 33 norma, 20, 23 notação de Landau, 81

plano tangente, 139 ponto

aderente, 35 de acumulação, 35 de máximo, 55, 147 relativo, 147

de mı́nimo, 55, 147 relativo, 147

de sela, 148

160

Índice Remissivo

exterior, 34 fronteiro, 34 interior, 34 isolado, 35

produto interno, 20 por escalares, 18

projecção de ordem j, 17 prolongamento por continuidade, 65

recta, 70 regra

da cadeia, 104 de Cramer, 139 do paralelogramo, 18

resto de Lagrange, 127 restrição de uma função, 54

série absolutamente convergente, 32 convergente, 32 de termos em Rm, 32

segmento, 115 segmento de recta, 70 segunda derivada, 124 semirecta, 70 soma de vectores, 18 sucessão, 26

convergente, 27 coordenada, 26 de ordem j, 26

de Cauchy, 31 fundamental, ver sucessão de Cau-

chy limitada, 29

supremo, 55

teorema da aplicação aberta, 147 das funções impĺıcitas, 129 das funções inversas, 129 de Bolzano–Weierstrass, 30, 40 de Heine–Cantor, 56 de Lagrange, 115 de Schwarz, 119

de Taylor, 122, 125 de Weierstrass, 54, 55 do valor intermédio, 57, 58 do valor médio, ver teorema de La-

grange dos acréscimos finitos, ver teorema

de Lagrange transformado de um conjunto por uma

função, 54

vectores ortogonais, 23 vizinhança, 26, 143

161

Até o momento nenhum comentário
Esta é apenas uma pré-visualização
3 mostrados em 161 páginas