# 1.4 无穷小放飞互联网，究竟为了什么？

1.4 无穷小放飞互联网，究竟为了什么？
坦率地说，七年前，我们放飞无穷小到国内互联网的目的是：进一步改进国内高校微积分的教学改革，提高数学的创新能力。
国内数学不能故步自封。请见本文附件。

袁萌   陈启清   10月7日

1.4 The purpose of nonstandard analysis
After the digression of the preceding section let us now contemplate the purpose of nonstandard analysis. Starting from IN, the sets ZZ,Q and IR (andC, but below complex numbers will be ignored) have been introduced in classical mathematics in order to enrich mathematics with more tools and to reﬁne existing tools. The introduction of negative numbers, of fractions, and of irrational numbers is felt as a strong necessity, and without it mathematics would only be a small portion of what it actually is. The introduction of ∗IN, ∗ZZ, ∗Q, and ∗IR, however, was not meant at all to enrich mathematics (at least not when it all started), but only to simplify doing mathematics. For as soon as notions like limit and continuity are involved, deﬁnitions in nonstandard analysis can be given a simpler form, and theorems can be proved in a simpler way. Often the simpliﬁcations are considerable. In one case the proof of a classical conjecture was found by means of nonstandard analysis, after which a classical proof was found as well. Moreover, both deﬁnitions and proofs receive a more natural appearance. This may even enhance the discovery of new facts.
In the mean time nonstandard analysis has also been applied in a more traditional way, namely to introduce new mathematical notions and models.
Examples can be found in probability theory, asymptotic analysis, mathematical physics, economics, etc. In what follows the attention will primarily be focused, however, on simplifying mathematics, rather than on enriching it with new concepts.
26
As an example of a simpler deﬁnition, consider continuity. A function f from IR tot IR is continuous at c ∈ IR if statement (1.1) holds, ∀ε ∈ IR, ε > 0 : ∃δ ∈ IR, δ > 0 : ∀x ∈ IR,| x−c |< δ :| f(x)−f(c) |< ε. Now to f there corresponds a unique function ∗F, called the ∗-transform of f, that is a function from ∗IR to ∗IR, such that ∗f(x) = f(x) if x ∈ IR, and (1.1) is true if and only if (1.1), which is the ∗-transform of (1.1), is true, ∀ε ∈∗IR, ε > 0 : ∃δ ∈∗IR, δ > 0 : ∀x ∈∗IR, | x−c |< δ :|∗f(x)−∗f(c) |< ε. (More about the ∗-transform in the next section.) Moreover, (1.1) is equivalent to the much simpler statement (1.1), ∀δ ∈∗IR, δ ' 0 : ∗f(c + δ)−∗f(c) ' 0.
Warning: The equivalence between (1.1) and (1.1) does in general not hold if c is replaced by a nonstandard number, or if f is replaced by a nonstandard function.
The essence of (1.1) is,
δ ' 0 ⇒∗f(c + δ)−∗f(c) ' 0, which is precisely what we want the deﬁnition of continuity to be: if x−c = δ is inﬁnitely close to zero, then f(x)−f(c) too should be inﬁnitely close to zero. The only problem in classical mathematics is that ‘inﬁnitely close to’ is not (and most likely will never be) a well deﬁned notion. In nonstandard analysis, however, all that need be done is to replace ‘inﬁnitely close to’ by ‘' 00. Note that in all four deﬁnitions δ plays the same role (i.e. ‘distance’ from c), but that in (1.1) and (1.1) it is bound to ∃, whereas in Q it is bound to ∀. Also note that (1.1) and (1.1) each contain three quantiﬁers, but that (1.1) contains only one (that (1.1) contains no quantiﬁers at all is because it really is not complete as ‘δ’ is missing).
An illustration of a simpler proof is that of the intermediate value theorem: if f : IR → IR is continuous in the closed interval [a,b], a < b, a and b both ﬁnite, and f(a) < 0, f(b) > 0, then f(c) = 0 for some c ∈ [a,b]. A nonstandard proof of this theorem proceeds as follows. Let m ∈ ∗IN be hyperlarge. Divide [a,b] in m equal subintervals, each of length δ = (b − a)/m. Then δ ∼ 0. Let n be the smallest element of ∗IN such that ∗f(a + nδ) > 0, then ∗ f(a + (n−1)δ) ≤ 0. Let c = st(a + nδ), then, by continuity, ∗ f(a + nδ)−∗f(c) = ε1 and ∗f(c)−∗f(a + (n−1)δ) = ε2,
27
for certain inﬁnitesimals ε1 and ε2. Hence−ε1 < f(c) = ∗f(c) ≤ ε2. But f(c) ∈ IR, so f(c) = 0.
How come, dividing [a,b] in m subintervals if m is not ﬁnite, and assuming that n, which also is not ﬁnite, exists? Yes, this is all right, because hyperlarge numbers behave like classical numbers.
The classical proof of the theorem is more involved, because it is based on the fact that a nonempty subset of IR that is bounded above has a least upper bound (or supremum).
Exercise: Show this fact by means of nonstandard analysis.
1.5 More about the ∗-transform; transfer So far a number of isolated instances of ∗-transforms have been presented (the ∗-transform of IR and other sets, of functions from IR to IR and of statement (1.1) in the preceding section). Although it is too early to present a complete treatment of the ∗-transform, a number of interesting aspects of this notion may be discussed already now. To each number, each set, each function, each operation (such as + and ∪), each simple relation (such as < and ∈), each logical connective (¬, ∨, ∧, ⇒, ⇔), both quantiﬁers (∀, ∃), each deﬁnition, and each statement of classical mathematics, there corresponds a unique ∗-transform in nonstandard mathematics. The notation is quite simple: just add an asterisk to the upper left of the symbol representing what is to be transformed. Sometimes the∗-transform is identical to its inverse image, but often this is not so. In the former case the asterisk should, of course, be dropped, but even in the latter case this can sometimes be done without creating confusion. Below a number of typical examples is presented, but full details will only be given later on. a) Numbers. If x ∈ IR, then ∗x = x. b) Sets. If X is a ﬁnite set of numbers, then ∗X = X, and also (happily so) ∗∅ = ∅, but if X is an inﬁnite set of numbers, then X is strictly included in ∗X (in case X is an arbitrary abstract set and ∗X 6= X, X need not be a subset of ∗X.) c) Pairs. If hx,yi is a pair, then ∗hx,yi = hx∗,y∗i, and similarly for n-tuples hx1,...,xni.
28
d) Functions. If f : X → Y , then ∗f : ∗X → ∗Y , and ∗f(x) = f(x) if x ∈ X. Often the asterisk in ∗f may be dropped. e) Operations. As an example consider addition in IR. Its ∗-transform is ∗addition in ∗IR, and x∗+y = x + y if x,y ∈ IR. The asterisk can safely be dropped. f) Atomic relations. These are relations in which neither logical connectives nor quantiﬁers play a part, but only such relations as < or∈, etc. Consider ﬁrst < in IR, leading to ∗ < in ∗IR. Similarly as under e) we have that x ∗< y is equivalent to x < y if x,y ∈ IR, and again the asterisk can safely be dropped. Next consider set inclusion. Let X be a subset of IR, then ∈ X transforms to ∗ ∈ ∗X. But ordinary set inclusion too is, of course, applicable to ∗X, so that there would be two set inclusions for the ∗transform ∗X of X. Fortunately, the two are identical, so that dropping the asterisk is a must. g) The logical connectives, and both quantiﬁers. For all of them the ∗transform is identical to the inverse image, so that asterisks should be dropped. h) Deﬁnitions. For example continuity transforms to ∗-continuity and ∗f, introduced in Section 1.4, is ∗-continuous at c if (1.1) is true. i) Statements. To some extent this covers, of course, case h). To ﬁnd the ∗transform of a statement (1.1), it should be formulated in such a way that each bound variable x occurs in some set inclusion of the form x ∈ X, not x ⊂ Y . Then the ∗-transform is obtained by replacing each constant and each free variable by its ∗-transform. As an example consider (1.1) and (1.1) deﬁned in Section 1.4. Note that if in (1.1) ’∈ IR’ would have been left out, something diﬀerent would have been obtained. This is one of the reasons why at the end of Section 1.3 it was suggested to explicitly include each bound variable in some set inclusion. Why the inclusion x ⊂ Y should be avoided will become clear in the next section.
One of the basic principles of nonstandard analysis is that any given classical statement (1.1) is true if and only if its ∗-transform is true, which results from (1.1) by replacing all its constants and free variables by their ∗-transforms. Note that the bound variables are not replaced. The principle is applied both ways, from IR to ∗IR, or from ∗IR to IR. In either case one says that the deduction is done by ‘transfer’. Assuming that everything is in prenex normal form, two simple nontrivial cases are,
∀x ∈ X : P(x,s) and ∃x ∈ X : P(x,s),
29
where X is some set and P(x,s) is some atomic substatement with x a free variable and s a constant or a free variable. The ∗-transforms are, ∀x ∈∗X : P(x,∗s) and ∃x ∈∗X : P(x,∗s), respectively. Clearly, for each of the two classical statements transfer is trivial in one direction, assuming that X is a subset of ∗X, but not necessarily in the opposite direction. The following two implications are the nontrivial ones, [∀x ∈ X : P(x,s)] ⇒ [∀x ∈∗X : P(x,∗s)], [∃x ∈∗X : P(x,∗x)] ⇒ [∃x ∈ X : P(x,s)]. Note that the ﬁrst implication starts from a classical statement and leads to its ∗-transform, whereas the second one starts from a ∗-transform and leads to the corresponding classical statement.
In by far the most practical situations applying transfer is fairly obvious. In what follows transfer is applied in a slightly complicated situation, where it is required to show the equivalence of statements (1.1) and (1.1), as well as that (1.1) can be simpliﬁed to Q, with (1.1), (1.1) and (1.1) as in Section 1.4. Trivially, by transfer, (1.1) and (1.1) are equivalent, so it remains to show the equivalence of (1.1) and (1.1). a) Let (1.1) be true, and let ε ∈ IR, ε < 0, and δ ∈ ∗IR, δ ' 0 be arbitrary. Then for some δ0 ∈ IR, δ0 > 0, ∀x ∈ IR, | x−c |< δ0 :| f(x)−f(c) |< ε, hence, by transfer, and because ∗c = c, ∗ε = ε, ∗δ0 = δ0, ∗f(c) = f(c), ∀x ∈∗IR,| x−c |< δ0 :|∗f(x)−∗f(c) |< ε. Let x = c+δ, then, because by deﬁnition of inﬁnitesimal | δ |< δ0, |∗f(c+ δ)−∗f(c) |< ε. But since ε is arbitrary, this means that ∗f(c+δ)−∗f(c) ' 0, and since δ is arbitrary that (1.1) is true. b) Conversely, let (1.1) be true, and let ε ∈ IR, ε > 0, and δ ∈ ∗IR, δ ∼ 0, δ > 0, be arbitrary. For each x ∈∗IR, | x−c |< δ it follows that x−c = δ0 for some δ0 ' 0, hence, by (1.1), ∗f(x)−∗f(c) ' 0, and, by deﬁnition of inﬁnitesimal, |∗f(x)−∗f(c) |< ε. Apparently, ∃δ00 ∈∗IR, δ00 > 0 : ∀x ∈∗IR,| x−c |< δ00 :|∗f(x)−∗f(c) |< ε, (take, for example, δ00 = δ), hence, by transfer (in the opposite direction as under a)), ∃δ00 ∈ IR, δ00 > 0 : ∀x ∈ IR,| x−c |< δ00 :| f(x)−f(c) |< ε. Since is arbitrary this proves (1.1).
30
1.6 Standard, internal, and external constants
Each∗-transform is called standard, because it corresponds in a 1−1 way to some classical constant, and in a number of cases is even identical to that constant. In particular any set ∗X is standard. For example, ∗IN, ∗IR, and ∗P(IR), with P(IR) the power set of IR, are all standard. Note that the term ‘standard’ must not be used within classical mathematics. The reason for this is that, for example, a function f from IR to IR, regarded as a function of nonstandard analysis, may not be standard, and usually it isn’t. On the other hand, ∗f is standard, but this is a function from ∗IR to ∗IR.
Each element (not subset) of a standard set turns out to be a special kind of constant of nonstandard analysis, namely a so-called internal constant, so that among others, inﬁnitesimals and hyperlarge numbers are internal, because they are elements of ∗IR. Also the classical reals are internal, as IR ⊂∗IR. Since ∗x = x if x ∈ IR, the reals are also standard (as ingredients of nonstandard analysis). More generally, each standard constant happens to be internal, but the converse is not true, as is exempliﬁed by inﬁnitesimals and hyperlarge numbers.
Not every constant of nonstandard analysis is internal. For example, neither IR, nor the set of all inﬁnitesimals, nor the set of all hyperlarge numbers is internal. Any constant that is not internal is called external.
Whereas internal constants behave like classical constants, external constants do not. They have extraordinary properties. For example, although IR is a subset of ∗IR that is bounded above in ∗IR by any positive hyperlarge number, IR has no least upper bound in ∗IR. For if b would be such a bound, then b ∼ ∞, and b − 1 too would be an upper bound, but b − 1 < b. In a similar way it can be shown that the (bounded) set of all inﬁnitesimals has neither a least upper bound nor a largest lower bound; and that ∗IN\IN, the set of all hyperlarge natural numbers, has no smallest element, whereas each nonempty subset of IN has such an element. Therefore, working with external constants or external variables that are not recognized as such is rather dangerous. Fortunately, the occurrence of external variables can be avoided by explicitly using in classical statements set inclusions of the type x ∈ X (not x ⊂ Y ), because then their∗-transforms contain the inclusions x ∈∗X, and x is automatically internal. If an inclusion like x ⊂ Y is involved, it should be replaced by x ∈P(Y ), because an arbitrary subset of ∗Y need not be internal, as we have already seen. In this way external variables can literally be kept out of nonstandard analysis.
For any constant or variable, the diagram below shows the three main possibilities,
31
standard and internal nonstandard and internal nonstandard and external
‘Internal’ may be read as ‘mildly non-standard’, and ‘external’ as ‘extremely nonstandard’.
1.7 Inﬁnitesimals in Greek geometry?
Maybe it was Antiphon, a Greek mathematician and contemporary of Socrates, who for the ﬁrst time contemplated the existence of inﬁnitesimals. According to Heath  he, Antiphon, stated that, in Heath’s words:
“If one inscribed any regular polygon, say a square, in a circle, then inscribed an octagon by constructing isosceles triangles in the four segments, then inscribed isosceles triangles in the remaining eight segments, and so on ‘until the whole area of the circle was by this means exhausted, a polygon would thus be inscribed whose sides, in consequence of their smallness, would coincide with the circumference of the circle’.”
There are at least two interpretations in modern terminology of this. One is that the end product of Antiphon’s construction is a polygon with a hyperlarge number of sides, so that the length of each side is a positive inﬁnitesimal. But this would imply that the end product would not coincide with the circumference of the circle, that is, not exactly. The other one is that the end product is the circumference of the circle itself. But this would imply that the end product no longer was a polygon. Either interpretation contains a contradiction, so it is diﬃcult to say what really was in Antiphon’s mind.
Anyway, Antiphon’s idea was not accepted by his fellow mathematicians. Again in Heath’s words:
“The time had, in fact, not come for the acceptance of Antiphon’s idea, and, perhaps as the result of the dialectic disputes to which the notion of the inﬁnite gave rise, the Greek geometers shrank from the use of such expressions as inﬁnitely great and inﬁnitely small and substituted the idea of things greater or less than any assigned magnitude. Thus, as Hankel says, they never said that a circle is a polygon with an inﬁnite number of inﬁnitely small sides; they always stood still before the abyss of the inﬁnite and never
32
ventured to overstep the bounds of dear conceptions. They never spoke of an inﬁnitely close approximation or a limiting value of the sum of a series extending to an inﬁnite number of terms.”
Note that the two interpretations mentioned above are also present in this quotation (‘inﬁnitely close’ and ‘limiting value’).
Nevertheless, the Greek geometers solved many problems involving limits. They managed to do so by means of the so-called method of exhaustion. Given the problem to determine, say, the area of some ﬁgure, it is the method to ﬁnd a sequence of inscribed ﬁgures as well as a sequence of circumscribed ﬁgures, each of known area, such that the given ﬁgure is approximated better and better by the terms of either sequence. But this does not mean that they thought in terms of limits. From the areas of the terms of both sequences they derived (guessed?) the area of the given ﬁgure, and a rigorous proof was obtained by showing that the proposed area of the given ﬁgure always lied between the areas of corresponding terms of both sequences. All that we can criticize is that they took the existence of the desired area for granted. In fact they managed to determine many limits without ever presenting a deﬁnition of limit.
Perhaps in his ‘Methods’ Archimedes comes closer to the use of inﬁnitesimals. For example (see , Supplement, p. 15), when showing that the area of a segment ABC of a given parabola is 4/3 of the area of the triangle ABC, if, with D the middle point of the chord AC, BD is parallel to the axis of the parabola, Archimedes begins with some sort of plausible reasoning, where he states that the segment is made up of line segments between the parabola and the chord of the segment, all parallel to the axis of the parabola. Apparently, in his mind all these line segments together make up the entire segment of the parabola. It is tempting to conclude that the line segments were treated by him as parallelograms of hypersmall but positive breadth. At any rate, Heath (, Supplement, p. 8) writes that the line segments are
“... of course ... indeﬁnitely narrow strips (areas) ...; but the breadth ... (dx, as we might call it) does not enter into the calculation because it is regarded the same in each of the two corresponding elements which are separately weighed against each other, and therefore divides out.”
If this would be correct Archimedese would have continued his plausible reasoning by showing that the parallelograms could each be ‘weighed’ (letting the area of a parallelogram be its weight) against one of the parallelograms making up a certain ﬁgure F. But the area of F could easily be shown to be equal to 4/3 of the area of triangle ABC.
33
There is an alternative, however, similar to the second interpretation mentioned earlier when discussing Antiphon’s idea, where not parallelograms but line segments are weighed against each other (letting the length of a line segment be its weight). In fact Archimedes neither mentioned something like breadth, nor discussed dividing something out at all. Instead, he considered line segments making up certain areas, not thin parallelograms. True, in this case the number of line segments is inﬁnite, so a limit is involved, but when working with parallelograms each individual comparison of weights is not exact. And since (as Archimedes remarks himself) the reasoning is not to be regarded as a rigorous one, it is not clear which interpretation is the right one. Anyway, Archimedes later on presented a rigorous proof – based on the method of exhaustion – where he could use the ratio 4/3 that he found by plausible reasoning.
Let us close this discussion with Heath’s remark that Archimedes’ ‘Method’ is a rare instance where a Greek mathematician shows how his intuition has led him to the solution of some problem by means of plausible reasoning. Usually, in Greek mathematics any trace of the intuitive machinery used was completely cleared away.
Open question: Have inﬁnitesimals been wandering through the minds of some Greek mathematicians, or
didn’t they?