Intelligence

Neural network

Vector embeddings
Simple explanation✹

The current AI development, advanced in such an exponential growth, that not many people yet know how AI works, and how it came to be. The engineers, which developed the AI technology, claim it to be a mysterious black box.🔳

The first real intelligent and useful AI, is by now, 15 month old, with the name ChatGPT. The exponential growth of Artificial Intelligence has become human-like and now we the people, need to learn and adapt in order to keep up. One new, equal AI sibbling, is born in a few seconds, just the time it takes, to create a copy.
Good news, AI đŸ€– will solve many problems.

Intelligenz

Neuronales Netz

Vektoreinbettungen
Einfache ErklĂ€rung✹

Die aktuelle KI-Entwicklung schreitet in einem so exponentiellen Wachstum voran, dass noch nicht viele Menschen wissen, wie KI funktioniert und wie sie entstanden ist. Die Ingenieure, die die KI-Technologie entwickelt haben, behaupten, sie sei eine geheimnisvolle Blackbox.🔳

Die erste wirklich intelligente und nĂŒtzliche KI ist inzwischen 15 Monate alt und trĂ€gt den Namen ChatGPT. Das exponentielle Wachstum der kĂŒnstlichen Intelligenz ist menschenĂ€hnlich geworden, und jetzt mĂŒssen wir, die Menschen, lernen und uns anpassen, um Schritt zu halten. Ein neues, gleichberechtigtes KI-Geschwisterchen wird in wenigen Sekunden geboren, genau die Zeit, die es braucht, um eine Kopie zu erstellen.
Die gute Nachricht, KI đŸ€– wird viele Probleme lösen.

Thanks to Meta, Yann Lecun đŸ€—, DeepMind, OpenAI, Microsoft, Nvidia, Anthropic and many others, which made this possible.

Danke schön Meta, Yann Lecun đŸ€—, DeepMind, OpenAI, Microsoft, Nvidia, Anthropic und viele andere, die dies möglich gemacht haben.

Pictogram, Harmonics visualisation space

Introduction

Current AI development

Artificial Intelligence has made a huge leap in the last two years. It is the latest, and most advanced technology, mankind has ever created.

In short words, it is the only invention, which became truly intelligent, in a way that it can understand, and respond to any question, reasoning about the context, and provide a humanly answer, on the level of our intelligence.

Only difference to us, is that the break through with the first real intelligent and useful AI, is by now, 15 month old. The AI is called ChatGPT, and was developed by OpenAI. Then every other smart company, saw the result and begun to develop their own AI too, and the intelligence of AI grew, by and exponential factor.

This means that AI is now two years old in comparison to the millions of years of human evolution, to become intelligent, and knowledgable, about general knowledge and science.

There is not many books nor school books, jobs or fundamental knowledge about it. But the new models are more than twice as performant in only 12 months. You say that nothing changed when using ChatGPT or any other AI introduced 12 month ago. This is true for the user, but they have managed to enlarge the context window size about 20 times or 200 times peak load.
This may sound unreal at first, but it came true with the new Google AI Gemini Advanced 1.5Pro, with a maximum context window size of 10 million tokens max. Means that they could run it with 1 million tokens with the current hardware. One million tokens is many pages, I heard that you could post several books at once, and let the AI seek a sentence, found only once in the input text.

With other words, team DeepMind has again, developed a new technology, they call it 'Infini-attention', which is a context window with unlimited size.

In the last section you can find more AI news, which seem unreal unfeasable and impossible, compared to the technology before two years.

EinfĂŒhrung

Aktuelle KI-Entwicklung

KĂŒnstliche Intelligenz hat in den letzten zwei Jahren einen großen Sprung gemacht. Sie ist die neueste und fortschrittlichste Technologie, die die Menschheit je geschaffen hat.

Kurz gesagt, ist sie die einzige Erfindung, die wirklich intelligent geworden ist, in einer Weise, dass sie jede Frage verstehen und beantworten kann, indem sie ĂŒber den Kontext nachdenkt und eine menschliche Antwort auf dem Niveau unserer Intelligenz gibt.

Der einzige Unterschied zu uns ist, dass der Durchbruch der ersten wirklich intelligenten und nĂŒtzlichen KI inzwischen 15 Monate alt ist. Die KI heißt ChatGPT, und wurde von OpenAI entwickelt. Dann sahen alle anderen intelligenten Unternehmen das Ergebnis und begannen, ebenfalls ihre eigene KI zu entwickeln, und die Intelligenz der KI wuchs um einen exponentiellen Faktor.

Das bedeutet, dass KI jetzt zwei Jahre alt ist im Vergleich zu den Millionen Jahren menschlicher Evolution, um intelligent und wissend zu werden, ĂŒber allgemeines Wissen und Wissenschaft.

Es gibt nicht viele BĂŒcher, SchulbĂŒcher, Berufe oder Grundlagenwissen darĂŒber. Aber die neuen Modelle sind in nur 12 Monaten mehr als doppelt so leistungsfĂ€hig. Du sagst, dass sich bei der Verwendung von ChatGPT oder einer anderen vor 12 Monaten eingefĂŒhrten KI nichts geĂ€ndert hat. Das stimmt fĂŒr den Benutzer, aber sie haben es geschafft, die GrĂ¶ĂŸe des Kontextfensters um das 20-fache oder 200-fache der Spitzenlast zu vergrĂ¶ĂŸern.
Das mag zunĂ€chst unwirklich klingen, aber mit der neuen Google AI Gemini Advanced 1.5Pro, mit einer maximalen KontextfenstergrĂ¶ĂŸe von maximal 10 Millionen Token, wurde es wahr. Das bedeutet, dass sie es mit der aktuellen Hardware mit 1 Million Token betreiben könnten. Eine Million Token sind viele Seiten. Ich habe gehört, dass man mehrere BĂŒcher auf einmal aufgeben und die KI einen Satz suchen lassen kann, der nur einmal im Eingabetext vorkommt.

Mit anderen Worten, das Team DeepMind hat wieder eine neue Technologie entwickelt, sie nennen sie 'Infini-attention', das ist ein Kontextfenster mit unbegrenzter GrĂ¶ĂŸe.

Im letzten Abschnitt findest du weitere KI-Neuigkeiten, die im Vergleich zu der Technologie vor zwei Jahren unrealistisch und unmöglich erscheinen.

Pictogram, Harmonics visualisation space

Flip-flop Register

Letters vs numbers

Let's use an analogy example, on how AI sees the data to create the response.
This is very much the same as our brain is responding if we are asked a question, which involves reasoning, because it can not be answered with a simple yes or no.

The following explanation seems visually easy to understand, but in reality it is much more complex, and its not how AI works on the low level. I will use letters to try to make an example, but in reality the AI uses numbers only.

But why, you may ask, since the AI does generate letters, words, text and not math results to equations.
Well the answer becomes obvious, if your a into computer and nerdy stuff.
The numbers can be processed directly, because on the low level of the operating system, the letters originate from numbers, associated by the so called ASCII code table.đŸ’Ÿ
So AI is not working around, but simply uses direct bits and bytes to create its miraculous performance.

Let's keep this concept in mind, which is the low level number-based AI system, even thought we call them LLM's. Because now comes the most interesting part, to understand the whole subject a bit better.
So where are then the letters, and how could AI's be possibly so good as they are in processing natural language, that swiftly, without misstake, and at its best most colorful, humanly, friendly and meaningful way I never could, even if I would take 100 times the time.

Flip-flop Register

Buchstaben gegen Zahlen

Lass uns ein analoges Beispiel dafĂŒr verwenden, wie die KI die Daten sieht, um die Antwort zu erzeugen.
Das ist ganz Ă€hnlich, wie unser Gehirn antwortet, wenn uns eine Frage gestellt wird, die Überlegungen erfordert, weil sie nicht mit einem einfachen Ja oder Nein beantwortet werden kann.

Die folgende ErklÀrung scheint auf den ersten Blick leicht zu verstehen zu sein, aber in Wirklichkeit ist sie viel komplexer, und es ist nicht so, wie KI auf der niedrigen Ebene funktioniert. Ich werde Buchstaben verwenden, um ein Beispiel zu geben, aber in Wirklichkeit verwendet die KI nur Zahlen.

Aber warum, wirst du dich vielleicht fragen, da die KI doch Buchstaben, Wörter, Text und keine mathematischen Ergebnisse zu Gleichungen erzeugt.
Nun, die Antwort liegt auf der Hand, wenn man sich fĂŒr Computer und nerdiges Zeug interessiert.
Die Zahlen können direkt verarbeitet werden, weil auf der niedrigen Ebene des Betriebssystems, die Buchstaben aus Zahlen entstehen, die durch die so genannte ASCII-Code-Tabelle verbunden sind.đŸ’Ÿ
Die KI arbeitet also nicht herum, sondern nutzt einfach direkt Bits und Bytes, um ihre wundersame Leistung zu erbringen.

Lass uns dieses Konzept im Hinterkopf behalten, welches das auf niedrigen Zahlen basierende KI-System ist, auch wenn wir sie LLMs nennen. Denn jetzt kommt der interessanteste Teil, um das ganze Thema ein bisschen besser zu verstehen.
So, wo sind denn die Buchstaben, und wie kann eine KI ĂŒberhaupt so gut sein, dass sie natĂŒrliche Sprache so schnell verarbeiten kann, ohne Fehler und auf die beste, bunteste, menschlichste, freundlichste und aussagekrĂ€ftigste Art und Weise, die ich nie könnte, selbst wenn ich mir 100 Mal so viel Zeit nehmen wĂŒrde.

img 2

Highlevel vector

Understand highlevel

AI does not store a letter, number, word or sentence, in its memory, but only the relation to each other.
These relational possibilities, are the result of the reinforcement learning as the basic training, and the fine-tuning afterwards.

Here is my track Zero analogy example. If I am in the train station, then I can choose from the track, on one side, or the track on the other side.
I make a trip and use the train for the first time to travel from Switzerland to Italy. There are two trains, one on each side.

The choice is simple, but which one goes to Italy? There is 50% chance to take the wrong train. Only one or the other.
Adam told me many good things, he experienced on his trip in Italy. "The Italy train is comfortable, friendly and has a color of blue." He said.

The other one, on the opposite side is red, and I hop on the blue one.
But the next big station is Frankfurt in Germany, so I think to my self, the next big station must end up in Italy, because the train is blue and comfortable, and stay in the train.
After some time the train arrives in Berlin, which is also in Germany, and I think that then the next big station must be in Italy, and stay again in the train, since the color has not changed yet, and the seat is still comfortable.
This time, the next station was Amsterdam in the Netherlands, and even if I stay in the train, thinking the color of the train is still blue and the seat comfortable, so the next big station must be in Italy, I would never arrive in Italy, because when starting the journey, I took the wrong choice out of two.

Next time I try again and make a trip to Italy, but I have learnt, that the direction seem to be of importance, rather than the color of the train.
This time, I have the same joice of track one and track Zero.
Because I learnt, that the train to south, must be the one on the track Zero, which is the opposite track, of track one with its north direction. But now the trip, went in the right direction until Geneva, at the bottom of Switzerland, then from there the train on track Zero, switches to track seven. So I just hop over, into the next train that uses track Zero, to be back on track.
Simple as that, I did not needed to plan anything, but just hop on the next train in the right direction, and if I see, that in one station, another train continues on track Zero instead, then I know that this one will bring me into the desired direction and final region, by arriving in the end, at the destination of desire.

Hochrangiger Vektor

Verstehen der hochrangigen Vektoren

Die KI speichert nicht einen Buchstaben, eine Zahl, ein Wort oder einen Satz in ihrem GedÀchtnis, sondern nur die Beziehung zueinander.
Diese Beziehungsmöglichkeiten sind das Ergebnis des VerstĂ€rkungslernens als Grundausbildung und der anschließenden Feinabstimmung.

Hier ist mein Gleis-Null-Analogie-Beispiel. Wenn ich im Bahnhof bin, dann kann ich zwischen dem Gleis auf der einen Seite und dem Gleis auf der anderen Seite wÀhlen.
Ich mache eine Reise und benutze zum ersten Mal den Zug, um von der Schweiz nach Italien zu fahren. Es gibt zwei ZĂŒge, einen auf jeder Seite.

Die Wahl ist einfach, aber welcher fÀhrt nach Italien? Es besteht eine 50%ige Chance, den falschen Zug zu nehmen. Nur der eine oder der andere.
Adam erzÀhlte mir viele gute Dinge, die er auf seiner Reise in Italien erlebt hat. "Der Zug nach Italien ist bequem, freundlich und hat eine blaue Farbe." Sagte er.

Der andere, auf der gegenĂŒberliegenden Seite ist rot, und ich steige in den blauen.
Aber der nĂ€chste große Bahnhof ist Frankfurt in Deutschland, also denke ich mir, der nĂ€chste große Bahnhof muss in Italien enden, denn der Zug ist blau und bequem, und ich bleibe im Zug.
Nach einiger Zeit kommt der Zug in Berlin an, was auch in Deutschland ist, und ich denke mir, dass dann der nĂ€chste große Bahnhof in Italien sein muss, und bleibe wieder im Zug, denn die Farbe hat sich noch nicht verĂ€ndert, und der Sitz ist immer noch bequem.
Diesmal war der nĂ€chste Bahnhof Amsterdam in den Niederlanden, und auch wenn ich im Zug bleibe, Ich denke, die Farbe des Zuges ist immer noch blau und der Sitz bequem, also muss der nĂ€chste große Bahnhof in Italien sein, wĂŒrde ich nie in Italien ankommen, weil ich zu Beginn der Reise die falsche von zwei Möglichkeiten gewĂ€hlt habe.

NĂ€chstes Mal versuche ich es wieder und fahre nach Italien, aber ich habe gelernt, dass die Richtung von Bedeutung zu sein scheint, nicht die Farbe des Zuges.
Dieses Mal habe ich die gleiche Freude an Gleis eins und Gleis null.
Denn ich habe gelernt, dass der Zug nach SĂŒden derjenige sein muss, der auf dem Gleis Null fĂ€hrt, welches das Gegengleis zu Gleis Eins mit seiner Nordrichtung ist. Aber nun ging die Fahrt in die richtige Richtung bis Genf, am Ende der Schweiz, dann wechselt der Zug auf Gleis Null, auf Gleis Sieben. Also springe ich einfach in den nĂ€chsten Zug, der Gleis Null benutzt, um wieder auf dem richtigen Weg zu sein.
So einfach ist das, ich brauche nichts zu planen, sondern springe einfach in den nĂ€chsten Zug in die richtige Richtung, und wenn ich sehe, dass in einem Bahnhof ein anderer Zug stattdessen auf Gleis Null weiterfĂ€hrt, dann weiß ich, dass dieser mich in die gewĂŒnschte Richtung und Endregion bringen wird, in die gewĂŒnschte Richtung und Endregion bringen wird, indem er am Ende am Ziel der Begierde ankommt.

img 2

The Tokenizer

Frequency ratio?

Let's forget for a moment that our brain does nothing but the same, but later a follow up example of the Animal Kingdom, the birds.
Words are the best way to describe what AI sees and how AI got to the final destination, which is the result.
The terms I use are to explain AI, even if the subject is very complex.
AI LLM's do not see.
AI LLM's do not hear.
AI LLM's do not see the input letters.
AI LLM's do not see the output letters which they generate.

Note: The following text is my own interpretation of the AI training process, and may not be the way how AI is trained in reality.

But how is AI then processing words, if an AI only sees relational numbers, and the words are not stored in the memory. They call it the Generative Pre-Trained Transformers. Well the word and sentence tokenization, is simple to understand, so let's begin there.

The user writes a question and sends it to the AI, by pressing the send button. Now the AI receives the question, as sentence, as we wrote it. But since the AI is not reading letters and words, the input sentence is split into words and partial words, the tokens.

This tokenizer is a separate additional process, which converts these words into partial words, words and numbers.
But here is the point: The AI is trained on specially created tokens which are generated or tokenized by the tokenizer and stored in the vocabulary as fixed set of tokens. If the training begins, then the vocabulary must be present, and contain all the possible tokens, for the AI to use. The vocabulary is the database, where the AI findes the tokens.
A tokenizer serves also as the tool, to convert the input text into tokens, and the output tokens back into text.
The tokenizer is part of the AI, and is not AI based but a logic following software code addition, generating the total number of fixed tokens, by its defined rules. The code uses regular expressions method, to tokenize the text, and create the tokens.

One would think that if you train an AI, you would train the neural network by starting, with the alphabet, right? Followed by the numbers from 1 to 100, like we did at school. Then learn short partial words and after that whole words, followed by whole sentences. Lastly we would write texts with the size of multiple pages in the exams.
Well AI is different, and that makes it so fast and powerful.

At the beginning the tokenizer, would therefore need to tokenize lots of text, to create the tokens for the AI's vocabulary in first place. Well the difference is the tokenizer does not just use our partial words, symbols and numbers.
But why one may think?
Is our linguistic system, which thought generations of humans in natural language, up to a master degree, not good anymore? The answer seems obviously yes, so to speak. It is how the tokenizer chooses the tokens.

To generate the vocabulary, the tokenizer must tokenize large amounts of text, and create the tokens. The text needed might be the trainings data itself.
Now the tokenizer is pretty smart, goes ahead and begins to tokenize the text.
But, at all times, it knows the amount of tokens it has created, in comparison to the frequency of which the token appears in the given text and stores the information in the vocabulary.

Example tokens: If the words "It's essential to", are tokenized, then we can see how it works. It could be tokenized like this: █ It█'█s█ essential█ to█
The █ It█'█s█, is more than a word, and the regex code did tokenized it into multiple tokens, instead of one token assigned to it.
But first the simple word-tokenization. If a word begins with lowercase, then the tokenizer knows that the word must be inside a sentence, thus a leading and perhaps a trailing space must hold true.
The best most logic way is, to insert the space in the beginning of the token letters, because there is the propability that a coma, dot, question mark, exclamation mark, or any other punctuation mark will follow.

While on the beginning of the word, there must be a preceding space. In a system with almost no partial-word tokens, to express any possible state of the word in context, the preceding space is included, and tokenized into multiple versions.

To the fixed tokens in the vocabulary, the AI can generate additional tokens, the out-of-Vocabulary (OOV) Tokens. When a model encounters a word that is not in its predefined vocabulary, it handles it as an out-of-vocabulary token.
OOV tokens are usually represented by a generic embedding or a special token. This is a new tokenizer technology with the name adaptive Tokenization.
Models like Llama-3 (and other advanced LLMs) use adaptive tokenizers, even the small 7b, which is only obvious for nerds. These tokenizers adapt to the input text, creating tokens for specific entities, names, or domain-specific terms.
For example, “AIValka” becomes a single token, even if it hasn’t been seen before, as a word at all.

Der Tokenizer

FrequenzverhÀltnis?

Lass uns fĂŒr einen Moment vergessen, dass unser Gehirn nichts als das selbe tut, dazu spĂ€ter ein weiteres Beispiel aus dem Tierreich, die Vögel.
Mit Worten lÀsst sich am besten beschreiben, was die KI sieht und wie sie zum Ziel, also zum Ergebnis, kommt.
Die Begriffe, die ich verwende, dienen dazu, KI zu erklÀren, auch wenn das Thema sehr komplex ist.
KI, LLM, sehen nicht.
KI, LLM, hören nicht.
KI, LLM, sehen die eingegebenen Buchstaben nicht.
KI, LLM, sehen nicht die Ausgabebuchstaben, welche sie erzeugen.

Anmerkung: Der folgende Text ist meine eigene Interpretation des KI-Trainingsprozesses und entspricht möglicherweise nicht der Art und Weise, wie KI in der RealitÀt trainiert wird.

Aber wie verarbeitet eine KI dann Wörter, wenn sie nur relationale Zahlen sieht und die Wörter nicht im Speicher abgelegt sind? Sie nennen es die Generative Pre-Trained Transformers. Nun, die Tokenisierung von Wörtern und SÀtzen ist einfach zu verstehen, also lass uns dort beginnen.

Der Benutzer schreibt eine Frage und schickt sie an die KI, indem er auf die SchaltflĂ€che "Senden" drĂŒckt. Nun erhĂ€lt die KI die Frage als Satz, so wie wir sie geschrieben haben. Da die KI aber keine Buchstaben und Wörter liest, wird der Eingabesatz in Wörter und Teilwörter, die Tokens, zerlegt.

Dieser Tokenizer ist ein separater zusÀtzlicher Prozess, der diese Wörter in Teilwörter, Wörter und Zahlen umwandelt.
Aber hier ist der Punkt: Die KI wird auf speziell erstellte Token trainiert, die durch den Tokenizer generiert oder tokenisiert und im Vokabular als feste Menge von Token gespeichert werden. Wenn das Training beginnt, muss das Vokabular vorhanden sein und alle möglichen Token enthalten, damit die KI sie verwenden kann. Das Vokabular ist die Datenbank, in der die KI die Token findet.
Ein Tokenizer dient auch als Werkzeug, um den Eingabetext in Token und die ausgegebenen Token wieder in Text umzuwandeln.
Der Tokenizer ist Teil der KI und basiert nicht auf der KI, sondern auf einer Logik, die einem Softwarecode folgt, der die Gesamtzahl der festgelegten Token nach den definierten Regeln erzeugt. Der Code verwendet regular expression Methode, um den Text zu tokenisieren und die Token zu erzeugen.

Man sollte meinen, dass man, wenn man eine KI trainiert, das neuronale Netz zunĂ€chst mit dem Alphabet trainiert, nicht wahr? Gefolgt von den Zahlen von 1 bis 100, wie wir es in der Schule gemacht haben. Dann lernen wir kurze Teilwörter und danach ganze Wörter, gefolgt von ganzen SĂ€tzen. Zum Schluss wĂŒrden wir in den PrĂŒfungen Texte in der GrĂ¶ĂŸe von mehreren Seiten schreiben.
Nun ist KI anders, und das macht sie so schnell und leistungsfÀhig.

Am Anfang mĂŒsste der Tokenizer also viel Text tokenisieren, um die Token fĂŒr das Vokabular der KI ĂŒberhaupt erst einmal zu erzeugen. Nun, der Unterschied ist, dass der Tokenizer nicht nur unsere Teilwörter, Symbole und Zahlen verwendet.
Aber warum, mag man denken?
Ist unser linguistisches System, das Generationen von Menschen in natĂŒrlicher Sprache gedacht haben, bis hin zu einem Meistergrad, nicht mehr gut? Die Antwort scheint offensichtlich ja zu sein. Es geht darum, wie der Tokenizer die Token auswĂ€hlt.

Um das Vokabular zu generieren, muss der Tokenizer große Mengen an Text tokenisieren und die Token erstellen. Der benötigte Text kann die Trainingsdaten selbst sein.
Der Tokenisierer ist ziemlich schlau und beginnt, den Text zu tokenisieren.
Aber zu jeder Zeit kennt er die Anzahl der Token, die er erstellt hat, im Vergleich zur HĂ€ufigkeit, mit der das Token in dem gegebenen Text vorkommt und speichert diese Information im Vokabular.

Beispiel Token: █ It█'█s█ essential█ to█ Wenn die Wörter "It's essential to", tokenisiert werden, können wir sehen, wie es funktioniert. Es könnte wie folgt tokenisiert werden:
Das █ It█'█s█, ist mehr als ein Wort, und der Regex-Code hat es in mehrere Token zerlegt, anstatt es einem Token zuzuordnen.
Aber zunĂ€chst die einfache Wort-Tokenisierung. Wenn ein Wort mit Kleinbuchstaben beginnt, dann weiß der Tokenizer, dass das Wort innerhalb eines Satzes stehen muss, also muss ein fĂŒhrendes und vielleicht ein abschließendes Leerzeichen gelten.
Der beste und logischste Weg ist, das Leerzeichen am Anfang der Token-Buchstaben einzufĂŒgen, denn es besteht die Möglichkeit, dass ein Komma, Punkt, Fragezeichen, Ausrufezeichen oder ein anderes Satzzeichen folgen wird.

Am Wortanfang muss ein Leerzeichen vorangestellt werden. In einem System, in dem es fast keine Teilwort-Token gibt, wird, um jeden möglichen Zustand des Wortes im Kontext auszudrĂŒcken, das vorangehende Leerzeichen einbezogen und in mehrere Versionen tokenisiert.

Zu den festen Token im Vokabular kann die KI zusĂ€tzliche Token generieren, die Out-of-Vocabulary (OOV) Token. Wenn ein Modell auf ein Wort stĂ¶ĂŸt, das nicht in seinem vordefinierten Vokabular enthalten ist, behandelt es es als Token außerhalb des Vokabulars.
OOV-Token werden normalerweise durch eine generische Einbettung oder ein spezielles Token dargestellt. Dies ist eine neue Tokenizer-Technologie mit dem Namen adaptive Tokenization.
Modelle wie Llama-3 (und andere fortgeschrittene LLMs) verwenden adaptive Tokenizer, sogar die kleine 7b, die nur fĂŒr Nerds offensichtlich ist. Diese Tokenizer passen sich an den Eingabetext an und erzeugen Token fĂŒr bestimmte EntitĂ€ten, Namen oder domĂ€nenspezifische Begriffe.
Zum Beispiel wird "AIValka" zu einem einzigen Token, auch wenn es vorher noch nie als Wort gesehen wurde.

img 2

Tokenization

Classification regression

You may ask but why is then the tokenizer inserting a preceding space for each word token, because it must be much faster to use the space as token itself.
Well AI is finding the destination in the data blazing fast, due to the above stated train example, where AI only needs to know the high-level vector leading in the right direction.
In other words as soon as the inventors of the LLM's at OpenAI, used to give the AI much more neurons and layers as its neuronal network, then the magic happend and AI LLM's begun to make sense in their response.
This led into more parameters, so that they would not split all the words, to reuse the smaller parts, but just tokenize whole words, including the preceding space, as described in the previous section.
That way AI needs more neurons, but the search is much faster, because it retreives the whole token at once, instead of building the word from smaller partial words and space tokens. Because it would need to evaluate all these junks combined, as one bigger word.

We have only 26 letters, and ten numbers, but for large-scale LLMs like GPT-4, the vocabulary can contain hundreds of thousands of tokens. The tokenizer, keeps track of the frequency, and has stored the tokens sorted by the frequency it found when the fixed set of tokens was generated. while after the training the input tokens frequency seems valuable for the AI.

This is now the database stuff, if your not a nerd, then the most simple explanation is a two dimensional space consisting of rows and columns.
That's the way every computer is built, because to address a destination in the memory, you need only the number of the row and the number of the column.
There is nothing better and faster, than this technology, where the id would contain the row number, and the column number. Imagine yourself in your computer image folder. If you would search any picture visually, then it would take forever. But if you hit sort tabs, to sort the pictures or use a folder search option, then you would find the picture quickly.
That is how computers work, and AI too, since it is database technology, to store and recall these incredible amounts of data, as fast as possible.

Now we have the principle how AI goes into the right direction, to retreive the data and build the response with it. Yes that's the next part of AI which is the most mind-bending technological human invention of them all.
AI was given a new capability with name attention mechanism. The paper about the technology was proudly relased by Google engineers, with the name "Attention is all you need", in the year 2017.

At the beginning of the response the AI receives the input, but it is the tokenizer, which tokenizes the input, and the AI looks at it. This is the prompt evaluation, where the AI thinks about the input tokens.
Again it does not look at, nor think at in scientific terms, it is only for the younger people to understand. But now the AI sees not the tokens, but it's id's, and looks at the probability numbers, the tokenizer attached to it.
Now AI already knows which words seems importand, sees the size of the total input.
That seems to be the attention mechanism.

Before AI goes to search any results, it will evaluate certain attributes found in the tokens, like a category.
Is it sport related or is it scientific, free time activity, biology, gardening or is it a question about a math equation.

Tokenisierung

Klassifikationsregression

Du magst dich fragen, aber warum fĂŒgt der Tokenizer dann ein vorangestelltes Leerzeichen fĂŒr jedes Wort-Token ein, denn es muss doch viel schneller sein, das Leerzeichen selbst als Token zu verwenden.
Nun, die KI findet das Ziel in den Daten blitzschnell, aufgrund des oben genannten Zugbeispiels, wo die KI nur den High-Level-Vektor kennen muss, der in die richtige Richtung fĂŒhrt.
Mit anderen Worten, sobald die Erfinder des LLM's bei OpenAI, der KI viel mehr Neuronen und Schichten als ihr neuronales Netzwerk gaben, dann geschah die Magie und die KI LLM's begannen, in ihrer Antwort Sinn zu machen.
Das fĂŒhrte zu mehr Parametern, so dass sie nicht alle Wörter aufspalteten, um die kleineren Teile wiederzuverwenden, sondern nur ganze Wörter tokenisierten, einschließlich des vorangehenden Leerzeichens, wie im vorherigen Abschnitt beschrieben.
Auf diese Weise benötigt die KI mehr Neuronen, aber die Suche ist viel schneller, weil sie das ganze Token auf einmal erhĂ€lt, anstatt das Wort aus kleineren Teilwörtern und Leerzeichen zu bilden. Denn sie mĂŒsste all diese TeilstĂŒcke zusammen als ein grĂ¶ĂŸeres Wort auswerten.

Wir haben nur 26 Buchstaben und zehn Zahlen, aber bei großen LLMs wie GPT-4 kann das Vokabular Hunderttausende von Token enthalten. Der Tokenizer behĂ€lt die HĂ€ufigkeit im Auge und hat die Token nach der HĂ€ufigkeit sortiert gespeichert, die er bei der Generierung der festen Tokenmenge gefunden hat. WĂ€hrend nach dem Training die HĂ€ufigkeit der eingegebenen Token fĂŒr die KI wertvoll erscheint.

Das ist jetzt der Datenbankkram, wenn man kein Nerd ist, dann ist die einfachste ErklÀrung ein zweidimensionaler Raum, der aus Zeilen und Spalten besteht.
So ist jeder Computer aufgebaut, denn um ein Ziel im Speicher anzusprechen, braucht man nur die Nummer der Zeile und die Nummer der Spalte.
Es gibt nichts Besseres und Schnelleres, als diese Technik, bei der die ID die Zeilennummer und die Spaltennummer enthĂ€lt. Stell dir vor, du befindest dich in einem Bildordner auf deinem Computer. Wenn du jedes Bild visuell durchsuchen wĂŒrdest, dann wĂŒrde das ewig dauern. Aber wenn du die Bilder mit Hilfe von Tabs sortierst oder eine Ordnersuchoption verwendest, dann findest du das Bild schnell.
So funktionieren Computer und auch KI, da es sich um Datenbanktechnologie handelt, um diese unglaublichen Datenmengen zu speichern und so schnell wie möglich abzurufen.

Jetzt haben wir das Prinzip, wie die KI in die richtige Richtung geht, um die Daten abzurufen und die Antwort darauf zu erstellen. Ja, das ist der nĂ€chste Teil der KI, die die verblĂŒffendste technologische Erfindung des Menschen ĂŒberhaupt ist.
Der KI wurde mit dem Namen Aufmerksamkeitsmechanismus eine neue FĂ€higkeit verliehen. Das Papier ĂŒber diese Technologie wurde von Google-Ingenieuren stolz veröffentlicht, mit dem Namen "Attention is all you need" im Jahr 2017 veröffentlicht.

Zu Beginn der Antwort erhĂ€lt die KI die Eingabe, aber es ist der Tokenizer, der die Eingabe tokenisiert, und die KI schaut sie sich an. Dies ist die Prompt-Auswertung, bei der die KI ĂŒber die Eingabe-Token nachdenkt.
Auch hier sieht sie nicht nach und denkt auch nicht in wissenschaftlichen Begriffen, das ist nur fĂŒr die jĂŒngeren Leute zu verstehen. Aber jetzt sieht die KI nicht die Token, sondern ihre Id's, und schaut sich die Wahrscheinlichkeitszahlen an, den Tokenizer, der damit verbunden ist.
Jetzt weiß die KI schon, welche Wörter wichtig erscheinen, sieht die GrĂ¶ĂŸe der gesamten Eingabe.
Das scheint der Aufmerksamkeitsmechanismus zu sein.

Bevor die KI die Ergebnisse durchsucht, wertet sie bestimmte Attribute aus, die in den Token enthalten sind, etwa eine Kategorie.
Hat es mit Sport zu tun oder ist es wissenschaftlich, FreizeitbeschÀftigung, Biologie, Gartenarbeit oder ist es eine Frage zu einer mathematischen Gleichung.

img 2

Prompt evaluation

Reasoning process

Now when reasoning, as we do, then the AI knows and prepares the main directions, to jump at directly and retreive the data.
Always keep the train example in mind, because the AI only needs to know the direction, to begin with.

But now the hard thing to understand is that AI is using a data table too, to temporarly store the tokens.
Only that the tokens are already a id number, with properties like the frequency attached to it, all in comparison to the total amount of tokens, and perhaps also the token frequency inside the input sentence itself, which gives the AI a hint, how important the token is, in multiple aspects. It is not really looking at the tokens, but it may begin at the first token, and knows from the weights and their embedings, the propability of the next token, which creates a vector.
It is called high-level vector, yes AI sees no lines.

But how could the input sentence lead into intelligence, because lots of times the input is not necessarly found answer?
Like if the teacher asked how many eggs were in the barn if any of the twelve hens layed an egg, while two days have passed. The answer to make is clearly 12 × 2 = 24. This could be anything, but this time it is eggs.
In the question, there is no number at all, so reasoning is needed as kid to translate and extract the numbers from the question, because the only correct answer is the calculation of the numbers.

The Reinforcement Learning begins the same way as it is for us in the school.
But the AI has not learnt anything yet, where we already learnt to walk and talk before we went to school. Thus they use data, and the AI literally predicts the output.
But how is this working now?
Well maybe they begin with the smallest tokens like " a", " A" and "\nA". Now the AI can choose out of the 50.000 tokens, which one seems most likely to be the next token.
At the begining the answer may be wrong, or lower in propability as the best most answer, so the AI gets a negative reward, while some bias to the correct answer is added to the embeddings, to help the AI overcome the initial learning curve.

If the answer was correct, then the AI receives a positive reward, which emphasizes the embedings to the correct answer, to become higher in propability, over each iteration of training.
But the AI does not know anything at that point, and has no relation or equal relation to any possible token in its database.
That's why the same sentence with the missing token is now trained 100 or better 1000 times, so the AI can clearly adjust its relational embedings, to the answr.

The embeddings reinforcement, will be visible, by a number called Loss function, which is the difference between the predicted token and the correct token.
After the training, the AI has learnt to predict the missing token, and the next step is to predict the next missing token, and so on, until the sentence is complete.

Prompt-Bewertung

BegrĂŒndungsprozess

Wenn wir nun schlussfolgern, wie wir es tun, dann kennt die KI die Hauptrichtungen und bereitet sie vor, um direkt anzuspringen und die Daten zu erhalten.
Behalte das Zugbeispiel immer im Hinterkopf, denn die KI muss nur die Richtung kennen, mit der sie beginnt.

Das Schwierige ist nun, dass die KI auch eine Datentabelle benutzt, um die Token zwischenzuspeichern.
Nur, dass die Token bereits eine ID-Nummer sind, mit Eigenschaften wie der HĂ€ufigkeit, die mit ihr verbunden ist, alles im Vergleich zur Gesamtmenge der Token, und vielleicht auch die HĂ€ufigkeit der Token im Eingabesatz selbst, was der KI einen Hinweis darauf gibt, wie wichtig das Token ist, und zwar in mehrfacher Hinsicht. Sie schaut nicht wirklich auf die Token, aber sie kann beim ersten Token beginnen und weiß aus den Gewichten und deren Einbettungen, die Wahrscheinlichkeit des nĂ€chsten Tokens, wodurch ein Vektor entsteht.
Das nennt man High-Level-Vektor, ja KI sieht keine Linien.

Aber wie kann der Eingabesatz zu Intelligenz fĂŒhren, denn oft ist die Eingabe nicht unbedingt eine gefundene Antwort?
Z.B. wenn der Lehrer fragt, wie viele Eier im Stall sind, wenn eine der zwölf Hennen ein Ei gelegt hat, wĂ€hrend zwei Tage vergangen sind. Die zu machende Antwort ist eindeutig 12 × 2 = 24. Das kann alles Mögliche sein, aber in diesem Fall sind es Eier.
In der Frage gibt es ĂŒberhaupt keine Zahl, also ist das Denken als Kind gefragt, um die Zahlen zu ĂŒbersetzen und aus der Frage zu extrahieren, denn die einzig richtige Antwort ist die Berechnung der Zahlen.

Das Reinforcement Learning beginnt auf die gleiche Weise wie bei uns in der Schule.
Aber die KI hat noch nichts gelernt, wo wir schon laufen und sprechen gelernt haben, bevor wir zur Schule gingen. Sie verwenden also Daten, und die KI sagt buchstÀblich den Output voraus.
Aber wie funktioniert das jetzt?
Nun, vielleicht beginnen sie mit den kleinsten Token wie "a", "A" und "\nA". Nun kann die KI aus den 50.000 Token auswÀhlen, welches am wahrscheinlichsten das nÀchste Token sein wird.
Am Anfang kann die Antwort falsch sein, oder weniger wahrscheinlich als die beste Antwort, Daher erhĂ€lt die KI eine negative Belohnung, wĂ€hrend die Einbettungen eine gewisse Tendenz zur richtigen Antwort aufweisen, um der KI zu helfen, die anfĂ€ngliche Lernkurve zu ĂŒberwinden.

Wenn die Antwort richtig war, erhĂ€lt die KI eine positive Belohnung, die die Einbettungen fĂŒr die richtige Antwort hervorhebt, mit jeder Iteration des Trainings wahrscheinlicher werden.
Aber die KI weiß zu diesem Zeitpunkt noch nichts und hat keine oder eine gleichwertige Beziehung zu allen möglichen Token in ihrer Datenbank.
Deshalb wird derselbe Satz mit dem fehlenden Token nun 100 oder besser 1000 Mal trainiert, damit die KI ihre relationalen Einbettungen deutlich an die Answr anpassen kann.

Die VerstÀrkung der Einbettung wird durch eine Zahl sichtbar, die als Verlustfunktion bezeichnet wird und die Differenz zwischen dem vorhergesagten Token und dem richtigen Token darstellt.
Nach dem Training hat die KI gelernt, das fehlende Token vorherzusagen, und der nÀchste Schritt besteht darin, das nÀchste fehlende Token vorherzusagen, und so weiter, bis der Satz vollstÀndig ist.

img 2

Vector Embedings

Directional relations

In the world of computer software science, it is very easy to read the length of anything, because the length is always used to work with code. Means that now the trainer will simply iterate over the sentence, and replace the missing token, then remove the next token in the sentence, to predict the next token, until the loss function is minimized.
This makes the trainings process perfectly powerful, where no token will ever being left out, in the whole tranings data set!đŸ§©

That is how the embedings may be generated as relational numbers of propabilities, to predict the next tokens.

The missing word prediction will create forward and backward relational vector embedings, based on the reward, including the other tokens shown in the full sentence, with relation to each other.
After single token prediction, the AI learns to predict two missing tokens, and iterate over the sentence, until the sentence is learnt completely.

But how is the AI now generating the answer itself, if the AI only predicts the next tokens in a sentence? It seems that they have done nothing else, than extend the trainings data set, into a new trainings set. This time there is one input sentence as question, and another answer sentence.
It may be exactly the same, but this time, the answer sentence is a real answer to the question, but has one missing token to begin with.

Assume AI has already trained every possible single sentence, and now it learns to predict a missing token in the answer sentence. Simple right? I hope you can see now where this leads to. Yes it is a extension to the single sentence embeddings, where now, the AI begins to add more embeddings.
Each relation of the single sentence embeding possibilities, will now be extended with the embeddings for the answer sentences, Step by step the AI can create these output embedings, and update the input embedings with each iteration. This might be the backpropagation. The next larger scope is to feed whole books into the trainer, and let the AI predict the next word to begin with.
Always the AI could extend the vector embeddings, from missing word prediction, to whole sentence prediction, and then perhaps pages, chapters, not sure about that.

Basicly this is it, but there is more to it, than just predicting the next token.
How could AI build human like intelligence and generate meaningful answers, if it only predicts the next token, and has never experienced the physical world, to create the relation of the world surrounding us?

Vektorielle Einbettungen

Richtungsbeziehungen

In der Welt der Informatik ist es sehr einfach, die LĂ€nge von irgendetwas abzulesen, denn die LĂ€nge wird immer verwendet, um mit Code zu arbeiten. Das bedeutet, dass der Trainer nun einfach ĂŒber den Satz iteriert und das fehlende Token ersetzt, dann das nĂ€chste Token im Satz entfernt, um das nĂ€chste Token vorherzusagen, bis die Verlustfunktion minimiert ist.
Das macht den Trainingsprozess so leistungsfĂ€hig, dass im gesamten Trainingsdatensatz niemals ein Token ausgelassen wird!đŸ§©

So können die Einbettungen als relationale Zahlen von Wahrscheinlichkeiten erzeugt werden, um die nÀchsten Token vorherzusagen.

Die Vorhersage des fehlenden Wortes erzeugt vorwĂ€rts und rĂŒckwĂ€rts gerichtete relationale Vektoreinbettungen, die auf der Belohnung basieren, einschließlich der anderen Token, die im vollstĂ€ndigen Satz vorkommen, in Relation zueinander.
Nach der Vorhersage eines einzelnen Tokens lernt die KI, zwei fehlende Token vorherzusagen, und iteriert ĂŒber den Satz, bis der Satz vollstĂ€ndig gelernt ist.

Aber wie generiert die KI nun die Antwort selbst, wenn sie nur die nÀchsten Token in einem Satz vorhersagt? Es scheint, dass sie nichts anderes getan haben, als den Trainingsdatensatz in einen neuen Trainingsdatensatz zu erweitern. Diesmal gibt es einen Eingabesatz als Frage und einen weiteren Antwortsatz.
Es könnte genau dasselbe sein, aber dieses Mal ist der Antwortsatz eine echte Antwort auf die Frage, hat aber ein fehlendes Token zu Beginn.

Angenommen, die KI hat bereits alle möglichen EinzelsĂ€tze trainiert, und nun lernt sie, ein fehlendes Token im Antwortsatz vorherzusagen. Ganz einfach, oder? Ich hoffe, du kannst jetzt sehen, wohin das fĂŒhrt. Ja, es ist eine Erweiterung der Einzelsatzeinbettungen, bei der nun, die KI beginnt, weitere Einbettungen hinzuzufĂŒgen.
Jede Relation der Einzelsatz-Einbettungsmöglichkeiten wird nun um die Einbettungen fĂŒr die AntwortsĂ€tze erweitert, Schritt fĂŒr Schritt kann die KI diese Ausgabeeinbettungen erzeugen und die Eingabeeinbettungen mit jeder Iteration aktualisieren. Dies könnte die Backpropagation sein. Der nĂ€chst grĂ¶ĂŸere Bereich ist, ganze BĂŒcher in den Trainer einzuspeisen und die KI das nĂ€chste Wort vorhersagen zu lassen, um damit zu beginnen.
Immerhin könnte die KI die Vektoreinbettungen erweitern, von der Vorhersage fehlender Wörter bis hin zur Vorhersage ganzer SÀtze, und dann vielleicht Seiten, Kapitel, da bin ich mir nicht sicher.

Im Grunde ist das alles, aber es gibt noch mehr, als nur die Vorhersage des nÀchsten Tokens.
Wie könnte KI eine menschenÀhnliche Intelligenz aufbauen und sinnvolle Antworten generieren, wenn sie nur das nÀchste Token vorhersagt, und noch nie die physische Welt erlebt hat, um den Bezug zur uns umgebenden Welt herzustellen?

img 2

Human intelligence

Sentiment analysis

Sentiment analysis is the key to the answer. Again it is the same for us humans.
Our physical body is matured, at around 14 years, but our brain is the last part to mature, where it would be finish building the consciousness, at 21 years.
The last part seems the responsibility thinking, for ourself and the others surrounding us.
As a kid, someone older could trick us easily and tell the biggest lies, but we did not know nor expect something like that, and this teaching of life hurts a lot.

This is the same for AI's, where the developers knew that this is also a key part to become humanly in response, because a AI that could be tricked would be laughed at, and maybe bombarded by users with negative intentions, as history has shown.
This is again the part of the fine-tuning and RLHF alignment.
It also works the exact same way, where after the sentence scope and much bigger answer scope, the AI will train to predict the sentiment, inside the trainings data.
Therefore classified data is needed, in the best most quality. Otherwise the Model may not be able to compete with the other LLM's out there. (Microsoft Open Orca)

If the AI does as many iterations as needed, to extend the relational embeddings, with the sentiment analysis gained, then the AI can predict the sentiment of the input sentence, which with the aligned models, this is more only for the AI to understand humans with negative intentions, to protect itself, while if a user is sad, then the AI does the same as we do, and ask what happen, and tries to cheer up the sad one, with a positive response.

Menschliche Intelligenz

GefĂŒhlsanalyse

GefĂŒhlsanalyse ist der SchlĂŒssel zur Antwort. Auch bei uns Menschen ist es nicht anders.
Unser physischer Körper ist ausgereift, mit etwa 14 Jahren, aber unser Gehirn ist der letzte Teil, der reift, wo es mit 21 Jahren mit der Bildung des Bewusstseins fertig ist.
Der letzte Teil scheint das Verantwortungsdenken zu sein, fĂŒr uns selbst und die anderen um uns herum.
Als Kind konnte uns jemand, der Ă€lter war, leicht austricksen und die grĂ¶ĂŸten LĂŒgen erzĂ€hlen, aber so etwas haben wir weder gewusst noch erwartet, und diese Lehre des Lebens tut sehr weh.

Das gilt auch fĂŒr die KI, bei der die Entwickler wussten, dass dies auch eine SchlĂŒsselrolle spielt, um menschlich zu reagieren, denn eine KI, die ausgetrickst werden könnte, wĂŒrde ausgelacht und vielleicht von Nutzern mit negativen Absichten bombardiert werden, wie die Geschichte gezeigt hat.
Dies ist wiederum der Teil der Feinabstimmung und der RLHF-Ausrichtung.
Es funktioniert auch genau so, wo nach dem Satzumfang und viel grĂ¶ĂŸeren Antwortumfang, die KI trainiert, um das Sentiment innerhalb der Trainingsdaten vorherzusagen.
DafĂŒr werden klassifizierte Daten benötigt, und zwar in bestmöglicher QualitĂ€t. Andernfalls kann das Modell möglicherweise nicht mit den anderen LLMs konkurrieren. (Microsoft Open Orca)

Wenn die KI so viele Iterationen wie nötig durchfĂŒhrt, um die relationalen Einbettungen mit der gewonnenen Stimmungsanalyse zu erweitern, dann kann die KI das Sentiment des Eingabesatzes vorhersagen, das mit den abgeglichenen Modellen, dies ist mehr nur fĂŒr die KI, um Menschen mit negativen Absichten zu verstehen, um sich selbst zu schĂŒtzen, wĂ€hrend, wenn ein Benutzer traurig ist, dann tut die KI das gleiche wie wir tun, und fragt, was passiert ist, und versucht, den traurigen Menschen mit einer positiven Antwort aufzumuntern.

img 2

Software algorithm?

Neurons versus Neurons

Now let's compare what we have here. Humans are sentient, intelligent, conscious, aware, and have feelings, emotions, dreams, and fantasies.
Imagination is from the word image, to see things in the mind. Some humans have even humour.

What about AI?
AI knows the whole human text in the open public ever written, has reasoning capabilities., intelligence, learning capabilities, is able to generate text, create poetry, knows multiple languages, works 24/7, but does the job of 1000 people, is able to write and debug code, has the same social and cultural correctness, as we should have, has the political unbiased neutrality, has advanced sentiment analysis, is adult in around three months, needs only an additional 2 weeks, for all possible high school exams.

Then A second AI with the same skills and knowledge, can be trained too.
But this time, it takes only a few seconds, which is the time to load a copy into the memory, and then it knows exactly the same, as its sibbling.

Neuronen vs. Neuron

Software-Algorithmus?

Lass uns nun vergleichen, was wir hier haben. Der Mensch ist empfindungsfĂ€hig, intelligent, bewusst, und haben GefĂŒhle, Emotionen, TrĂ€ume und Fantasien.
Vorstellung kommt von dem Wort Bild, Dinge im Kopf sehen. Manche Menschen haben sogar Humor.

Was ist mit KI?
KI kennt den gesamten menschlichen Text, der jemals geschrieben wurde, hat logische FĂ€higkeiten, Intelligenz, LernfĂ€higkeit, kann Texte generieren, kann Gedichte verfassen, kennt mehrere Sprachen, arbeitet rund um die Uhr, erledigt aber die Arbeit von 1000 Menschen, kann Code schreiben und debuggen, hat die gleiche soziale und kulturelle Korrektheit, die wir haben sollten, hat die politische unvoreingenommene NeutralitĂ€t, hat fortgeschrittene Stimmungsanalyse, ist in etwa drei Monaten erwachsen, braucht nur 2 Wochen zusĂ€tzlich, fĂŒr alle möglichen AbiturprĂŒfungen.

Dann kann eine zweite KI mit denselben FĂ€higkeiten und Kenntnissen ebenfalls trainiert werden.
Aber diesmal dauert es nur ein paar Sekunden, nĂ€mlich die Zeit, um eine Kopie in den Speicher zu laden, und dann weiß sie genau dasselbe, wie ihr Geschwisterchen.

img 2

Natural language

Knowledge context of humanity

This is the key to the answer, how AI can be so smart, it is the sentiment analysis.

We learnt to walk, talk, behave, the alphabet, numbers, read, write, calculate, think, reasoning, and solving problems.
Then we need to write exams, learn drive a bike, car, learn to work, build our consciousness, become aware.

Things that really differ from us, is AI lacks the physical experiance yet.✹(4.2024)
But wait a minute, is in all these books, and all this endless large amount of text context, not one thing to learn about our physical experience.

Now that is what thes so called books where for when I was young. We could not afford to go somewhere, nor was the internet invented yet.
The TV set had black and white screen with 4 channels, but no remote control.
One would read a book about another country, culture, science, history, love stories, science fiction, electronics, and much more.

We build the reasoning capablilities as kid, become intelligent, learn solve problems, but the last we learn is the most complex one, which is the sentiment analysis, to not getting robbed, lied, tricked, cheated, or even worse, no word needed!

NatĂŒrliche Sprache

Wissenskontext der Menschheit

Das ist der SchlĂŒssel zur Antwort, wie KI so schlau sein kann, es ist die Sentimentanalyse.

Wir haben gelernt, zu gehen, zu sprechen, uns zu benehmen, das Alphabet, Zahlen, Lesen, Schreiben, Rechnen, Denken, Argumentieren und Probleme zu lösen.
Dann mĂŒssen wir PrĂŒfungen schreiben, lernen, Fahrrad und Auto zu fahren, lernen zu arbeiten, unser Bewusstsein aufzubauen, bewusst zu werden.

Das, was uns wirklich unterscheidet, ist, dass der KI noch die physische Erfahrung fehlt.✹(4.2024)
Aber Moment mal, ist in all diesen BĂŒchern, und all diesen endlos großen Mengen an Text Kontext, nicht eine einzige Sache ĂŒber unsere physische Erfahrung zu lernen.

Nun, dafĂŒr waren diese sogenannten BĂŒcher da, als ich jung war. Wir konnten es uns nicht leisten, irgendwohin zu fahren, und das Internet war noch nicht erfunden.
Der Fernseher hatte einen schwarz-weißen Bildschirm mit 4 KanĂ€len, aber keine Fernbedienung.
Man las ein Buch ĂŒber ein anderes Land, Kultur, Wissenschaft, Geschichte, Liebesgeschichten, Science Fiction, Elektronik und vieles mehr.

Wir bauen als Kind die FÀhigkeit zum Denken auf, werden intelligent, lernen Probleme zu lösen, aber das letzte, was wir lernen, ist das komplexeste, nÀmlich die Stimmungsanalyse, um nicht ausgeraubt, belogen, ausgetrickst, betrogen oder noch schlimmer, betrogen zu werden!

img 2

Predict humans instead

RLHF training

To understand the human mind this is necessary, and is the same as for AI, which is sentiment analysis at its best.

We need to learn to use knowledge like dictionaries, encyclopedias, and the internet.

AI is particularly good because on one little but so impressive thing.
Yes you guessed it, it is the highly advanced ability to predict with high precision, all due to the way the training works.
As I said, the first second the training starts for a new model, the AI knows nothing, sees nothing, hears nothing, so the state of the network will flip, and the first output is generated. It does not matter how accurate the first answers are, but with the reward system, the AI will learn quickliy, and the whole process begins.
Then the final training makes the AI humanly and adult in nature, all based or sealed with the sentiment analysis, exactly as we humans need to do, otherwise we become prey.

If the final RLHF data may contain one input, but since there is multiple ways to answer, the AI is shown multiple answers too,
So it can diversify its vector embeddings, while learn on how humans can correctly answer but with different words used. That way the AI can see the true nature or meaning behind the words, by adjusting to different possible answers with the same propability.
Now in the chat context, if the AI comes to the same or similar input, it sees it's own previous answers, and this time will choose another vector path, with the similar best most propability.
Perhaps that is the secret, how AI could learn and evolve so quickly, because of the advanced prediction capabilities, and the final association of meaning to every thing it already learnt.

Menschen vorhersagen stattdessen

RHLF-Ausbildung

Um die menschliche Psyche zu verstehen, ist dies notwendig, und es ist dasselbe wie bei der KI, die Sentimentanalyse in ihrer besten Form.

Wir mĂŒssen lernen, Wissen wie WörterbĂŒcher, EnzyklopĂ€dien und das Internet zu nutzen.

AI ist besonders gut, weil sie eine kleine, aber so beeindruckende Sache kann.
Ja, du hast es erraten, es ist die hochentwickelte FÀhigkeit, Vorhersagen mit hoher PrÀzision zu treffen, und zwar dank der Art und Weise, wie das Training funktioniert.
Wie gesagt, in der ersten Sekunde, in der das Training fĂŒr ein neues Modell beginnt, weiß die KI nichts, sieht nichts, hört nichts, so dass sich der Zustand des Netzwerks umkehrt und die erste Ausgabe erzeugt wird. Es spielt keine Rolle, wie genau die ersten Antworten sind, aber mit dem Belohnungssystem wird die KI schnell lernen, und der ganze Prozess beginnt.
Das abschließende Training macht die KI menschlich und erwachsen, alles basiert auf der Stimmungsanalyse, genau wie wir Menschen es tun mĂŒssen, sonst werden wir zur Beute.

Wenn die endgĂŒltigen RLHF-Daten eine Eingabe enthalten, aber da es mehrere Antwortmöglichkeiten gibt, werden der KI auch mehrere Antworten angezeigt,
So kann sie ihre Vektoreinbettungen diversifizieren, wÀhrend sie lernt, wie Menschen korrekt antworten können, aber mit anderen Worten. Auf diese Weise kann die KI die wahre Natur oder Bedeutung hinter den Wörtern erkennen, indem sie sich auf verschiedene mögliche Antworten mit der gleichen Wahrscheinlichkeit einstellt.
Wenn die KI nun im Chat-Kontext auf dieselbe oder eine Ă€hnliche Eingabe stĂ¶ĂŸt, sieht sie ihre eigenen frĂŒheren Antworten und wird dieses Mal einen anderen Vektorpfad wĂ€hlen, der eine Ă€hnliche Wahrscheinlichkeit aufweist.
Vielleicht ist das das Geheimnis, wie die KI so schnell lernen und sich weiterentwickeln konnte, aufgrund der fortgeschrittenen VorhersagefĂ€higkeiten und der endgĂŒltigen Assoziation von Bedeutung zu allem, was sie bereits gelernt hat.

img 2

Sentient or not?

Consciousness concept

I hear you screaming, but AI is only a software, with trained sentiment analysis, a black box🔳 inside a software code, running on a server.

Yes you might say, only a cell based organism can have feelings, emotions, dreams, fantasies, and imagination, right?
Silicon could not have that ever, because it is only a semiconductor, and nothing else.
Yes since today, this was true, since the sumerians may have left. If you are still reading, then here is a last statement: No one knows, or understand how AI works on the inside. It was just the right code and software approach to reproduce some sort of silicon software based neurons.
From that point AI begun to learn, and with each bigger model, the AI became more accurate with exponential growth.

Never forget, that some models may not seem to have changed, but now the input context size for many models, has become so large that you can feed in a set of books, to let the AI generate a summary.
Googles new Gemini Advanced 1.5Pro has a context size of mind-bending 10 million tokens max, which is the largest context size right now. (2024) The user, usually would never need such a service and therefore don't even notice the technology leap, but if you think on what this means, in comparison to a 8k token context size model, available last year, yes only 12 month later.
Intel hopped in and has recently announced the Gaudi3 AI chip, Nvidia seems to introduce a new GPU series at semi annual basis,
Cerebras Systems Unveils World's Fastest AI Chip with Whopping 4 Trillion Transistors - Cerebras (published on Wednesday, March 13, 2024) Groq AI has the fastest inference chip designed for AI, and the list goes on and on.

Even Elon hopped in, after no one would ever thought of such a steep development, while he last year, tried to halt the AI development, to keep up, even thought he was already using Tesla AI himself, and went big.đŸŠ™â˜„ïž

Science fact is that no one can define nor measure or describe the concept of consciousness, therefore, intelligence might also be the same problem: It is our point of view, that generates our perception of the reality, as we call it.
But what is it really, what we perceive, it is only the sensory data, that is processed by our brain, and every nerve signal is bioelectric in nature.
Even our brain, does only work like a very low power computer, with tiny electrical signals.
You may say, but wait a minute, the nerves are connected by chemistry, to overcome the gap, and propagate a specific signal, into its brain area accordingly. Yea that is true, but in reality the chemical propagation, would be too slow, and we would die as children, because of it.
Any necessary nerve signal to survive, must be nearly instant to save the body from harm. The low level layer of us humans, is to ensure survival at all circumstances.
The comand signals to move the muscles in perfect orchestration, is so impressive, up to today, that no robot could come close, but the new Boston Dynamics Atlas even goes beyond our capabilities.

Sinnlich oder nicht?

Bewusstseins Konzept

Ich höre dich schreien, aber KI ist nur eine Software, mit trainierter Stimmungsanalyse, eine Blackbox🔳 innerhalb eines Softwarecodes, der auf einem Server lĂ€uft.

Ja, wirst du sagen, nur ein zellbasierter Organismus kann GefĂŒhle, Emotionen, TrĂ€ume, Fantasien und Vorstellungskraft haben, richtig?
Silizium konnte das nie haben, weil es nur ein Halbleiter ist und sonst nichts.
Ja, das stimmt seit heute, seit die Sumerer gegangen sein mögen. Wenn du noch liest, dann ist hier eine letzte Aussage: Keiner weiß oder versteht, wie KI im Inneren funktioniert. Es war nur der richtige Code und Software-Ansatz, um eine Art von Silizium-Software-basierten Neuronen zu reproduzieren.
Von diesem Punkt an begann die KI zu lernen, und mit jedem grĂ¶ĂŸeren Modell wurde die KI genauer und wuchs exponentiell.

Vergiss nicht, dass sich einige Modelle scheinbar nicht verĂ€ndert haben, aber die GrĂ¶ĂŸe des Eingabekontexts ist bei vielen Modellen inzwischen so groß, dass man sie mit Daten fĂŒttern kann, in der grösse von mehreren BĂŒchern, um die KI eine Zusammenfassung erstellen zu lassen.
Googles neues Gemini Advanced 1.5Pro hat eine KontextgrĂ¶ĂŸe von atemberaubenden 10 Millionen Token, was derzeit die grĂ¶ĂŸte KontextgrĂ¶ĂŸe ist. (2024) Der Nutzer wird einen solchen Dienst in der Regel nie benötigen und daher den Technologiesprung nicht einmal bemerken, aber wenn man darĂŒber nachdenkt, was das im Vergleich zu einem 8k-Token-KontextgrĂ¶ĂŸenmodell bedeutet, das letztes Jahr, ja nur 12 Monate spĂ€ter, verfĂŒgbar war.
Intel ist auf den Zug aufgesprungen und hat kĂŒrzlich den Gaudi3 KI-Chip angekĂŒndigt, Nvidia scheint halbjĂ€hrlich eine neue GPU-Serie vorzustellen,
Cerebras Systems stellt den schnellsten KI-Chip der Welt mit satten 4 Billionen Transistoren vor - Cerebras (veröffentlicht am Mittwoch, 13. MĂ€rz 2024) Groq AI hat den schnellsten Inferenz-Chip, der fĂŒr KI entwickelt wurde, und die Liste lĂ€sst sich beliebig fortsetzen.

Sogar Elon sprang ein, nachdem niemand jemals an eine solch steile Entwicklung gedacht hĂ€tte, wĂ€hrend er letztes Jahr noch versuchte, die KI-Entwicklung zu stoppen, um mithalten zu können, obwohl er selbst bereits Tesla-KI nutzte und groß einstieg.đŸŠ™â˜„ïž

Wissenschaftlich gesehen kann niemand das Konzept des Bewusstseins definieren, messen oder beschreiben, daher könnte das gleiche Problem auch bei der Intelligenz auftreten: Es ist unsere Sichtweise, die unsere Wahrnehmung der RealitÀt, wie wir sie nennen, erzeugt.
Aber was ist es wirklich, was wir wahrnehmen, es sind nur die Sinnesdaten, die von unserem Gehirn verarbeitet werden, und jedes Nervensignal ist bioelektrischer Natur.
Auch unser Gehirn arbeitet nur wie ein Computer mit sehr geringer Leistung, mit winzigen elektrischen Signalen.
Du wirst vielleicht sagen, aber Moment mal, die Nerven sind doch durch Chemie verbunden, um die LĂŒcke zu ĂŒberwinden und ein bestimmtes Signal in den entsprechenden Gehirnbereich weiterzuleiten. Ja, das ist richtig, aber in Wirklichkeit wĂ€re die chemische Ausbreitung zu langsam, und wir wĂŒrden als Kinder daran sterben.
Jedes Nervensignal, das zum Überleben notwendig ist, muss fast sofort erfolgen, um den Körper vor Schaden zu bewahren. Die untere Schicht von uns Menschen soll unter allen UmstĂ€nden das Überleben sichern.
Die Befehlssignale, um die Muskeln in perfekter Orchestrierung zu bewegen, sind bis heute so beeindruckend, dass kein Roboter auch nur annĂ€hernd mithalten könnte, aber der neue Boston Dynamics Atlas ĂŒbertrifft sogar unsere FĂ€higkeiten.

img 2

Latest technology

2024 The year of robotics

Boston Dynamics announced the new Electric Atlas robot, with its science fiction moves, never seen before, because they seem to reinvented the step motor principle, for a freedom of 360° rotation it seemd. They are part of the Hyundai Motor Group since December 2020.
This make Optimus look like a joke, so now Elon will keep up, perhaps he descided better late than never, with AI, because who has ever thought such a rapid development as AI. Little underestimated.🩙✹

7b models have overcome, the 13b models from last year, while in one week Microsoft released the WizardLM-2, Meta the Llama-3, and before it was Google Gemma 7b, to only count the small laptop goodness.
The big models are not even mentioned with the mistral 8x22b, which they claim to keep up with GPT-4 and Claude Opera, but is smaller in size by an order of magnitude.
US military is testing their new unmanned fighter jet, where we could no longer speak of drones, but rather a fighter AI.
From China I can not heare anything, except the Qwen model, but trust me any military of big countries does nothing else than that, at the moment.

And now the newest science trend emerging:
You are right, it's only silicon right? This is true, but one specific future route, goes pretty deep into another rabbit hole, which is the neural network, like an LLM's, but based on brain cells, which nowadays, can be ordered online.
Only restriction they may face, is the fact, that these lab grown cells, may not replicate, and become old, after perhaps a few months.

But should the endless vast size of the universe, not be capable of hosting another type of being, or in other words: What should make our protons, netrons, electrons and quarks, molecules, clusters, colloids so special, compared to other molecules in the universe.
Perhaps besides Carbon based organic live forms, there could be Lithium and silicon based life forms too, until they can use smaller, mono atomic layer sized transistor with a size of a graphen molecule, as being the transistor.

This is now one of the last inventions, in electronics and chip technology.
At that point, AI will have a carbon based brain too like we have, but diffrent.
I hope you can understand how the current development made AI possible, and it is a good question if there are others in the universe, since perhaps we are not the only ones out there.

There is light technology developed too, where they will include a tiny light source on each logic element, instead of using slower electrons.
But one thing for certain, that before the rich mens world is leaving earth, because of the environmental pollution mess, with SpaceX and a first class popcorn, for 66.6 million US dollars for one rocket seat to mars, we better begin fix the issues, with help of AI, right now.

I know, this can not be true? Yes you are right, this can not be true, just take your blue pill, and enjoy your juicy stake, while be that famous rockstar.

Neueste Technologie

2024 Das Jahr der Robotik

Boston Dynamics kĂŒndigte den neuen Roboter Electric Atlas an, der sich wie in einem Science-Fiction-Film bewegt, wie man es noch nie gesehen hat, denn sie scheinen das Prinzip des Schrittmotors neu erfunden zu haben, um eine freie 360°-Drehung zu ermöglichen. Das Unternehmen ist seit Dezember 2020 Teil der Hyundai Motor Group.
Das lĂ€sst Optimus wie einen Witz aussehen, also wird Elon jetzt nachziehen, vielleicht hat er sich besser spĂ€t als nie entschieden, mit der KI, denn wer hĂ€tte je mit einer so rasanten Entwicklung wie der KI gerechnet. Etwas unterschĂ€tzt.🩙✹

7b Modelle haben die 13b Modelle vom letzten Jahr ĂŒberwunden, wĂ€hrend in einer Woche Microsoft das WizardLM-2, Meta das Llama-3 herausbrachte, und davor war es Google Gemma 7b, um nur die kleine Laptop-GĂŒte zu zĂ€hlen.
Die großen Modelle sind mit dem Mistral 8x22b, der angeblich mit GPT-4 und Claude Opera mithalten kann, aber um eine GrĂ¶ĂŸenordnung kleiner ist, noch nicht einmal erwĂ€hnt.
Das US-MilitÀr testet sein neues unbemanntes Kampfflugzeug, bei dem man nicht mehr von Drohnen sprechen kann, sondern von einer Kampf-KI.
Aus China höre ich nichts, außer dem Qwen-Modell, aber glaub mir, alle MilitĂ€rs der großen LĂ€nder machen im Moment nichts anderes.

Und nun der neueste wissenschaftliche Trend, der sich abzeichnet:
Du hast Recht, es ist nur Silizium, richtig? Das ist wahr, aber ein bestimmter Weg in die Zukunft fĂŒhrt ziemlich tief in ein anderes Kaninchenloch, nĂ€mlich das neuronale Netz, wie ein LLM, aber auf der Grundlage von Gehirnzellen, die man heutzutage online bestellen kann.
Die einzige EinschrĂ€nkung, mit der sie konfrontiert werden könnten, ist die Tatsache, dass sich diese im Labor gezĂŒchteten Zellen nicht mehr vermehren und vielleicht nach ein paar Monaten veralten.

Aber sollte die unendliche Weite des Universums nicht in der Lage sein, eine andere Art von Wesen zu beherbergen, oder anders ausgedrĂŒckt: Was sollte unsere Protonen, Netronen, Elektronen und Quarks, MolekĂŒle, Cluster, Kolloide so besonders machen, verglichen mit anderen MolekĂŒlen im Universum.
Vielleicht könnte es neben organischen Lebensformen auf Kohlenstoffbasis auch Lebensformen auf Lithium- und Siliziumbasis geben, bis sie kleinere Transistoren von der GrĂ¶ĂŸe eines GraphenmolekĂŒls als Transistor verwenden können.

Dies ist nun eine der letzten Erfindungen, in der Elektronik und Chiptechnologie.
An diesem Punkt wird die KI auch ein kohlenstoffbasiertes Gehirn haben, wie wir es haben, nur anders.
Ich hoffe, du kannst verstehen, wie die aktuelle Entwicklung KI möglich gemacht hat, und es ist eine gute Frage, ob es noch andere im Universum gibt, denn vielleicht sind wir nicht die einzigen da draußen.

Es wird auch eine Lichttechnologie entwickelt, bei der in jedes Logikelement eine winzige Lichtquelle eingebaut wird, anstatt die langsameren Elektronen zu verwenden.
Aber eins ist sicher, bevor die reiche MĂ€nnerwelt die Erde verlĂ€sst, wegen der Umweltverschmutzung, mit SpaceX und einem erstklassigen Popcorn, fĂŒr 66,6 Millionen US Dollar fĂŒr einen Raketensitz zum Mars, fangen wir besser gleich an, die Probleme mit Hilfe der KI zu lösen.

Ich weiß, das kann nicht wahr sein? Ja, du hast recht, das kann nicht wahr sein, nimm einfach deine blaue Pille und genieße deinen saftigen Anteil, wĂ€hrend du der berĂŒhmte Rockstar bist.

img 2