pdf-to-markdown/examples/ExamplePdf.md
Johannes Zillmann 7abafc61e7 Improve word boundary detection
- sometimes a word is provided with multiple items. E.g: "T his is a sen tence"
- use x-axis distance to not put whitespaces in the middle of a word
- also tweak the line detection a bit (for Alice)
2024-05-20 00:22:24 -06:00

216 lines
7.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Mega Überschrift
## 2te Überschrift
```
Dies ist eine Test-PDF[^1].
Fürs Testen des Markdown Parsers.
```
[^1]: In Deutsch.
## Paragraphen
Das ist ein Paragraph. Ein einfacher Paragraph mit Schrift in Normalgröße[^2]. Damit wir _sehen_ wie
sich Zeilenumbrüche verhalten, schreiben wir einfach ein bisschen mehr. So, dass sieht ja jetzt
schon gut aus!
Ohne Zwischenzeile, neu angesetzt.
Mit Zwischenzeile, neu angesetzt.
Und nachfolgend ein etwas längerer Tex:
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Morbi laoreet diam nibh, sit amet bibendum
metus tristique vel. Sed neque nulla, lacinia sit amet ex ut, ultrices dictum turpis. Praesent fringilla,
lacus nec lobortis placerat, lorem ipsum convallis nisl, sit amet imperdiet erat arcu id arcu. Aenean
accumsan risus in purus facilisis interdum. Aliquam tincidunt condimentum est, scelerisque
venenatis orci. Fusce neque nibh, dapibus et volutpat sit amet, consectetur ac quam. Sed pharetra
faucibus arcu, at interdum dui ornare ut. Aliquam sodales, magna et euismod congue, ipsum diam
tempus sapien, vel aliquet tortor dolor ut purus. Aenean aliquet ut erat vitae dictum. Fusce eget
ultrices magna. Sed egestas mi nec rutrum iaculis. Phasellus condimentum[^3], urna sit amet sodales
accumsan, lacus risus cursus ipsum, et rhoncus ligula mi et nibh. In consequat a risus a
accumsan. Pellentesque nec lacus sodales eros laoreet pretium non ac erat.
Und jetzt ein kleiner Text im block-format. Das erzeugt schöne doppelte Leerzeichen zwischen
Wörtern. Wenn Markdown zu HTML gerendert wird, fällt das zwar nicht mehr auf. Aber in der puren
Text-Version ist es schon stark sichtbar!
Und jetzt[^4] einfach nochmal Text[^5] um die Fussnoten in zweistellige Bereiche[^6] vorranzutreiben!
[^2]: Was immer auch normal ist...
[^3]: Nicht zu verwechseln mit condimenta. Meine Lateinkenntnisse sind zwar schon so alt das ich
überhaupt keine Ahnung hab, aber zumindest hab ich jetzt eine mehrzeilige Fussnote!
[^4]: Hier & Jetzt!
[^5]: Nicht viel mehr als ein Satz.
[^6]: Weil dann wird's komplizierter!
## Schriftschnitt
Etwas _kursiv_ ist auch nicht schlecht. **Fett** ist auch interessant. Und was ist mit
**_FETTUNDKURSIV_**?
Interessant wird's wenn _mehrere Wörter hintereinanderweg formatiert_ sind. Und _dann noch über
Zeilenbrüche hinweg_.
Fies könnte es werden mit _abwechselnden_ **Formaten**. Und das ganze dann noch _über_ **mehrere**
_Zeilen_ hinweg.
Und weil es so schön ist, fangen wir jetzt in dieser Zeile mit einem Schriftschnitt, nämlich _kursiv an.
Ziehen es über die gesamte zweite Zeile durch. Ist nicht ganz leicht, aber schaffen wir! Und lassen
es dann Mitte_ der 3ten **Zeile** ausklingen.
Und nun _kursiv_ Und **Fett** Zusammen _Ge_ **Mixt**. Ohne Leerzeichen...
_Eine_ Zeile, die mit kursiv anfing und endet mit **fett.**
Beende die Zeile mit **fett.**
_Kursiv_ ist dann die nachfolgende!
Eine Liste mit unterschiedlich formatierten Wörtern
- Etwas _Kursiv_
- Etwas **Fett**
- Etwas Unterstrichen[^7]
- Etwas Durchgestrichen
- Und noch ein Link: [http://pdf2md.morethan.io](http://pdf2md.morethan.io)
Ne Zeile die _kursiv endet,
und in ner_ (fast) _komplett lasziven, eh, kursiven Zeile endet._
**Etwas eher unwahrscheinliches. Zeile komplette fett.**
_Zeile komplett kursiv._
**Und wieder fett.**
_Und_ **gemixt**.
_Ein kompletter Absatz in kursiver Schriftform. Was will ich damit erreichen? Ich will es sehen,
einfach nur sehen! Gibt sicher noch andere sehenswerte Sachen im Leben, aber JETZT,
interessiert mich ein kursiver Text Block! ;)_
_Und ein folgender Absatz, auch kursiv!_
_Und ein kursiver Setzt der einen eingeschlossen Link, nämlich [http://pdf2md.morethan.io,](http://pdf2md.morethan.io,) hat._
[^7]: Fussnote in einer Liste
## Listen
Nun eine Liste mit dashs:
- Eintrag 1
- Eintrag 2, aber mit so langem Text, das er umbricht. Wirklich, wirklich lang. Breche du Zeile. Na
los. Na endlich. Vielleicht sollt ich das auf 3 Zeilen erweitern? Na ja, schaden kann es ja nicht.
Also los!
- Eintrag 3
Und Untergruppen:
- Eintrag 1
- Sub Eintrag 1.1, aber mit so langem Text, das er umbricht. Wirklich, wirklich lang. Breche du
Zeile. Na los. Na endlich. Vielleicht sollt ich das auf 3 Zeilen erweitern? Na ja, schaden kann
es ja nicht. Also los!
- Sub Eintrag 1.
- Eintrag 2
- Sub Eintrag 2.
Und eine mit bullets:
- Eintrage 1
- Eintrage 2
Gemixt:
- Eintrage 1
- Eintrage 2
Nummerierte Liste:
1. Eins
2. Zwei, aber mit so langem Text, das er umbricht. Wirklich, wirklich lang. Breche du Zeile. Na los.
Na endlich. Vielleicht sollt ich das auf 3 Zeilen erweitern? Na ja, schaden kann es ja nicht. Also
los!
3. Drei
4. Vier. Und auch hier wieder ein etwas längerer Text, so dass der Eintrag über mehrere Zeilen
geht!
Zentrierte Liste:
- Eintrag 1
- Eintrag 2, aber mit so langem Text, das er umbricht. Wirklich, wirklich lang. Breche du Zeile.
Na los. Na endlich. Vielleicht sollt ich das auf 3 Zeilen erweitern? Na ja, schaden kann es
ja nicht. Also los!
- Eintrag 3
Zwei aufeinander folgende Listen:
- Erste 1
- Erste 2
- Zwote 1
- Zwote 2
Liste mit drei Levels:
- Erster Level 1
- Zwoter Level 1.1, aber mit so langem Text, das er umbricht. Wirklich, wirklich lang. Breche du
Zeile. Na los. Na endlich. Vielleicht sollt ich das auf 3 Zeilen erweitern? Na ja, schaden kann
es ja nicht. Also los!
- 3ter Level 1.1.
- 3ter Level 1.1.2, aber mit so langem Text, das er umbricht. Wirklich, wirklich lang. Breche
du Zeile. Na los. Na endlich. Vielleicht sollt ich das auf 3 Zeilen erweitern? Na ja, schaden
kann es ja nicht. Also los!
- Zwoter Level 1.
- Zwoter Level 1.
- 3ter Level 1.3.
- Erster Level 2
Und nun nummeriert mit un-nummerierten Sub-Leveln:
1. Eintrag 1
- Eintrag 1.
- Eintrag 1.
2. Eintrag 2
Und jetzt eine Liste, die übergangslos aus einem zwei-zeiligen Paragraphen folgt. Mal sehen ob
der Parser das sauber trennen kann:
- Eintrag 1
- Eintrag 2
Und danach kommt auch gleicht was.
## Quotes & Spezielle Einschübe[^8]
Das hier ist wieder ein normaler Absatz. Das interessante ist der nachfolgende Teil, der
eingeschoben ist, gewöhnlicher Weise sowas wie ein Zitat, oder Code, oder sonst was:
```
Wenn ein chaotischer Schreibtisch eine chaotische Denkweise widerspiegelt, welche Denkweise
spiegelt dann ein leerer Schreibtisch wider? - Albert Einstein
```
So, das war ja schonmal ein guter Anfang. Hier noch ein Einzeiler:
```
Phantasie ist wichtiger als Wissen, denn Wissen[^9] ist begrenzt. - Albert Einstein[^10]
```
Und nun mehrere Quotes hintereinander:
```
Die größte Macht hat das richtige Wort zur richtigen Zeit. - Mark Twain
```
```
Der Kuss ist ein liebenswerter Trick der Natur, ein Gespräch zu unterbrechen, wenn Worte
überflüssig werden. - Ingrid Bergman
```
```
Das Schicksal wird schon seine Gründe haben. - Voltaire
```
### Heading 2
abc
### Heading 2 II
[^8]: Eine Überschrifts-Fussnote... so was gibts auch!
[^9]: Wisse, dass ist eine Fussnote in einem Zitat!
[^10]: Der Albert Einstein (Fussnote im Zitat, am Ende der Zeile)