| Montag, 15.
September |
|
| 14:00-14:30 |
Introduction
by session chairman, Prof. Wrobel |
| 14:30-15:15 |
Christian Borgelt, Heiko Hofer, Michael Berthold: Finding Discriminative Molecular Fragments |
| 15:15-16:00 | Peter Karcher, Henning Schwöbbermeyer, Walter Schubert: An Example of Data Mining in Biosciences |
| 16:00-16:30 |
Kaffeepause |
| 16:30-17:15 |
Thomas Gärtner, Tamas Horvath, Stefan Wrobel: Molecule Classification with Graph Kernel |
| 17:15-18:00 |
Edda Leopold, Jörg Kindermann, Gerhard
Paaß: Classification
of Multimodal Documents using Vocabularies of Low-Level Features |
| 18:00-18:30 |
Panel Discussion |
Die elektronische Aufnahme, Speicherung, Übermittlung und Auslieferung von Daten unterschiedlicher Herkunft, Bedeutung und Struktur ist heute zu sehr geringen Kosten möglich. Gleichwohl ist der intelligente Umgang mit solchen Archiven schwierig: es mangelt an Werkzeugen, mit deren Hilfe das enthaltene Material im Hinblick auf die individuellen Wissensinteressen von Menschen schnell strukturiert, selektiert, analysiert, generalisiert, also in verwertbare Informationen transformiert werden kann.
Die Überfülle des zugänglichen Datenmaterials liegt aufgrund der fortschreitenden Multimedia-Technologie nicht mehr als einheitlicher Dokumententyp vor. Es besteht vielmehr aus einer Mischung ganz verschiedener Präsentationsformen (Texte, Zahltabellen, Grafiken, Bilder, Bildsequenzen usw.), über die die interessanten Informationen verteilt sind, und es ist in unterschiedlichen Datenformaten kodiert - der Datenbestand ist also in höchstem Maße heterogen. Die für den Nutzer relevante Information kann innerhalb ein und desselben Dokuments in jeder dieser Erscheinungsformen versteckt und nur durch übergreifende Analysen aufzufinden sein; klassische Techniken (wie Stichwortsuche in Texten) versagen hier vollständig. Außerdem wird die Validierung von Mining-Ergebnissen bislang kaum durchgeführt, obwohl sie für die Interpretation extrahierter Information unverzichtbar ist. Für die Verbreitung solcher Techniken sind ferner Systeme mit fortschrittlichen Schnittstellen für die nutzerfreundliche Mensch-Maschine-Kommunikation, speziell zur menschengemäßen („natürlichen“) Eingabe und mit einer ebenso menschengerechten, kognitiv adäquaten Ausgabe zwingend erforderlich. Aufgabe bei der Wissensextraktion aus heterogenen Daten- und Informationsräumen ist also die Herstellung semantischer Bezüge zwischen verschiedenen Teilen eines Dokuments, zwischen mehreren Dokumenten unterschiedlicher Struktur innerhalb eines Wissensbereichs und über Grenzen von Wissensbereichen hinweg, wobei verschiedene Informationsbestandteile zu fusionieren und in für die Ausgabe geeignete Weise aufzubereiten sind. Dazu müssen das in der Begriffswelt des Menschen formulierte Benutzerinteresse in rechnerinterne Repräsentationen und umgekehrt die Bedeutung gefundener Strukturen in menschliche Konzepte übertragen werden.
Gegenstand des Workshops ist vor diesem Hintergrund die Vorstellung neuester Entwicklungen auf dem Gebiet der Methoden und Werkzeuge, die zur Suche, Interpretation und Validierung von verborgenen Strukturen und Phänomenen in und der Herstellung von Bezügen zwischen großen heterogenen Informationsräumen beitragen. Ferner wird er sich Methoden widmen, die eine leistungsfähige Navigation ermöglichen, um den Menschen unter seiner Suchanfrage schnell zu den Orten zu leiten, an denen sich interessantes Material befindet.
Im speziellen sollen behandelt werden:
Es soll im Workshop also eine Zusammenschau des in der jüngsten Zeit erreichten Stands der Forschung des jeweils relevanten Ausschnitts aus den Einzeldisziplinen Informatik, Statistik, Linguistik gegeben und daraus eine Einschätzung gegenwärtiger und künftiger Möglichkeiten abgeleitet werden.
Der Workshop wird als gemeinsame Aktivität mit KDNet, dem „EU
Knowledge Discovery Network of Excellence“ (http://www.kdnet.org/control/)
sowie der Fachgruppe „Maschinelles Lernen“ der GI durchgeführt.