iBet uBet web content aggregator. Adding the entire web to your favor.

Link to original content: http://www.cs.helsinki.fi/u/klemstro/THESIS

Kjell Lemstr�m: String Matching Techniques for Music Retrieval

Public defense of Ph.D. Dissertation November 24th, 2000

UNIVERSITY OF HELSINKI
FACULTY OF SCIENCE
DEPARTMENT OF COMPUTER SCIENCE

Kjell Lemstr�m:
String Matching Techniques
for Music Retrieval

Department of Computer Science, Series of Publications A, Report A-2000-4

ISBN: 951-45-9573-4
ISSN: 1238-8645
viii + 56 + 56 pages

To be presented, with the permission of the Faculty of Science of the University of Helsinki, for public criticism in Auditorium XIV, Main Building, on November 24th, 2000, at 12 o'clock noon.

Official opponent: Professor Pekka Kilpel�inen, University of Kuopio, Dept. of Computer Science & Applied Math
Custos: Professor Matti M�kel�, University of Helsinki, Department of Computer Science
Advisor: Professor Esko Ukkonen, University of Helsinki, Department of Computer Science

Abstract of the dissertation (PostScript format)
Table of Contents of the dissertation (PostScript format)
Full text of the dissertation (PostScript format, 1.3 MB)
Full text (compressed) of the dissertation (PostScript format/compressed with gzip, 272 KB; to open, use gunzip)
Errata (as on April 3rd, 2001).

Press release in [ English | Finnish | Swedish ]

Press release in English

Helsinki, November 21st,2000

String Matching Techniques for Music Retrieval

This thesis examines new methods with which to retrieve music from digital, symbolically coded databases, on the basis of its contents. For long now, communications companies and music producers have stored music in large digital databases for easier handling and to save storing space. In addition, there are thousands of music files on the Internet available to the general public. Until recently, retrieval from these databases has been based on key words that have been attached to the music documents, such as the name or text of the document. However, such methods as retrieval based on the contents of image databases have been available for years.
The possibility of music document retrieval based on their contents is essential, since attaching key words to documents takes an inordinately long time, and since it is impossible to create a complete and perfect list of key words for even the smallest database. In addition, it is natural to search multimedia documents based on their content; giving the search key for music, for example, by humming, playing an instrument, or with notation symbols. With the standards, methods and devices already developed and under development, it might be possible, in the near future, to select a song from the jukebox in a bar by humming a short excerpt of it into your own mobile phone.
The methods and their implementations presented in this thesis are based on general string algorithms, which were originally designed for comparing similarities in text strings, and for finding a text patterns in long text documents. This is why the music to be processed must be symbolically coded. This kind of encoding is used in traditional Western notation, for example, and in music files using MIDI encoding. This thesis will especially concentrate on the problems of searches where the pitches of the notes and the difference between them, i.e. the intervals, are taken into account in the search pattern and in the database documents. One important feature in this kind of searches is the so-called transposition invariance, which entails that the given search pattern must be found in the database, whatever its pitch.
The thesis presents new practical methods and theoretic search models, as well as evaluates the complexity of earlier distance specification results, on which the new models are based. The methods presented in the thesis use the so-called bit parallell algorithm technique. Bit-parallell algorithms are considerably faster than traditional methods. In addition, they need far less space than the methods based on indexing, which are faster, but demand at least ten times the space that the database to be indexed needs. One of the central results presented in the thesis is a new bit-parallell transposition invariant algorithm, with which to find monophonic search patterns in databases with polyphonic music documents.
The new methods presented in the thesis have been implemented as the prototype SEMEX (Search Engine for Melodic EXcerpts), which can retrieve occurences of the transposition invariants of monophonic search patterns quickly in large mono- and polyphonic music databses.

Press release in Finnish

Helsinki, 21.11.2000

Merkkijonoalgoritmit musiikin haussa

T�m� v�it�skirja k�sittelee uusia menetelmi�, joiden avulla musiikkia voidaan hakea sen sis�ll�n perusteella digitaalisista, symbolisesti koodatuista tietokannoista. Viestint�yhti�t ja musiikintuottajat ovat jo pitk��n arkistoineet musiikkia suuriin, digitaalisessa muodossa oleviin tietokantoihin k�sittelyn helpottamiseksi ja arkistointitilan s��st�miseksi. Lis�ksi Internetiss� on tuhansittain musiikkitiedostoja kaikkien ulottuvilla. Aina viime vuosiin saakka haut t�llaisista tietokannoista ovat perustuneet musiikkidokumentteihin liitettyihin avainsanoihin, esimerkiksi haetun dokumentin nimeen tai sen sanoitukseen, vaikka esimerkiksi kuvatietokantojen sis�lt��n perustuvia hakumenetelmi� on ollut k�ytett�viss� jo useita vuosia.
Mahdollisuus hakea multimediadokumentteja sis�ll�n perusteella on t�rke��, koska avainsanojen liitt�minen dokumentteihin vie kohtuuttomasti aikaa, ja koska t�ydellisen ja tyhjent�v�n avainsanaluettelon laatiminen on pienellekin tietokannalle mahdotonta. Lis�ksi on luonnollista etsi� multimediadokumentteja niiden omassa muodossa, esimerksi musiikkia antamalla hakuavain hyr�ilem�ll�, soittamalla jotakin instrumenttia tai nuottisymboleina. Jo kehitettyjen ja parhaillaan kehitteill� olevien standardien, menetelmien ja laitteiden avulla saattaa l�hitulevaisuudessa olla mahdollista esimerkiksi, ett� baarissa asiakas voi pyyt�� levyautomaattia soittamaan haluttu musiikkikappale hyr�ilem�ll� p�tk�n kappaleen melodiaa omaan matkapuhelimeensa.
T�ss� v�it�skirjassa esitett�v�t ja sovellettavat menetelm�t perustuvat yleisiin merkkijonoalgoritmeihin, jotka on alunperin suunniteltu tekstimuotoisten merkkijonojen samankaltaisuuden vertailuun ja tekstihahmon etsimiseksi pitk�st� tekstidokumentista. Siksi k�sitelt�v�n musiikin pit�� olla symbolisesti koodattua. T�llaista koodausta k�ytet��n esimerkiksi perinteisess� l�nsimaisessa nuottikirjoituksessa ja MIDI-muotoisissa musiikkitiedostoissa. V�it�skirjassa keskityt��n erityisesti sellaisten hakujen problematiikkaan, joissa annetusta hakuavaimesta ja tietokannassa olevista dokumenteista otetaan huomioon nuottien korkeudet ja niiden v�liset korkeuserot eli intervallit. Er�s t�rke� ominaisuus t�llaisissa hauissa on ns. transpositioinvarianssi, joka tarkoittaa sit�, ett� annetun hakuavaimen esiintym� on l�ydytt�v� tietokannasta riippumatta sen s�velkorkeudesta.
V�it�skirja esittelee uusia k�yt�nn�llisi� menetelmi� ja teoreettisia hakumalleja, sek� arvioi niiden jo aiemmin kehitettyjen et�isyysm��ritelmien kompleksisuutta, joihin uudet mallit perustuvat. Esitett�v�t menetelm�t k�ytt�v�t ns. bittirinnakkaista algoritmitekniikkaa. Bittirinnakkaiset algoritmit ovat huomattavasti vastaavia perinteisi� mentelmi� nopeampia. Lis�ksi ne vaativat selv�sti v�hemm�n ylim��r�ist� tilaa kuin niit� nopeammat indeksointiin perustuvat menetelm�t, joiden vaatima tila saattaa olla jopa kymmenkertainen indeksoitavaan tietokantaan verrattuna. Er�s v�it�skirjan keskeisimmist� tuloksista on uusi bittirinnakkainen transpositioinvariantti hakualgoritmi, jolla voidaan hakea yksi��nisten hakuavainten esiintymi� tietokannoista, joissa musiikkidokumentit voivat olla moni��nisi�.
Vaitoskirjassa esitellyt uudet menetelm�t on toteutettu ja toteutuksen tuloksena syntynyt prototyyppi SEMEX (Search Engine for Melodic Excerpts) kykenee paikallistamaan nopeasti yksi��nisten hakuavainten transpositioinvariantteja esiintymi� suuristakin yksi- ja moni��nisist� musiikkitietokannoista.

Press release in Swedish

Helsingfors, 21.11.2000

Musiks�kning med str�ngalgoritmer

Denna avhandling utforskar nya metoder med vilka man, utg�ende fr�n dess inneh�ll, kan s�ka musik i digitala, symboliskt kodade databaser. Kommunikationsf�retag och musikproducenter har redan l�nge lagrat musik i stora databaser i digital form, f�r att underl�tta hantering och f�r att spara lagerutrymme. Dessutom finns det tusentals musikfiler p� Internet inom r�ckh�ll f�r den stora allm�nheten. Tills nyligen har s�kningar i s�dana databaser gjorts med hj�lp av nyckelord som h�nf�rt sig till musikdokumentets namn eller text, trots att det i flera �r redan har funnits m�jlighet att g�ra s�kningar som baserar sig p� t.ex. bilddatabaser.
M�jligheten att s�ka musikdokument p� basen av inneh�llet �r viktig, eftersom det tar on�digt mycket tid att foga nyckelord till dokumenten, och eftersom det �r om�jligt att g�ra en fullst�ndig lista av nyckelord till en databas, hur liten den �n �r. Dessutom �r det mera naturligt att s�ka multimediedokument i deras egen form, t.ex. musikdokument genom att gnola, genom att spela n�got instrument eller med hj�lp av notsymboler. Med hj�lp av den standardisering, de metoder och de apparater som redan finns, och som h�ller p� att utvecklas, kan det inom en snar framtid t.ex. bli m�jligt, att en kund i en bar kan be en skivautomat spela det �nskade stycket genom att gnola en del av stycket i sin mobiltelefon.
Metoderna och deras till�mpningar som presenteras i denna avhandling baserar sig p� allm�nna str�ngalgoritmer som ursprungligen har anv�nts till att j�mf�ra likheten mellan str�ngar och s�kning av textformer i ett l�ngt dokument. D�rf�r m�ste musiken vara kodad symboliskt. S�dan kodifiering anv�nds i s�dana sammanhang som traditionell v�sterl�ndsk notskrivning och musikfiler i MIDI-format. Avhandlingen koncentrerar sig p� problematiken hos s�dana s�kningar d�r man beaktar notl�get och skillnaden mellan dem, allts� intervallerna, i s�knyckeln och dokumenten i databasen. En viktig egenskap i s�dana s�kningar �r den s� kallade transpositionsinvariansen, vilket betyder att s�knyckeln m�ste kunna hittas i tonl�get oberoende av databasen.
Avhandlingen presenterar nya praktiska metoder och teoretiska s�kmodeller, f�rutom att den utv�rderar komplexiteten hos distansdefinitioner som utvecklats f�rut, och som de nya modellerna baserar sig p�. Metoderna som presenteras h�r baserar sig p� s� kallad bitparallell algoritmteknik. De bitparallella algoritmerna �r betydligt snabbare �n motsvarande traditionella metoder. Dessutom kr�vs det mycket mindre utrymme med dem �n med metoder som baserar sig p� indexering, vilka �r snabbare, men kan kr�va upp till tio g�nger mera utrymme �n databasen som skall indexeras. Ett centralt resultat som presenteras i avhandlingen �r den nya bitparallella transpositions-invarianta s�kalgoritmen, med vilken man kan s�ka efter f�rekomsten av enst�mmiga s�knycklar i databaser, d�r musikdokumenten kan vara flerst�mmiga.
De nya metoderna som presenteras i avhandlingen har implemeterats, och den implementerade prototypen SEMEX (Search Engine for Melodic Excerpts) kan snabbt hitta enst�mmiga transpsitionsvarianter i stora en- och flerst�mmiga musikdatabaser.

Page updated on April 4th, 2001.