Dyskusje na temat działalności WTG, organizacji, planów, działań, spotkań, itd.
Odpowiedz

E-Kartoteka - projekt indeksacji

11 maja 2018, 14:56

Hej,

W porozumieniu z Archiwum Państwowym w Poznaniu szukamy chętnych wolontariuszy do zindeksowania brakujących kart meldunkowych z Kartoteki Ewidencji Ludności Miasta Poznania 1870-1931 (tzw. kartoteka meldunkowa Poznania). Pewnie większość z nas korzystała z tego zasobu, więc nie trzeba chyba przybliżać czym jest kartoteka. Niebawem zostanie uruchomiona nowa strona z wyszukiwarką indeksów - kilka osób już testowało i ma pozytywne wrażenia :)

Obecnie zindeksowanych jest 991 pudełek z całkowitej liczby 1091 (od "A" do "Wa"). Pozostało zatem jakieś 10% do dokończenia pracy. Te 100 pudełek zawiera ok. 90 tys. skanów, choć w dużej części przypadków nie indeksujemy drugich stron. Z przeprowadzonych szacunków na skanach znajdzie się ok 110 tys. osób do zindeksowania. Sumarycznie wydaje się to dużą liczbą, ale w każdym pudełku znajduje się od 600 do 1100 skanów, więc indeksując pudełko po pudełku w kilka osób jest to do zrobienia...

Dokończenie indeksacji oznacza, że indeksujemy dane w formacie rozpoczętym przez AP Poznań. Spisujemy dla każdej osoby numer skanu, numer karty, imię i nazwisko (nazwiska). To dobra informacja; zła jest taka, że konieczna jest znajomość gotyku - ale dotyczy to przede wszystkim imion. Część kart, wytworzonych po 1918 jest pisana po polsku, jednakże pozostałe są gotykiem. Dobrze więc, gdyby osoby chętne odczytywały niemieckie imiona w miarę sprawnie. W niejasnych przypadkach możemy na pewno liczyć na wsparcie Archiwum. Pomoże też Glosariusz.

Aha, co istotne - skany są dostępne w internecie na szukajwarchiwach.pl, więc indeksować można w domu. Wystarczy przeglądarka internetowa oraz Microsoft Excel lub OpenOffice Calc.

Chętnych proszę o kontakt na maila maciej.glowiak+kartoteka@gmail.com lub w tym wątku. Jak uzbieramy choćby małą grupę, to prześlę instrukcję indeksacji.

Re: E-Kartoteka - projekt indeksacji

23 maja 2018, 09:16

Nowa wersja kartoteki meldunkowej dostępna jest już pod adresem
http://www.e-kartoteka.net

Re: E-Kartoteka - projekt indeksacji

23 maja 2018, 14:37

Jeśli będzie ktoś chciał sporządzić indeks w programie ASIA, to również jest taka możliwość. Kartoteka dostępna jest do indeksacji w projekcie BaSIA, wobec czego można zindeksować wybraną jednostkę (kartonik) i później przerzucić wynik do bazy AP. Przed przystąpieniem do indeksacji wybranej jednostki, proszę jednak najpierw o kontakt z Maciejem, aby nie dublować tej samej pracy przez inną osobę w Excelu.

Pozdrawiam
Piotr

Re: E-Kartoteka - projekt indeksacji

29 gru 2021, 17:32

Archiwum Państwowe w Poznaniu wykonało brakujące indeksy w projekcie http://www.e-kartoteka.net i obecnie jest już komplet danych (1 mln zdjęć, 1.25 mln wpisów).
Zindeksowane zostały wszystkie pudełka (1091), a ostatnie dane dodałem dzisiaj. Została także przygotowana przez Archiwum wersja niemiecka serwisu.

Przy okazji chciałem zapytać Was - użytkowników o ewentualne usprawnienia. Wiem, że brakuje możliwości ściągnięcia skanu i mam to na uwadze przy kolejnej aktualizacji, jak tylko czas pozwoli.
Jeśli są jeszcze jakieś funkcjonalności, których Wam brakuje, to dajcie znać. Nie obiecuję, że wszystko wprowadzę, ale być może się uda coś ulepszyć.

Re: E-Kartoteka - projekt indeksacji

31 gru 2021, 12:20

To świetnie! Moim zdaniem przeglądarce poza opcją ściągnięcia skanu nic nie brakuje, a przybliżanie pracuje lepiej niż na szwa.

W styczniu wysłałem do AP w Poznaniu infomację o błędach w indeksacji - praktycznie wszyscy o nazwisku Śliwiński są zindeksowani jako "Śliwińki", co uniemożliwia ich znalezienie w normalnym trybie w wyszukiwarce.
Odpisano mi, że się tym zajmą, ale do tej pory nie widzę zmian.

Re: E-Kartoteka - projekt indeksacji

31 gru 2021, 12:45

Rzeczywiście jeśli czegoś w tym portalu brakuje, to tylko możliwości wyszukiwania nazwisk zwracającego również warianty pisowni. Obecnie są uwzględniane niektóre drobne elementy jak warianty pisania umlautów i może jakieś inne, których nie zauważyłem, ale przydałby się jakiś bardziej globalny algorytm, zważywszy na to ile w tej kartotece jest literówek, pomyłek i niestandardowych zapisów, a na to oczywiście nakładają się błędy odczytu/transkrypcji. Algorytm podobny do stosowanych w innych naszych projektach ogromnie pomógłby radzić sobie z tymi wszystkimi problemami.

Jeśli nie da się obecnie wprowadzić algorytmu tego typu, to może chociaż byłyby możliwe wildcarty ? *

Kwestia ściągania to już przy tym pikuś, skoro dane zwracane przez wyszukiwarkę pozwalają dosć sprawnie zlokalizować obrazek w szukajwarchiwach (choć w nowej jego wersji mniej sprawnie niż w poprzedniej, bo nie można przekleić ścieżki do URL).

Re: E-Kartoteka - projekt indeksacji

31 gru 2021, 13:15

Łukasz Bielecki napisał(a):Rzeczywiście jeśli czegoś w tym portalu brakuje, to tylko możliwości wyszukiwania nazwisk zwracającego również warianty pisowni. Obecnie są uwzględniane niektóre drobne elementy jak warianty pisania umlautów i może jakieś inne, których nie zauważyłem, ale przydałby się jakiś bardziej globalny algorytm, zważywszy na to ile w tej kartotece jest literówek, pomyłek i niestandardowych zapisów, a na to oczywiście nakładają się błędy odczytu/transkrypcji. Algorytm podobny do stosowanych w innych naszych projektach ogromnie pomógłby radzić sobie z tymi wszystkimi problemami.


Ależ jest! Tylko musisz wejść w zakładkę wyszukiwarka i zamiast "Wyszukiwanie proste" zaznaczyć "Wyszukiwanie przybliżone". Algorytm bazuje w dużej mierze na tym z PP. Jest to co prawda opcja trochę ukryta, ale zrobiłem tak specjalnie, żeby było wykorzystywane tylko przez świadomych użytkowników.

Przy liście wyników można też je filtrować, co także pomaga w ograniczeniu wyników.

Alternatywnie można też oczywiście wejść na listę nazwisk w danej sygnaturze i ręcznie przejrzeć nazwiska, ale to ostateczność.

Łukasz Bielecki napisał(a):Kwestia ściągania to już przy tym pikuś, skoro dane zwracane przez wyszukiwarkę pozwalają dosć sprawnie zlokalizować obrazek w szukajwarchiwach (choć w nowej jego wersji mniej sprawnie niż w poprzedniej, bo nie można przekleić ścieżki do URL).


No niestety... Sam musiałem uzyskać listę nazw plików na serwerze dla każdego zdjęcia i trzymam to w bazie. Niestety, nowe SzwA strasznie skomplikowało taką prostą sprawę...

AlpaCino napisał(a):W styczniu wysłałem do AP w Poznaniu infomację o błędach w indeksacji - praktycznie wszyscy o nazwisku Śliwiński są zindeksowani jako "Śliwińki", co uniemożliwia ich znalezienie w normalnym trybie w wyszukiwarce. Odpisano mi, że się tym zajmą, ale do tej pory nie widzę zmian.


Nie dostałem zgłoszenia z Archiwum o tym błędzie. Czy byłbyś w stanie poprawić, gdybym przysłał Ci plik z danymi? Chyba że wiesz na pewno, że nigdzie nie powinno być nazwiska Śliwińki, to mogę zmienić wszystkie wystąpienia na Śliwiński. Ale dobrze byłoby to wcześniej przejrzeć i sprawdzić. Jeśli podjąłbyś się sprawdzenia to daj znać na maila: maciej.glowiak -at- gmail.com

Re: E-Kartoteka - projekt indeksacji

31 gru 2021, 18:37

mac napisał(a):Ależ jest! Tylko musisz wejść w zakładkę wyszukiwarka i zamiast "Wyszukiwanie proste" zaznaczyć "Wyszukiwanie przybliżone". Algorytm bazuje w dużej mierze na tym z PP. Jest to co prawda opcja trochę ukryta, ale zrobiłem tak specjalnie, żeby było wykorzystywane tylko przez świadomych użytkowników.


No patrz, rzeczywiście było dobrze i skutecznie ukryte :D

Re: E-Kartoteka - projekt indeksacji

31 gru 2021, 19:23

mac napisał(a):Nie dostałem zgłoszenia z Archiwum o tym błędzie. Czy byłbyś w stanie poprawić, gdybym przysłał Ci plik z danymi? Chyba że wiesz na pewno, że nigdzie nie powinno być nazwiska Śliwińki, to mogę zmienić wszystkie wystąpienia na Śliwiński. Ale dobrze byłoby to wcześniej przejrzeć i sprawdzić. Jeśli podjąłbyś się sprawdzenia to daj znać na maila: maciej.glowiak -at- gmail.com

Można zamienić wszystkie "Śliwińki" na "Śliwiński" oraz "Śliwińka" na "Śliwińska". Przejrzałem graniczne skany i te pierwsze nazwiska nie występują.

Jeśli chodzi o usprawnienia, to proponuję jeszcze dodać możliwość poruszania się klawiszami lewo-prawo po skanach w przeglądarce.

Re: E-Kartoteka - projekt indeksacji

13 sty 2022, 18:55

Śliwińki / Śliwińka - poprawione.

Re: E-Kartoteka - projekt indeksacji

31 sty 2022, 21:44

Znalazłem w kolumnie zatytułowanej wyznanie skrót "n k" . Co on oznacza?

WOjtek

Re: E-Kartoteka - projekt indeksacji

31 sty 2022, 22:11

Może niechlujnie zapisane "rz k"?
Odpowiedz