Published By
Created On
22 Oct 2023 16:21:31 UTC
Transaction ID
Cost
Safe for Work
Free
Yes
More from the publisher
special2023
http://www.jaktobylo.com/
Na vaše četné žádosti přikládám kritický úryvek ze zprávy v rámci čištění internetu od starých textů, o kterém hovořím v pořadu. Pasáž jsem přeložil do češtiny, pod překladem následuje originál.
Dnes se s vámi musíme podělit o smutnou zprávu - včera bylo opět zabaveno mnoho našich domén. Jednalo se o samostatné dílčí projekty, které obsahovaly pouze knihy ve vzácných světových jazycích, a jejich zablokování je zarážející. Tyto domény obsahovaly například knihy v tamilštině, mongolštině, katalánštině, urdštině, paštunštině a dalších jazycích:
afrikaans-books.org
bengali-books.org
urdu-books.org
marathi-books.org
chamorro-books.org
Za 15 let existence projektu se nám podařilo shromáždit působivou sbírku vzácných textů v mnoha neobvyklých jazycích. Na těchto doménách se nacházelo mnoho unikátních textů, které nelze najít nikde jinde, včetně vzácných knih, dokumentů a rukopisů. To vše je neocenitelné dědictví, které přispívá k uchování a studiu světových kultur a slouží jako důležitý materiál pro badatele v oblasti lingvistiky, antropologie a historie.
Navíc jsme texty nejen shromáždili, ale vytvořili jsme i jedinečné nástroje pro práci s nimi, které umožňují badatelům rychle najít potřebné informace a studovat texty na hlubší úrovni. Investovali jsme mnoho času, zdrojů a finančních prostředků do digitalizace těchto materiálů a vytvoření pohodlných mechanismů pro práci s nimi.
Například jsme extrahovali textové vrstvy ze 100 000 000 souborů, včetně rozpoznávání OCR, a nyní může kdokoli používat naše fulltextové vyhledávání v jakémkoli jazyce. Nebo jsme převedli miliony souborů pro možnost čtení online. Takové úkoly vyžadují 1000 jader procesoru po mnoho dlouhých měsíců a stojí spoustu peněz.
Po hromadném zablokování našich domén v loňském roce jsme speciálně oddělili texty ve vzácných jazycích do samostatných podprojektů, aby badatelé neztratili přístup k tomuto unikátnímu materiálu. Jak je však vidět, nepomohlo to. Nechápeme, jaký vztah mají USA nebo FBI k baškirským nebo tamilským knihám a proč jsou tyto zdroje blokovány (nebojte se, o soubory jsme nepřišli, pouze o domény).
Today we are forced to share some sad news - yesterday many of our domains were seized again. They were separate sub-projects, containing only books in rare languages of the world, and their blocking is perplexing. For instance, these domains included books in Tamil, Mongolian, Catalan, Urdu, Pashto, and other languages:
afrikaans-books.org
bengali-books.org
urdu-books.org
marathi-books.org
chamorro-books.org
Over the 15 years of the project's existence, we've managed to collect an impressive collection of rare texts in many uncommon languages. These domains featured many unique texts that can't be found anywhere else, including rare books, documents, and manuscripts. All of this is a priceless heritage, contributing to the preservation and study of world cultures, and serving as important material for researchers in linguistics, anthropology, and history.
Moreover, we didn't just collect texts, but created unique tools for working with them, allowing researchers to quickly find the necessary information and study texts on a deeper level. We've invested a lot of time, resources, and funds to digitize these materials and make convenient mechanisms for working with them.
For example, we have extracted text layers from 100,000,000 files, including OCR recognition, and now anyone can use our full-text search in any language. Or we have converted millions of files for the possibility of online reading. Such tasks require 1000 CPU cores over many long months and cost a great deal of money.
After the mass blocking of our domains last year, we specifically separated texts in rare languages into separate sub-projects, so that researchers wouldn't lose access to this unique material. However, as we can see, this didn't help. We don't understand what relation the USA or FBI has to Bashkir or Tamil books, and why these resources are blocked (don't worry, we didn't lose the files, only the domains).
Transaction
Created
5 months ago
Content Type
Language
video/mp4
cs